• Sonuç bulunamadı

Makine ö§renmesi yapaz zeka alannn en önemli alt alanlarndan biridir. Bu disiplin içinde üretilen teoriler di§er disiplinlerdeki hemen hemen tüm alanlara, özellikle de yapay zeka alt alanlarna uygulanabilmektedir. Bu anlamda bilgi tabanl yöntemlere bir alternatif olu³turur. Ö§renme tabanl algoritmalar daha önceki deneyim durumlarndan bir model olu³turur. Olu³turulan modeller, da- yand§ veriyi iyi bir ³ekilde ifade etmeye çal³r ve bu verinin içindeki özellikle gizli olan kurallar çkarmaya çal³r. Ksacas, veri madencili§inin bir parças olan makine ö§renme algoritmalar insann bulamayaca§ kurallar çkarmak için kullanlr. En önemlisi ele ald§ veriyi analiz ederek gelecekte olu³acak durumlara tahminde bulunmasdr. Bu gücü sebebiyle ö§renme algoritmalar bilgisayarl dilbilim çal³malarnn hemen hemen tüm alt ba³lklar için uygu- lanmaktadr. Bu alt görevlerden biri olan Artgönderim Çözümlemesi için de uygulanmaktadr. Bu uygulamalarn ne tür süreçlerden geçti§ine bakalm.

3.3.1 Artgönderim çin Ö§renme Süreçleri

Ö§renme algoritmalar bir veritabanndaki veriye dayanarak bir model ortaya çkarr. Bu veritaban birçok özellik ve tek bir hedef özellik (ya da sonuç) içeriyor ise bu ö§renme yöntemine kontrollü (supervised), e§er sonuç alan içermiyorsa kontrolsüz (unsupervised) ö§renme denir. Kontrollü ö§renmede amaç, ba§msz özelliklerin hedef özellik ile olan ili³kisini bulmak. Buradaki Hedef ya da sonuç di§er özellik ö§elerinden hangilerine daha çok ba§lysa o özellik ön plana çkar. Bu özellikler birbirinden ne kadar ba§msz olurlarsa ve hedef snfa ne kadar ba§ml olurlarsa model o kadar ba³arl olur.

Peki Artgönderim çal³malar bu sürece nasl ba§lanacak ? Söylemdeki her- bir artgönderimsel adl ya da ö§e kendisinden önce gelen tüm söylem varlkla- ryla e³le³ir. Bu e³le³melerin her biri bir kayda denk dü³er. Bu kaytlarn hedef snf, sözkonusu artgönderim ile e³le³di§i varl§n ya da gönderimsel ifadenin gönderimsel bir ili³ki içinde olup olmad§na baklarak belirlenir. E§er iki ö§e arasnda gönderimsel bir ili³ki var ise hedef snf (sonuç) EVET olarak imlenir, aksi durumda ise HAYIR olarak imlenir. Bu duruma basit bir örnekle açklk getirelim. Diyelim ki

e1...e2...a1(> e1 )...e3...e4...e5...a2(>e4) (3.5)

söylem 3.5' deki gibi bir söylem üzerinde çal³yoruz. Bu söylemde e1,e2,e3,e4 ve e5 ö§elerinin gönderimsel ifade ve p1 ve p2 ö§elerinin ise adl oldu§unu kabul edelim. Adl a1'in e1'e ve adl a2'nin e4'e gönderimde bulundu§unu varsayalm. Bu durumda olu³turulacak veri kayt listesi Tablo 3.3'deki gibi olacaktr.

Tablo 3.3: Ö§renme Veritaban Adl Gönderimsel fade Sonuç

a1 e1 EVET a1 e2 HAYIR a2 e1 HAYIR a2 e2 HAYIR a2 e3 HAYIR a2 e4 EVET a2 e5 HAYIR

Bu tablodan da görüldü§ü gibi herbir adl ile ondan önce gelen her bir gönde- rimsel ifade e³le³iyor. Bu e³le³meler iki ³ekilde yaplmaktadr. Birincisi olumsuz e³le³me, ikincisi ise olumlu e³le³me. Bu tablo makine ö§renme algoritmas için bir e§itim kümesini temsil eder. Ancak bu a³amada belirtilmesi gereken bir

nokta ³udur: a ve e ile ifade etti§imiz adl ve gönderimsel ifadeler yerine bu ö§elerin ya da varlklarn özellikleri koyulmaldr. Yani adla ait özellikleri ve aday öncüle ait özellikler bu satrlarda bulunmaldr. Ayrca adl ile aday öncül arasndaki yaknlk, uyum gibi ili³kisel bilgiler de bu özelliklere eklenmelidir. Böylelikle ortaya çkan model, çözümü belli olmayan bir söylem üzerine uygula- nr ve bir çözüm sunar. Makine ö§renmesi tekni§ini Türkçe artgönderim çözüm- lemesi için uygulayan henüz yoktur. Bu nedenle bir sonraki bölümde ö§renme yakla³m içeren bu tekni§i di§er diller için kullanan çal³malara bakaca§z.

3.3.2 Di§er Dillerdeki Ö§renme Tabanl Çal³malar

[Aone ve Bennet, 1995.] Japonca metinlerde geçen farkl türdeki artgönderim- ler için makine ö§renme tabanl bir sistem geli³tirdiler. Bu çal³ma artgönderim problemine makine ö§renmesi yakla³mn sunan ilk çal³madr. Bu çal³madan sonra birçok makale bu çal³maya atfta bulunmu³tur. Ö§renme algoritmas için gereken özellik vektörü için toplam 66 özellik kullanm³lardr. Bu özellikler söz- lüksel bilgiler, sözdizim bilgileri, anlamsal bilgiler ve adl ile öncül arasndaki mesafe bilgisinden olu³ur. Çal³mada iki olumlu örnek yaratma metodu kullanl- m³tr: Geçi³li ve geçi³siz. Geçi³li olumlu örnekler, herbir artgönderim ile dahil oldu§u artgönderimsel zincir üzerindeki onlardan önce gelen tüm ad öbekleriyle olu³turulan örneklerden olu³ur. Geçi³siz örnekler ise, herbir artgönderim ile da- hil olduklar artgönderimsel zincir üzerindeki onlardan önce gelen ilk (en yakn) ad öbekleriyle olu³turulan örneklerden olu³ur. Olumsuz örnekler ise benzer bir ³ekilde her bir artgönderimsel ifade ile ondan önce gelen ve artgönderimsel zin- cir üzerinde olmayan gönderimsel ifade e³le³melerinden yaratlr. Bu ³ekildeki e³le³meler e§itim ve sa§lama kümesini olu³turur. Bu deney [Quinlan, 1993.] - C4.5 karar a§ac algoritmasn kullanm³ ve çal³mann sonunda ö§renme ta-

banl sistemin bilgi tabanl sisteme oranla daha ba³arl oldu§u vurgulanm³tr. Bu çal³madaki model 1971 adl kapasiteli e§itim kümesi ile e§itilmi³ 1359 adl kapasiteli sa§lama kümesi ile snanm³tr. Bu test sonucunda alnan en iyi anma sonucu (recall) % 70.20, kesinlik sonucu (precision) % 88.55 ve f-ölçütü ise % 77.27 olarak ölçülmü³tür.

C4.5 karar a§acn kullanan bir ba³ka çal³ma [McCarthy ve Lehnert, 1995.] tarafndan uygulanm³tr. Ad öbekleri arasndaki gönderimsel ili³kiler (corefe- rence resolution) gibi tüm ili³kileri kapsayan bir sistem kurulmu³tur. Kullan- dklar 1230 örnek durumun % 26's olumlu ve %74'ü olumsuzdur. RESOLVE ismini verdikleri sistem MUC-5 isimli ngilizce metinlerden olu³an bir derlem üzerinde denenmi³ ve ba³arl sonuç alnm³tr. Bu çal³mada da yine ö§renme tabanl yöntemlerin bilgi tabanl yöntemlere göre daha ba³arl oldu§u vurgu- lanm³tr. Çal³mada kullannan a§aç budamasz oldu§unda anma, kesinlik ve f-ölçütü srasyla % 85.4, % 87.6 ve % 86.5 çkm³tr. Budamal bir a§aç kulla- nld§nda ise srasyla %80.1, % 92.4 ve % 85.8 sonucu elde edilmi³tir.

[Soon vd., 2001.] yine karar a§ac ö§renme algoritmas kullanarak az bilgili

7 bir yakla³m sunmu³tur. Toplam 12 adet özellik kullanlm³tr. Sistem bir söz-

lüksel özellik (e³sesli), sekiz dilbilgisel özelliksel (cinsiyet, say, ek, ad öbe§i türü vb.), iki anlamsal özellik ve bir pozisyon özelli§i (ad öbekleri ve adllar arasndaki uzaklk bilgisi) içerir. Bu çal³mada olumlu örnekler ile olumsuz örnekler arasn- daki denegesizli§i 8 gidermek için olumsuz örneklerin sadece bazlar alnm³tr.

Olumsuz örnekler ³u ³ekilde olu³turulmu³tur: Her bir adl ya da gönderimsel ad

7Az bilgili yakla³mlar bilgiye ba§ll§ azaltmak ve böylelikle daha pratik, daha hzl, daha

az ba§ml bir sistem olu³turmak isterler. Özellikle gerçek uygulamalarda az bilgiyle çal³mak çok önemlidir

8Olumlu örnekler olumsuz örnekler göre daha az oldu§undan bu oran baz uygulamalarda

yüzde 10 seviyesinin altina dü³er. Bu seviye makine ö§renmesi algoritmalar için oldukça zararldr. Çünkü ö§renme algoritmalar her iki snf de§eri -yani evet ve hayir ya da 1 ve 0- için mümkün oldu§unca dengeli bir veritaban olmasn ister. Bu dengesizlik ve bunun giderilmesi ö§renme tabanl artgönderim çözümlemelerinin en ciddi problemlerindendir.

öbe§i ile onun en yakn öncülü arasnda kalan ve gönderimsel bir ili³ki içinde olmayan ad öbekleri ya da gönderimsel ifadeler ile olu³an küme olumsuz küme olarak belirlenir. Olu³turulan sistem, gönderimsel ili³kileri önceden belirlenmi³ iki veri kümesi (MUC-6, MUC-7) üzerinde denenmi³ ve ba³arl bir sonuç elde etmi³tir. 13.000 kapasiteli bir derlem üzerinde gerçekle³tirilen deneylerden çkan sonuçlar % 52 /anma, % 68 /kesinlik ve % 58.9 /f-ölçütü ³eklindedir.

3.4 Türkçe için Bilgisayarl Artgönderim Çözüm-