• Sonuç bulunamadı

Türkçe için derlem tabanlı bir anafor çözümleme çalışması

N/A
N/A
Protected

Academic year: 2021

Share "Türkçe için derlem tabanlı bir anafor çözümleme çalışması"

Copied!
84
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

TÜRKÇE ĐÇĐN DERLEM TABANLI BĐR ANAFOR ÇÖZÜMLEME ÇALIŞMASI

Edip Serdar GÜNER Yüksek Lisans Tezi

Bilgisayar Mühendisliği Anabilim Dalı Danışman: Yrd. Doç. Dr. Yılmaz KILIÇASLAN

2008 EDĐRNE

(2)

FEN BĐLĐMLERĐ ENSTĐTÜSÜ

TÜRKÇE ĐÇĐN DERLEM TABANLI BĐR ANAFOR ÇÖZÜMLEME ÇALIŞMASI

Edip Serdar GÜNER

YÜKSEK LĐSANS TEZĐ

BĐLGĐSAYAR MÜHENDĐSLĐĞĐ ANABĐLĐM DALI

Bu tez … / … / 2008 tarihinde aşağıdaki jüri tarafından kabul edilmiştir.

………

Yrd. Doç. Dr. Yılmaz KILIÇASLAN Tez Danışmanı

……… ………

Yrd. Doç. Dr. Özlem UÇAR Yrd. Doç. Dr. Tahir ALTINBALIK

(3)

Yüksek Lisans Tezi

Trakya Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü

ÖZET

Bu tez çalışmasının temelde iki amacı vardır. Bunlardan ilki, Türkçe gibi artgönderim çözümlemesi bakış açısıyla üzerinde çok çalışılmamış ve makine öğrenmesi deneylerine fazlaca konu olmamış bir dilde, çeşitli makine öğrenmesi modelleri kullanarak artgönderim çözümlemesinin modellenmeye çalışılmasıdır. Çalışmanın bir diğer amacı da, elimizdeki bir iş için kullanılacak modelin seçimine ilişkin, öğrenme modellerinin sınıflandırma performansları açısından değerlendirmesini yaparak, bu konuda yol gösterici olmaktır. Beklenen bir gözlem olan ve deneyler sonucunda elde edilen, her bir modelin aşırı ve yetersiz uyumdan kaçınarak optimum düzeyinin belirlenmesi gerekliliğinin yanında, elde edilen sonuçlara göre doğrusal olmayan modeller aşırı uyumdan kaçınacak şekilde düzgün olarak eniyileştirildiklerinde doğrusal olan modelleri de geride bırakmıştır.

Anahtar Kelimeler: Makine öğrenmesi, adıl çözümlemesi, doğrusal-doğrusal olmayan

(4)

Masters Thesis

Trakya University Graduate School of Natural and Applied Sciences

Department of Computer Engineering

ABSTRACT

The aim of this thesis is two-fold. On the one hand, it attempts to explore several machine learning models for pronoun resolution in Turkish, a language not sufficiently studied with respect to anaphora resolution and rarely being subjected to machine learning experiments. On the other hand, the thesis offers an evaluation of the classification performances of the learning models in order to gain insight into the question of how to match a model to the task at hand. In addition to the expected observation that each model should be tuned to an optimum level of expressive power so as to avoid underfitting and overfitting, the results also suggest that non-linear models properly tuned to avoid overfitting outperform linear ones when applied to the data used in the experiments.

Keywords: Machine learning, pronoun resolution, linear versus non-linear classifiers,

(5)

TEŞEKKÜR

Bu çalışmanın hazırlanması sürecinde bana yol gösteren, bu alanda çalışmam için beni teşvik eden ve desteğini esirgemeyen değerli danışman hocam Yrd. Doç. Dr. Yılmaz KILIÇASLAN’a ve beraber çalışmalar yürüttüğümüz Savaş YILDIRIM’a çok teşekkür ederim.

Sadece öğrenim hayatım boyunca değil, her zaman ve her koşulda bana destek olan aileme, özellikle de en zor günlerde hep yanımda olan babam Serhat GÜNER’e, sonsuz teşekkürlerimi sunarım.

Ayrıca, Yüksek lisans öğrenimim boyunca burs vererek maddi destek sağlayan TÜBĐTAK’a teşekkür etmeyi bir borç bilirim.

Son olarak, çalışma hayatımda yardımlarını esirgemeyen Bilgisayar Mühendisliği bölüm hocalarım ile çalışma arkadaşlarıma da teşekkür ederim.

Edip Serdar GÜNER Edirne, Temmuz 2008

(6)

Đ

ÇĐNDEKĐLER

ÖZET... i

ABSTRACT ... ii

TEŞEKKÜR ... iii

ĐÇĐNDEKĐLER ... iv

ŞEKĐL LĐSTESĐ ... vii

TABLO LĐSTESĐ ... viii

BÖLÜM - 1. ... 1

GĐRĐŞ ... 1

BÖLÜM - 2. ... 4

GENEL ARKAPLAN BĐLGĐLERĐ ... 4

2.1. Artgönderim Çözümlemesi ... 4

2.2. Gönderimlerin Sınıflandırılması ... 6

2.3. Artgönderim Çözümlemede Kullanılan Etkenler... 7

2.3.1. Kısıtlayıcı Etkenler... 8

2.3.1.1. Kişi/Sayı ve Cinsiyet Uyumu Kısıtları ... 8

2.3.1.2. Sözdizimsel Bağlama Kuramı (Binding Theory) Kısıtları ... 8

2.3.1.3. Anlamsal Kısıtlar ... 10

2.3.2. Ayrıcalık Tanıyan Etkenler ... 10

2.3.2.1. Sözdizimsel Paralellik ... 11

2.3.2.2. Anlamsal Paralellik ... 11

2.3.2.3. Merkezleme Yaklaşımı ... 12

2.4. Bilgisayarlı Artgönderim Çözümleme Çalışmaları ... 13

2.4.1. Genel Bir Bakış ... 13

2.4.2. Bilgi Tabanlı Yaklaşımlar ... 14

2.4.2.1. Hobbs (1977) ... 14

2.4.2.2. Lappin ve Leass (1994)... 15

2.4.2.3. Kennedy ve Boguraev (1996) ... 15

2.4.2.4. Baldwin (1996) ... 15

(7)

2.4.3.1. McCarthy ve Lehnert (1995) ... 16

2.4.3.2. Aone ve Bennet (1996) ... 16

2.4.3.3. Soon, Ng ve Lim (2001) ... 16

2.4.4. Melez Yaklaşımlar ... 17

2.4.4.1. Mitkov, Evans ve Orasan (2002) ... 17

2.4.4.2. Preiss (2002) ... 17

BÖLÜM - 3. ... 18

TÜRKÇE’DE ARTGÖNDERĐM ÇÖZÜMLEMESĐ ... 18

3.1. Türkçe’de Adıllar ve Artgönderim ... 18

3.2. Türkçe Artgönderim Çözümlemesi ile Đlgili Dilbilim Çalışmaları ... 20

3.2.1. Erguvanlı-Taylan (1986) ... 20

3.2.2. Enç (1986) ... 21

3.2.3. Turan (1996)... 22

3.2.5. Kılıçaslan (2004) ... 22

3.3. Türkçe Artgönderim Çözümlemesi ile Đlgili Bilgisayarlı Çalışmalar ... 23

BÖLÜM - 4. ... 25

SĐSTEM TASARIMI VE GERÇEKLEME ... 25

4.1. Derlem ... 25

4.2. Đşaretlenecek Özelliklerin Seçimi ... 26

4.3. Derlemin Đşaretlenmesi ve Eğitim Verisinin Oluşturulması ... 29

4.4. Deneylerde Kullanılan Sınıflandırma Algoritmaları ... 31

4.4.1. Naive Bayes Sınıflandırması ... 31

4.4.2. K-En Yakın Komşu Sınıflandırması ... 32

4.4.3. Karar Ağacı Sınıflandırması ... 33

4.4.4. Destek Vektör Makinesi Sınıflandırması ... 34

4.4.5. Seçimli Algılayıcı... 34

BÖLÜM - 5. ... 36

SINIFLANDIRMA DENEYLERĐ VE DEĞERLENDĐRME ... 36

5.1. Performans Değerlendirme Ölçütleri ... 36

5.2. Deney Sonuçları ... 39

5.3. Sınıflandırma Performansını Etkileyen Faktörler ... 40

(8)

5.3.2. Veriye Özgü Zorluklar ... 41

5.3.3. Sınıflandırıcı ve Sınıf Sınırları Arasında Uyumsuzluk ... 43

5.4. Yetersiz Uyum (underfitting) ve Aşırı Uyum (overfitting) Dengesi ... 45

5.5. Eniyileme (optimization) Đşlemi ... 47

BÖLÜM - 6. ... 50

ARTGÖNDERĐM ÇÖZÜMLEMESĐ BAŞARIMININ DEĞERLENDĐRĐLMESĐ ... 50

6.1. Artgönderim Çözümlemesi Açısından Performans Sonuçları ... 50

6.2. Son Açıklamalar ... 57 BÖLÜM - 7. ... 59 SONUÇ ... 59 KAYNAKLAR ... 61 ÖZGEÇMĐŞ ... 68 EK - 1 ... 69

(9)

Ş

EKĐL LĐSTESĐ

2.1 Bağlama kuramı içinde isim öbeklerinin sınıflandırılması………. 9 5.1 RBF deneylerinde gözlenen veri büyüklüğü ve f-ölçütü değerleri arasındaki

karşılıklı ilişki……….. 42 5.2 Üç farklı model kullanılarak oluşturulmuş bir ikili sınıflandırma örneği……... 45 5.3 kNN deneyleri için performans – k değeri ilişkileri………... 47 6.1 Adayların uzaklığa bağlı dağılımları………... 52 6.2 Açık ve gizli adılların uzaklığa bağlı dağılımları……… 53

(10)

TABLO LĐSTESĐ

3.1 Türkçe’de açık adıllar………. 18

3.2 Türkçe’de durum ekleri………... 18

5.1 Karışıklık matrisi………. 36

5.2 Sabit değerli parametreler………... 39

5.3 Deneylerden elde edilen sınıflandırma sonuçları……… 39

5.4 Onlu çapraz-doğrulama deneylerinde kullanılan özelliklerin katkı yüzdeleri… 48 5.5 Her özellik için bilgi kazançları……….. 48

6.1 Artgönderim çözümlemesi başarım oranları………... 51

6.2 Özelliklerin olası durumları üzerinden gizli ve açık adılların dağılımları…….. 54

(11)

BÖLÜM - 1

GĐRĐŞ

Bilim insanları, cansız bir nesnenin insanı konuşma, düşünme, hareket gibi yetiler açısından taklit edebilmesi konusu üzerinde uzun yıllardır çalışmalar yapmaktadır. Bu konuyla özellikle bilişsel ve hesaplamalı bilimler alanları ilgilenmektedir.

Günümüzde bu çalışmaların geldiği nokta, insanların inceleyip yorumlamakta zorlandıkları doğal dille oluşturulmuş artan bilgi yığını içerisinde, akıllı bir şekilde çıkarımda bulunabilecek, sahip olduğu bilgiyi yeni çıkarımlar doğrultusunda geliştirebilecek ve bildiklerini insanlara sunabilecek ajan (agent) adı verilen zeki bilgisayar yazılımlarının geliştirilmesi aşamasıdır. Doğal dil verisini bilgiye dönüştüren ajan yazılımları, bu dönüşümü sağlamak için doğal dilin zorluklarıyla başa çıkabilmelidir. Doğal dil insanlar için çözümlenmesi ve öğrenilmesi kolay bir olgu olsa da, bu konunun bilgisayarlar tarafından öğrenilmesi için bir çok sistem bilgisayar ortamında modellenmelidir. Bu modeller, kural veya öğrenme tabanlı olabileceği gibi melez (hybrid) de olabilmektedir.

Bu tez çalışmasında, hem saf dilbilim (pure linguistics) hem de bilgisayarlı dilbilim (computational linguistics) alanlarını 20 yıldan fazladır oldukça meşgul eden ve zorlu bir konu olan, Türkçe bilimsel yazında artgönderim çözümlemesi olarak karşılık bulmuş, ‘anaphora resolution’ işleminin makine öğrenmesi (machine learning) yöntemleriyle gerçekleştirilmesi konusu ele alınacaktır.

En basit tanımıyla artgönderim çözümlemesi, artgönderimsel (anaphoric) bir ifadenin neye gönderimde bulunduğunun belirlenmesi işlemidir. Örneğin,1

Ormanlari dünyanın akciğerleridir. Onlarıi korumalıyız.

şeklinde verilen ardışık iki cümleden, ikincisinde yer alan onları adılı, ilk cümledeki

ormanlar isim öbeğine gönderimde bulunmaktadır. Burada, onları artgönderimsel ifade,

1

Bu tez çalışması kapsamında verilecek örneklerdeki artgönderimsel ilişkiler, artgönderim ile öncülünün aynı alt indis ile gösterilmesi yoluyla belirtilecektir.

(12)

ormanlar ise gönderim yapılan ifadedir. Ormanlar kelimesi ikinci cümlede

tekrarlanmamış, yerine aynı varlığı gösteren başka bir ifade kullanılmıştır.

Đnsanların çoğu zaman farkında bile olmadan yaptıkları ve düzgün bir iletişimin temelini oluşturan artgönderim çözümlemesi, günümüzde pratik amaçlı olarak doğal dil işleyen çeşitli hesaplamalı sistemlerde önemli yer tutmaktadır (Mitkov 2002). Artgönderim çözümlemesinin pratik amaçlarla kullanılabileceği sistemlere örnek olarak makine çevirisi (machine translation), metin özetleme (text summarization), bilgi çıkarımı (information extraction) ve soru cevaplama (question answering) sistemleri verilebilir. Bu sistemlerde elde edilecek başarı, büyük oranda, işlenen söylem (discourse) yapısı içinde geçen ifadeler arası gönderimlerin doğru çözümlenmesine bağlıdır.

Konu üzerine sürdürülmekte olan çalışmalar, sözdizimsel (syntactic), anlambilimsel (semantic) ve gerçek dünya bilgisi2 kullanımının ağırlıklı olduğu bilgi yoğunluklu tekniklerden, ön bilgiye dayanmayıp metin içinde saklı olan bilgiyi kullanan bilgi-yoksun (knowledge-poor) yaklaşımlara kadar geniş bir yelpazede artgönderim çözümlemesi yöntemlerinin ortaya çıkmasını sağlamıştır.3 Mitkov’un (1998, 1999) da belirttiği gibi, artgönderim çözümlemesine yönelik yaklaşımların büyük ve hızlı artışıyla birlikte,4 bu alanda kullanılan yöntem veya modellerin karşılaştırmalı bir değerlendirilmesinin yapılması gerekliliği büyük önem kazanmıştır.

Bunun yanında, makine öğrenmesi alanında yapılan kuramsal çalışmalar da, hiçbir öğrenme algoritmasının evrensel olarak bir diğerinden daha üstün olmadığını göstermektedir (Wolpert ve Macready, 1995). Bu nedenle, Hoste’un (2005a, 2005b) da vurguladığı gibi, hangi öğrenme yönteminin hangi öğrenme işine uygun olduğunun belirlenebilmesi için, makine öğrenmesi yöntemlerinin belirli dil işleme görevlerindeki davranışlarının deneysel olarak karşılaştırılması gereklidir.

2

Bkz. Hobbs (1978), Carbonell ve Brown (1988), Lappin ve Leass (1994), Tın ve Akman (1994), Kehler (2000, 2002).

3

Bkz. Kennedy ve Boguraev (1996), Mitkov (1996b, 1998, 2002), Baldwin (1997), Küçük ve Turhan-Yöndem (2007).

4

Artgönderim üzerine yapılan ilk kuramsal ve bilgisayarlı çalışmalara ilişkin kapsamlı bir araştırma için bkz. Hirst (1981), alanda yapılan daha yeni çalışmalara yönelik bir araştırma için bkz. Mitkov (1999, 2002).

(13)

Bu tez çalışması ile, Yıldırım ve Kılıçaslan (2007) tarafından önerilen yöntemlerin genişletilmesi ve detaylandırılması amaçlanmıştır. Bahsedilen çalışmada, işaretlenmiş (annotated) Türkçe bir metin üzerine bir karar ağacı (decision tree) algoritması uygulanmasıyla gerçekleştirilen bazı deneylerin sonuçları sunulmuştur. Burada sunulacak çalışma ise metnin genişletilmesini ve öncülü olan çalışmaya 4 tane yeni algoritmanın (naïve Bayes, destek vektör, yapay sinir ağı, ve k-en yakın komşu algoritmaları) eklenmesini konu edinmektedir. Bu çalışmanın esas amacı, bahsedilen algoritmaları kullanarak karşılaştırmalı bir değerlendirme yapmaktır. Đlerleyen bölümlerde, deney sonuçlarına dayanarak her algoritmanın iki ayrı modu arasındaki farklılıklar üzerinden karşılaştırma yapılacaktır. Bu karşılaştırma yapılırken de Türkçe’de artgönderim çözümlemesi için gerekebilecek karmaşıklık düzeyinin alt sınırı belirlenmeye çalışılacaktır.

Çalışmanın bir diğer katkısı ise dil seçimi konusunda olacaktır. Türkçe için artgönderim çözümlemeyi, üzerinde çalışılmaya değer kılan en az iki önemli sebep vardır. Bunlardan ilki, Đngilizce için yapılan çalışmaların sayısal olarak çokluğuna bakıldığında, Türkçe’de bilgisayarlı veya saf dilbilimsel bir bakış açısıyla artgönderim çözümlenmesine yönelik yapılmış çalışmaların, hem sayı hem de çeşitlilik açısından tatmin edicilikten uzak olmasıdır. Bunun yanında, gizli adılların (null - covert pronoun) sıklıkla kullanımı ve açık adılların (overt pronoun) da bilgi içeriğinin az olması, Türkçe’yi artgönderim çözümlemesi araştırmacıları için Đngilizce gibi dillerden daha zorlu hale getirmektedir.

Bu tez çalışmasında, ilk olarak, artgönderimin ne olduğuna, türlerine ve çözümleme amacıyla ortaya konan yaklaşımlara değinilecektir (Bölüm 2). Ardından Türkçe’de artgönderimlerin nasıl gerçeklendiği ve bu dil için geliştirilmiş çözümleme yöntemleri incelenerek, konunun karmaşıklığı ortaya konulmaya çalışılacaktır (Bölüm 3). Verilen bu ön bilgilerin ardından, çalışmanın esas konusu olan, öğrenme algoritmalarıyla derlem (corpus) üzerinde artgönderim çözümlemesi yapabilen bir sistemin, bileşenleri incelenecektir (Bölüm 4). Oluşturulan derlem üzerinde, sistemin işletilmesi ile elde edilen sonuçlar, ilk olarak sınıflandırma (Bölüm 5), ardından da artgönderim çözümleme sonuçları (Bölüm 6) üzerinden değerlendirilecek, elde edilen sonuçların kısaca sunulmasıyla da (Bölüm 7) çalışma sonlandırılacaktır.

(14)

BÖLÜM - 2

GENEL ARKAPLAN BĐLGĐLERĐ

Bu bölümde artgönderim çözümlemesi, öncelikle kuramsal bir bakış açısıyla incelenecek, ardından da bu alanda yapılmış önemli dilbilimsel ve bilgisayarlı çalışmalara değinilecektir.

2.1. Artgönderim Çözümlemesi

Artgönderimin Đngilizce karşılığı olan ‘anaphora’ kelimesinin kökeni eski Yunanca’ya kadar uzanmakta olup, bu kelime gerçekte iki ayrık kelime olan ‘ana’ (geriye doğru, akıntıya karşı) ve ‘phora’ (taşıma) kelimelerinin birleşmesiyle oluşmuştur. En basit tanımıyla anaphora, önceden bahsedilen bir şeyi göstermek demektir.

Grosz (1995), artgönderimin formel bir tanımını, doğal dil ile kurulan cümlelerde bir adıl veya bir isim öbeğinin, kendinden önce bahsi geçen bir nesne veya olaya tekrar yoluyla referansta bulunması olarak yapmıştır.

Artgönderim için ortaya konulan bir diğer tanım da, Halliday ve Hasan (1976) tarafından ifade edildiği şekliyle, önceki bir şeyi gösterme yoluyla bağlaşıklığın (cohesion) sağlanmasıdır. Valin ve LaPolla da (1997) bir metne bağlaşıklığını veren şeylerin göndergeler, mekan, zaman veya eylemlerin aynılığı olduğunu söylemiştir. Đnsanların bir metni veya konuşmayı ayrık kelimeler, tümcecikler veya cümleler kümesi olarak değil de bütünleşik şekilde algılamalarını sağlayan şey bağlaşıklıktır. Bağlaşıklığın sağlanması ile söylem içindeki artgönderimlerin referansta bulunduğu öğeler belirlenmiş, insanlar ve diğer öğrenebilen sistemler, önceden karşılaştıkları bir şeye ait yeni bilgiler edinebilmiş olur. Böylece, bilgi akışında devamlılık sağlanarak aktarılan veri de arttırılır. Örneğin,

(15)

söylem parçasında geçen ona adılının referans amaçlı olarak kullanıldığı ve Ahmet’e gönderimde bulunduğu bir insan tarafından çok çabuk ve kolay bir şekilde algılanabilmekte, içinde bulunulan ortama ait yeni bilgiler eskileriyle birleştirilebilmektedir.

Artgönderimin ne olduğundan bahsettikten sonra, söylem içerisinde gönderimde bulunulan ifadelerden de bahsetmek gerekir. Az önce sözünü ettiğimiz bağlaşıklığın sağlanması için söylem içerisinde geriye doğru gönderimde bulunulan ifadelere ise

öncül (antecedent) adı verilir. Öncüller gerçek dünyada veya doğal dil cümlesini kuran

kişinin zihninde var olan olay veya nesnelerdir. Genelde, hem öncüller hem de artgönderimler, gerçek dünyadaki aynı varlığa gönderimde bulunan gönderimsel

ifadeler (referential expressions) olup, eşgönderimli (coreferential) olarak adlandırılırlar. Aynı varlığa referansta bulunan isim öbeklerinin de eşgönderim zinciri (coreferential chain) oluşturduğu söylenir. Ancak her ne kadar artgönderim ile eşgönderim olguları birbirleriyle örtüşüyor gibi görünse de, eşgönderimin artgönderimden farklı olduğunu belirtmemiz gerekir. Artgönderim, eşgönderimden farklı olarak tek ve bütünleşik bir metin içinde gerçekleşir. Örneğin,

Atatürk, Türkiye Cumhuriyeti’nin ilk cumhurbaşkanıdır. (2.2) Ulu Önder, onbeş yıl süreyle cumhurbaşkanlığı görevini sürdürmüştür.

cümlelerinde Atatürk ve Ulu Önder, her ne kadar gerçek dünyada aynı varlığa referansta bulunsa da, biri diğerine referansta bulunmamaktadır. Bu durumda artgönderim değil, eşgönderim yapılmıştır. Bir söylem içinde bir artgönderim ve öncülü arasında bağlantının kurulması işlemine ‘artgönderim çözümlemesi’ ya da Đngilizce karşılığıyla ‘anaphora resolution’ adı verilirken, bütün doğru öncülleri veya eşgönderim zincirlerini bulmaya çalışılması işlemine ‘eşgönderim çözümlemesi’ denilmektedir. Bu tez kapsamında eşgönderimler daha fazla ele alınmayacak olup, bu ön bilgiyle aradaki fark konusunda bir fikir verilmesi amaçlanmıştır.

(16)

2.2. Gönderimlerin Sınıflandırılması

Artgönderimler, çeşitli çalışmalarda çok farklı biçimlerde sınıflandırılmaktadır. Bu sınıflandırmalar genelde gönderimde kullanılan ifadenin hangi dilbilgisel kategoriye ait olduğu, gönderimin yönü ve gönderimde bulunan ifadenin sese dönüşüp dönüşmediği üzerinden yapılır.

Dilbilgisel kategori üzerinden yapılan sınıflandırmaya göre gönderimler adıl, isim, yüklem veya belirteç ile yapılmaları yönünden ayrılabilirler. Bunlardan adıl kullanarak yapılana örnek vermek gerekirse,

Ahmet, Oyai’ya onui sevdiğini söyledi. (2.3) cümlesinde onu adılı Oya’ya gönderimde bulunarak adılsıl (pronominal) bir artgönderim oluşturmuştur. Đsim, yüklem ve belirteç kullanımları yoluyla oluşturulan artgönderimler genelde bilgisayarlı artgönderim çözümleme çalışmaları tarafından gözardı edilmektedir. Bunun sebebi, bunların çeşitli sözdizimsel kurallar yoluyla kolaylıkla çözülebilir olmalarıdır. Bu çalışma kapsamında da sadece adılsıl artgönderimler dikkate alınacak ve çözümlenmeye çalışılacaktır.

Gönderimler, yön üzerinden yapılan sınıflandırmaya göre ise iki ayrı gruba ayrılabilir. Bunlar artgönderimler ve öngönderimlerdir (cataphora). Artgönderimin ne olduğundan hali hazırda bahsetmiş olduğumuzdan, bu sınıflandırma şeklinde sadece öngönderimden bahsedeceğiz. Öngönderimler, doğrusal olarak işlenen söylem yapısı içerisinde henüz söyleme dahil olmayan, ancak ileride dahil olacak öğelere yapılan gönderimlerdir. Bu tip bir gönderime örnek olarak,

Sabahtan beri onui bekliyoruz. Fakat [Ahmet Beyler]i ancak gelebildiler. (2.4) şeklindeki söylem parçasında, ilk cümlede onu adılıyla ikinci cümledeki Ahmet Beyler isim öbeğine yapılan gönderim verilebilir. Çalışmamız kapsamında öngönderimlere de yer verilmeyecektir.

Ses içeriği bakımından artgönderimlerin sınıflandırması ise, artgönderimsel bir ifadenin cümlenin yüzeysel yapısı içinde sese dönüşüp dönüşmemesi üzerinden

(17)

yapılmaktadır. Sese dönüşmüş artgönderimler açık artgönderim, dönüşmemişler ise

gizli artgönderim olarak adlandırılır. Örneğin,

Öğretmeni, Oyaj’ya bir kitapk verdi.

Øi Øj Onuk bir hafta içinde okumasını söyledi.

(2.5)

söylem parçasında, onu adılı ses içeriğine kavuşmuşken, Øi ve Øj ile gösterilen adıllar ses içeriği kazanamamıştır.5

Bazı dilbilimciler ise artgönderimleri, öncülleriyle aynı cümlede olup olmamasına göre sınıflandırmaktadır. Bu sınıflandırmaya göre artgönderim ve öncülü aynı cümlede değilse, bu tip artgönderimlere cümleler arası (intersentential), aynı cümledeyse, cümle içi (intrasentential) artgönderim denmektedir.

2.3. Artgönderim Çözümlemede Kullanılan Etkenler

Artgönderim çözümleme algoritmalarının çoğunluğu, öncülü isim öbeği olan artgönderimlerle ilgilenir. Bunun sebebi yüklem öbekleri, cümleler veya paragrafları öncül olarak kabul eden artgönderimlerin çözümlenmesinin oldukça karmaşık olmasıdır. Söylem parçası içinde herhangi bir artgönderimin öncesinde yer alan isim öbeklerinin tamamı, o artgönderim için aday öncül olarak kabul edilir. Genelde ise, artgönderimin öncülünün aranacağı bir kapsama alanı belirlenir. Bu kapsama alanı çoğunlukla artgönderimin bulunduğu cümle ve hemen öncesindeki cümleler olur. Fakat ideal bir artgönderim çözümleme algoritması için bu kapsamın geniş tutulması gerekebilir. Belirlenen kapsama alanındaki aday öncüller içinde çeşitli kısıt ve/veya kurallar kullanılarak arama yapılır ve gerçek öncül belirlenmeye çalışılır.

Gerçek öncülü belirlemede kullanılan kısıt veya kurallara, artgönderim çözümleme etkenleri denmektedir (Mitkov 1999). Bunlar kendi içlerinde kısıtlayıcı ve

ayrıcalık tanıyan etkenler olmak üzere ikiye ayrılırlar. Genelde bilgi-yoksun

5 Bu çalışmada, bilimsel yazındaki genel eğilime uyarak gizli artgönderimler için Ø sembolünü kullanacağız.

(18)

artgönderim çözümleme algoritmalarında kullanılan bu etkenleri daha ayrıntılı olarak inceleyerek, olayın dilbilimsel boyutunu yakından görme fırsatı bulabileceğiz. Ayrıca bu kısımda vereceğimiz bilgiler, çalışmada kullandığımız bazı özellikler açısından ön bilgi niteliği taşımakla birlikte, çalışmanın sonuçlarını değerlendirirken bahsedeceklerimizi anlamada faydalı olacaklardır.

2.3.1. Kısıtlayıcı Etkenler

Aday öncüller kümesi içerisinden belirli kurallara dayalı olarak eleme yapmaya yararlar.

2.3.1.1. Kişi/Sayı ve Cinsiyet Uyumu Kısıtları

Bir artgönderim ve öncülü kişi/sayı ve cinsiyet rolleri açısından uyum içinde olmalıdır.

Oyai evden çıkarken [Ayşe ve Hasan]j onui uğurladılar.

Øj Kapıyı kapadıktan sonra ağlamaya başladılar.

(2.6)

ilk cümledeki o adılının yalnız Oya’ya, ikinci cümledeki gizli adılın ise yalnız Ayşe ve

Hasan’a gönderimde bulunabilmesi durumu sayı uyumunun bir sonucudur. Đngilizce

gibi adılları cinsiyet bilgisi taşıyan dillerde, cinsiyet kısıtı da, ilişkiyi belirlemede önemli rol oynar.

2.3.1.2. Sözdizimsel Bağlama Kuramı (Binding Theory) Kısıtları

Chomsky (1981), Government & Binding Kuramı olarak adlandırdığı yaklaşımında isim öbeklerini iki temel özelliğin varlığına göre 4 gruba ayırmış,

bağlama kuramı prensipleri ile de gönderim bağlantılarının nasıl olması gerektiğini

(19)

olduğunu ve öğelerin bu özelliklerden bir kısmı veya hepsini taşıyabileceği gibi hiçbirini de taşımayabileceğini söylemiştir. Bu konuda çıkardığı model aşağıdaki gibidir:

Şekil 2.1. Bağlama kuramı içinde isim öbeklerinin sınıflandırılması.

Şekil 2.1’de özetlenen gönderimsel ifadeler, Chomsky’nin dilbilgisi yaklaşımı içerisinde olan bağlama kuramına uymak zorundadırlar. Bağlama kuramı temelde şu 3 ilkeden oluşur:

Yalnız artgönderimsel özellik taşıyan (yani [+a-p] olan) dönüşlü artgönderimler, kendilerine en yakın konumdaki öğe ile bağlanabilirler. Örneğin,

Johni likes himselfi.

Johni kendinii sever.

(2.7)

cümlesindeki himself dönüşlü adılı John ile artgönderimsel ilişki kurmak zorundadır.

Yalnız adılsıl özellik taşıyan (yani [-a+p] olan) adıllar, kendilerine en yakın olan hariç diğer özne görevindeki öğelerle bağlanabilirler. Örneğin,

Johni asked Mary to wash himi.

Johni, Mary’den onui yıkamasını istedi.

(2.8)

cümlesindeki him adılı yalnız John ile artgönderimsel ilişkiye girebilmektedir.

(20)

John gibi doğrudan gerçek dünyada referansını bulan öğeler başka bir

ifadeyle bağlanamaz. Bu tip öğeler, artgönderimsel veya adılsıl özelliklerden herhangi birini taşımadıkları için (yani [-a-p] olduklarından), hiçbir gönderimsel ilişkiye giremezler.

Belirtilen bu üç ilkenin haricinde Şekil 2.1’de gösterilen bir diğer gönderimsel ifade de, hem artgönderimsel hem de adılsıl özellik taşıyan (yani [+a+p] olan) ve PRO ile ifade edilen öğelerdir. Bunlar cümle içinde ses içeriği kazanamazlar. Örneğin,

[PRO Okumak] gereklidir. (2.9) cümlesinde okumak eyleminden önce gizli ve kişi-dışı bir öğe vardır.

2.3.1.3. Anlamsal Kısıtlar

Bir öncülün uymak zorunda olduğu anlamsal bir model varsa buna gönderimde bulunan ifade de aynı anlamsal kısıtlara uymak zorundadır. Örneğin,

Kedii çıktığı ağaçtanj inmek istemiyordu.

Øi aşağıdakilere yalvarır gibi bakıyordu.

(2.10)

söylem parçasında, ilk cümle ile söylem modeli içerisine iki varlık (kedi ve ağaç) girmektedir. Đkinci cümlede, ilk cümledeki bir nesneye gönderimde bulunulmakta ve gönderim yapılabilecek iki aday bulunmaktadır. Burada anlamsal kısıtlar devreye girer ve ikinci cümledeki gizli adılın ancak kediye gönderimde bulunabileceği söylenir.

2.3.2. Ayrıcalık Tanıyan Etkenler

Ayrıcalık tanıyan etkenler, aday öncüller kümesi içinde bazı öncüllere öncelik tanıyarak onları öne çıkarırlar. Kısıtlayıcı etkenler gibi her zaman kullanılmaları gerekmez. Bu etkenler bilgi-yoksun sistemlerde sırayla kullanılarak aday öncüllere değerlilik ataması

(21)

yapılır. Gereken etkenler uygulandıktan sonra aday öncüller arasında en yüksek değere sahip öncül, gönderimde bulunulan öncül olarak kabul edilir.

2.3.2.1. Sözdizimsel Paralellik

Sözdizimsel paralellik, kısıtlar ve diğer ayrıcalık tanıyan etkenler kullanılarak bir öncülün belirsizliği durumu ortadan kaldırılamadığında kullanılır. Artgönderim ile aynı sözdizimsel role sahip isim öbeklerine öncelik tanınmasını sağlar. Aşağıdaki söylem parçasına bakalım.

Oyai kitabıj çantaya koymuştu.

Øi Akşam eve geldiğinde ise Øj bulamadı.

(2.11)

Đlk cümlede kitabı nesne görevinde olduğundan, sözdizimsel paralellik ayrıcalığı kullanıldığında, ikinci cümlede nesne görevindeki gizli adılın öncülü olmaktadır.

2.3.2.2. Anlamsal Paralellik

Anlamsal rolleri otomatik olarak tanıyabilen sistemler için önemli bir seçim unsuru olmaktadır. Artgönderim ile aynı anlamsal role sahip isim öbeğine öncelik tanınmasını sağlar.

Oya Alii’ye bir kitap vermişti.

Hasan da onai kalem vermişti.

(2.12)

Yukarıdaki örnekte, Ali ve ona bulundukları cümlelerde de olaydan etkilenen (patient) rolündeki öğelerdir, yani anlamsal rolleri aynıdır. Bu sebeple, ona adılı Ali’ye gönderimde bulunmaktadır.

(22)

2.3.2.3. Merkezleme Yaklaşımı

Sözdizimsel ve anlamsal ölçütler her ne kadar kuvvetli olsalar da muhtemel aday öncüller arasında tam bir ayrım yapamayabilirler. Böyle belirsizlikler oluştuğunda söylem içerisinde en dikkat çekici (salient) öğenin öncül olarak seçilmesi yoluna gidilir. Bu en dikkat çekici öğeye hesaplamalı dilbilimde, odak (focus) veya merkez (center) denir (Grosz ve Sidner 1986, Grosz 1995). Aşağıdaki cümleyi inceleyelim.

Oya, bardağı tabağın içine koydu ve o kırıldı. (2.13) Sadece bu cümleyi duyan bir insan veya bilgisayarın, o adılının öncülünün bardak mı yoksa tabak mı olduğunu bulması imkansızdır. Fakat aşağıdaki gibi bir söylem parçası verildiğinde, artık artgönderimin çözümlenmesi için söylemin bağlaşıklığından faydalanılabilir.

Oya önceki gün markete alışverişe gitti ve orada bir bardak gördü. Onu almak istedi ancak yeterli parası yoktu. Dün tekrar markete gittiğinde bardağı alacak parası vardı. Bardağı alıp evine döndü. Mutfağa giden Oya, bardağı tabağın içine koydu ve o kırıldı...

(2.14)

Bu söylem parçası içinde geçen aynı artgönderim ilişkisi, bardak en dikkat çekici söylem varlığına dönüştüğü için rahatlıkla çözülebilmektedir.

Đfadeler, Grosz ve Sidner’in (1986) merkezleme kuramı kapsamında iki tip merkez ile ilişkilidir: ileriye ve geriye dönük merkezler. Đleriye dönük (forward-looking) merkezler, söylemin ileri kısımlarındaki göndergeler için potansiyel öncüllerden oluşan bir kümedir. Bunlar kendi içlerinde, önemlerine göre sıralanırlar. En önemli merkez, yani tercih edilen merkez, takip eden ifadede geriye dönük (backward-looking) merkez olacağı tahmin edilen varlıktır. Tek olan geriye dönük merkez, dikkat merkezindeki varlık olarak kabul edilir ve önceki en yakın ifadeye artgönderimsel bağlantıyı sağlar.

(23)

2.4. Bilgisayarlı Artgönderim Çözümleme Çalışmaları

2.4.1. Genel Bir Bakış

Artgönderim çözümlemesine yönelik bilgisayarlı dilbilim çalışmalarında geliştirilen algoritmalar, her ne kadar insanlar kadar başarılı olamasalar da, temel stratejileri açısından benzerdirler. Bu algoritmaların önemli bir kısmı dilbilim alanında ortaya konan bulguların bilgisayarlı ortamda gerçeklenmesine yöneliktir. Amaç, söylem içinde olası öncülleri belirleyip, bunlar içinden en uygun olanını mümkün olan en yüksek başarıyla seçmektir. Algoritmalar uygulandıkları dil, hedefe ulaşmadaki yol, yöntemler ve kullandıkları özellikler bakımından farklılıklar göstermektedirler. Bu farklılıklardan son ikisini ele aldığımızda son yıllarda kural tabanlı yaklaşımlardan öğrenme tabanlı yaklaşımlara, bilgi-zengin yaklaşımlardan ise bilgi-yoksun yaklaşımlara doğru bir geçiş olduğu görülebilmektedir. Bunun yanında, teorik yaklaşımlardan, pratikte kullanıma sahip yaklaşımlara doğru da bir kayma vardır.

Bilgisayarlı dilbilim alanında yapılan artgönderim çözümleme çalışmaları kendi aralarında bilgi tabanlı, öğrenme tabanlı ve melez yaklaşımlar olarak üç temel sınıfa ayrılabilir.

Bilgi tabanlı (knowledge-based) yaklaşımlar: Biçimsel, sözdizimsel, anlamsal, sözlüksel ve söylem kaynaklı bilgiye dayanan yaklaşımlardır. Kendi içlerinde kullandıkları bilgi yoğunluğuna göre, yoksun ve

bilgi-zengin olarak da sınıflandırılırlar.

Öğrenme tabanlı (learning based) yaklaşımlar: Makine öğrenmesi teknikleri kullanılarak, artgönderimsel ilişkilerin çözülmesine yönelik yaklaşımlardır. Kendi içlerinde denetimli (supervised) ve denetimsiz (unsupervised) yöntemlerin kullanımına bağlı olarak ikiye ayrılırlar.

Melez yaklaşımlar: Bilgi tabanlı yaklaşımlarla öğrenme tabanlı yaklaşımların birlikte kullanılmasıyla ortaya çıkmışlardır.

(24)

Bu tez çalışması için öğrenme tabanlı bir yaklaşımın seçilmesinin çeşitli sebepleri vardır. Bunlardan ilki, bilgi-tabanlı bir yaklaşımda gerek duyulan ayrıntılı sözdizimsel çözümlemeyi Türkçe için yapabilen bir ayrıştırıcıdan yoksun olmamızdır. Đkinci sebep, yine bilgi tabanlı yaklaşımlarda kullanılan kural ve kısıtların Türkçe için tam olarak tanımlanamamış olmasıdır. Yeterli büyüklükte veri ve parametreler sağlandığında, makine öğrenmesi yöntemleriyle, insanlar tarafından görülemeyen kural ve kısıtlar otomatik olarak çıkarılabileceği için, bu önemli bir avantaj sağlamaktadır. En son olarak da, makine öğrenmesi yönteminin Türkçe’ye uygulanmamış olması nedeniyle bu alandaki bir açık kapatılmak istenmiştir.

Şimdi, artgönderim çözümlemesine ilişkin bilimsel yazında önemli yere sahip çalışmalardan, yukarıda verdiğimiz sınıflandırma kapsamında kısaca bahsedilecektir.

2.4.2. Bilgi Tabanlı Yaklaşımlar

2.4.2.1. Hobbs (1977)

Hobbs (1977) çalışmasında, Đngilizce’de artgönderim çözümlemesi için iki yaklaşım sunmaktadır. Bunlardan ilki, metin içindeki cümlelerin ayrıştırma ağaçları üzerinde çalışan basit ve etkin bir yöntemdir. Ayrıştırma ağaçları, cümle içindeki kelimelerin yerlerini değiştirmeden oluşturulmakta ve cümlenin dilbilgisel yapısını göstermektedir. Algoritma derinlik öncelikli ve soldan-sağa bir yöntemle ağacı dolaşmakta, uyumlu sayı ve cinsiyet özelliklerine sahip bir isim öbeği aramaktadır. Hobbs, Arthur Hailey’nin bir romanı ve Newsweek dergisinin bir sayısını kullanarak hazırladığı bir derlem üzerinde, %88.3 başarı oranı elde etmiştir.

Aynı çalışmada kullandığı ikinci yaklaşım ise, ilkine ek olarak anlamsal çözümlemeyi de işin içine katmaktadır. Bu yaklaşımı kullanarak %91.7 gibi yüksek bir başarım değerine ulaşmıştır. Hobbs algoritması halen bu alanda yapılan çalışmaların çoğunda klasik bir dayanak yöntemi olarak kullanılmaktadır.

(25)

2.4.2.2. Lappin ve Leass (1994)

Lappin ve Leass (1994) tarafından ortaya konulan algoritmanın ismi RAP’tır (Resolution of Anaphora Procedure). Bu algoritma, sözdizimsel yapı ve basit bir dinamik ilgi durumu (attentional state) modeli üzerinden çıkarılan dikkat çekicilik ölçütlerini kullanır. Çözümleme işlemi sırasında, biçimsel ve sözdizimsel filtrelerle aday isim öbeklerinden bir kısmı ayıklanır ve kalan adaylara önceden tanımlanmış dikkat çekicilik etkenleri üzerinden belirli değerler atanır. Bu algoritmada kullanılan dikkat çekicilik etkenleri şunlardır: yakınlık, özne önceliği, varoluş önceliği, nesne öncelikleri ve isim öbeği öncelikleri. Bilgisayar kullanım kılavuzları ile oluşturdukları derlem üzerinde yapılan testlerde, cümleler arası artgönderimler için %72, cümle içi artgönderimler için ise %89 başarım oranları elde edilmiştir.

2.4.2.3. Kennedy ve Boguraev (1996)

Kennedy ve Boguraev’in (1996) artgönderim çözümleme algoritması, RAP algoritmasının değiştirilmiş bir şeklidir. Tamamen ayrıştırılmış yapılara gerek duymadan sadece isim öbeklerinin belirlenmesi ile çalışabilmektedir. Aday öncüllerin sıralaması dilbilgisel rol yerine, sadece sözdizimsel bilgi kullanılarak yapılır. Basında yer alan çeşitli makaleler, ürün tanıtımları ve web üzerinden topladıkları metinlerden oluşan derlemleriyle yaptıkları deneylerde, üçüncü kişi adılları üzerinden %75 başarım oranı elde etmişlerdir.

2.4.2.4. Baldwin (1996)

Baldwin (1996) çalışmasında, CogNIAC adını verdiği artgönderim çözümleme algoritmasıyla, gerçek dünya bilgisine gerek duymadan, öncülleri belirsiz olmayan adılların çözümlenmesini sağlamıştır. CogNIAC, teklik, dönüşlülük ve sahiplik gibi kurallar kullanmaktadır. Bu kurallar belirli bir sırada baştan sona işlenmekte ve öncül bulunduysa sonraki kurallar kullanılmamaktadır. Başarım oranı, uygulandığı metinde %77.9 olmuştur.

(26)

2.4.3. Öğrenme Tabanlı Yaklaşımlar

2.4.3.1. McCarthy ve Lehnert (1995)

McCarthy ve Lehnert (1995), RESOLVE adını verdikleri sistemleriyle, MUC-5 ticari metinler içeren derlemi üzerinde makine öğrenmesi yöntemi kullanarak eşgönderim çözümlemesi yapmaya çalışmışlardır. McCarthy ve Lehnert, aynı metni elle girilmiş kurallarla da çözümlemeye çalışarak, sonuçlarını karar ağacı algoritması kullandıkları yöntemleriyle karşılaştırmışlardır. 8 özellik kullandıkları bu yöntemde, karar ağacı budanmadığında %87.6 duyarlılık sonucu elde ederlerken, budama yaparak sonuçlarını %92.4’e çıkarmışlardır. Öğrenmede kullandıkları özelliklerin tamamı anlamsal özellikler olup, sözdizimsel özelliklerle ilgilenmemişlerdir.

2.4.3.2. Aone ve Bennet (1996)

Aone ve Bennet’ın (1996) çalışmasında otomatik olarak eğitilebilen bir artgönderim çözümleme sistemi geliştirilmiştir. Japonca gazetelerden oluşturdukları bir derlemde, artgönderimsel ilişkilerin işaretlenmesi ve bunlardan oluşturulan eğitim verileri üzerinde bir makine öğrenmesi yönteminin uygulanması yoluyla çözümleme işlemleri yapılmıştır. C4.5 karar ağacı algoritması (Quinlan 1993) kullanılmıştır. Karar ağaçlarının, artgönderim ve olası öncül çiftleri üzerinden eğitilmesi için 66 özellik kullanılmıştır. Bu özellikler, sözlüksel, sözdizimsel, anlamsal ve konum bilgisi içeren özelliklerdir. Bunların bir kısmı sadece artgönderim veya öncüle ait ayrık özellikler olmakla birlikte, bir kısmı ikisi arasındaki ilişkiyi belirten özelliklerdir. Üretilen karar ağaçları sonucunda %90’a varan başarılara ulaşılmıştır.

2.4.3.3. Soon, Ng ve Lim (2001)

Soon vd. (2001) çalışmalarında, C4.5 karar ağacı algoritması kullanarak artgönderim çözümlemesi yapmaya çalışmışlardır. Sözlüksel, dilbilgisel, anlamsal ve konum özelliklerinden oluşan 12 adet özellik kullanarak, MUC-6 ve MUC-7 derlemleri

(27)

üzerinde deneyler yapmışlardır. Ayrıca kullandıkları her özelliğin sınıflandırmaya yaptığı katkıyı ölçmüş ve bu özelliklerden sadece üçünü kullanarak da %68 gibi bir duyarlılık değerinin yakalanabileceğini göstermişlerdir.

2.4.4. Melez Yaklaşımlar

2.4.4.1. Mitkov, Evans ve Orasan (2002)

Mitkov vd. (2002) tarafından ortaya konulan MARS (Mitkov’s Anaphora Resolution System) adlı bu sistem tam otomatik olarak çalışmaktadır. Đşaretlenmemiş metinleri alıp ayrıştırma ve artgönderim çözümlemesi işlemlerini yapar. Öncelikle sözdizimsel ayrıştırma yaparak isim öbeklerini belirler. Ardından makine öğrenmesi yöntemleri ile artgönderimsel öğeleri belirler. Bu artgönderimsel öğelerin her biri için iki cümle öncesine kadar olan aday öncülleri toplayarak, bunlar üzerinde kişi/sayı ve cinsiyet uyumu filtrelerini uygular. Ayıklanmış aday öncüller kendi aralarında çeşitli etkenler kullanılarak sıralanır ve bir artgönderimin gerçek öncülü belirlenmiş olur. Bu tam otomatik sistem, gerçek uygulamalarda kullanılmış olup, teknik kullanım kılavuzlarından oluşan bir derlemde %61.6 gibi bir başarıya ulaşmıştır.

2.4.4.2. Preiss (2002)

Preiss (2002) çalışmasında, Kennedy ve Boguraev’in (1996) çalışmalarında kullandığı algoritmayı, makine öğrenmesi yöntemiyle gerçeklemiştir. Bu şekilde bellek-tabanlı (memory-based) bir yaklaşımın etkinliğini ölçmüştür. Preiss, artgönderim çözümlemesini, bir ikili sınıflandırma problemi olarak ele aldığı yaklaşımıyla, en az özgün kural-tabanlı yaklaşım kadar iyi bir başarım elde etmiştir.

(28)

BÖLÜM - 3

TÜRKÇE’DE ARTGÖNDERĐM ÇÖZÜMLEMESĐ

3.1. Türkçe’de Adıllar ve Artgönderim

Tablo 3.1, çalışmamızda kullanılan Türkçe adılların açık hallerini göstermektedir: Kişi Adılları Konum Adılları Dönüşlü Adıllar Đşteş Adıllar

Ben Bura Kendim

sen Ora Kendin

o Şura Kendi

biz Kendimiz Birbirimiz

siz Kendiniz Birbiriniz

onlar Kendileri Birbirleri

Tablo 3.1. Türkçe’de açık adıllar

Bu adıllar, tam isim öbekleri gibi, ana tümcenin öznesi konumundayken kapalı bir yalın durum ekine sahip olmakla birlikte nesne ve belirtecimsi (adjunct) konumlarında belirtme (accusative), yönelme (dative), çıkma (ablative), kalma (locative) ve araç (instrumental) durum eklerini de taşıyabilmektedirler. Türkçe’deki durum ekleri Tablo 3.2’de verilmiştir:6 Belirtme Durumu Đyelik Durumu Yönelme Durumu Çıkma Durumu Kalma Durumu Araç Durumu

-(y)I -(n)In -(y)E -DEn -DE -(y)lE

Tablo 3.2. Türkçe’de durum ekleri

Türkçe, adıl düşüren (pro drop) bir dil olmasının yanında, gizli adılların hem özne hem de özne olmayan konumlarda kullanımına izin verir. Türkçe’deki gizli ve açık

6

Türkçe ekler, çeşitli işlemler sonucunda ses ve şekil değişikliğine uğrar. Bu işlemlerden biri sesli uyumudur. Burada kullanılan büyük harfler biçimbirimlerin (morpheme) değişen halleri için kısaltma olarak kullanılmıştır. I, E ve D harfleri sırasıyla i/ı/ü/u, e/a ve d/t ile gerçeklenirler. Bir başka değişiklik de, kelime sonunda bir sesli veya sessiz harf bulunmasına göre eklerden önce tampon görevi gören bir sessizin getirilmesidir. Bunun için kullanılan sessiz harf de

(29)

öznelerin her biri, fiil ile sayı ve kişi ekleri üzerinden (üçüncü tekil kişi uyum eki saklı veya özne gizli olmadığında üçüncü tekil kişi ekinin kullanımı seçmeli olacak şekilde) uyum (agreement) sağlayabilir. Nesneleri belirleyebilmek için ise aşağıda örneklendiği gibi bir uyum stratejisi yoktur: 7

Öğrenci-ler problem-i çöz-dü-(ler) / Onlar o-nu çöz-dü-(ler) / Ø Ø Çöz-dü-ler (3.1) Kornfilt (1997), Türkçe’de, mümkün olan her durumda, adılların silinmesinin tercih edildiğine dikkat çekmektedir. Ayrıca, Türkçe’de en çok kullanılan artgönderimsel ilişkilerin gizli adıllar üzerinden olduğunu ve bu dilde açık adılların Đngilizce gibi dillerde olduğu kadar yaygın kullanılmadığını da eklemektedir. 8 Kılıçaslan vd. (2007), Türkçe’nin bu özelliğini (yani Đngilizce gibi dillerle karşılaştırıldığında daha fazla sayıda gizli adıl kullanılmasını), bu dil için alt-ulamlama çerçevelerinin (subcategorization frames) otomatik olarak elde edilmesindeki zorluğun ana sebebi olduğunu ileri sürmektedir. Ayrıca bu özellik artgönderimsel ilişkilerin çözümlenmesinde de önemli bir sorun olmaktadır. McLuhan’ın (1964) kitle iletişim araçları için ortaya attığı ‘soğuk’ ve ‘sıcak’ karşıtlığını dilbilime uyarlayan Bickel (2003), gizli adılların sıkça kullanıldığı dilleri, dinleyicinin öncülleri bulabilmek için daha fazla çıkarım yapması gerektiği gerçeğine dayanarak ‘soğuk’ diller olarak nitelemiştir. ‘Sıcak’ diller ise bu açıdan daha açık olup dinleyicinin işini kolaylaştırmaktadır. Türkçe gibi bir dilde bir metin işlenirken, gizli adılların ortaya çıkarılmasının, artgönderim çözümleme sistemleri9 için ek yük getiren ve hataya yatkın bir iş olacağı ortadadır.

Ayrıca, açık olarak kullanıldığında dahi Türkçe üçüncü kişi adılı, Đngilizce’deki üçüncü kişi adılına göre öncülünü işaret etmede daha az bilgilendirici olmaktadır. Türkçe’de bu tip bir adıl, cinsiyet bilgisi taşımadığı için (3.2) örneğindeki gibi bir

7

Türkçe adılların kullanımı ve şekilsel özellikleri hakkında daha ayrıntılı bilgi için bkz. Kornfilt (1997).

8

Küçük and Turhan-Yöndem (2007), Türkçe için bilgi-yoksun adıl çözümlemesi deneylerinde kullandıkları metinde gizli adılların bütün adıllara oranının %74.7 olduğunu belirtmektedir. Bu çalışmada aynı oran %62.4’tür.

9

Mitkov (2000), artgönderim çözümleme sistemi kavramını, artgönderim çözümleme algoritmasına gönderebilmek için metni biçimbilimsel (morphologic), sözdizimsel, anlambilimsel ve söylem gibi çeşitli düzeylerde işleyerek çözümleme yapan tam sistemler olarak tanımlamaktadır (s. 255). Mitkov ayrıca, artgönderim çözümleme algoritmaları ve sistemleri arasında bir ayrım yapılmasını da önermektedir. Bu tezde sunulan çalışmanın, artgönderim çözümleme sisteminin ön-işleme aşamalarında oluşabilecek olası hata ve karışıklıkları dikkate almadan tamamen, öğrenme algoritmasının uygulandığı artgönderim çözümleme aşamasına odaklandığını belirtmeliyiz.

(30)

durumda erkek, dişi veya cansız bir varlığa işaret etme açısından belirsizliğe (ambiguity) yol açacaktır:

Adami kadınaj bir kitapk verdi.

‘The man gave the woman a book.’

Øi Çocuğun onui/j/k görmesini istemiyordu.

‘He did not want the child to see him / her / it.’

(3.2)

Yukarıdaki örnek için, ikinci cümledeki açık adıl, adama, kadına veya kitaba gönderimde bulunabilecek şekillerde yorumlanabilir. Bu anlam belirsizliği, söylem Đngilizce ifade edildiğinde, adılın taşıdığı cinsiyet bilgisine bağlı olarak çözümlenebilmektedir.

3.2. Türkçe Artgönderim Çözümlemesi ile Đlgili Dilbilim Çalışmaları

Türkçe’de gizli adılların mümkün olan her durumda kullanılması ve açık adılların da bilgi içeriğinin fazla olmaması nedenleriyle, bu dilde açık adılların ne zaman kullanılıp kullanılmayacağı sorusu doğal olarak akla gelmektedir. Çeşitli dilbilimciler Türkçe’de açık ve gizli adılların dağılımlarına ilişkin açıklama getirmeye çalışmışlardır.

3.2.1. Erguvanlı-Taylan (1986)

Erguvanlı-Taylan (1986) çalışmasında, cümle-sınırlı (sentence-bounded) durumlarda açık veya gizli adıl kullanımının nasıl olacağı ve cümle içinde bu adılların nerede kullanılacağıyla ilgili açıklama getirmeye çalışmıştır. Ayrıca, Türkçe’de artgönderimsel ilişkilerin,

• zorunlu gizli adıl kullanımı,

• zorunlu açık adıl kullanımı,

(31)

şeklinde gerçeklenebileceğini belirtmiştir. Açıklamasında, bu üç durumun belirli şartlar altında geçerli olduğunu ortaya koymuştur.

Ana tümcenin öznesiyle eşgöstergeli (coindexed) yan tümce (subordinate clause) öznesi gizli olmak zorundadır. Buna örnek olarak aşağıdaki cümle verilebilir.

Eroli bana [Øi / *onuni toplantıya gelmeyeceğini] söyledi. (3.3) Yan tümcenin özne hariç bir rolünde olup ana tümcedeki bir argümanla eşgöstergeli olan bir adıl açık olmak zorunda olduğunu vurgulayan Erguvanlı-Taylan, artgönderimsel ifadenin ikinci cümlenin öznesi olmadığı birleşik tümcelerde, adılsıl veya gizli artgönderimin kullanılabileceğini söylemiştir. Bu çalışmada ayrıca, artgönderim ilişkileri cümle sınırlarını aştığı durumlarda, artgönderimsel ifadelerin yorumlanmasının söyleme bağlı olduğu üzerinde durulmuştur.

3.2.2. Enç (1986)

Enç (1986), açık ve gizli özneler arası seçimin, söylem konusunun (topic) yeni mi kurulduğu yoksa eskisinin devam mı ettirildiği ölçütüyle belirlendiğini ileri sürmüştür. Eğer konu söylem modeline yeni girmişse açık adıl kullanılır. Hali hazırda söylem modeli içinde varolan bir şeye gönderimde bulunulacaksa gizli adıl kullanılır. Örneğin;

Neden ceketini giydin? (3.4)

soru cümlesinin cevabı olarak sadece,

Ø çarşıya gidiyorum. (3.5)

şeklinde gizli adıl kullanımıyla dilbilgisine uygun bir cümle kurulabilir. Bunun yanında Enç açık adıl kullanımının,

Kimse sınava çalışmadı. Ben çalıştım. (3.6) söylem parçasında olduğu gibi karşıtlık yaratmak amacıyla kullanıldığını da söylemiştir.

(32)

Bunun yanında, Kerslake (1987) de, gizli özneler ve öncesinde bulunan söylem arası artgönderimsel ilişkiler üzerinde durmuştur. Türkçe bir öznenin gizli olabilmesi için, gönderiminin ya bir önceki cümlenin öznesi olması ya da söyleme yeni girmiş olması gerektiğini savunmuştur.

3.2.3. Turan (1996)

Turan (1996) çalışmasında, Türkçe’de söylem düzeyi artgönderimsel ilişkilerin çözümlenmesine yönelik en geniş analizi sunmuştur. Analizini, Merkezleme Kuramı (Centering Theory) (Grosz vd. 1983, 1986,s 1995) tarafından ortaya konulan çerçeve içinde geliştirmektedir.

Bu çalışmada Merkezleme Kuramı bakış açısıyla üç önemli konu üzerinde durulmuştur. Đlk olarak, gönderimsel olmayan ifadelerin de gönderimsel ifadeler kadar adılların öncülleri olabileceği gösterilerek, ileriye dönük merkezler listesine katkı yapan isim öbekleri oldukları ortaya konmuştur. Üzerinde durulan ikinci konu, ileriye dönük merkezler kümesindeki elemanların sıralanması mevzusudur. Turan, Đngilizce’den farklı olarak, Türkçe’deki sıralamanın dilbilgisel roller üzerinden değil de tematik roller üzerinden yapılması gerektiğini söylemiştir. Bu çalışmada ayrıca, açık ve gizli adıllar ile tam isim öbeklerinin söylemdeki görevleri üzerine bir tartışmaya gidilmiştir.

3.2.4. Kılıçaslan (2004)

Kılıçaslan (2004), Türkçe’deki artgönderimsel ilişkilerin, cümle sınırları içinde tanımlı doğrusal öncelik (linear precedence) veya baskınlık (dominance) kısıtlarıyla tam olarak ifade edilemeyeceği varsayımına dayanan bir kanıt sunmaktadır. Bununla birlikte, bu tip kısıtların etkinlikten yoksun olduğu bir cümle alanı da bularak bir adım öteye gitmiştir. Kılıçaslan, Banfield’ı (1982) takip ederek, cümlenin ‘çekirdek’ ve ‘perifer’i (periphery) arasında bir ayrım yapmaktadır. Bu açıklamaya göre, cümle odağı uygun bir soruya cevap oluşturabilecek cümle kısmı olarak kabul edildiğinde, perifer alan solda cümle odağı, sağda ise yüklem ile sınırlanmıştır. Kılıçaslan, bir artgönderim

(33)

ve öncülünün cümle periferinde iken, normalde bağlı oldukları kısıtlardan kurtulduğunu belirtmektedir. Artık, cümle yapısal olarak söylemden bütünüyle yalıtılmış bir birim olarak algılanamayacağından, Türkçe’de artgönderim çözümlemesini zorlaştıran bir diğer etken de bu olmaktadır.

3.3. Türkçe Artgönderim Çözümlemesi ile Đlgili Bilgisayarlı Çalışmalar

Türkçe’de artgönderim çözümlemesi için bağlamsal (contextual) etkenlere en çok Tın ve Akman (1992, 1994) tarafından önem verilmiştir. Durum kuramının (situation theory)10 bilgi-odaklı özelliklerinin, adılsıl artgönderim çözümlenmesinde kullanılması için bilgisayımsal bir sistem önermişlerdirler. Tın ve Akman’ın (1994) BABY-SIT adını verdikleri sistemleri, artgönderimsel bir anlam belirsizliğini çözebilmek için geri ve ileri bağlama (chaining) kısıtlarıyla11 ortaya çıkardığı ilişkili bağlam bilgisini kullanmaktadır. Teorik çerçevede oluşturulan bu modele ilişkin bir başarım oranı verilmemiştir.

Turhan-Yöndem ve Şehitoğlu (1997), bu çalışmada HPSG (Head Driven Phrase

Structure Grammar) tabanlı bir ayrıştırıcı kullanarak Türkçe’deki düşürülmüş adılların cümleler arası gönderimlerini çözümlemeye çalışmışlardır. Düşürülmüş adılların çözümlenmesinde kullanılan şemanın öğe sırasına bağlı olduğunu ifade etmişlerdir. Bunun yanında, belirsizlikleri gidermede gerçek dünyadan elde edilen anlamsal ipuçlarının yüzeydeki sıralama kadar önemli olduğunu da belirtmişlerdir.

Yüksel ve Bozşahin (2002), Türkçe için bağlama uygun artgönderim oluşturma

amaçlı bir gönderim planlama sistemi önermiştir. Sistemleri, Bağlama (Chomsky 1981) ve Merkezleme kuramlarına (Grosz et al 1995) dayanmaktadır. Yerel gönderimler için bağlama kurallarını kullanan sistem, yerel olmayan gönderimlerde bağlama ve merkezleme kurallarının etkileşiminden faydalanmaktadır. Geliştirilen model, hem

10

Durum kuramının özgün hali için bkz. Barwise ve Perry (1983), kuramda günümüze kadar yapılan değişiklik ve gelişmeler için bkz. Devlin (2004).

11

Durum kuramında tanımlandığı şekliyle kısıtlar, bir tipteki bir durumun başka tipteki bir durum hakkında bilgi taşıyabildiği, durum tipleri arasındaki ilişkilerdir.

(34)

ayrık hem de bir makine çevirisi sistemi içinde denenmiştir. Sistemin başarı oranı %70 olarak bulunmuştur.

Yıldırım vd. (2004), Grosz vd.’nin (1995) Merkezleme Kuramına dayalı bir

model tanımlamışlardır.

Tüfekçi ve Kılıçaslan (2005, 2007), Hobbs naïve algoritmasının (1978)

Türkçe’ye uyarlanmış bir halini sunmuştur. Oluşturulan Türkçe derlem, ayrıştırılmış ağaç yapıları şeklinde modellenmiş, yapılan deney sonucunda %84 başarı elde edilmiştir.

Küçük (2005) ile Küçük ve Turhan-Yöndem (2007) çalışmalarında, Türkçe’deki

üçüncü kişi adıllarını ve özel isimlere gönderimde bulunan dönüşlü adılları çözümlemek için ön bilgi kullanmayıp, sınırlı sözdizimsel bilgiye dayanan bir sistem önermiştir. Bu çalışmalarda %85.3 ve % 88 başarım elde edilmiştir.

Yıldırım ve Kılıçaslan (2007), Türkçe artgönderim çözümlemesi için, bu

çalışmanın bir parçası ve öncülü olan öğrenme tabanlı bir yaklaşım önermiştir. Bu çalışmada, Türkçe bir metin üzerinde bir karar ağacı sınıflandırması uygulanarak yapılan bazı deneylerin ilk sonuçlarını sunmuşlardır.

Türkçe için yapılan artgönderim çözümlemesi amaçlı bu bilgisayarlı yaklaşımların ayrıntılarına daha fazla girilmeyeceğini belirtmekle birlikte, bahsedilen yaklaşımların tamamının, artgönderimsel ilişkilerin cümle sınırları ötesindeki kısımlarını tanımalarının ve bu ilişkileri söylem düzeyinde modellemeye çalışmalarının dikkate değer olduğunu söylememiz gerekir.

(35)

BÖLÜM - 4

SĐSTEM TASARIMI VE GERÇEKLEME

Bu tez çalışması, her ne kadar yeni bir yöntem ileri sürülmese de, mevcut bazı öğrenme yöntemlerinin Türkçe verisine uygulanarak performanslarının ölçülmesine yönelik yapılan ilk çalışma olması yönüyle önemlidir. Artgönderimsel ilişkilerin söylem düzeyi karmaşıklığı ve Türkçe’nin özelliklerinden kaynaklanan zorluklar bilindiğinde, Türkçe bir veri kümesinde bu ilişkilerin çözümlenmesine yönelik derlem tabanlı öğrenme yaklaşımları umut verici görünmektedir. Đlerleyen bölümlerde, aşağıdaki iki aşamadan oluşan bir yaklaşımın sonuçları değerlendirilecektir:

• farklı makine öğrenmesi yöntemleriyle, işaretlenmiş bir metindeki adılların aday öncüllerinin sınıflandırılması

• en yakın pozitif olarak sınıflandırılmış adayın seçilerek, artgönderimsel ilişkilerin çözümlenmesi

Bu tip bir yaklaşım, Türkçe'de adılların çözümlenmesinin özünde ne kadar zor olduğu ve bu işin yapılabilmesi için ne tür bir öğrenme yönteminin uyarlanması gerektiği konularında önemli ipuçları verebilecektir.

Bu bölümde anlatılanlar, metinlerden oluşan derlemin hazırlanması, metni işaretlemede kullanılan özellikler, işaretleme süreci ve deneylerde kullanılan sınıflandırma algoritmaları olacaktır.

4.1. Derlem

Derlem, istatistiksel veya dilbilimsel çalışmalarda kullanılmak üzere oluşturulmuş, elektronik ortamda saklanan, büyük ve yapısal metin kümesidir. Derlemler, çeşitli ortamlardan toplanmış, aynı veya farklı yazın türlerinden metinler içerirler. Türkçe olarak hazırlanmış ve çeşitli çalışmalarda kullanılan en önemli derlem METU Türkçe derlemidir (Say vd. 2002). Bu derlem, çeşitli yazın türlerinde yaklaşık 2 milyon kadar

(36)

kelimeden oluşmaktadır. Bunun dışında çeşitli hesaplamalı dilbilim çalışmalarında kullanılmak üzere daha küçük derlemler de oluşturulmuştur.

Hesaplamalı dilbilim alanında yapılan artgönderim çalışmaları, genelde gerekli özellikleri işaretlenmiş derlemler üzerinden yapılmaktadır. Türkçe için oluşturulan derlemler arasında artgönderim çözümlemesine yönelik işaretleme yapılmış ve herkesin kullanımına açık bir derlem bulunmadığı için bu çalışma kapsamında öncelikle bir derlem oluşturulması gerekti. Bu nedenle 20 farklı çocuk hikayesi kullanılarak 1114’ü adıl olan 10165 kelime kapasiteli bir derlem hazırlandı. Bu adılların 419’u açık, 695’i gizli adıldır.Derlemdeki adıl tipleri ve oranları şu şekildedir:

• Kişi adılı (%82.3)

• Konum belirten adıl (%6.6)

• Dönüşlü adıl (%10.7)

• Đşteş adıl (%0.4)

4.2. Đşaretlenecek Özelliklerin Seçimi

Diğer birçok öğrenme tabanlı yaklaşım gibi, bu çalışmadaki öğrenme deneyleri için de, veri özellik-değer (feature-value) çiftlerinin vektörleri şeklinde ifade edilmelidir. Bu sebeple, kullanacağımız derlemin ilgili özelliklerle işaretlenmesi gerekir. Artgönderim çözümlemesi için makine öğrenmesi teknikleri kullanan tüm sistemler, sözlüksel (lexical), sözdizimsel, anlambilimsel ve konum belirten (positional) özelliklerin bir birleşimini kullanmaktadır. Aşağıda, ham metnin işaretlenmesi için kullanılan özellikler kısaca açıklanmaktadır.

Durum eki: Bir adılın veya aday öncülün sahip olduğu dilbilgisel (grammatical)

durum (yalın, belirtme, yönelme, bulunma, sahiplik (genitive), ayrılma veya araç durumlarından biri)

Dilbilgisel görev: Bir adıl veya aday öncülün özne veya nesne durumlarından

hangisinde olduğu.

Açıklık (overtness): Bir adılın sesbilgisel (phonetic) olarak açık veya gizli

(37)

Adıl Tipi: Bir adılın tipinin kişi, konum belirten, dönüşlü veya işteş tiplerinden

hangisi olduğu.

Anlamsal Tip: Bir aday öncülün referansının hayvan, insan, yer, soyut nesne

veya fiziksel nesne tiplerinden hangisi olduğu.

Kişi ve Sayı: Bir adılın veya aday öncülün kişi ve sayı bilgisi.

Konum: Uzaklık bilgisini hesaplamaya yardımcı olan, bir kelimenin söylem

parçası içindeki konumu.

Öncül konumu: Bir adılın gerçek öncülünün konumu.

Gönderimsel (Referential) Durum: Bir ad kökenlinin (nominal), öncül olarak

kullanılabilmesi için adılsıl-olmayan (non-pronominal) bir ifade olup olmadığı. Öğrenme tabanlı artgönderim çözümleme sistemlerinde kullanılan özellik sayıları, 8’den (McCarthy ve Lehnert 1995), 66’ya (Aone ve Bennett 1995) kadar değişkenlik göstermektedir. Bu çalışmadaki deneylerde kullanılarak öğrenim modellerine bilgi sağlayan bütün özellikler, daha önce yapılmış bir veya daha fazla artgönderim çözümleme çalışmasında kullanılmıştır.

Durum ve dilbilgisel rol, artgönderim üzerine yapılan çalışmalarda çok geniş kullanım alanı bulmuş iki sözdizimsel özelliktir (Fisher vd. 1995, McCarthy 1996, Cardie ve Wagstaff 1999, Ng ve Cardie 2002, Trouilleux 2002). Bu sözdizimsel özellikler, Türkçe ile ilgili çalışmalarda da kullanılmıştır. Tüfekçi ve Kılıçaslan’ın (2007) sözdizim tabanlı adıl çözümleme sisteminde, adıla paralel dilbilgisel role sahip isim öbeklerine, diğerlerine oranla öncelik tanınmıştır. Küçük ve Turhan-Yöndem (2007), sistemlerinin bilgi-yoksun doğasını koruyabilmek amacıyla özneye verilen önceliği tam anlamıyla kullanmayıp, bunun yerine daha özel bir durum olan yalın durum önceliğini kullanmıştır. Diğer yandan, Yıldırım ve Kılıçaslan (2007) durum ve dilbilgisel rol bilgisini tam olarak kullanmıştır.

Bağlama Kuramı açık ve gizli adıllar arasında belirgin bir ayrım yapar. Türkçe de adıl düşüren bir dil olarak bu açıdan özel bir ilgiyi hakeder. Önceki bölümde bahsedildiği gibi, adılların açık olması, bu dilde artgönderimsel gönderge üzerine yapılan ilk çalışmalardan (Erguvanlı-Taylan 1986, Enç 1986, Kerslake 1987, Turan 1996) beri dikkate alınan bir özellik olmuştur. Ayrıca bazı artgönderim çözümleme sistemlerinin de ilgi alanına girmiştir. Yüksel ve Bozşahin’in (2002) gönderge planlama

(38)

sisteminin görevlerinden biri de söylemin doğal yorumunu koruyarak gizli artgönderimleri oluşturmaktır. Küçük ve Turhan-Yöndem’in (2007) sistemi, gizli bir adılı dikkate alması gerektiğinde, önceliği önceki cümlelerde gizli adılların öncülü olan adaylara vermektedir. Adılın açık olması, Yıldırım ve Kılıçaslan’ın (2007) karar ağacı öğrenme modelinde de sınıflandırma için kullanılan özelliklerden biridir.

Đfadelerin sözlüksel tipi, Bağlama Kuramında önemli rol oynayan diğer bir özelliktir. Bu kuramda, artgönderimsel ilişkiler üzerindeki sözdizimsel kısıtlar formüle edilirken, gerçek adıllar ve gerçek artgönderimler (dönüşlü ve işteşler) arasında bir ayrım yapılır. Beklenebileceği gibi, bu ayrım yukarıda bahsedilen sistemlerdeki çözümleme işleminde bir şekilde yer almıştır.

Anlamsal özellikler, göndergelere ilişkin canlılık, cinsiyet veya konum gibi birçok açıdan bilgi sağlar. Birçok araştırmacı öğrenme modellerini tasarlarken bu gibi özellikleri dikkate almıştır (Fisher vd. 1995, McCarthy 1996, Cardie ve Wagstaff 1999, Soon vd. 2001, Strube et al 2002, Ng ve Cardie 2002). Tın ve Akman’ın (1994) BABY-SIT çalışması, Türkçe söylem parçalarında artgönderimsel belirsizliği çözebilmek için bağlamdan elde edilen bireylerin cinsiyetleri, durumların zaman sıralaması gibi çeşitli anlamsal bilgileri kullanmaktadır. Tüfekçi ve Kılıçaslan’ın (2007) sistemi uygun bir öncül belirlemek için, bir ifadenin yer mi yoksa zaman mı belirttiğini de dikkate almaktadır. Yıldırım ve Kılıçaslan’ın (2007) öğrenme modeli, anlamsal bilgi olarak bir varlığın insan, hayvan veya cansız nesne olma durumlarını kullanmaktadır. Küçük ve Turhan-Yöndem (2007), bilgi-yoksun doğasına uygun olması için, benzer anlamsal bilgilerden sistemlerini uzak tutmaktadırlar.

Artgönderim çözümleme sistemleri oluşturulurken kullanılan bir başka sözlüksel bilgi ise kişi, cinsiyet ve sayı gibi uyum bilgileridir (Cardie ve Wagstaff 1999, Soon vd. 2001, Ng ve Cardie 2002, Strube vd. 2002, Yang vd. 2003). Türkçe’de artgönderim çözümlemesi için tasarlanan ve yukarıda bahsedilen sistemlerin tamamı sayıyı dikkate alan uyum bilgisinden yararlanmaktadır.

Konum bilgisi kullanılarak hesaplanan uzaklık özelliği, aday öncülün artgönderimden ne kadar uzakta olduğu bilgisini taşır. Bu özellik bilimsel yazında geniş bir kullanım alanı bulmuştur (McCarthy ve Lehnert 1995, Fisher vd. 1995, McCarthy

(39)

1996, Cardie ve Wagstaff 1999, Soon vd. 2001, Ng ve Cardie 2002, Strube vd. 2002, Yang vd. 2003). Hem Küçük ve Turhan-Yöndem’in (2007) hem de Tüfekçi ve Kılıçaslan’ın (2007) sistemlerinde, öncelik adıllara daha yakın olan adaylara tanınmıştır. Yıldırım ve Kılıçaslan’ın (2007) modelinde uzaklık, öğrenme boyutlarından biri olarak kullanılmıştır.

Öncülün konumu ve göndergesel durum özellikleri, deneylerin veri hazırlama aşamasında adıl-aday öncül çiftlerini otomatik olarak üretmek amacıyla kullanılmıştır.

Deneyler için seçilen özelliklerin, bilimsel yazında geniş bir kullanım alanı bulduğunu görmekteyiz. Değerlilik ölçümü yapıldığında bunların birçoğunun, deneylerde artgönderimsel ilişkilerin sınıflandırılmasına büyük katkı sağladığı da görülebilmektedir (bkz. Bölüm 5.5).

4.3. Derlemin Đşaretlenmesi ve Eğitim Verisinin Oluşturulması

Bu çalışmada, işaretleme işlemini yarı-otomatik olarak gerçekleştirebilmek için, ham metni işaretlemek ve özellik vektörlerini üretmek amacıyla kullanılan bir araç geliştirilmiştir. Bu araç, bir söylem parçasına aşağıdaki sırayla uygulanan 4 temel bileşenden oluşmaktadır:

1. Belirtke (token) ayırıcı, verilen bir söylem parçasını analiz ederek, cümle sınırları belirli kelime listeleri oluşturur.

2. Biçimsel çözümleyici, Zemberek kütüphanesini12 kullanarak, kategori, durum ve kişi-sayı bilgilerini her kelime için çıkarmanın yanında, adıl tiplerini de belirlemektedir.

3. Kullanıcı arayüzü, işaretleyici kişinin, biçimsel çözümleyicinin yapmış olabileceği hataları düzeltmesine, gizli adılları açık hale getirmesine, dilbilgisel rolü belirlemesine, isim ve adılların göndergesel durumlarını belirleyerek her adılın öncülünü işaretlemesine izin verir.

12

Zemberek, Türkçe için kök ve ek belirleme, yazım denetimi, heceleme gibi basit sözlüksel işlemleri gerçekleştirme amaçlı bir açık kaynak kütüphanesidir (http://code.google.com/p/zemberek/).

Referanslar

Benzer Belgeler

MADDE 5 – (1) Belediye itfaiye teşkilatı; 29/11/2005 tarihli ve 2006/9809 sayılı Bakanlar Kurulu Kararı ile yürürlüğe konulan, Belediye ve Bağlı Kuruluşları ile Mahalli

Mahkemece bilirkişi heyetimizden Temelli Belediye Meclisinin 09.08.2006 tarih ve 121 sayılı kararı ile kabul edilen 1/1000 ölçekli uygulama imar planı işlemi ile bu

Uyuşmazlığın teknik nitelikte bilgiyi gerektirmesi nedeniyle Mahkememizce verilen 13.12.2007 günlü karar uyarınca yaptırılan keşif ve bilirkişi incelemesi sonucunda

kullanımında iken Yenimahalle Belediye Mcclisi'nin 29.06.2001 gün ve 197 sayılı karan ile uygun görülen ve Ankara Büyükşehir Bclediye'sinin 10.12.2002 gün ve

ilkelerin, ulaşım sistemlerini ve problemlerinin çözümü gibi hususları göstermek ve uygulama imar planlarının hazırlanmasına esas olmak üzere 1/2000 veya 1/5000

10.03.2000 tarih ve 4061 sayılı Ankara Valiliği İl Milli Eğitim Müdürlüğü'nün yazısıyla o tarihteki parsel malikinin talebi üzerine 25 ada 1 parselde Meslek Lisesi

6 “ 5393 Sayılı Belediye Kanununun 20.maddesi gereğince, Belediye Meclisinin bir (1) aylık tatil ayının tespit edilmesi talebi görüşülmüş olup; yapılan oylamada 2009

282 “ Tekirdağ Merkez, Hürriyet Mahallesi 55 pafta, 1047 ada, 7 parselin imar planı değişikliği talebi görüşülmüş olup; yapılan oylamada talebin imar