• Sonuç bulunamadı

2. TAMLAMALAR

2.2 İsim Tamlamaları

Tamlayanın tamlananı herhangi bir şekilde belirttiği birden fazla söz öbeğine isim tamlaması denir. İsim tamlamalarında tamlayan kısımın son kelimesinin aldığı tamlayan ile tamlananın arasındaki ilişkiyi kuvvetlendiren eke tamlayan eki, tamlanan kısımda ise ana kelimenin aldığı iyelik ekine tamlanan eki denir. İsim tamlamaları tamlayan ve tamlananın aldığı eklere göre dört ana çeşide ayrılır:

Belirtili İsim Tamlaması Belirtisiz İsim Tamlaması Takısız İsim Tamlaması Zincirleme İsim Tamlaması

Şekil 2.1’de de Türkçe’nin tamlama hiyerarşisi görülmektedir.

İsim tamlamaları tıpkı sıfat tamlamaları gibi çok geniş bir alana sahiptir. Tamlayanın bir kelime olan tamlamaların yanısıra tamlayanın bir sıfat tamlaması olduğu, tamlayanın isim fiiller sayesinde bir ifade içerdiği, tamlayanın da kendi içerisinde bir

10

isim tamlaması olduğu vb gibi kategoriler genişletilebilir. Bu kategorilere ait örnekler Şekil 2.6, Şekil 2.7, Şekil 2.8, Şekil 2.9 ‘daki gibidir:

Şekil 2.6 : En basit yapıdaki isim tamlaması

Şekil 2.7 : Tamlayanı bir sıfat tamlaması olan isim tamlaması.

Şekil 2.8 : İsim- fiil sayesinde tamlayanın bir ifade halindeki isim tamlaması

Şekil 2.9 : Tamlayanın da ayrı bir isim tamlaması olduğu isim tamlaması Örneklerde de görüldüğü gibi isim tamlamaları da tıpkı sıfat tamlamaları gibi tamlayanın ve tamlananın isim soylu sözcüklerden oluşması ve tamlayanın tamlananı belirtmesi koşuluyla sınırsız şekilde tamlama elde edilebilir. Bu sonuç Türkçe’ nin sondan eklemeli yapısının bir sonucu olan zenginliğinin ortaya çıkardığı bir durumdur.

11 2.2.1 Belirtili isim tamlaması

Tamlayanın ve tamlananın tamlama ekini aldığı isim tamlamalarıdır. Her iki öğeninde ek alması durumu anlam olarak tamlamayı daha net ve duru hale getirmektedir. Tamlama ekleriyle beraber çeşitli örnekler Şekil 2.10, Şekil 2.11, Şekil 2.12, ve Şekil 2.13 ‘ teki gibidir:

Şekil 2.10 : En basit yapıdaki belirtili isim tamlaması

Şekil 2.11 : Tamlayanı sıfat tamlaması olan belirtili isim tamlaması

Şekil 2.12 : Tamlayanın isim-fiil olduğu bir belirtili isim tamlaması

Şekil 2.13 : Tamlayanın ve tamlananın sıfat tamlaması olduğu isim tamlaması 2.2.2 Belirtisiz isim tamlaması

Belirtisiz isim tamlamalarında, tamlayan, tamlayan eki almaz, sadece tamlanan,

12

tamlanan eki alır. Anlamda tamlayana aitlik vugusu belirtili isim tamlamasına göre daha azdır. Tamlayan ek almadığı için çok kullanılan belirtisiz isim tamlamalarının zamanla bileşik isme dönüştüğünün örnekleri fazla sayıda mevcuttur. Belirtisiz isim tamlamalarına ait bir takım örnekler Şekil 2.14, Şekil 2.15, Şekil 2.16, ve Şekil 2.17 deki gibidir:

Şekil 2.14 : En basit belirtisiz isim tamlaması

Şekil 2.15 : Tamlayanı sıfat tamlaması olan belirtisiz isim tamlaması

Şekil 2.16 : Tamlayanı isim-fiil olan belirtisiz isim tamlaması

Şekil 2.17 : Tamlayanı sıfat tamlaması olan belirtisiz isim tamlaması

13 2.2.3 Takısız isim tamlaması

Bu isim tamlaması türünde tamlayan ve tamlanan tamlama eki almaz. En basit ve sade isim tamlaması türüdür. Çoğu zaman sıfat tamlamalarıyla ayırt edilemez ve bu konuda belirsizlik taşırlar

Bu belirsizlik eğer tamlayan tamlananın neden yapıldığını belirtiyorsa takısız isim tamlaması belirtmiyorsa sıfat tamlaması olarak kabul edilir. Veya –den eki tamlayana getirildiğinde anlam bozulmuyorsa veya tamlayan ile tamlanan arasına “gibi” edatı getirildiğinde anlam bozulmuyorsa bu tamlama takısız isim tamlaması olarak kabul edilir. Ek almadığı için diğer isim tamlamalarında olduğu gibi yaygın bir kullanım alanı yoktur, sadece bir şeyin neyden yapıldığını anlatmak için kullanılır.

Takısız isim tamlamarıyla alakalı olarak örnekler Şekil 2.18, Şekil 2.19, Şekil 2.20, ve Şekil 2.21’deki gibidir:

Şekil 2.18 : Basit bir takısız isim tamlaması

Şekil 2.19 : Bir diğer takısız isim tamlaması

Şekil 2.20 : Bir diğer takısız isim tamlaması

14

Şekil 2.21 : Bir diğer takısız isim tamlaması 2.2.4 Zincirleme isim tamlaması

Bu isim tamlaması çeşidi ise isim tamlamalarının içerisinde en karmaşık ve büyük çaplı olanıdır. En az üç kelimeden oluşur. Bunun sonucu olarak da iki isim tamlamasının içiçe geçmiş hali zincirleme isim tamlaması olarak kabul edilir.

İçerisinde sıfat bulunan herhangi bir belirtili veya belirtisiz isim tamlaması, zincirleme isim tamlaması olarak kâbul edilmez.

Zincirleme isim tamlaması örnekleri Şekil 2.22, Şekil .2.23, Şekil 2.24 ve Şekil 2.25‘

deki gibidir:

Şekil 2.22 : Basit bir zincirleme isim tamlaması

Şekil 2.23 : Bir sıfat tamlaması + bir isim tamlaması olan isim tamlaması

Şekil 2.24 : İki tamlamadan oluşan bir diğer örnek.

15

Şekil 2.25 : Daha karmaşık bir diğer örnek

Zincirleme isim tamlamaları ilk bakışta, aralara sıfat girmiş bir belirtili veya belirtisiz isim tamlamasına benzeyebilir fakat bu ikisini ayırmanın en önemli ve tek bir yolu belirtisiz veya belirtili isim tamlamalarında tamlayan veya tamlanan hiçbir zaman bir isim tamlaması oluşturamaz fakat zincirleme isim tamlamalarında tamlayan veya tamlanan dan en az biri belirtili, belirtisiz veya takısız isim tamlamasıdır.

16

17 3. KOŞULLU RASTGELE ALANLAR

KRA, Lafferty ve arkadaşları (Lafferty, 2001) tarafından önerilen istatistiksel dizilim sınıflandırmasına dayanan bir makine öğrenmesi yöntemidir (Kazkılınç, 2013). Dizilim içerisindeki her birim bir etikete sahiptir. Ve her bir birime atanmaya çalışılan aday etiketlerin olasılıkları hesaplanır. Aday etiketler arasında olasılık dağılımı hesaplandıktan sonra en çok olasılık değerine sahip olan etiket birime verilir.

Bu mantıkla, KRA modelini P ( y*| x*) olasılık hesabı ve bu hesabın maximize edilmesi üzerine kurulu olan bir model olarak kabul edersek, X* = x1, x2, x3, …, xn

sisteme girdi olarak verilen dizilimi, Y* = y1, y2, y3, y4, y5,…, yn sistemden alınan her bir birime ait çıktı etiketlerini temsil eder.

Buna göre model bağıntı 1 ile formulize edilebilir:

𝑝𝜃 (𝑦|𝑥) = 1 2013). Bu faktör bağıntı 2'deki gibi formulize edilebilir:

𝑍𝜃 (𝑥) = ∑ exp {∑ ∑ 𝜃𝑘𝑓𝑘(𝑦𝑡−1, 𝑦𝑡, 𝑥𝑡 değiştiren parametrelerdir. yt-1 bir önceki girdinin etiketi, yt sıradaki girdinin etiketi ve xt ise sıradaki girdinin kendisidir. Nitelik fonksiyonları, makine öğrenmesinde kullanılmak istenen nitelikleri belirleyen fonksiyonlardır.

18

KRA, bir dizilim sınıflandırıcı olarak kullanıldığı için doğal dil işleme ile ilgili uygulamalarda diğer yöntemlere nazaran çok daha iyi sonuçlar vermektedir (Dhanalakshmi, 2009). Ayrıca KRA, MEMMs in de sağladığı avantajları bünyesinde taşır ve etiketleme de meydana gelen sistematik yanılgı problemini ortadan kaldıran bir yöntemdir. Bunun yanı sıra Saklı Markov Modeli ve stokastik gramerlerin dezavantajlarınında üstesinden gelmiş bir yöntemdir (Dhanalakshmi, 2009).

3.1 KRA Aracının Kullanımı

KRA, CRF++ isminde, açık kaynak kodlu, kullanımı basit ve çok çeşitli uygulamalara uyarlanabilir bir araç aracılığıyla kullanılmıştır. Ardışıklık arz eden veriler üzerinde bölümleme veya etiketleme işlemi amacıyla kullanılan bu araç, bilgi çıkarımı, öbekleme ve varlık ismi tanıma gibi birçok doğal dil işleme uygulamalarında kullanılmıştır.

CRF++ aracının yazılım paketi (Kudo,2013) her makine öğrenmesi tekniğinde olduğu gibi iki kısımdan oluşmaktadır:

CRFLearn: Hazır işaretlenmiş eğitim verisini alarak modelin eğitilme işlemini gerçekleştirir.

CRFTest: Modeli ve işaretlemeye hazır olan veriyi alarak işaretlenmiş halini çıktı olarak üretir.

Bu iki kısımdan birinci kısım, veriyi her bir satırda bir eleman, ve her bir kolonda bir nitelik ve enson kolonda ise sınıf etiketi olması şartıyla alarak modeli eğitir. Her iki cümlenin arasına istenirse bir boş eleman konulabilir. Şekil 3.1’de eğitime hazır veri kümesinden bir kesit verilmiştir:

Şekil 3.1 : Araç tarafından eğitilmeye hazır bir eğitim verisi Eğitilmek için uygun formata getirilen eğitim verisinin yanısıra CRF++ aracının bize

19

sağladığı avantajlardan biri olan ve bize eğitim verisindeki kolonlarda bulunan özelliklerin değişik kombinasyonlarını kullanma fırsatını veren nitelik şablon dosyasını kullanır. Bu dosyada sırasıyla kombinasyonlar alt alta yazılır. Her bir kombinasyonun içinde hangi özelliklerin olacağı [pozisyon numarası,kolon numarası] formatında belirtilir. Pozisyon önceki, sonraki veya mevcut elemanın pozisyonunu, kolon numarası ise eğitim verisindeki hangi özelliği seçtiğini belirler.

Örneğin şablonda [0,3] yazması demek mevcut elemanın 3. Kolonundaki özelliğinin alınması demektir.[-1,3] ise bir önceki elemanın 3. Kolonundaki özelliğinin alınması demektir. İki veya daha fazla özelliğin bir kombinasyon şeklinde belirtilmesi ise ,

[pozisyon numarası, kolon numarası] /%x[pozisyon numarası, kolon numarası]

biçiminde belirlenir. Şekil 3.2’de nitelik kombinasyon şablonu dosyasından bir kesit verilmektedir:

Şekil 3.2 : Aracın kullanacağı nitelik sablonu dosyasından bir kesit.

Şekil 3.2’deki kesittende görüldüğü gibi her bir satırda bir nitelik kombinasyonu bulunmaktadır. “U” ile başlayan kısım nitelik kombinasyon numarası diğer

20

kısımlarda yukarıda da anlatıldığı gibi [pos,kolon] formatında kodlanan niteliklerin uni-gram, bi-gram, tri-gram vb. şeklinde belirtilen kombinasyonlarıdır. Sonuç olarak CRF++’nin eğitim kısmı yukarıda belirtilen uygun formata getirilmiş eğitim verisini ve nitelik kombinasyon şablon dosyasını kullanarak veriyi eğitir ve bir model üretir.

CRFTest ise CRF++’ın sonuç üretme kısmıdır. Bu kısım için üç tane bileşen gereklidir.

Birincisi, test verisinin uygun formata getirilmiş halidir. Bu format mutlaka eğitim verisi için hazırladığımız formatın sadece en son kolonu olan sınıf etiketlerinin bulunduğu kolonun çıkarılmış halidir. Şekil 3.3’de yukarıda eğitim verisi için olan formatın test verisi için hazırlanması gereken format versiyonu verilmiştir:

Sincaplar sincap Noun false false çabuk çabuk Adj false false

hareket hareket Noun false false ederler et Verb false false . . Punc false false

Şekil 3.3 : Araç tarafından kullanılacak olan test verisi.

Şekil 3.3’de görüldüğü üzere eğitim verisinden sadece bir kolonu, yani sınıf etiketlerinin bulunduğu eksiktir.

Bileşenlerin ikincisi ise, aynı modelin eğitiminde kullanıldığı nitelik kombinasyon şablonu dosyasıdır. Modelin eğitimi esnasında kullanılan birebir aynısı olmak zorundadır.

Bileşenlerin üçüncüsü ve en önemlisi model dosyasıdır. Eğitim sonucunda oluşan model dosyası kullanılır. Üretilen sonuç, yine eğitim verisi formatında en son kolonda sınıf etiketleri bulunmak koşuluyla çıktı olarak verilir.

Bu aracın en iyi n tane sonucu üretme opsiyonu bulunmaktadır. Eğer üretilen sonuç sayısı parametresi (n) birden daha fazla verilirse araç her bir eleman için en iyi olasılık değerine sahip n tane sonuç üretir.

21

Şekil 3.4 : Araç tarafından üretilen çıktı verisi.

Şekil 3.4’te verilen çıktıdan bir kesit bulunmaktadır: Bu kesitte n 2’dir En üst kısımda birer satır halinde görülen her grubun başında kaçıncı iyi sonuç olduğu ve

22 olasılık değeri verilir.

23 4. CÜMLE YAPISI VE BAĞLILIK ANALİZİ

Cümle, dili ifade eden en küçük yapı birimidir. Cümlenin makineler tarafından yorumlanabilmesi için çözümlenmesi ve analiz edilmesi gerekmektedir. Cümle Türkçe dilbilgisinin tanımlamasına göre Türkçe bir cümle, dört ana öğeden

Özne, cümlede yüklem vasıtasıyla belirtilen oluş veya eylemin sahibidir.

Tümleç, yüklemi niteleyen veya belirten öğelerdir.

Nesne, cümlede yüklemin belirttiği eylemden etkileneni belirten kısımdır.

“Ali, annesinin verdiği parayı, marketten ekmek almak için kullandı.” Cümlesinde

“Ali” özne, “annesinin verdiği parayı” nesne, “marketten almak için” tümleç,

“kullandı ” ise yüklemdir.

Cümlenin büyüklüğü arttıkça, cümle içerisinde olan öğe yapısı ve aralarındaki bağlantılar daha da karmaşık hale gelmektedir.

4.1 Cümlelerin Bağlılık Analizi

Cümlede bağlılık analizi, cümlede yüklemden başlamak üzere, önce yüklem haricinde cümlenin ana öğelerinin yükleme bağlanması, ve öğelerin içerisindeki kelimelerin ise öğe içerisinde hiyeraşik olarak bağlantılarla birbirlerine bağlanmasıyla ortaya çıkan bir analizdir.

Bir örnek cümlenin bağlılık analizi Şekil 4.1’deki gibidir:

24

Şekil 4.1 : Bir cümlenin bağlılık analizi

Şekil 4.1’de de görüldüğü gibi en üst hiyerarşi düzeninde her bir cümle öğesi yükleme bağlanıyor. Bir alt seviyede öğeler kendi içerisinde hiyerarşik olarak birbirlerine bağlıdır. Bu bağlantıların tipi ve hangi kelimeden hangi kelimeye olduğu bilgisi cümlelerin sistematik bir şekilde incelenmesine imkan verir.

25 5. SİSTEM YAPISI

Sistemimizde kullanılan yapılar hakkında yapılan bilgilendirmeden sonra bu bölümde tez amacını gerçekleyen sistemin yapısını, bileşenlerini ve bileşenlerin işleyiş sırası hakkında detaylı bilgi bu bölümde verilecektir.

Sistem için iki ayrı yöntem kullanılmış ve bu iki yöntem için system yapısı ayrı ayrı incelenecektir.

Kural Tabanlı Yöntem

KRA Tabanlı Yöntem

Her iki yöntemde de metnin sistemin ana mekanizması tarafından işleme alınmadan önce gördüğü ön işlemler ve analiz işlemleri birebir aynıdır. Bu nedenle metni hazırlama modülü iki ayrı sistemde ayrı ayrı incelemek yerine bir başlık altında incelenmiştir. İlgili yöntem başlıkları altında metnin hazırlık işlemlerinin yeri açıklanmıştır. Metnin hazırlık işlemleri tamamlandıktan sonra işlenmiş metne ilgili yöntem uygulanmıştır.

5.1 Metnin Hazırlanması

Bu bölümde ham metin olarak sisteme giren veri işlenerek her iki yöntem için gerekli olan formata dönüştürülür ve metinle alakalı gereken bilgiler elde edilip her iki mekanizma için ilgili veri formatında ilgili sisteme gönderilir. Beş ana kısımdan meydana gelir:

 Metnin Normalizasyon Hatalarının Düzeltilmesi

 Metnin Cümlelere Ayrılması

 Metnin Kelimelere Ayrılması

 Metnin Biçimbilimsel Analizinin Yapılması

 Metnin Biçimbirimsel Belirsizliğinin Giderilmesi

26 5.1.1 Metnin normalizasyonu

Üzerinde çalıştığımız verilerin büyük çoğunluğunun web verisi olmasından dolayı metin normalizasyonuna ihtiyaç duyulmuştur. Bunun için (Eryiğit,2013) İ.T.Ü.

doğal dil işleme grubuna ait normalizasyon aracı kullanılmıştır. Normalizasyon işlemi, sesli harf düzeltme, sesli harf tamamlama, hece kontrolü, Türkçe karakterleri düzeltme vb. işlemleri kapsamaktadır.

5.1.2 Metnin cümlelere ayrılması

Normalize edilmiş metnin cümlelere ayrılma işlemi Türkçe’de cümleleri ayıran noktalama işaretlerinin herhangi biri görüldüğünde metni o noktadan itibaren bölme koşulunu çalıştırarak bölen bir mekanizma ile yapılmıştır. Dışarıdan referans herhangi bir araç kullanılmamıştır.

5.1.3 Metnin kelimelere ayrılması

Cümlelere ayrılmış metnin her bir cümlenin içerisindeki kelimelerin arasında bir veya birden fazla boşluk olduğunu kabul ederek sistemin kendi içerisinde verilen cümleleri kelimelere ayırabilecek geliştirme yapılmıştır. Bu yüzden bu işlem için de hariçten bir araç kullanılmamıştır.

5.1.4 Metnin biçimbilimsel analizinin yapılması

Biçimbilimsel çözümlemeye, birinci yöntem için cümle bağlılık analizi için gerekli olan bilgileri vermek ve ikinci yöntem için ise sınıflandırıcı için gerekli olan bilgileri vermek için gerek duyulmuştur. Bunun için Oflazer’in (Oflazer, 2013), (Beesly, 2013) Xerox sonlu durum makineleri üzerinde derlediği iki seviyeli çözümleyici kullanılmıştır.

Analiz sonucu çıkan veriye örnek verecek olursak;

“Kesinlikle Azkaban’a gönderilmek gibi bir niyetim yok.”

cümlesinin analiz sonucu Şekil 5.1’deki gibidir:

Şekil 5.1’de de görüldüğü gibi bazı kelimelerin biçimbirimsel analizi birden fazla bulunmaktadır. Örnek cümlede ki “kesinlikle” kelimesinin birden fazla analiz sonucu ürettiği şekilde görüldüğü gibidir.

27

Şekil 5.1 : Örnek cümlenin morfolojik analiz sonucu Şekil 5.2’dekş gibi bir başka örnek daha verecek olursak;

Burada:

28

Şekil 5.2 : Diğer örnek cümlenin morfolojik analiz sonucu

“Burada ne kadar süre kalacaksınız?” cümlesinin analizinden ne kadar çok ihtimal çıktığı Şekil 5.2’de görülmektedir. Bu nedenle analizini elde ettiğimiz verinin analiz verisini verimli ve etkin bir şekilde kullanmak için bu belirsizliklerin giderilmesi ve her bir kelimeye ait analiz sayısının bir olması gerekmektedir.

5.1.5 Metnin biçimbilimsel belirsizliğinin giderilmesi

Biçimbirimsel belirsizliğin giderilmesi için Sak ‘ın uygulaması (Sak,2007) kullanılmıştır.

Yukarıdaki örneklerin biçimbilimsel belirsizliğinin giderilmiş hali Şekil 5.3 ve Şekil 5.4’deki gibidir:

Şekil 5.3 : Örnek cümlenin morfolojik belirsizliğinin giderilmiş enson hali.

<S> <S>+BSTag

Şekil 5.4 : Diğer cümlenin morfolojik belirsizliğinin giderilmiş enson hali.

Elde edilen metin enson biçimbirimsel belirsizlik gidericiden de geçtikten sonra daha önceden bahsettiğimiz sınama verisi formatına sokulur. Ve o şekilde sınıflandırıcıya gönderilir.

5.2 Kural Tabanlı Yöntem

Bu yöntem ilk olarak kullanmış olduğumuz yöntemdir. Üç ana kısımdan oluşur:

29

 Sistem için metnin önişlemeden geçirilerek uygun formata dönüştürülmesi ve biçimsel çözümlemesinin yapılması.

 Biçimbilimsel çözümlemesinin yapıldığı verinin bağlılık analizinin çıkarılması.

 Çıkarılan bağlılık analiz bilgisini kullanarak daha önceden oluşturulmuş kuralların uygulanarak metnin üzerine tamlama bilgisinin atanması.

Sistemin yapısı Şekil 5.5 ‘te gösterilmiştir:

Şekil 5.5 : Sistemin Genel İşleyiş

“Dış ticaret açığı bir önceki aya göreyse yüzde 20, 4 arttı . “ cümlesinin birinci modülden geçirilmiş hali Şekil 5.6’daki gibidir:

30

Şekil 5.6 : Örnek cümlenin morfolojik belirsizliğinin giderilmiş en son hali.

Birinci modülden morfolojik olarak analiz edilmiş cümlenin cümle bağlılık analizi Şekil 5.7’deki gibidir:

Şekil 5.7 : Örnek cümlenin bağlılık analizi

Bu safhadan sonra oluşturduğumuz kurallar, bağlılık analiz bilgileri kullanılarak uygulanır.

5.2.1 Kural yapıları

Uygulanacak kuralları çıkarırken 250 cümleden oluşan bir geliştirme seti kullanılmıştır. İlk önce genel durumu görmek amacıyla geliştirme setindeki cümlelerin bağlılık analizinden çıkan bağıntıların isim tamlaması durumunu belirten etiketlere göre dağılımları çıkartıldı. Dağılımların detayı Çizelge 5.1’deki gibidir:

31

Çizelge 5.1 : Nitelik Komb. Göre Sınama Grubu Sonuçları

BAĞLILIK TİPİ BB BI BH B

Her bir kelimenin tamlama konumu ile ilgili olarak kural tabanlı sistem için 4 ayrı etiket kullanıldı (Ramshaw ve Marcus, 1995):

 B: Tamlamanın ilk kelimesi

 I: Tamlamanın ara kelimesi

 H : Tamlamanın ana kelimesi

 O: Tamlama dışı kelime

Bu tablodan çıkarılan ilk sonuç, B’ye giden bağlantı tipleri (BB, IB, OB, HB ) yok

32

denecek kadar az olması bir cümlede kendisine hiç bir bağlantı olmayan bir kelimenin potansiyel bir “B” olması anlamının çıkartılmasını sağlamıştır. Kural tabanlı sistem, bu sonuçtan başlayarak her bir cümlede her bir kendisine bağlantı olmayan kelime olan potansiyel ”B” olan kelimeden başlayarak bağlılıklar boyunca eklenerek devam eden aday tamlamalar aşağıda belirtilen üç koşuldan biri halinde sonlandırılması esasına dayandırılan bir sistem olarak tasarlandı. Tamlamaların sonlandırma koşulları aşağıdaki gibidir:

 Yükleme bağlanıyorsa

 Object veya subject olarak herhangi bir isim – fiil ,bağ-fiile, edat, zarf veya fiile bağlanıyorsa,

 İsim Cümlelerinde yükleme bağlanıyorsa.

Ayrıca aday tamlamalarının her birinin ana kelimesinin isim veya isim soylu sözcük olması sağlanmıştır.

5.3 KRA Tabanlı Yöntem

İkinci ve ana yöntemimizdir. Sistem temel olarak dört ana bölümden oluşmaktadır:

 Sistem için metnin önişlemeden geçirilerek uygun formata dönüştürülmesi ve biçimsel çözümlemesinin yapılması.

 Daha önceden parametreleri optimize edilmiş model kullanılarak CRF++

aracı ile sınama işlemi yapılması

 Elde edilen etiketli verinin tekrardan işaretli veriye dönüştürülmesi

Daha önceden eğitilmiş ve optimize edilmiş model ile birlikte formatı hazırlanmış metni KRA sınıflandırıcıya verdiğimizde çıktı olarak isim tamlamalarının sınırları belli olan veriyi alabiliriz. Sadece yapmamız gereken ek işlem sınıflandırıcıdan gelen sınır etiketlerine göre cümlelerdeki ilgili yerlerdeki isim tamlamalarını işaretlemektir Sistemin genel yapısının özeti Şekil 5.8’ de gösterilmiştir.

33

Şekil 5.8 : Sistemin Genel İşleyişi

34

35 6. SINAMA

Bu bölümde ana yapısının bir önceki bölüm.de verilen sistemin optimizasyonu ve en iyi sonuca ulaşması için gerçekleştirilen testler ve sonuçları verilecektir. Bunun için ilk önce eğitim ve sınama veri setleri, daha sonra grup testlerinde kullanılan metriklerden bahsedilecektir. Daha sonra sınama grupları ve elde edilen test sonuçları en basitinden en karmaşığına doğru ilerleyen bir şekilde verilecektir.

6.1 Kullanılan Veri Kümeleri

Kural tabanlı sistemimiz için 500 cümlelik işaretlenmiş test verisini 250 cümlesi geliştirme kümesi 250 cümlelik kısmı ise sınama kümesi olmak üzere iki eşit parça halinde kullanılmıştır. Kuralları 250 cümlelik geliştirme kümesi üzerinde geliştirmiş, sınamalarını ise diğer 250 cümlelik sınama veri seti kullanılarak alınmıştır. Bu 500 cümlenin içerisinde el ile işaretlenmiş 805 tane isim tamlaması bulunmaktadır.

Tezin amacını gerçekleştirmek için tasarladığımız ikinci sistem bir makine öğrenmesi tekniği kullanması sebebiyle eğitim ve sınama veri kümeleri olmak üzere iki çeşit veri kümesine ihtiyaç duyulmuştur.

Birinci sınama grubunda ise 600 K lık bir web derleminden seçilmiş ve (yukarıda kural tabanlı sistemde de kullanılan) 500 cümlelik bir test verisi işaretlenmiş, ve geri kalan derlemden ise bazı parametreler kullanılarak 221534 cümlelik bir eğitim kümesi elde edilmiştir. Bu eğitim kümesinin üzerindeki çalışmalar ise yine eğitim kümesine seçilen cümlelerle alakalı olduğu için eğitim kümesinin verileri sonuçlarla beraber verilecektir.

İkinci sınama grubunda ise yine 500 cümlelik aynı test seti kullanılmıştır. Yine 221534 cümlelik veri seti üzerinde seçme işlemleri yapılmıştır.

Üçüncü sınama grubunda, bu kez 1M sayıda alınan bir derlemden 100K ‘lık ve 200K’lık cümle (Yıldız ve Tantuğ, 2012) seçilmiş ve bu cümle sayıları eğitim verisi olarak kullanılmıştır. Bu derlemlerin testinde yine 500 cümlelik test kümesi kullanılmıştır.

36

6.2 Eğitim Verisinin Otomatik Olarak Elde Edilmesi

Tezimizin amacı olan isim öbeklerinin bulunması için kullanılan yöntem bir makine öğrenmesi tekniğidir. Bunun için hazır olarak işaretlenmiş veri kümesi gerekmektedir. Bu gereksinimi karşılamak için el ile işaretleme yapmak yerine aşağıdaki adımların izlenmesiyle eğitim verisinin otomatik olarak elde edilmesi sağlanmıştır. Bu yöntemin uygulanabilirliği için parallel derleme ihtiyaç duyulmaktadır.

 Türkçe cümlelerin karşılığı olan ingilizce cümleler Stanford Parser (Socher, 2013) aracı ile ingilizce cümlelerdeki birinci dereceden isim tamlamalarının

 Türkçe cümlelerin karşılığı olan ingilizce cümleler Stanford Parser (Socher, 2013) aracı ile ingilizce cümlelerdeki birinci dereceden isim tamlamalarının

Benzer Belgeler