Kaba Anlamsal Matrisin Belge Sınıflandırmada Kullanımı Sonuçları


Bu çalı¸smada ˙ITÜ Türkçe DD˙I Servisinin Tümcelerin ba˘glılık çözümleme uygulaması ve WEKA paketi içindeki sınıflandırma ve özellik seçimi algoritmaları kullanılmı¸stır. Metin Sınıflandırma Çalı¸smalarında kar¸sıla¸sılan en önemli sorunlardan biri metin verilerinin gösterimindeki boyut sayısının büyüklü˘güdür. Geleneksel yakla¸sımlarda, metinler o dilin farklı sözcükleri sayısınca boyutlarla gösterim edilmektedir. Türkçe gibi eklemeli dillerde sözcük kökleri kullanılarak boyut azaltılabilse de 1000’ler seviyesinde kalmaktadır. Bu çalı¸smada kaba anlamsal ve dil bilgisel gösterim matrisi kullanılarak % 86,10 do˘gruluk ile boyut 145’e dü¸sürülmü¸stür. Eski veriye kaba anlamsal bilgilerin de eklendi˘gi bir ba¸ska de˘gi¸sle DataSet-I ile DataSet-II’nin birle¸stirildi˘gi DataSet-III modelinde Naive Bayes yöntemi ile daha önceki en yüksek do˘gruluk de˘geri a¸sılarak 97,12 do˘gruluk elde edilmi¸stir.

7.4 ˙Ileriki Çalı¸smalar

Çalı¸smamız giri¸s tümcelerini DD˙I Ba˘glılık çözümleyiciden almaktadır. Eryi˘git ve takımı ˙ITÜ DD˙I ba˘glılık çözümleyicinin yeni güncellemeleri üzerine çalı¸smaktadır.

Ba˘glılık Çözümleyicideki iyile¸smeler do˘grudan do˘gruluk de˘gerlerimizi etkileyecektir. Di˘ger yandan kavram sözlüklerinin kapsamının artırılması ve yeni konu ba¸slıkları eklenmesi kavram bulmadaki do˘grulukları ve kaba anlamsal temsilin gerçek anlamla olan benzerli˘gini artırabilir. Tezimizde Levin sınıfları sadece eylemler çevirilerek olu¸sturulmu¸stur. Bunu bir dil bilimci ile Türkçeye özgü bir biçimde olu¸sturmak gerekmektedir. Bu haliyle de ba¸sarılı sonuçlar almada yeterli olan çalı¸smamız bahsedilen de˘gi¸siklikler yapıldı˘gında daha da yüksek do˘gruluk de˘gerlerine ula¸sabilecektir.

Tümcenin kaba anlamsal matrisi pek çok uygulamada kullanılarak katkısı de˘ger-lendirilebilir. Türkçenin düzenli tümce yapısı ve düzenli yüklem yapısı bu çalı¸smanın esin kayna˘gı olmasına kar¸sın, öbek kavram temsili tüm diller için kullanılabilecek bir yöntemdir.


Ad Soyad: ˙Ilknur Dönmez

Do˘gum Yeri ve Tarihi: U¸sak 1979

Adres: Cumhuriyet Mah. Erguvan Sok. Enez Sitesi 1/3/8 Küçükçekmece, ˙Istanbul E-Posta: ilknur.buyukkuscu@hotmail.com ; buyukkuscu@itu.edu.tr

Lisans: ˙Istanbul Teknik Üniversitesi Elektronik ve Haberle¸sme Mühendisli˘gi Y. Lisans: Ege Üniversitesi Matematik Bölümü

Mesleki Deneyim ve Ödüller: 5 yıl Vestek/Vestel Elektronik A. ¸S.’de ArGe departmanında gömülü TV yazılımı alanında uzman yazılımcılık ve proje liderli˘gi, 5 yıl Petrol Ofisi Genel Müdürlü˘günde Bilgi Teknolojileri bölümünde havacılık otomasyonu ve positive kart projelerinde proje yöneticili˘gi yaptım. Halen ˙Istanbul Teknik Üniversitesinde DPT Destekli ˙Ingilizce Türkçe Makina çevirisi projesinde çalı¸smaktayım.


Dönmez, ˙I., Adalı, 2015: Extracting phrase-content pairs for Turkish sentences. In Application of Information and Communication Technologies (AICT), 2015 9th International ConferenceOctober 2015 pp. 128-132. IEEE.

Dönmez, ˙I., Adalı, E. 2015: Türkçe Tümce Çözümlemede Vektör Yakla¸sımı. Afyon Kocatepe University Journal of Science Engineering, 15(3).

Dönmez, ˙I., Adalı, E. 2016: Turkish Document Classification with Coarse-grained Semantic Matrix. 17th International Conference on Intelligent Text Processing and Computational Linguistics; April 3–9, 2016, Konya, Turkey