• Sonuç bulunamadı

Vektör uzay modelinin kısıtlarını belirtirken üç kısıta sahip olduğunu belirtmiştik. Birinci kısıt olan eşanlamı ve çokanlamlı kelimeleri ayırt edememe sorununun GAD yöntemi ile çözümlendiğini ortaya koymuştuk. Diğer iki kısıt olan, kelimelerin bir arada kullanılmaları nedeniyle, tekil olarak kullanımlarından daha farklı anlam taşımaları ve kelimelerin cümle içindeki yerinin anlam için önemli olduğu noktalarının GAD ile çözümlenemediğini ve buna yönelik tez çalışması kapsamında GAD yöntemini geliştiren bir çözüm önerdiğimizi söylemiştik.

GAD yöntemi kelimeleri tek başlarına, anlamlarını hesaba katmadan istatistiki yöntemlerle ele alır ve kullanım örüntülerini bulur. Bu yaklaşım doğru sonuçlar vermekle birlikte Türkçe gibi, kelimelerin yan yana kullanım şekillerine göre anlamlarının değiştiği, kuvvetlendiği veya zayıfladığı diller için iyileştirilmesiyle, daha uygun sonuçlar üretecek hale getirilebilir.

Türkçe’de kelimelerin cümle içinde fiile yakınlığına bağlı olarak, anlama kattığı değer farklılaşmaktadır. Örneğin “Ahmet bugün camı kırdı” cümlesinde vurgu cam üzerinedir. “Ahmet camı bugün kırdı” dersek konu zaman odaklı hale gelmiş olur. Aynı cümleyi “Bugün camı Ahmet kırdı” şeklinde kurduğumuzda ise anlam Ahmet üzerine yoğunlaşır. Görüldüğü gibi dört kelimeden oluşan basit bir cümlenin kelimelerinin yerlerini değiştirdiğimizde, ana konu farklılaşabilmektedir.

Diğer bir husus da kelime gruplarının, kendilerini oluşturan kelimelerden daha farklı bir anlam içermesinde ortaya çıkar. Mesela “kurt adam öldü” cümlesindeki “kurt adam” ile “kurt adam öldürdü” cümlesindeki kurt ve adam kelimeleri tamamen farklı anlamlarda kullanılmıştır. Daha çarpıcı bir örnek aşağıdadır.

• verimli bir şirket nasıl olur ? • bir şirket nasıl verimli olur ? • nasıl bir şirket verimli olur ?

Bu üç cümlenin sorgu olduğunu düşünürsek, kelimeleri tek başlarına ele alan bir yöntem olan GAD, hepsi için aynı belgeleri döndürecektir. Oysa aranılan belgeler farklıdır.

Özellikle büyük belge yığınları içinden arama yapıldığı durumlar söz konusu olduğu için, bu sorgu ifadelerine uygun farklı belgeler bulunabilir ve bu belgelere ulaşmak için bir yöntem geliştirilmelidir (Hornick vd., 2004).

5.1 N-gram Yöntemi

N-gram yöntemi, bir metnin hangi dilde yazıldığını bilgisayar tarafından belirleyebilmek amacıyla kullanılan istatistiki bir yöntemdir. Bunu kelimeleri oluşturan harflerin yan yana gelme örüntülerine bakarak yapar (Ekmekçioglu vd., 1996). Örneğin bilgisayar kelimesinin n-gramları: 2-gram

b bi il lg gi is sa ay ya ar r 3-gram

b bil ilg lgi gis isa say aya yar r

her dilin kelimelerinin 2-gram, 3-gram gibi n-gram örüntüleri farklıdır. Bu yaklaşımla bir metnin hangi dille yazıldığı belirlenebilir [9] .

5.2 GAD ile N-gramın Birleştirilmesi

GAD yönteminin kelimeleri tek tek ele almasına alternatif olarak metin içinde kelimelerin yan yana kullanımları ile oluşan ikili, üçlü ve n’li kullanım şekillerini ele alması sağlanabilir. Bu durumda Türkçe gibi, kelime anlamlarının tek başlarına değil, birbirlerine göre cümle içindeki yerlerine göre değiştiği diller için daha uygun bir indeksleme ve sorgulama elde edilmiş olur. Kelime içindeki harflere uygulanan n-gram yöntemini, cümle içindeki kelimelere uygulayarak, oluşacak ikili, üçlü, n’li kelime gruplarını GAD yöntemi ile işlemek mümkündür.

Tez çalışması kapsamında GAD yönteminin kullandığı terim uzayı 2-gram ve 3-gram terimlerle genişletilmiş ve belge madenciliği çalışmaları bu uzay üzerinde gerçekleştirilmiştir. GAD ve n- gram destekli GAD yöntemleri arasındaki performans karşılaştırmaları için hem İngilizce hem Türkçe belge setleri üzerinde test yapılmıştır. Bu testlerde gerek sorgulama gerekse de kümeleme çalışmaları yapılarak somut sonuçlar üretilmiştir. Bunlar 6. bölümde detaylı olarak anlatılacaktır.

5.3 Konuyla İlgili Çalışmalar

Türkçe için olmamakla birlikte terimler ve 2-gram terimlerle oluşturulan bir uzayda belgelerin gösterimini yapan ve bu uzayda belge madenciliği çalışmalarını gerçekleştiren girişimler bulunmaktadır. Tez çalışmamız ile karşılaştırıldığında bu yöntemler

1- Türkçe için daha önce yapılmamıştır 2- GAD yöntemini kullanmamıştır

3- 3-gram terimleri, terim uzayına dahil etmemiştir.

Bu çalışmaları iki sınıfta toplamak mümkündür.

1- terimlerle birlikte 2-gram terimleri birlikte kullananlar 2- terimleri kullanmayıp sadece 2-gram terimleri kullananlar

Sezgisel ve istatistiksel olarak ikinci yöntemin birinciye göre daha zayıf bir performans gösterdiği sonucuna varılmıştır. Sadece terimleri kullanan yöntemlerin başarısı ispatlanmıştır ve 2-gram terimler kullanarak bu performans artırılabilir.

Bu konuyla ilgili çalışmalar aşağıda paylaşılmıştır:

- Diederich (Diederich vd., 2003) çalışmasında belgelerde, belge yazarlarının etkisini ölçümlemek için, belgeleri sınıflamış ve bu sınıfların yazarlarla ilişkisine bakmıştır. Çalışmasında Destek Vektör Makinesi (DVM) - SVM (Support Vector Machine) - tekniğini kullanmıştır. Bu tekniği belgeleri oluşturan terimler üzerinde ve belgelerden elde ettiği fonksiyonel kelimeler ve bu kelimelerin 2-gram biçimlerinden oluşan terim uzayında çalıştırmıştır. Burada bahsedilen fonksiyonel kelimelerle belgelerden elde edilen özel kelimeler anlatılmaktadır. Bu özel kelimelerin içine atılabilir kelimeler (stopwords), isimler, fiiller ve sıfatlar dahil değildir. Sonuç olarak çalışmaları göstermiştir ki sadece terimlerin kullanımı ile daha başarılı sonuçlar üretilmektedir.

- Zhang and Lee (Zhang vd., 2003) çalışmalarında tekil olarak terimleri kullanarak metin sınıflaması yapmışlar ve bu işlemi gerçekleştirmek için beş farklı sınıflama yöntemini test etmişlerdir. Bunlar kNN (k en yakın komşular)-k-nearest neigbour, Naive Bayes, karar ağacı - Decision Tree, SNoW ve DVM teknikleridir. Daha sonra bu teknikleri n-gram

terimlere de uygulamışlardır. Kullandıkları veri seti ise TREC10 QA data setidir. Çalışmalarının neticesi olarak iki yaklaşım arasında fala bir değişiklik görmediklerini belirtmişlerdir

- Koster ve Seutter ( Koster vd., 2003) ise çalışmalarında tekil terimler ve 2-gram terimleri kullanarak EPO1A veri seti üzerinde Rocchio and Winnow sınıflama teknikleri kullanarak test gerçekleştirmişlerdir. Elde ettikleri neticelerle 2-gram terimleri kullanmanın her iki teknik için de başarılı olmadığı ancak hem terimler hem de 2-gram terimleri kullanmanın ise her iki teknik için de başarı oranını büyük ölçüde artırdığını ortaya koymuşlardır. - Tan (Tan vd., 2002) Naive Bayes sınıflama tekniğini kullanarak tekil terimleri 2-gram

terimlerle birleştirerek belgeleri sınıflandırmıştır. Elde edilen sonuçlar başarısız olmuştur. Bunun sebebi olarak Naive Bayes tekniğinin sınıflama için zaten güçlü bir teknik olmaması gösterilebilir. Ayrıca 2-gram terimleri oluştururken kullandıkları özel bir yöntem de bu başarısızlığa katkıda bulunmuş olabilir.

- Caropreso (Caropreso M.F., Matwin S., and Sebastiani F., 2001) n-gram yaklaşımını Roochio sınıflama tekniği ile Reuters veri kümesinde test etmiştir. N-gram terimleri oluşturmak için izledikleri yöntem ise, bir cümledeki atılabilir kelimeleri attıktan sonra n adet ardışık kelimenin alfabetik olarak sıralanmasıdır. Test sonuçları ile 2-gram terimlerin genel olarak sınıflandırma sonucunu olumlu olarak etkilediği ispatlamışlardır.

Benzer Belgeler