• Sonuç bulunamadı

Doğal Dil İşleme ve Belge Veri Madenciliği

2. METİNLERİN ANALİZİ İLE BİLGİ OLUŞTURMA

2.4 Doğal Dil İşleme ve Belge Veri Madenciliği

Belgelerin analizi için, içeriğinin anlamını taşıyan kavramların tespit edilmesi gerekmektedir. Bu kavramlar kelimeler veya kelime grupları ile ifade edilir ve terimler olarak adlandırılır. Belge içindeki terimlerin çıkarılması başlı başına bir konudur ve doğal dil işleme çalışmaları kapsamında incelenen bir alandır. Doğal dil işlemenin belge analizi sürecindeki en önemli faydası terimlerin yani kelimelerin ayrıştırılması, eklerinden arındırılarak anlamını kaybetmeyen en kısa biçimlerine dönüştürülmesidir çünkü aynı anlam için kullanılan kelimeler dilbilgisi kuralları gereği farklı biçimlerde bulunabilir ve bu farklı kullanım biçimleri ortadan kaldırılmadığı takdirde farklı anlam taşıyan terimler gibi işleme alınarak, belgelerin gerçek anlamına ulaşılmasını engelleyebilirler. Doğal dil işleme çalışmaları kapsamında yürütülen girişimler dört ana grup altında toplanabilir [23].

- Biçimbirimsel çözümleme (Morfolojik analiz) - Sözdizimi çözümlemesi (Sentaktik çözümleme) - Anlam çözümlemesi (Semantik çözümlemesi) - Anlam kargaşasının giderilmesi

2.4.1 Biçimbirimsel Çözümleme

Kelimedeki köklerin ve o köklere gelen eklerin görevlerinin ayrıştırılmasını sağlar [23]. Mesela, Türkçe “geldim” kelimesinin çözümlemesi yapıldığında

gel+di+m

şeklinde bir açılım görürüz ve bunu bir ara forma çevirirsek “gel+fiil+geçmiş+1.tekilşahıs”

şeklinde ifade edebiliriz.

Aynı şekilde “evlerde” kelimesinin açılımı ev+ler+de

olarak yapılabilir ve

“ev+isim+3.çoğulşahıs +bulunma” şeklinde bir ara forma dönüştürülebilir.

Ancak, işler her zaman bu kadar kolay olmayabilir. Gerek Türkçe’de, gerekse diğer dillerde ses uyumu kuralları ve çeşitli durumlarda araya giren ya da düşen harfler, kurallarda oynamalar meydana getirebilir. Mesela, “yalıyla” kelimesi

“yalı+yla”

şeklinde açılırken, “sarayla” kelimesi “saray+la”

şeklinde açılacaktır. Aynı çoğul eki “ev+ler”

derken “e” harfi ile yazılırken, “araba+lar”

derken “a” ile yazılacaktır.

Tüm bu ses uyumu kuralları ve eklerin ayrılması morfolojik analiz çerçevesinde gerçekleşir. Bu durumun üstesinden gelebilmek için, ses uyumu kuralları ve ekler ayrı ayrı işleme tabi tutulur. Mesela, çoğul ekini göz önüne alırsak, tüm isimler için yalnızca tek çoğul eki varmış gibi işlem yapılır ve bu çoğul eki genel bir ifadeyle “lAr” olarak somutlaştırılır ve aradaki A harfinin hangi durumlarda a, hangi durumlarda e olarak çözümleneceği ses uyumu kurallarına göre belirlenir. Aynı şekilde, birliktelik eki “ylA” şeklinde ifade edilir ve y harfinin hangi durumda düşüp, hangi durumda kalacağı da gene ses uyumu kurallarına göre belirlenir.

Ses uyumu kuralları, hangi işaretin hangi durumda, ne şekle dönüşeceğini belirler. Mesela, yukarıda örneğini verdiğimiz A harfi için yazılacak bir kural şöyle olabilir: bu harften önceki sesli harfin “a, ı, o, u” harflerinden birisi olması halinde “a”, “e, i, ö, ü” harflerinden birisi olması halinde “e” şeklinde yazılır. Buna göre “ev+lAr” ifadesinde A’dan önceki sesli harf “e” olduğu için, A e’ye dönüşecek ve “ev+ler” şeklinde yazılacaktır. Aynı şekilde, “okul+lAr” ifadesindeki A da önceki sesli harf o olduğundan a’ya dönüşecektir. Yine, yukarıdaki birliktelik anlamı veren “ylA” ekinde A harfi bu kurala göre çözümlenirken, y harfi için yazılacak kural ise, bu harfin sessiz harften sonra gelmesi halinde düşeceği ve sesli harften sonra gelmesi halinde korunacağıdır. Bu durumda, “saray+ylA” ifadesinde A harfi, önceki sesli harf a olduğundan a’ya dönüşecek, saray kelimesi de sessiz harfle bittiğinden y harfi düşecektir. Fakat, “yalı+ylA” ifadesinde yalı kelimesi sesli harf ile bittiğinden y harfi korunacak ve yalıyla şeklinde yazılacaktır.

Bazen köklerin ve o kökün arkasından gelebilecek eklerin sırasının belirlenmesi, bir kelime için tek bir sonuç elde etmekte yeterli olmaz. Mesela, “kalem” kelimesi “kalem+isim+3.tekilşahıs” şeklinde açılabilecekken, “bana ait olan kale” anlamında “kale+isim+3.tekilşahıs+iyelik1.tekil” şeklinde de açılabilir. Morfolojik çözümleme yalnızca kelimeler üzerinde işlem yaptığı, daha önce ve sonra gelen kelimelerin etkisini göz önüne almadığı için, iki açılımı da doğru kabul eder ve doğru açılımı bulmayı daha üst seviyelere bırakır.

2.4.2 Sözdizimi Çözümlemesi

Cümleyi oluşturan kelimeler arasındaki ilişkiler, kelime grupları, tamlamalar vs. belirlenir [23]. Mesela,

“benim kitabın”

şeklindeki bir tamlama, biçimbirimsel çözümlemeden başarıyla geçtiği halde, sözdizimi yönünden hatalıdır. Çünkü, benim kelimesinden sonra gelen kelimenin -ım/-im 1. tekil şahıs iyelik ekini alması gerekir. Oysa, bu cümlede 2.tekil şahıs iyelik ekini (-ın) alarak hatalı bir yapıya sebep olmuştur. Benzer şekilde,

“Öğrenci geldik.”

cümlesi de söz dizimi açısından hatalıdır. Çünkü, cümlenin öznesi (öğrenci) 3. tekil şahıs olduğu halde, fiilin şahsı 1. çoğul şahıs olarak söylenmiştir.

.2.4.3 Anlam Çözümlemesi

Anlamlandırma ve anlam kargaşasını çözümleme oldukça zor bir iştir ve yalnızca kelime ya da kelimenin içinde geçtiği metnin çözümlenmesi yeterli olmaz. Buna ek olarak, önceden öğrenilmiş bilgilerin kullanılması da gerekir (23). Mesela, kalem kelimesinin

“yazı yazmakta kullanılan araç” ve “bana ait olan kale”

şeklinde iki çözümlemesi olabilir. “Kalemle yazdım”

cümlesini ele aldığımızda, kalem kelimesinin her iki anlama gelmesi, morfolojik ve sözdizim kuralları açısından mümkün olduğu halde,

“bana ait olan kaleyi kullanarak yazı yazdım” anlamını ifade edemeyeceğini ve çok büyük ihtimalle

“yazı yazmaya yarayan aracı kullanarak yazdım”

anlamına geleceğini söyleyebiliriz. Ancak, bu bilgiyi bu cümleden çıkartamayız. Daha önceden “kalem” ve “yazı yazmak” arasında bir ilişki olduğu öğrenilmiş olmalıdır. Aynı şekilde,

“Kalemi fethetti”

cümlesindeki kelimenin de “yazı yazmaya yarayan alet” değil de, çok büyük ihtimalle “bana ait olan, kalın duvarlar vasıtasıyla korunmaya yarayan yapı” anlamına geleceği sonucuna yine “kale” ve “fethetmek” arasındaki önceden bilinen bilgiyi kullanarak ulaşabiliriz.

Görüldüğü gibi belgelerdeki kelimelerin ayrıştırılması ve eklerinden arındırılması ve daha önceki birikimlerden elde edilen diğer kelimelerle birlikte kullanım şekilleri ve ilişkileri, belgelerin içeriğinin ortaya çıkarılmasında son derece önemli ve bir o kadar da çaba gerektiren bir süreçtir.

Tez konumuz çerçevesinde Türkçe belgelerin madenciliği için bir teknik geliştirilmiştir. Bu teknik içinde doğal dil işleme çalışmalarının bir parçası olan, belgeyi oluşturan kelimelerin ayrıştırılması ve köklerinden arındırılması önemli bir adım olarak yer almıştır.

Benzer Belgeler