BBY428 Metin Analitiği
Prof.Dr. Tülay Oğuz
GÖVDELEME
• Sözcük gövdeleri + sonekler yapısal/biçimsel varyasyonlar
• Kütüphane -ler biçimsel
• -ci yapısal Temel Problemler
• Anlamca ilgili, biçimsel olarak farklı
imkan, olanak (eş/zıt anlamlılar sözlüğü)
• Anlamca farklı, biçimsel olarak aynı yaz (isim)
yaz (fiil)
GÖVDELEME
• Amaç:
Dizinleme: Aynı gövdeye sahip terimleri tek bir gövdede birleştirmek
Dizin girişleri azaltılmış olur Dizin: Dokümanı temsil eden dizin
terimlerinin azalması dizinin boyutunu küçültür.
Dizinin kapladığı depolama alanını ve dizinde arama zamanını azaltır.
Erişim: Dok-sorgu terimlerinin eşleşmesini sağlamayı ve recall’u artırmayı amaçlar
GÖVDELEME
• Algoritma:
Sözcük gövdesine bitişen eklerin
budanması Burada belirli kurallar uygulanır, sonek listesi kullanılır, tekrarlayıcıdır.
• Yaklaşımlar
Dört yaklaşım vardır.
1- Tabloda Arama: Terimler ve gövdeleri bir tabloda tutulur; hem dizinleme hem de erişim için kullanılır.
GÖVDELEME
2- Soneklerin Çıkarılması
3- Harflerin Görünüm Sıklığına Bakma: Test
edilecek sözcükte belirli bir karakter sayısı esas alınır ve bundan sonraki harf varyasyonlarına
bakılır;harflerin görünüm frekansı hesaplanır; en yüksek frekans belirlenir; sözcüğün biçimsel
yapısı bulunmaya çalışılır.
4- N-gram: Harf /sözcük düzeyinde yapılabilir; n tane ardışık gelen harf ya da sözcüğe bakar.
Lovins Algoritması
• Sözcüklerin yapım ve çekim eklerinden
arındırılarak ortak bir gövdede birleştirilmesini sağlar.
• Gövde elde edilirken eklerin tutarlı biçimde çıkarılması önemlidir. Bunun için kurallar geliştirilmiştir. Tekrarlayıcı bir süreçtir.
Lovins Algoritması
• İki aşamalı gövdeleme uygulanmıştır.
1. Aşama: En Uzun Eşleşme (longest
match): En uzun ekten başlayarak budama yapmak. (-ation, -ion)
Sonek listesinde ekler, azalan uzunluklarına göre ve kendi içlerinde alfabetik olarak sıralanır.
Lovins Algoritması
• 2.Aşama: İstisnai yazım biçimleri ile ilgilidir.
Budamadan sonra elde edilen iki gövdenin aynı anlamı taşımalarına rağmen farklı yazım
biçimlerinden dolayı aynı gövdede birleşmemesidir.
• Bu tür durumlar için yeniden kodlama uygulanır.
Örn: absorpt (-ion ) absorb (-ing) production producer
input inputting .
Lovins Algoritması
• Bağlam duyarlılık: Bazı eklerin belirli
koşullarda çıkarılmaması gerekir. Bu amaçla kurallar tanımlanır.
ability computability directorate create
kiler seen sea seize
Lovins Algoritması
• Sonek Listesinin oluşturulması:
– Tek sınıflı sonek listesi kullanılır;
– 260 sonek 11 altkümeye bölünür.;
– Ekler, azalan uzunlukları uyarınca depolanır; kendi içlerinde alfabetiğe sokulur;
– Her sonek için
başlık (uzunluk bilgisi)
koşul kodu (alfabenn bir harfi olup bağlamsal sınırlılığı gösterir;)
geri taşıma sınırlılığı
Porter Algoritması
• Tekrarlama (iteration)
• Sözcük + ek3 + ek2 + ek1 ……ekler belirli bir sıra izleyerek sözcükle bitişir.
• Dolayısıyla sonek sınıfları vardır. Bunlara sıralı sınıflar denir.
• Tek bir sınıf içinde birden fazla eşleşme olmaz.
• İngilizce için en son sıra sınıfta –s, -ed, -es ekleri bulunur.
• İstisnai durumlar da vardır: Fiilden türetilmiş sıfatlarda görülür.
Porter Algoritması
• Related (-ness) willing(-ness) disintrest (-ed) (--ness)
Porter orijinal çalışmasında 60 sonek, 2 yeniden kodlama kuralı ve tek tip bir bağlam duyarlılık kuralı kullanmıştır
• Tekrarlamada sorun,
ne kadar sıra sınıf olacak?
herbir sıra sınıfta hangi ekler yer alacak?
Bir sıra sınıfın elemanları nasıl sıralanacak?
Yararlı Linkler
• 2 - 4 - Word Normalization and Stemming - Stanford NLP - Professor Dan Jurafsky
• http://www.youtube.com/watch?v=2s7f8mBwnko
• NGram Viewer and Discussion Boards
• http://www.youtube.com/watch?v=5OwUACjBChA
• Google N Gram Viewer
• http://www.youtube.com/watch?v=N6P0TYx5-sw
• What we learned from 5 million books
• http://www.youtube.com/watch?v=5l4cA8zSreQ