• Sonuç bulunamadı

BBY428 Metin Analitiği

N/A
N/A
Protected

Academic year: 2021

Share "BBY428 Metin Analitiği"

Copied!
13
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

BBY428 Metin Analitiği

Prof.Dr. Tülay Oğuz

(2)

GÖVDELEME

• Sözcük gövdeleri + sonekler yapısal/biçimsel varyasyonlar

• Kütüphane -ler biçimsel

• -ci yapısal Temel Problemler

• Anlamca ilgili, biçimsel olarak farklı

imkan, olanak (eş/zıt anlamlılar sözlüğü)

• Anlamca farklı, biçimsel olarak aynı yaz (isim)

yaz (fiil)

(3)

GÖVDELEME

• Amaç:

Dizinleme: Aynı gövdeye sahip terimleri tek bir gövdede birleştirmek

Dizin girişleri azaltılmış olur Dizin: Dokümanı temsil eden dizin

terimlerinin azalması dizinin boyutunu küçültür.

Dizinin kapladığı depolama alanını ve dizinde arama zamanını azaltır.

Erişim: Dok-sorgu terimlerinin eşleşmesini sağlamayı ve recall’u artırmayı amaçlar

(4)

GÖVDELEME

• Algoritma:

Sözcük gövdesine bitişen eklerin

budanması Burada belirli kurallar uygulanır, sonek listesi kullanılır, tekrarlayıcıdır.

• Yaklaşımlar

Dört yaklaşım vardır.

1- Tabloda Arama: Terimler ve gövdeleri bir tabloda tutulur; hem dizinleme hem de erişim için kullanılır.

(5)

GÖVDELEME

2- Soneklerin Çıkarılması

3- Harflerin Görünüm Sıklığına Bakma: Test

edilecek sözcükte belirli bir karakter sayısı esas alınır ve bundan sonraki harf varyasyonlarına

bakılır;harflerin görünüm frekansı hesaplanır; en yüksek frekans belirlenir; sözcüğün biçimsel

yapısı bulunmaya çalışılır.

4- N-gram: Harf /sözcük düzeyinde yapılabilir; n tane ardışık gelen harf ya da sözcüğe bakar.

(6)

Lovins Algoritması

• Sözcüklerin yapım ve çekim eklerinden

arındırılarak ortak bir gövdede birleştirilmesini sağlar.

• Gövde elde edilirken eklerin tutarlı biçimde çıkarılması önemlidir. Bunun için kurallar geliştirilmiştir. Tekrarlayıcı bir süreçtir.

(7)

Lovins Algoritması

• İki aşamalı gövdeleme uygulanmıştır.

1. Aşama: En Uzun Eşleşme (longest

match): En uzun ekten başlayarak budama yapmak. (-ation, -ion)

Sonek listesinde ekler, azalan uzunluklarına göre ve kendi içlerinde alfabetik olarak sıralanır.

(8)

Lovins Algoritması

• 2.Aşama: İstisnai yazım biçimleri ile ilgilidir.

Budamadan sonra elde edilen iki gövdenin aynı anlamı taşımalarına rağmen farklı yazım

biçimlerinden dolayı aynı gövdede birleşmemesidir.

• Bu tür durumlar için yeniden kodlama uygulanır.

Örn: absorpt (-ion ) absorb (-ing) production producer

input inputting .

(9)

Lovins Algoritması

• Bağlam duyarlılık: Bazı eklerin belirli

koşullarda çıkarılmaması gerekir. Bu amaçla kurallar tanımlanır.

ability computability directorate create

kiler seen sea seize

(10)

Lovins Algoritması

• Sonek Listesinin oluşturulması:

– Tek sınıflı sonek listesi kullanılır;

– 260 sonek 11 altkümeye bölünür.;

– Ekler, azalan uzunlukları uyarınca depolanır; kendi içlerinde alfabetiğe sokulur;

– Her sonek için

başlık (uzunluk bilgisi)

koşul kodu (alfabenn bir harfi olup bağlamsal sınırlılığı gösterir;)

geri taşıma sınırlılığı

(11)

Porter Algoritması

• Tekrarlama (iteration)

• Sözcük + ek3 + ek2 + ek1 ……ekler belirli bir sıra izleyerek sözcükle bitişir.

• Dolayısıyla sonek sınıfları vardır. Bunlara sıralı sınıflar denir.

• Tek bir sınıf içinde birden fazla eşleşme olmaz.

• İngilizce için en son sıra sınıfta –s, -ed, -es ekleri bulunur.

• İstisnai durumlar da vardır: Fiilden türetilmiş sıfatlarda görülür.

(12)

Porter Algoritması

• Related (-ness) willing(-ness) disintrest (-ed) (--ness)

Porter orijinal çalışmasında 60 sonek, 2 yeniden kodlama kuralı ve tek tip bir bağlam duyarlılık kuralı kullanmıştır

• Tekrarlamada sorun,

ne kadar sıra sınıf olacak?

herbir sıra sınıfta hangi ekler yer alacak?

Bir sıra sınıfın elemanları nasıl sıralanacak?

(13)

Yararlı Linkler

• 2 - 4 - Word Normalization and Stemming - Stanford NLP - Professor Dan Jurafsky

http://www.youtube.com/watch?v=2s7f8mBwnko

• NGram Viewer and Discussion Boards

http://www.youtube.com/watch?v=5OwUACjBChA

• Google N Gram Viewer

http://www.youtube.com/watch?v=N6P0TYx5-sw

• What we learned from 5 million books

• http://www.youtube.com/watch?v=5l4cA8zSreQ

Referanslar

Benzer Belgeler

Sonuç olarak manyetik dipol geçişlerinin bilinen enerji ağırlıklı toplam kuralı, taban halin biçiminden farklı biçime sahip seviyelere geçişler için genelleştirildi ve daha

1) nekuz mehur-ma DINGIR LIM anda udanzi “Gece vakti tanrıyı (heykelini) içeri getirirler.” 2) nu-war-aš-kán kašma šumaš anda uit “Bakın o şimdi orada/oraya

• Belgeyi bir yönüyle temsil eder, o nedenle bir belgeyi temsil için birçok terim seçilir;. • Terimleri belirleme sürecine

• Terim Frekansı: Bir terimin dokümandaki görünüm sıklığı / frekansı küme kurallarını ihlal ettiği için bu değer matriste temsil edilemiyordu.. Bir başka deyişle

• Top-K dokümanı depolarken, bütün benzer dokümanları depolayıp sonra benzer top-k dokümanı içinden çekip almak yerine heap yapısını kullanmak daha iyidir..

180 derece kuralına uyulmadığı zaman seyirci mekânda kimin, neyin nerede

okul kütüphanelerinde çeşiti! düzeylerde egitim görmüş personel çalışniaktadır. Mesleki egıtimden geçenler çok az olmakla blrl1kte, ge- nell1k1e mesleki egıtim

 İfade de belirsizlik varsa pay ve payın değişkene (genelde x olur) göre türevi alınır ve sonra istenilen yerine yazılır..  Uygulanması şart değildir fakat hız