• Sonuç bulunamadı

BBY428 Metin Analitiği

N/A
N/A
Protected

Academic year: 2021

Share "BBY428 Metin Analitiği"

Copied!
9
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

BBY428 Metin Analitiği

Prof.Dr.Tülay Oğuz

(2)

Ağırlıklandırma(Weighting)

• Binary: İkili değer sistemine göre oluşturulan Doküman- Terim Matrislerinde amaç: bir terimin bir dokümanda olup olmadığının temsil edilebilmesiydi. Terimin varlığı “1”,

yokluğu ise “0” ile temsil edildi.

• Terim Frekansı: Bir terimin dokümandaki görünüm sıklığı / frekansı küme kurallarını ihlal ettiği için bu değer matriste temsil edilemiyordu. Bir başka deyişle küme kurallarına göre bir küme elemanı birden çok kez kümede yer

alamıyordu. Terimin bir dokümandaki frekansını matriste temsil edebilmek için “bag of words” modeli geliştirildi.

Böylelikle terim, ağırlığı ölçüsünde matriste temsil edilebildi.

Buna TF Matrisi dendi.

(3)

• TF, sorgu-dok benzerliğinden skor üretmek için kullanılır.

• Bir terimin bir dokümanda 5 kez görünmesi, 1 kez görünmesine oranla sorgu-doküman eşleşmesi

bakımından daha fazla ilgili olduğunu gösterse de bu, 5 kat daha ilgili olduğu anlamına gelmez.

Dolayısıyla ilgililik, doğru orantılı bir artış göstermez.

• Bu nedenle TF’den yararlanarak log fonksiyonu kullanılır. Böylelikle t gibi bir terimin d

dokümanındaki log frekansı ağırlığı = { 1 + log10 if > 0

(4)

• Bag of words modeli: Küme kavramını

genişletmiştir; bir terimin dokümanda kaç kez göründüğü, matriste yansıtılabilir;

• Ancak terimlerin konumunu dikkate almadığı için sınırlılıkları vardır.

• Örn: “okul kütüphaneleri tarihi” ile “tarihi okul kütüphaneleri” aynı vektörlerdir;

aralarında fark yoktur. Bu sınırlılıkları çözmek için konumsal dizinler geliştirilmiştir.

(5)

Log-Frekansı

Log-frekansı ile ağırlıklandırma

(6)

Log-Frekansı

• Erişimde skor üretirken tüm doküman-sorgu eşleşmeleri için Tf toplamı alınır

(7)

Bağıl Doküman Frekansı : İdf

• Doküman frekansı, terimin dermede atandığı doküman sayısını verir. Ancak bu ölçüm, terimin bilgilendirme gücü ile ters orantılıdır.

• Amaç: Nadir terimlere, doküman-sorgu

eşleşmesinde daha fazla ağırlık vermektir.

• Her terim için dermede bir idf değeri

bulunmaktadır. Dermedeki görünüm sıklığı yüksek olan bir terimin idf’si 0 çıkacaktır. Dolayısıyla ona ağırlık verilmemiş olacaktır.

• İdf’nin tek sözcüklü sorgularda bir etkisi yoktur. İdf en az iki sözcük içeren sorgularda etkilidir.

(8)

• Dermedeki herbir terimin idf’si önceden

hesaplanabilir; idf, sorguya göre değişmez.

• İdf’nin çıktıdaki sıralamaya etkisi var mıdır?

Tek sözcüklü sorgularda yoktur. Sorgu, en az 2 terim içerdiğinde etkilidir.

(9)

• Dermede az sayıda görünen terimlerin önemini artırmak için Tf ve idf ‘nin birlikte kullanıldığı bir ağırlıklandırma yapılır.

• Toplam frekans ile doküman frekansı arasında ne gibi bir fark vardır?

Referanslar

Benzer Belgeler

• Belgeyi bir yönüyle temsil eder, o nedenle bir belgeyi temsil için birçok terim seçilir;. • Terimleri belirleme sürecine

Türkiye’de gelişen emek sömürüsü karşısında mimar-işçi emeğini savunmak için -en geri bir mevzi olarak- yaratıcı emek söylemini bu kez de kendi

Sürecin askerî yönetimin yaptığı geçiş dönemi anayasasıyla devamına karşı çıkan, daha sonra da önce anayasa sonra seçimler olarak özetlenebilecek

%5 kabul edilebilir ürün kaybında pamukta yabancı otlar için kritik periyodun bitişi 50 cm sıra arası mesafede 2012 yılında 526, 2013 yılında ise 508 GGD

Bu küme diğerine göre biraz daha sönük olduğundan bize daha uzak- mış gibi gelir.. Oysa kümeler kabaca

dağıldığı durumlar için kullanışlıdır. Örnek: Yarıçapı birim olan dairesel ince madeni bir pul, taban yarıçapı birim olan bir silindirin

Bilimkurgu veya korku filmlerinden en az birini seven- lerin oluşturduğu bir grupta iki film türünü de seven 12 kişi vardır. Bilimkurgu filmlerini sevenler, tüm grubun 'ü

Spitzer’in bulduklar› ya da daha önce Beta Pictoris’in çevresinde bulunup uzun uzad›ya incelenen tozlu disklerin oluflmas› için önce ana y›ld›z›n çevresindeki