BBY428 Metin Analitiği
Prof.Dr.Tülay Oğuz
Jaccard Katsayısı
• Binary Operations
Meyve Özellikleri
Yuvarlak Biçim
Tatlı Ekşi Kıtır
Elma 1 1 1 1
Muz 0 1 o 0
Jaccard Katsayısı
• P / p + q + r
• p: ortak eleman sayısı
• q: A kümesinde olup B’de olmayan eleman sayısı
• r: B’de olup A’da olmayan eleman sayısı
• Elma (1111) p: 1 1 / 1+3+0 = 1 / 4
= 0,25
• Muz (0100) q: 3
r: 0
Jaccard Katsayısı
• D1 = (I, Ş, I, L) Toplam Frekanslar D2 = (S, E, L, E, N) A 4 Ğ 1 D3 = (Ç, A, Ğ, L, A) L 3R 1
D4 = (R, A, B, İ, A) E 2 B 1 I 2İ 1
Ş 1 S 1 N 1 Ç 1
Jaccard Katsayısı
Doküman Terim Matrisi
D1 D2 D3 D4
L 1 1 1 0
E 0 1 0 0
I 1 0 0 0
Ş 1 0 0 0
S 0 1 0 0
N 0 1 0 0
Ç 0 0 1 0
Ğ 0 0 1 0
R 0 0 0 1
B 0 0 0 1
İ 0 0 0 1
Jaccard Katsayısı
Set Operations
Binary Operations• Sorgu: {L,E} S = (1,1,0,0,0,0,0,0,0,0,0)
• D1: {L,I,Ş} D1= (1,0,1,1,0,0,0,0,0,0,0)
• D2: {L,E,S,N} D2= (1,1,0,0,1,1,0,0,0,0,0)
• D3: {L,Ç,Ğ} D3= (1,0,0,0,0,0,1,1,0,0,0)
• D4: {R,B,İ} D4= (0,0,0,0,0,0,0,0,1,1,1)
• JK(D1, S)= ḷD1 ∩ S ḷ / ḷ D1 U S ḷ =1/4=0,25
• JK(D2, S)= ḷD2 ∩ S ḷ / ḷ D2 U S ḷ =2/4=0,50
• JK(D3, S)= ḷ D3 ∩ S ḷ / ḷ D3 U S ḷ =1/4=0,25
• JK(D4, S)= ḷ D4 ∩ S ḷ / ḷ D4 U S ḷ =0/5=0
Jaccard Katsayısı
• JK(D1,S)= 1/ 1+1+2=1/4=0,25
• JK(D2,S)= 2/2+0+2=2/4=0,50
• JK(D3,S)= 1/1+1+2=1/4=0,25
• JK(D4,S)= 0
• Jaccard benzerlik ölçümü sıralı erişimde
kullanılır. Benzerlik katsayılarına göre en
ilgiliden en ilgisize doğru bizi dokümanlara
eriştirir.
Boolean Modeline Göre Erişim
• Boolean Modele Göre Erişim
• L = (1110) AND
• E = (0100)
• = (0100) =D2
• Burada yalnız eriştiğimiz dokümanı
görebiliriz. Sıralı bir erişim vermez.
Dice Katsayısı
• Dice katsayısı iki kümenin benzerliğini ölçer.
Aynı zamanda iki söz dizisinin ortak bigram sayısı cinsinden benzerlik ölçümünde de
kullanılır. (bir bigram bir söz dizisindeki komşu harf çiftidir)
• Dice benzerlik ölçümünün kullanıldığı
alanlardan biri, web siteleridir. Site içinde
gezinen kullanıcıların inceledikleri birimlerle benzerlik gösteren diğer birimleri onlara
sunabilmek için kullanılır.
Dice Katsayısı
• Amazon.com buna örnek gösterilebilir.
Kullanıcının arama geçmişine bakarak bir öneriler listesi kullanıcıya sunulur.
• Örneğin bir müzik sitesinde gezinen ve Pink Floyd’un “dark side of the moon” albümüne bakan bir kullanıcıya, benzer albümlere de
bakması için bir liste sunulabilir. Kullanıcının, grubun diğer albümü “wish you were here”
veya Led Zepplin’in meddle albümüne de
bakması önerilebilir.
Dice Katsayısı
• İki birim arasındaki benzerlik ölçülürken birimleri tanımlayan özelliklere bakılır.
• Hangi birimlerin benzer olduğunu bulabilmek için onları skorlandırmak gerekir.
• En yüksek skora sahip olan, en benzer olandır.
• Tanımlayıcı özellikler web 2.0 dilinde aslında etiketlerdir.
• X ve Y gibi iki farklı birimin etiket listeleri Tx ve
Ty olarak gösterildiğinde
Dice Katsayısı
• X ve Y arasındaki benzerliği hesaplamanın basit bir yolu, her iki birimde ortak olan etiket sayısını bulmaktır.
• Böylelikle X ve Y arasındaki benzerlik skoru, Ben(X,Y) = |{Tx} ∩ {Ty}|
• X=”Dark Side of the Moon”,
• {Tx} = {“müzik”, “rock”, “pink floyd”, “cult”}
• Y="Meddle",
• (Ty} = {"müzik","led zeppelin","cult","rock“}
Dice Katsayısı
• Dermedeki bütün birimlerin benzerliğini aynı biçimde hesaplayabilir ve verili bir birimle
benzerliği olan Top-K sonucu gösterebiliriz.
Genelde en iyi 10 benzer birim gösterilir.
• Sorun:
• A-Etiket sayısı fazla olan birimler, daha fazla ortak eleman üretir. Büyük kümeler, uzun
dokümanlar
• B-İki birimin benzerlik skoru arasında
korelasyon yoktur.
Dice Katsayısı
• A-Eşik değer belirleyemeyiz. Örn: En benzer top-k dokümanı getirecek bir sınırlama
getiremeyiz.
• B-Çapraz benzerlik analizi yapamayız. Örn: A,B benzerliğinin C,D benzerliğinden fazla olduğunu söyleyemez.
• Benzerliği bulmanın daha iyi bir yolu, benzerlik
skorunda uzunluğunu normalize etmektir
Dice Katsayısı
• Burada
• a) skor, daha fazla etiketi olan dokümanların etkisinde kalmaz ve
• b) benzerlik skoru her zaman 1 ve 0 arasında olur.
• Böylelikle istendiğinde bir eşik değer belirlenebilir.
• Peki skorları nasıl normalize edeceğiz?
Dice Katsayısı
• Ben(X,Y) = (2*|Tx ∩ Ty|) / (|Tx|+|
Ty|)
• Dice katsayısı denir. İki küme arasındaki benzerliği ölçmede kullanılır
• Top-K dokümanı depolarken, bütün benzer
dokümanları depolayıp sonra benzer top-k
dokümanı içinden çekip almak yerine heap
yapısını kullanmak daha iyidir.
Cosine Benzerlik Ölçümü Cosine Benzerlik Ölçümü
• │A B│/ │A│* │B│ set operations
• (A,B) = A*B / A2*B2 uzunluğu normalize edilmiş vektör çarpımı
Cos
b b
a a
b D a
D
Ben
i j i j
2 2 2
1 2
2 2
1
) ,
(
Cosine Benzerlik Ölçümü
• A={b,d,f,w,y} B={a,b,c,d,e,,f,g,h,ı,j}
• A*B = {b.a + b.b + b.c + b.e + b.f+ b.ı + b.i +…..
• │A*B│= 3 veya │A B│
• │A │* │B │=5*10 = 7,07
• 3 / 7,07 = 0,42
Cosine Benzerlik Ölçümü
• Sorgu: {L,E} S = (1,1,0,0,0,0,0,0,0,0,0)
• D1: {L,I,Ş} D1= (1,0,1,1,0,0,0,0,0,0,0)
• D2: {L,E,S,N} D2= (1,1,0,0,1,1,0,0,0,0,0)
• D3: {L,Ç,Ğ} D3= (1,0,0,0,0,0,1,1,0,0,0)
• D4: {R,B,İ} D4= (0,0,0,0,0,0,0,0,1,1,1)
• COS(D1,S)= 1 /2*3 = 1/ 2,44 = 0,40
• COS(D2,S)= 2/ 2*4= 2/ 2,82 = 0,70
• COS(D3,S)= 0,40
• COS(D4,S)=0
Yararlı Linkler
• Term-Document Incidence Matrices http://www.youtube.com/watch?v=ftdII
-X5SM0&NR=1&feature=endscreen
• Introducing Ranked Retrieval
• http://www.youtube.com/watch?v=5Gz3Hp217Io
• Scoring with the Jaccard Coefficient
http://www.youtube.com/watch?v=Vbdki_
gnnYM