• Sonuç bulunamadı

BBY428 Metin Analitiği

N/A
N/A
Protected

Academic year: 2021

Share "BBY428 Metin Analitiği"

Copied!
20
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

BBY428 Metin Analitiği

Prof.Dr.Tülay Oğuz

(2)

Jaccard Katsayısı

• Binary Operations

Meyve Özellikleri

Yuvarlak Biçim

Tatlı Ekşi Kıtır

Elma 1 1 1 1

Muz 0 1 o 0

(3)

Jaccard Katsayısı

• P / p + q + r

• p: ortak eleman sayısı

• q: A kümesinde olup B’de olmayan eleman sayısı

• r: B’de olup A’da olmayan eleman sayısı

• Elma (1111) p: 1 1 / 1+3+0 = 1 / 4

= 0,25

• Muz (0100) q: 3

r: 0

(4)

Jaccard Katsayısı

• D1 = (I, Ş, I, L) Toplam Frekanslar D2 = (S, E, L, E, N) A 4 Ğ 1 D3 = (Ç, A, Ğ, L, A) L 3R 1

D4 = (R, A, B, İ, A) E 2 B 1 I 2İ 1

Ş 1 S 1 N 1 Ç 1

(5)

Jaccard Katsayısı

Doküman Terim Matrisi

D1 D2 D3 D4

L 1 1 1 0

E 0 1 0 0

I 1 0 0 0

Ş 1 0 0 0

S 0 1 0 0

N 0 1 0 0

Ç 0 0 1 0

Ğ 0 0 1 0

R 0 0 0 1

B 0 0 0 1

İ 0 0 0 1

(6)

Jaccard Katsayısı

Set Operations

Binary Operations

• Sorgu: {L,E} S = (1,1,0,0,0,0,0,0,0,0,0)

• D1: {L,I,Ş} D1= (1,0,1,1,0,0,0,0,0,0,0)

• D2: {L,E,S,N} D2= (1,1,0,0,1,1,0,0,0,0,0)

• D3: {L,Ç,Ğ} D3= (1,0,0,0,0,0,1,1,0,0,0)

• D4: {R,B,İ} D4= (0,0,0,0,0,0,0,0,1,1,1)

• JK(D1, S)= ḷD1 ∩ S ḷ / ḷ D1 U S ḷ =1/4=0,25

• JK(D2, S)= ḷD2 ∩ S ḷ / ḷ D2 U S ḷ =2/4=0,50

• JK(D3, S)= ḷ D3 ∩ S ḷ / ḷ D3 U S ḷ =1/4=0,25

• JK(D4, S)= ḷ D4 ∩ S ḷ / ḷ D4 U S ḷ =0/5=0

(7)

Jaccard Katsayısı

• JK(D1,S)= 1/ 1+1+2=1/4=0,25

• JK(D2,S)= 2/2+0+2=2/4=0,50

• JK(D3,S)= 1/1+1+2=1/4=0,25

• JK(D4,S)= 0

• Jaccard benzerlik ölçümü sıralı erişimde

kullanılır. Benzerlik katsayılarına göre en

ilgiliden en ilgisize doğru bizi dokümanlara

eriştirir.

(8)

Boolean Modeline Göre Erişim

• Boolean Modele Göre Erişim

• L = (1110) AND

• E = (0100)

• = (0100) =D2

• Burada yalnız eriştiğimiz dokümanı

görebiliriz. Sıralı bir erişim vermez.

(9)

Dice Katsayısı

• Dice katsayısı iki kümenin benzerliğini ölçer.

Aynı zamanda iki söz dizisinin ortak bigram sayısı cinsinden benzerlik ölçümünde de

kullanılır. (bir bigram bir söz dizisindeki komşu harf çiftidir)

• Dice benzerlik ölçümünün kullanıldığı

alanlardan biri, web siteleridir. Site içinde

gezinen kullanıcıların inceledikleri birimlerle benzerlik gösteren diğer birimleri onlara

sunabilmek için kullanılır.

(10)

Dice Katsayısı

• Amazon.com buna örnek gösterilebilir.

Kullanıcının arama geçmişine bakarak bir öneriler listesi kullanıcıya sunulur.

• Örneğin bir müzik sitesinde gezinen ve Pink Floyd’un “dark side of the moon” albümüne bakan bir kullanıcıya, benzer albümlere de

bakması için bir liste sunulabilir. Kullanıcının, grubun diğer albümü “wish you were here”

veya Led Zepplin’in meddle albümüne de

bakması önerilebilir.

(11)

Dice Katsayısı

• İki birim arasındaki benzerlik ölçülürken birimleri tanımlayan özelliklere bakılır.

• Hangi birimlerin benzer olduğunu bulabilmek için onları skorlandırmak gerekir.

• En yüksek skora sahip olan, en benzer olandır.

• Tanımlayıcı özellikler web 2.0 dilinde aslında etiketlerdir.

• X ve Y gibi iki farklı birimin etiket listeleri Tx ve

Ty olarak gösterildiğinde

(12)

Dice Katsayısı

• X ve Y arasındaki benzerliği hesaplamanın basit bir yolu, her iki birimde ortak olan etiket sayısını bulmaktır.

• Böylelikle X ve Y arasındaki benzerlik skoru, Ben(X,Y) = |{Tx} ∩ {Ty}|

• X=”Dark Side of the Moon”,

• {Tx} = {“müzik”, “rock”, “pink floyd”, “cult”}

• Y="Meddle",

• (Ty} = {"müzik","led zeppelin","cult","rock“}

(13)

Dice Katsayısı

• Dermedeki bütün birimlerin benzerliğini aynı biçimde hesaplayabilir ve verili bir birimle

benzerliği olan Top-K sonucu gösterebiliriz.

Genelde en iyi 10 benzer birim gösterilir.

• Sorun:

• A-Etiket sayısı fazla olan birimler, daha fazla ortak eleman üretir. Büyük kümeler, uzun

dokümanlar

• B-İki birimin benzerlik skoru arasında

korelasyon yoktur.

(14)

Dice Katsayısı

• A-Eşik değer belirleyemeyiz. Örn: En benzer top-k dokümanı getirecek bir sınırlama

getiremeyiz.

• B-Çapraz benzerlik analizi yapamayız. Örn: A,B benzerliğinin C,D benzerliğinden fazla olduğunu söyleyemez.

• Benzerliği bulmanın daha iyi bir yolu, benzerlik

skorunda uzunluğunu normalize etmektir

(15)

Dice Katsayısı

• Burada

• a) skor, daha fazla etiketi olan dokümanların etkisinde kalmaz ve

• b) benzerlik skoru her zaman 1 ve 0 arasında olur.

• Böylelikle istendiğinde bir eşik değer belirlenebilir.

• Peki skorları nasıl normalize edeceğiz?

(16)

Dice Katsayısı

• Ben(X,Y) = (2*|Tx ∩ Ty|) / (|Tx|+|

Ty|)

• Dice katsayısı denir. İki küme arasındaki benzerliği ölçmede kullanılır

• Top-K dokümanı depolarken, bütün benzer

dokümanları depolayıp sonra benzer top-k

dokümanı içinden çekip almak yerine heap

yapısını kullanmak daha iyidir.

(17)

Cosine Benzerlik Ölçümü Cosine Benzerlik Ölçümü

• │A  B│/  │A│* │B│ set operations

• (A,B) = A*B /  A2*B2 uzunluğu normalize edilmiş vektör çarpımı

Cos

b b

a a

b D a

D

Ben

i j i j

 

2 2 2

1 2

2 2

1

) ,

(

(18)

Cosine Benzerlik Ölçümü

• A={b,d,f,w,y} B={a,b,c,d,e,,f,g,h,ı,j}

• A*B = {b.a + b.b + b.c + b.e + b.f+ b.ı + b.i +…..

• │A*B│= 3 veya │A  B│

• │A │* │B │=5*10 = 7,07

• 3 / 7,07 = 0,42

(19)

Cosine Benzerlik Ölçümü

• Sorgu: {L,E} S = (1,1,0,0,0,0,0,0,0,0,0)

• D1: {L,I,Ş} D1= (1,0,1,1,0,0,0,0,0,0,0)

• D2: {L,E,S,N} D2= (1,1,0,0,1,1,0,0,0,0,0)

• D3: {L,Ç,Ğ} D3= (1,0,0,0,0,0,1,1,0,0,0)

• D4: {R,B,İ} D4= (0,0,0,0,0,0,0,0,1,1,1)

• COS(D1,S)= 1 /2*3 = 1/ 2,44 = 0,40

• COS(D2,S)= 2/  2*4= 2/ 2,82 = 0,70

• COS(D3,S)= 0,40

• COS(D4,S)=0

(20)

Yararlı Linkler

• Term-Document Incidence Matrices http://www.youtube.com/watch?v=ftdII

-X5SM0&NR=1&feature=endscreen

• Introducing Ranked Retrieval

• http://www.youtube.com/watch?v=5Gz3Hp217Io

• Scoring with the Jaccard Coefficient

http://www.youtube.com/watch?v=Vbdki_

gnnYM

Referanslar

Benzer Belgeler

Sonlogger kurulum işlemi tamamlandıktan sonra kullanmaya başlamak için SonicWall cihazınızdan log yönlendirme yapmanız gerekmektedir.. Log yönlendirme işlemi için

Logo GO Wings Broker (Scaling ve Load balancing senaryosu sözkonusu değilse kurulumda seçilmeyeceğinden oluşmayacak) Logo GO Wings Gateway (Scaling ve Load balancing senaryosu

Controller Sınıfı (TableController) Model Sınıfı (TableModel) View Sınıfı (TableView) Initialize Sınıfı (RunProgram) Dao Sınıfı (Article).

• Belgeyi bir yönüyle temsil eder, o nedenle bir belgeyi temsil için birçok terim seçilir;. • Terimleri belirleme sürecine

Porter orijinal çalışmasında 60 sonek, 2 yeniden kodlama kuralı ve tek tip bir bağlam duyarlılık kuralı kullanmıştır. •

• Terim Frekansı: Bir terimin dokümandaki görünüm sıklığı / frekansı küme kurallarını ihlal ettiği için bu değer matriste temsil edilemiyordu.. Bir başka deyişle

Ich habe eine Tat unternommen, die nach dem Gesetzbuch schwer bestraft werden kann.. Eine Krankheit, die nicht geheilt werden kann, ist eine

SopLog, kurulum işlemi tamamlandıktan sonra kullanmaya başlamak için Sophos cihazınızdan log yönlendirme yapmanız gerekmektedir.. Log yönlendirme işlemi için Sophos