Web Madenciliği (Web Mining)

(1)

Web Madenciliği (Web Mining)

Hazırlayan: M. Ali Akcayol Gazi Üniversitesi

Bilgisayar Mühendisliği Bölümü

Bu dersin sunumları, “Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Bing Liu, Springer, 2011.” kitabı kullanılarak hazırlanmıştır.

Konular

 Denetimsiz Öğrenmenin Temelleri

 Kümeleme

 Uzaklık Fonksiyonları

 Öklid Uzaklığı

 Manhattan Uzaklığı

 Minkowski Uzaklığı

 K-means Algoritması

 Kümelerin Gösterimi

 Hiyerarşik Kümeleme

 Veri Standartlaştırma

 Kümeleme Değerlendirmesi

(2)

3

 Denetimli öğrenme giriş verileri ile çıkış niteliği arasındaki ilişkiyi ortaya çıkartır.

 Elde edilen model ile yeni verilerle ileriye dönük tahmin yapılması amaçlanmaktadır.

 Denetimsiz öğrenmede eğitim sürecinde hedef nitelik bulunmamaktadır.

 Denetimsiz öğrenmede veriler arasında bazı yapısal ilişkilerin veya örüntülerin ortaya çıkartılması amaçlanmaktadır.

Denetimsiz Öğrenmenin Temelleri

Konular

 Kümeleme

(3)

5

 Kümeleme (clustering), veri içerisinde benzer grupların (küme) bulunmasını sağlayan teknikleri kullanır.

 Kümelemede veri içerisindeki benzer örneklerin yakınlıklarına göre kümeler oluşturulur.

 Birbirine belirlenmiş bir seviyeden daha uzak olanlar ayrı kümelere atanır.

 Kümeleme, denetimsiz öğrenme (unsupervised learning) olarak adlandırılır.

 Apriori algoritması ile yapılan birliktelik kural madenciliği unsupervised learning olarak nitelendirilir.

Kümeleme

 Aşağıdaki veri kümesinde uzaklıklara göre üç küme görülmektedir.

 Bu şekilde yapılan kümelemeye partitional clustering denilir.

 Farklı özellikler gözönüne alınırsa küme sayısı daha fazla veya daha az olabilir.

Kümeleme

(4)

7

Örnek

 Her gün haber ajansları tarafından Dünya genelinde çok sayıda haber metni oluşturulur. Bir Web sitesi ile bu haberlerin alınması ve ait oldukları konulara göre sınıflandırılması gereklidir.

 Bu kadar çok sayıdaki haber metninin manuel olarak sınıflandırılması mümkün değildir.

 Sınıflandırılmadan tüm kullanıcılara sunulması da kullanıcıların ilgili olduklarını seçmeleri zor olacağından uygun değildir.

 Dokümanların konulara göre hiyerarşik kümelenmesi için clustering algoritmaları kullanılabilir.

 Bu şekilde sınıflandırmaya hiyerarşik kümeleme denilmektedir.

 Kümeleme algoritmalarının temelinde uzaklık ölçümü yer alır.

Kümeleme

Konular

 Kümeleme

(5)

9

 Kümeleme problemlerinde problemin yapısına ve niteliklerin değerlerine bağlı olarak farklı uzaklık ölçütleri kullanılabilir.

 Yaygın kullanılan uzaklık ölçütleri:

 Öklid uzaklığı

 Manhattan uzaklığı

 Minkowski uzaklığı

Uzaklık Fonksiyonları

Konular

 Kümeleme

(6)

11

Öklid Uzaklığı

 Uygulamada en çok kullanılan uzaklık ölçüsü Öklid uzaklık bağıntısı adıyla bilinmektedir.

 Bu uzaklık, şekilde görüldüğü gibi, iki boyutlu uzayda Pisagor teoreminin bir uygulamasıdır.

 A ve B noktaları arasındaki Öklid uzaklığı şu şekilde olacaktır:

 Bu bağıntı genelleştirilecek olursak, x_ive x_jnoktaları için şu şekilde bir bağıntıya ulaşılır:

Konular

 Kümeleme

(7)

13

Manhattan Uzaklığı

 Manhattan uzaklık ölçütünde, gözlemler arasındaki mutlak uzaklıkların toplamı alınarak hesaplanır.

 Aşağıdaki şekilde ifade edilir:

Konular

 Kümeleme

(8)

15

Minkowski Uzaklığı

 p sayıda değişken göz önüne alınarak gözlem değerleri arasındaki uzaklığın hesaplanması söz konusu ise Minkowski uzaklık bağıntısı kullanılabilir.

 Söz konusu uzaklık şu şekilde hesaplanır:

 Burada, m = 2 için Öklid uzaklık bağıntısı ve m = 1 için Manhattan uzaklık bağıntısı elde edilir.

Örnek

 Aşağıdaki tabloda 5 gözlem değeri için 3 niteliğin değerleri görülmektedir.

 Gözlem değerleri arasındaki hesaplanan uzaklıklar, farklı ölçüm yöntemlerinde farklı olmaktadır.

(9)

17

Örnek

Öklid uzaklıkları

Manhattan uzaklıkları

Minkowski uzaklıkları m=3

Konular

 Kümeleme

(10)

19

 Kümeleme algoritmalarının kalitesinin ölçümü için iki kriter vardır:

 Inter-cluster uzaklık (maksimize edilir.)

 Intra-cluster uzaklık (minimize edilir.)

 Kümelerin arasında mesafe olabildiği kadar fazla olmalıdır.

 Kümelerin içindeki elemanlar arasındaki uzaklık olabildiği kadar az olmalıdır.

 Uzaklık ölçüm yöntemi her problem için ayrı tanımlanabilir ve uygun olanın seçilmesi gereklidir.

 K-means algoritması partitional clustering yapmaktadır.

K-means algoritması

 K-means algoritması başlangıçta k değeri kadar küme oluşturur.

 Her küme bir merkez noktasına (centroid) sahiptir.

 Kümeye ait elemanların tümü, kümenin orta noktasına diğer kümelerin orta noktalarına göre daha yakındır.

 Algoritma başlangıçta rastgele k adet veri noktasını küme merkezleri olarak seçer.

 Her merkez noktaya yakın noktalar bu kümeye ait olarak alınırlar.

 Tüm kümelerin merkez noktaları tekrar hesaplanır.

 Yeni merkez noktalara göre yeniden küme elemanları belirlenir.

K-means algoritması

(11)

21

 Veri kümesi D = {x₁, x₂, …, x_n}olsun. Her bir xnoktası ise, x_i= (x_i1, x_i2, …, x_ir) şeklinde tanımlanan bir reel sayılar vektörüdür.

X  R^r ver nitelik sayısıdır.

 Algoritma kümelerdeki hataların karelerinin toplamını (sum of squared error) minimize etmeye çalışır.

 Burada, kküme sayısını, C_j j.kümeyi, x C_jkümesine ait nitelikler kümesini, m_j j.kümenin orta noktasını gösterir.

 dist(x, m_j) kümenin orta noktasına x noktalarının uzaklığıdır.

K-means algoritması

 Kümelerin orta noktası ise aşağıdaki gibi hesaplanır.

 Burada, bir kümeye ait olan tüm xnoktalarının nitelik değerlerinin ortalamaları hesaplanır.

 |C_j| kümeye ait nokta sayısını ifade eder.

 Kümeye ait noktaların merkez noktaya uzaklıkları ise aşağıdaki gibi hesaplanır. Burada, m_j j. kümenin orta noktasıdır.

K-means algoritması

(12)

23

Algoritma

K-means algoritması

Örnek

K-means algoritması

Başlangıç merkez noktaları

Yeni merkez noktaları

(13)

25

Örnek

K-means algoritması

Yeni merkez noktaları Yeni merkez noktaları

Yeni merkez noktaları

K-means algoritmasının zayıf yönleri

 K-means algoritması başlangıç merkez noktalarına bağlı kümeler oluşturur.

K-means algoritması

Başlangıç merkez noktaları

Kötü kümeleme

(14)

27

 K-means algoritması başlangıç merkez noktalarına bağlı kümeler oluşturur.

K-means algoritması

İyi kümeleme Başlangıç merkez noktaları

 Outlier dataya karşı hassastır.

K-means algoritması

(15)

29

 Bazı durumlarda doğal olarak kümeler oluşmuş durumdadır.

Uzaklığa dayalı kümeleme doğal yapıya uygun olmayabilir.

 Bu durumlarda komşulukları göz önüne alan algoritmalar kullanılır.

K-means algoritması

Konular

 Kümeleme

(16)

31

 Bazen kümelerin farklı şekillerde gösterimi gerekebilir.

 Bazı uygulamalarda sadece kümelerin merkez noktalarının ve yarıçaplarının gösterimi yeterlidir.

 Dairesel küme yapısına sahip durumlarda faydalıdır ve kümenin yarıçapı kapsadığı alanı gösterir.

 Dairesel olmayan kümeler için merkez ve yarıçap ile gösterim uygun değildir.

Kümelerin Gösterimi

 Bazı uygulamalarda sınıflandırma modelleri ile kümeler gösterilebilir.

 Kümelerin gösterimi karar ağaçları ile yapılabilir.

Kümelerin Gösterimi

(17)

33

Konular

 Kümeleme

 Hiyerarşik kümeleme diğer bir kümeleme yaklaşımıdır ve ağaç şeklinde gösterilir (dendrogram).

 Elemanlar birbirine benzerlik durumuna göre hiyerarşik kümelenir.

 En alt seviyede tek elemanlar bulunur.

Hiyerarşik Kümeleme

(18)

35

 Hiyerarşik kümeleme için 2 farklı yöntem kullanılmaktadır.

 Agglomerative (bottom up) clustering

Öncelikle en yakın ikili elemanlar ile kümeler oluşturulur.

Daha sonra yakın olan kümeler birleştirilerek yeni kümeler oluşturulur.

 Divisive (top down) clustering

Öncelikle tüm elemanlar tek küme alınır.

Küme iki parçaya ayrılarak iki küme elde edilir.

Elde edilen kümelerde recursive olarak tek elemanlara ulaşıncaya kadar parçalanır.

k-means algoritması veya diğer algoritmalar kullanılabilir.

Hiyerarşik Kümeleme

Örnek

Hiyerarşik Kümeleme

(19)

37

Konular

 Kümeleme

 Verilerin standartlaştırılması bazı uygulamalarda gereklidir.

 Öklid uzaklığına dayalı kümelemede veri standartlaştırma zorunludur.

Örnek

 İki nitelik değerinden birisi 0-1, diğeri ise 0-1000 aralığında olsun.

 x_i= (0.9, 720) ve x_j= (0.1, 20) ise aralarındaki uzaklık,

olur.

Veri Standartlaştırma

(20)

39

Interval-scaled attributes

 Aralıklı ölçeklendirme yönteminde en yaygın olarak aşağıdaki yöntemler kullanılır:

 range (min-max)

 z-score

Veri Standartlaştırma

range (min-max)

 Her nitelik için değerler minimum ve maksimum değerler arasındaki değere göre, 0-1 arasında değer alır.

 Burada, min(f) f niteliğinin minimum değerini, max(f) f niteliğinin maksimum değerini ve x_ifise i. gözlemin f. nitelik değerini ifade eder.

Veri Standartlaştırma

(21)

41

z-score

 Her nitelik için ortalama değerden uzaklığa ve nitelik

değerlerindeki standart sapmaya göre yeni değeri hesaplanır.

 Burada, _f f niteliğinin standart sapması, µ_f f niteliğinin ortalama değeri ve z(x_if) ise i. gözlemin f. nitelik değerinin yeni değerini ifade eder.

Veri Standartlaştırma

Ratio-scaled attributes

 Bazı uygulamalarda nitelik değeri üssel değişebilir.

 Burada, A ve B katsayılar ve t nitelik değeridir.

 Bu tür durumlarda logaritmik değer ile standartlaştırma yapılır.

Veri Standartlaştırma

(22)

43

Konular

 Kümeleme

 Kümeleme sonuçlarının değerlendirilmesi için uygulama alanına göre farklı yöntemler kullanılmaktadır.

 Bunlardan yaygın kullanılanlar;

 User inspection

 Ground truth

 Entropy

 Purity

 Indirect evaluation

Kümeleme Değerlendirmesi

(23)

45

User inspection

 Bir grup uzman tarafından yapılan skorlama ile değerlendirme yapılır.

 Değerlendirme kişisel olduğundan tüm skorların ortalaması alınır.

 Değerlendirme süreci uzun süre alabilir.

 Metin sınıflandırma gibi uygulamalarda faydalı olabilir.

 Ancak, milyonlarca veriye sahip bir VTYS üzerinde kümelemenin değerlendirilmesi uzun zaman alır ve doğru değerlendirme yapılamayabilir.

Kümeleme Değerlendirmesi

Ground truth

 Verilerin küme sayısı belirli ise elde edilen sonuç ona göre değerlendirilir.

 Her küme içerisinde doğru atanmış elemanlara göre de değerlendirme yapılabilir.

Kümeleme Değerlendirmesi

(24)

47

Entropy

 Her küme için entropi hesaplanır. Kümedeki farklı etiketlerin olasılıkları alınır.

 Burada, D_i i. küme, Pr_i(c_j) j. sınıf etiketinin olasılığıdır.

 Tüm kümeler için entropi hesaplanır.

 |D_i|i. kümedeki eleman sayısıdır. |D| toplam eleman sayısıdır.

Kümeleme Değerlendirmesi

Purity

 Her küme için purity hesaplanır.

 Burada, D_i i. küme, Pr_i(c_j) j. küme etiketinin olasılığıdır.

 Tüm kümeler için purity hesaplanır.

Kümeleme Değerlendirmesi

(25)

49

Örnek

 D kümesi 900 dokümana sahiptir. Tüm dokümanlar Science, Sports ve Politics olarak 3 konuya ayrılmaktadır.

 Her konu 300 dokümana sahiptir.

 Precision, recall ve f-skor değerleri de hesaplanabilir.

Kümeleme Değerlendirmesi

True Pozitif

False Pozitif

False Negatif

Tahmin Science Tahmin Sports Tahmin Politics

031 , 1 ) 257 , 1 0log 90 198 340 , 1 0log 90 589 280 , 0 900log

0 8

(2   



 E

589 , 0 280) log 10 280

10 280 log 20 280

20 280 log250 280

(250   



 E

Indirect evaluation

 Bazı uygulamalarda oluşturulan kümeler yerine başka parametreler kullanılarak değerlendirme yapılabilir.

 Bir kitap tavsiye sisteminde müşteriler profil bilgilerine ve geçmişte ilgilendikleri ürünlere göre kümelenebilir.

 Ancak, değerlendirme tavsiye edilen kitapların seçilme oranına göre yapılır.