• Sonuç bulunamadı

Web Madenciliği (Web Mining)

N/A
N/A
Protected

Academic year: 2021

Share "Web Madenciliği (Web Mining)"

Copied!
25
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Web Madenciliği (Web Mining)

Hazırlayan: M. Ali Akcayol Gazi Üniversitesi

Bilgisayar Mühendisliği Bölümü

Bu dersin sunumları, “Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Bing Liu, Springer, 2011.” kitabı kullanılarak hazırlanmıştır.

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

(2)

3

Denetimli öğrenme giriş verileri ile çıkış niteliği arasındaki ilişkiyi ortaya çıkartır.

Elde edilen model ile yeni verilerle ileriye dönük tahmin yapılması amaçlanmaktadır.

Denetimsiz öğrenmede eğitim sürecinde hedef nitelik bulunmamaktadır.

Denetimsiz öğrenmede veriler arasında bazı yapısal ilişkilerin veya örüntülerin ortaya çıkartılması amaçlanmaktadır.

Denetimsiz Öğrenmenin Temelleri

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

(3)

5

Kümeleme (clustering), veri içerisinde benzer grupların (küme) bulunmasını sağlayan teknikleri kullanır.

Kümelemede veri içerisindeki benzer örneklerin yakınlıklarına göre kümeler oluşturulur.

Birbirine belirlenmiş bir seviyeden daha uzak olanlar ayrı kümelere atanır.

Kümeleme, denetimsiz öğrenme (unsupervised learning) olarak adlandırılır.

Apriori algoritması ile yapılan birliktelik kural madenciliği unsupervised learning olarak nitelendirilir.

Kümeleme

Aşağıdaki veri kümesinde uzaklıklara göre üç küme görülmektedir.

Bu şekilde yapılan kümelemeye partitional clustering denilir.

Farklı özellikler gözönüne alınırsa küme sayısı daha fazla veya daha az olabilir.

Kümeleme

(4)

7

Örnek

Her gün haber ajansları tarafından Dünya genelinde çok sayıda haber metni oluşturulur. Bir Web sitesi ile bu haberlerin alınması ve ait oldukları konulara göre sınıflandırılması gereklidir.

Bu kadar çok sayıdaki haber metninin manuel olarak sınıflandırılması mümkün değildir.

Sınıflandırılmadan tüm kullanıcılara sunulması da kullanıcıların ilgili olduklarını seçmeleri zor olacağından uygun değildir.

Dokümanların konulara göre hiyerarşik kümelenmesi için clustering algoritmaları kullanılabilir.

Bu şekilde sınıflandırmaya hiyerarşik kümeleme denilmektedir.

Kümeleme algoritmalarının temelinde uzaklık ölçümü yer alır.

Kümeleme

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

(5)

9

Kümeleme problemlerinde problemin yapısına ve niteliklerin değerlerine bağlı olarak farklı uzaklık ölçütleri kullanılabilir.

Yaygın kullanılan uzaklık ölçütleri:

Öklid uzaklığı

Manhattan uzaklığı

Minkowski uzaklığı

Uzaklık Fonksiyonları

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

(6)

11

Öklid Uzaklığı

Uygulamada en çok kullanılan uzaklık ölçüsü Öklid uzaklık bağıntısı adıyla bilinmektedir.

Bu uzaklık, şekilde görüldüğü gibi, iki boyutlu uzayda Pisagor teoreminin bir uygulamasıdır.

A ve B noktaları arasındaki Öklid uzaklığı şu şekilde olacaktır:

Bu bağıntı genelleştirilecek olursak, xive xjnoktaları için şu şekilde bir bağıntıya ulaşılır:

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

(7)

13

Manhattan Uzaklığı

Manhattan uzaklık ölçütünde, gözlemler arasındaki mutlak uzaklıkların toplamı alınarak hesaplanır.

Aşağıdaki şekilde ifade edilir:

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

(8)

15

Minkowski Uzaklığı

p sayıda değişken göz önüne alınarak gözlem değerleri arasındaki uzaklığın hesaplanması söz konusu ise Minkowski uzaklık bağıntısı kullanılabilir.

Söz konusu uzaklık şu şekilde hesaplanır:

Burada, m = 2 için Öklid uzaklık bağıntısı ve m = 1 için Manhattan uzaklık bağıntısı elde edilir.

Örnek

Aşağıdaki tabloda 5 gözlem değeri için 3 niteliğin değerleri görülmektedir.

Gözlem değerleri arasındaki hesaplanan uzaklıklar, farklı ölçüm yöntemlerinde farklı olmaktadır.

(9)

17

Örnek

Öklid uzaklıkları

Manhattan uzaklıkları

Minkowski uzaklıkları m=3

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

(10)

19

Kümeleme algoritmalarının kalitesinin ölçümü için iki kriter vardır:

Inter-cluster uzaklık (maksimize edilir.)

Intra-cluster uzaklık (minimize edilir.)

Kümelerin arasında mesafe olabildiği kadar fazla olmalıdır.

Kümelerin içindeki elemanlar arasındaki uzaklık olabildiği kadar az olmalıdır.

Uzaklık ölçüm yöntemi her problem için ayrı tanımlanabilir ve uygun olanın seçilmesi gereklidir.

K-means algoritması partitional clustering yapmaktadır.

K-means algoritması

K-means algoritması başlangıçta k değeri kadar küme oluşturur.

Her küme bir merkez noktasına (centroid) sahiptir.

Kümeye ait elemanların tümü, kümenin orta noktasına diğer kümelerin orta noktalarına göre daha yakındır.

Algoritma başlangıçta rastgele k adet veri noktasını küme merkezleri olarak seçer.

Her merkez noktaya yakın noktalar bu kümeye ait olarak alınırlar.

Tüm kümelerin merkez noktaları tekrar hesaplanır.

Yeni merkez noktalara göre yeniden küme elemanları belirlenir.

K-means algoritması

(11)

21

Veri kümesi D = {x1, x2, …, xn}olsun. Her bir xnoktası ise, xi= (xi1, xi2, …, xir) şeklinde tanımlanan bir reel sayılar vektörüdür.

X  Rr ver nitelik sayısıdır.

Algoritma kümelerdeki hataların karelerinin toplamını (sum of squared error) minimize etmeye çalışır.

Burada, kküme sayısını, Cj j.kümeyi, x Cjkümesine ait nitelikler kümesini, mj j.kümenin orta noktasını gösterir.

dist(x, mj) kümenin orta noktasına x noktalarının uzaklığıdır.

K-means algoritması

Kümelerin orta noktası ise aşağıdaki gibi hesaplanır.

Burada, bir kümeye ait olan tüm xnoktalarının nitelik değerlerinin ortalamaları hesaplanır.

|Cj | kümeye ait nokta sayısını ifade eder.

Kümeye ait noktaların merkez noktaya uzaklıkları ise aşağıdaki gibi hesaplanır. Burada, mj j. kümenin orta noktasıdır.

K-means algoritması

(12)

23

Algoritma

K-means algoritması

Örnek

K-means algoritması

Başlangıç merkez noktaları

Yeni merkez noktaları

(13)

25

Örnek

K-means algoritması

Yeni merkez noktaları Yeni merkez noktaları

Yeni merkez noktaları

K-means algoritmasının zayıf yönleri

K-means algoritması başlangıç merkez noktalarına bağlı kümeler oluşturur.

K-means algoritması

Başlangıç merkez noktaları

Kötü kümeleme

(14)

27

K-means algoritmasının zayıf yönleri

K-means algoritması başlangıç merkez noktalarına bağlı kümeler oluşturur.

K-means algoritması

İyi kümeleme Başlangıç merkez noktaları

K-means algoritmasının zayıf yönleri

Outlier dataya karşı hassastır.

K-means algoritması

(15)

29

K-means algoritmasının zayıf yönleri

Bazı durumlarda doğal olarak kümeler oluşmuş durumdadır.

Uzaklığa dayalı kümeleme doğal yapıya uygun olmayabilir.

Bu durumlarda komşulukları göz önüne alan algoritmalar kullanılır.

K-means algoritması

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

(16)

31

Bazen kümelerin farklı şekillerde gösterimi gerekebilir.

Bazı uygulamalarda sadece kümelerin merkez noktalarının ve yarıçaplarının gösterimi yeterlidir.

Dairesel küme yapısına sahip durumlarda faydalıdır ve kümenin yarıçapı kapsadığı alanı gösterir.

Dairesel olmayan kümeler için merkez ve yarıçap ile gösterim uygun değildir.

Kümelerin Gösterimi

Bazı uygulamalarda sınıflandırma modelleri ile kümeler gösterilebilir.

Kümelerin gösterimi karar ağaçları ile yapılabilir.

Kümelerin Gösterimi

(17)

33

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

Hiyerarşik kümeleme diğer bir kümeleme yaklaşımıdır ve ağaç şeklinde gösterilir (dendrogram).

Elemanlar birbirine benzerlik durumuna göre hiyerarşik kümelenir.

En alt seviyede tek elemanlar bulunur.

Hiyerarşik Kümeleme

(18)

35

Hiyerarşik kümeleme için 2 farklı yöntem kullanılmaktadır.

Agglomerative (bottom up) clustering

Öncelikle en yakın ikili elemanlar ile kümeler oluşturulur.

Daha sonra yakın olan kümeler birleştirilerek yeni kümeler oluşturulur.

Divisive (top down) clustering

Öncelikle tüm elemanlar tek küme alınır.

Küme iki parçaya ayrılarak iki küme elde edilir.

Elde edilen kümelerde recursive olarak tek elemanlara ulaşıncaya kadar parçalanır.

k-means algoritması veya diğer algoritmalar kullanılabilir.

Hiyerarşik Kümeleme

Örnek

Hiyerarşik Kümeleme

(19)

37

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

Verilerin standartlaştırılması bazı uygulamalarda gereklidir.

Öklid uzaklığına dayalı kümelemede veri standartlaştırma zorunludur.

Örnek

İki nitelik değerinden birisi 0-1, diğeri ise 0-1000 aralığında olsun.

xi= (0.9, 720) ve xj= (0.1, 20) ise aralarındaki uzaklık,

olur.

Veri Standartlaştırma

(20)

39

Interval-scaled attributes

Aralıklı ölçeklendirme yönteminde en yaygın olarak aşağıdaki yöntemler kullanılır:

range (min-max)

z-score

Veri Standartlaştırma

range (min-max)

Her nitelik için değerler minimum ve maksimum değerler arasındaki değere göre, 0-1 arasında değer alır.

Burada, min(f) f niteliğinin minimum değerini, max(f) f niteliğinin maksimum değerini ve xifise i. gözlemin f. nitelik değerini ifade eder.

Veri Standartlaştırma

(21)

41

z-score

Her nitelik için ortalama değerden uzaklığa ve nitelik

değerlerindeki standart sapmaya göre yeni değeri hesaplanır.

Burada, f f niteliğinin standart sapması, µf f niteliğinin ortalama değeri ve z(xif) ise i. gözlemin f. nitelik değerinin yeni değerini ifade eder.

Veri Standartlaştırma

Ratio-scaled attributes

Bazı uygulamalarda nitelik değeri üssel değişebilir.

Burada, A ve B katsayılar ve t nitelik değeridir.

Bu tür durumlarda logaritmik değer ile standartlaştırma yapılır.

Veri Standartlaştırma

(22)

43

Konular

Denetimsiz Öğrenmenin Temelleri

Kümeleme

Uzaklık Fonksiyonları

Öklid Uzaklığı

Manhattan Uzaklığı

Minkowski Uzaklığı

K-means Algoritması

Kümelerin Gösterimi

Hiyerarşik Kümeleme

Veri Standartlaştırma

Kümeleme Değerlendirmesi

Kümeleme sonuçlarının değerlendirilmesi için uygulama alanına göre farklı yöntemler kullanılmaktadır.

Bunlardan yaygın kullanılanlar;

User inspection

Ground truth

Entropy

Purity

Indirect evaluation

Kümeleme Değerlendirmesi

(23)

45

User inspection

Bir grup uzman tarafından yapılan skorlama ile değerlendirme yapılır.

Değerlendirme kişisel olduğundan tüm skorların ortalaması alınır.

Değerlendirme süreci uzun süre alabilir.

Metin sınıflandırma gibi uygulamalarda faydalı olabilir.

Ancak, milyonlarca veriye sahip bir VTYS üzerinde kümelemenin değerlendirilmesi uzun zaman alır ve doğru değerlendirme yapılamayabilir.

Kümeleme Değerlendirmesi

Ground truth

Verilerin küme sayısı belirli ise elde edilen sonuç ona göre değerlendirilir.

Her küme içerisinde doğru atanmış elemanlara göre de değerlendirme yapılabilir.

Kümeleme Değerlendirmesi

(24)

47

Entropy

Her küme için entropi hesaplanır. Kümedeki farklı etiketlerin olasılıkları alınır.

Burada, Di i. küme, Pri(cj) j. sınıf etiketinin olasılığıdır.

Tüm kümeler için entropi hesaplanır.

|Di|i. kümedeki eleman sayısıdır. |D| toplam eleman sayısıdır.

Kümeleme Değerlendirmesi

Purity

Her küme için purity hesaplanır.

Burada, Di i. küme, Pri(cj) j. küme etiketinin olasılığıdır.

Tüm kümeler için purity hesaplanır.

Kümeleme Değerlendirmesi

(25)

49

Örnek

D kümesi 900 dokümana sahiptir. Tüm dokümanlar Science, Sports ve Politics olarak 3 konuya ayrılmaktadır.

Her konu 300 dokümana sahiptir.

Precision, recall ve f-skor değerleri de hesaplanabilir.

Kümeleme Değerlendirmesi

True Pozitif

False Pozitif

False Negatif

Tahmin Science Tahmin Sports Tahmin Politics

031 , 1 ) 257 , 1 0log 90 198 340 , 1 0log 90 589 280 , 0 900log

0 8

(2

E

589 , 0 280) log 10 280

10 280 log 20 280

20 280 log250 280

(250

E

Indirect evaluation

Bazı uygulamalarda oluşturulan kümeler yerine başka parametreler kullanılarak değerlendirme yapılabilir.

Bir kitap tavsiye sisteminde müşteriler profil bilgilerine ve geçmişte ilgilendikleri ürünlere göre kümelenebilir.

Ancak, değerlendirme tavsiye edilen kitapların seçilme oranına göre yapılır.

Kümeleme Değerlendirmesi

Referanslar

Benzer Belgeler

 Veri madenciliği: İşlenmiş olan verinin bir örüntü veya bilgi elde edilmesi için veri madenciliği algoritmalarıyla değerlendirilmesi yapılır.  Post-processing:

 Confidence değerine bağlı olarak bir frequent itemset için kural aşağıdaki gibi elde edilebilir:.  Burada f.count ile (f-  ).count tüm transaction kümesi T ’deki

 Elde edilen sıralı örüntülerden, sıralı kurallar, etiket sıralı kurallar ve sınıf sıralı kurallar oluşturulabilir.  Elde edilen kurallar özellikle Web

Similar to the work of Clifton and Vaidya[12], we address privacy preserving k- means clustering problem over vertically partitioned data, where each involved party has a subset

In this paper, we discuss parallelization of the tree-based k-means method and propose two different schemes based on pattern decomposition and parallel search of the k-d tree used

Araştırmanın bir diğer sonucu, katılımcıların sembolik değeri olan hediyelerin alınmasına kısmen de olsa olumlu gözle bakarken, sunulan kamu hizmeti sonrası verilen hediye

Özellikle baz antenleri ev, okul, hastane gibi duyarlı alanlara yakın konumlandırılmışsa elektromanyetk radyasyon maruziyeti açısından risk oluşturabilmektedir.Yapılan

Oysa Vedat Kosal, Cemal Reşid'in o tarihlerdeki çok yönlülüğünü şöyle eleş­ tiriyor: “Müzisyen komple dediği şeyin devri çoktan geçmişti.. O, hem orkestra