Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

(1)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

M. Ali Akcayol Gazi Üniversitesi

Bilgisayar Mühendisliği Bölümü

Bu dersin sunumları, “The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer, 2017.“ ve “Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011.” kitapları kullanılarak hazırlanmıştır.

Konular

 Twoing Algoritması

 Gini Algoritması

(2)

3

 Twoing algoritmasında eğitim kümesi her adımda iki parçaya ayrılarak bölümleme yapılır.

 Aday bölünmelerin sağ ve sol kısımlarının her birisi için tekrar oranı alınır.

 Aday bölünmelerin sağ ve sol kısımlarındaki her bir nitelik değeri için sınıf değerlerinin her birisinin olma olasılığı hesaplanır.

 Her bölünme için uygunluk değeri en yüksek olan alınır.

 Burada, T eğitim kümesindeki kayıt sayısını, B aday bölünmeyi, d düğümü, Tsinif_j ise j.sınıf değerini gösterir.





 





 



 





ⁿ

j sag

j sol

j sol sag

B B T abs

B T d B

B

1

Tsinif Tsinif

2 )

| (

4

Örnek

Twoing Algoritması

(3)

5

Örnek – devam

 Aday bölünmeler aşağıdaki gibidir.

Twoing Algoritması

 MAAŞ = {NORMAL} için

Twoing Algoritması

09 , 111 0



 T

P_sol B^sol 1

1 Tsinif 1

) /

(   

sol EVET t

EVET B

P sol 0

1 Tsinif 0

) /

(   

sol HAYIR t

HAYIR

P B

sol

(4)

7

 MAAŞ = {DÜŞÜK, YÜKSEK}

91 , 11 0 10 



 T

P_sag B^sag 0,6

10 Tsinif 6

) /

(   

sag EVET t

EVET B

P sag 0,4

10 Tsinif 4

) /

(   

sag HAYIR t

HAYIR

B P sag

8

 Uygunluk değeri (1. aday bölünme için)

Twoing Algoritması

13 , 0

|]

4 , 0 0

|

| 6 , 0 1 )[|

91 , 0 )(

09 , 0 ( 2

Tsinif Tsinif

2 )

| 1 (

1





















 







 n

j sag

j sol

j sol sag

B B T abs

B T d B

(5)

9

 Aynı işlemler ALT DÜĞÜM için tekrarlanır.

Twoing Algoritması

 Sonuç karar ağacı.

Twoing Algoritması

(6)

11

Karar ağacından elde edilen kurallar

1. EĞER (GÖREV = YÖNETİCİ) İSE (MEMNUN = EVET)

2. EĞER (GÖREV = UZMAN) VE (MAAŞ = NORMAL) İSE (MEMNUN = EVET)

3. EĞER (GÖREV = UZMAN) VE (MAAŞ = DÜŞÜK VEYA MAAŞ = YÜKSEK) VE (DENEYİM=YOK) İSE (MEMNUN = EVET)

4. EĞER (GÖREV = UZMAN) VE (MAAŞ = DÜŞÜK VEYA MAAŞ = YÜKSEK) VE (DENEYİM = ORTA VEYA DENEYİM = İYİ) İSE (MEMNUN = HAYIR)

12

Konular

 Twoing Algoritması

 Gini Algoritması

(7)

13

 Gini algoritmasında nitelik değerleri iki parçaya ayrılarak bölümleme yapılır.

 Her bölünme için Gini_solve Gini_sağdeğerleri hesaplanır.

 Burada, Tsinif_isoldaki bölümdeki her bir sınıf değerini, Tsinif_i sağdaki bölümdeki her bir sınıf değerini, |B_sol| sol bölümdeki tüm değer sayısını, |B_sağ|sağ bölümdeki tüm değer sayısını gösterir.

 Her bölümlemeden sonra Gini değeri en küçük olan seçilir.

Gini Algoritması

2

1 2

1

Tsinif Tsinif 1

1

 



 









 

 











 

 ^k

i sag

k

i sol

i

sol Gini B

Gini B



sol sol sag sag



j B Gini B Gini

Gini  n1 

Örnek

Gini Algoritması

(8)

15

Örnek

EĞİTİM için

320 , 5 0

1 5

1 4

444 , 3 0

2 3

1 1

2 2











 



 







 



 













 



 







 



 



sag sol

Gini Gini

16

Örnek

YAŞ için

Gini Algoritması

278 , 6 0

1 6

1 5

2 0 2 2

1 0

2 2











 



 







 



 













 



 







 



 



sag sol

Gini Gini

(9)

17

Örnek

CİNSİYET için

Gini Algoritması

320 , 5 0

1 5

1 4

444 , 3 0

2 3

1 1

2 2











 



 







 



 













 



 







 



 



sag sol

Gini Gini

Örnek

Gini değerleri

Gini Algoritması

209 , 8 0

) 278 , 0 ( 6 ) 0 ( 2

367 , 8 0

) 320 , 0 ( 5 ) 444 , 0 ( 3

 



 



YAS EGITIM

Gini Gini

(10)

19

Örnek

Aynı işlemler ALT DÜĞÜM için tekrarlanır.

20

Örnek

Gini Algoritması

(11)

21

Karar ağacından elde edilen kurallar

1. EĞER (YAŞ = GENÇ) İSE (SONUÇ = HAYIR)

2. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = ERKEK) İSE (SONUÇ = EVET)

3. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = KADIN) VE (YAŞ = YAŞLI) İSE (SONUÇ = EVET)

4. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = KADIN) VE (YAŞ = ORTA) İSE (SONUÇ = HAYIR)

Gini Algoritması

 Karar ağaçları ile doküman sınıflandırma hakkında bir makale ödevi hazırlayınız.

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)