Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)
M. Ali Akcayol Gazi Üniversitesi
Bilgisayar Mühendisliği Bölümü
Bu dersin sunumları, “The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer, 2017.“ ve “Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011.” kitapları kullanılarak hazırlanmıştır.
Konular
Twoing Algoritması
Gini Algoritması
3
Twoing algoritmasında eğitim kümesi her adımda iki parçaya ayrılarak bölümleme yapılır.
Aday bölünmelerin sağ ve sol kısımlarının her birisi için tekrar oranı alınır.
Aday bölünmelerin sağ ve sol kısımlarındaki her bir nitelik değeri için sınıf değerlerinin her birisinin olma olasılığı hesaplanır.
Her bölünme için uygunluk değeri en yüksek olan alınır.
Burada, T eğitim kümesindeki kayıt sayısını, B aday bölünmeyi, d düğümü, Tsinifj ise j.sınıf değerini gösterir.
nj sag
j sol
j sol sag
B B T abs
B T d B
B
1
Tsinif Tsinif
2 )
| (
4
Örnek
Twoing Algoritması
5
Örnek – devam
Aday bölünmeler aşağıdaki gibidir.
Twoing Algoritması
Örnek – devam
MAAŞ = {NORMAL} için
Twoing Algoritması
09 , 111 0
T
Psol Bsol 1
1 Tsinif 1
) /
(
sol EVET t
EVET B
P sol 0
1 Tsinif 0
) /
(
sol HAYIR t
HAYIR
P B
sol
7
Örnek – devam
MAAŞ = {DÜŞÜK, YÜKSEK}
91 , 11 0 10
T
Psag Bsag 0,6
10 Tsinif 6
) /
(
sag EVET t
EVET B
P sag 0,4
10 Tsinif 4
) /
(
sag HAYIR t
HAYIR
B P sag
8
Örnek – devam
Uygunluk değeri (1. aday bölünme için)
Twoing Algoritması
13 , 0
|]
4 , 0 0
|
| 6 , 0 1 )[|
91 , 0 )(
09 , 0 ( 2
Tsinif Tsinif
2 )
| 1 (
1
n
j sag
j sol
j sol sag
B B T abs
B T d B
9
Örnek – devam
Aynı işlemler ALT DÜĞÜM için tekrarlanır.
Twoing Algoritması
Örnek – devam
Sonuç karar ağacı.
Twoing Algoritması
11
Örnek – devam
Karar ağacından elde edilen kurallar
1. EĞER (GÖREV = YÖNETİCİ) İSE (MEMNUN = EVET)
2. EĞER (GÖREV = UZMAN) VE (MAAŞ = NORMAL) İSE (MEMNUN = EVET)
3. EĞER (GÖREV = UZMAN) VE (MAAŞ = DÜŞÜK VEYA MAAŞ = YÜKSEK) VE (DENEYİM=YOK) İSE (MEMNUN = EVET)
4. EĞER (GÖREV = UZMAN) VE (MAAŞ = DÜŞÜK VEYA MAAŞ = YÜKSEK) VE (DENEYİM = ORTA VEYA DENEYİM = İYİ) İSE (MEMNUN = HAYIR)
12
Konular
Twoing Algoritması
Gini Algoritması
13
Gini algoritmasında nitelik değerleri iki parçaya ayrılarak bölümleme yapılır.
Her bölünme için Ginisolve Ginisağdeğerleri hesaplanır.
Burada, Tsinifisoldaki bölümdeki her bir sınıf değerini, Tsinifi sağdaki bölümdeki her bir sınıf değerini, |Bsol| sol bölümdeki tüm değer sayısını, |Bsağ|sağ bölümdeki tüm değer sayısını gösterir.
Her bölümlemeden sonra Gini değeri en küçük olan seçilir.
Gini Algoritması
2
1 2
1
Tsinif Tsinif 1
1
k
i sag
i sag
k
i sol
i
sol Gini B
Gini B
sol sol sag sag
j B Gini B Gini
Gini n1
Örnek
Gini Algoritması
15
Örnek
EĞİTİM için
320 , 5 0
1 5
1 4
444 , 3 0
2 3
1 1
2 2
2 2
sag sol
Gini Gini
16
Örnek
YAŞ için
Gini Algoritması
278 , 6 0
1 6
1 5
2 0 2 2
1 0
2 2
2 2
sag sol
Gini Gini
17
Örnek
CİNSİYET için
Gini Algoritması
320 , 5 0
1 5
1 4
444 , 3 0
2 3
1 1
2 2
2 2
sag sol
Gini Gini
Örnek
Gini değerleri
Gini Algoritması
209 , 8 0
) 278 , 0 ( 6 ) 0 ( 2
367 , 8 0
) 320 , 0 ( 5 ) 444 , 0 ( 3
YAS EGITIM
Gini Gini
19
Örnek
Aynı işlemler ALT DÜĞÜM için tekrarlanır.
20
Örnek
Gini Algoritması
21
Örnek – devam
Karar ağacından elde edilen kurallar
1. EĞER (YAŞ = GENÇ) İSE (SONUÇ = HAYIR)
2. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = ERKEK) İSE (SONUÇ = EVET)
3. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = KADIN) VE (YAŞ = YAŞLI) İSE (SONUÇ = EVET)
4. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = KADIN) VE (YAŞ = ORTA) İSE (SONUÇ = HAYIR)
Gini Algoritması
Karar ağaçları ile doküman sınıflandırma hakkında bir makale ödevi hazırlayınız.