• Sonuç bulunamadı

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

N/A
N/A
Protected

Academic year: 2021

Share "Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)"

Copied!
11
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

M. Ali Akcayol Gazi Üniversitesi

Bilgisayar Mühendisliği Bölümü

Bu dersin sunumları, “The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer, 2017.“ ve “Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011.” kitapları kullanılarak hazırlanmıştır.

Konular

Twoing Algoritması

Gini Algoritması

(2)

3

Twoing algoritmasında eğitim kümesi her adımda iki parçaya ayrılarak bölümleme yapılır.

Aday bölünmelerin sağ ve sol kısımlarının her birisi için tekrar oranı alınır.

Aday bölünmelerin sağ ve sol kısımlarındaki her bir nitelik değeri için sınıf değerlerinin her birisinin olma olasılığı hesaplanır.

Her bölünme için uygunluk değeri en yüksek olan alınır.

Burada, T eğitim kümesindeki kayıt sayısını, B aday bölünmeyi, d düğümü, Tsinifj ise j.sınıf değerini gösterir.

 

 

 

n

j sag

j sol

j sol sag

B B T abs

B T d B

B

1

Tsinif Tsinif

2 )

| (

4

Örnek

Twoing Algoritması

(3)

5

Örnek – devam

Aday bölünmeler aşağıdaki gibidir.

Twoing Algoritması

Örnek – devam

MAAŞ = {NORMAL} için

Twoing Algoritması

09 , 111 0

T

Psol Bsol 1

1 Tsinif 1

) /

(

sol EVET t

EVET B

P sol 0

1 Tsinif 0

) /

(

sol HAYIR t

HAYIR

P B

sol

(4)

7

Örnek – devam

MAAŞ = {DÜŞÜK, YÜKSEK}

91 , 11 0 10 

T

Psag Bsag 0,6

10 Tsinif 6

) /

(

sag EVET t

EVET B

P sag 0,4

10 Tsinif 4

) /

(

sag HAYIR t

HAYIR

B P sag

8

Örnek – devam

Uygunluk değeri (1. aday bölünme için)

Twoing Algoritması

13 , 0

|]

4 , 0 0

|

| 6 , 0 1 )[|

91 , 0 )(

09 , 0 ( 2

Tsinif Tsinif

2 )

| 1 (

1

n

j sag

j sol

j sol sag

B B T abs

B T d B

(5)

9

Örnek – devam

Aynı işlemler ALT DÜĞÜM için tekrarlanır.

Twoing Algoritması

Örnek – devam

Sonuç karar ağacı.

Twoing Algoritması

(6)

11

Örnek – devam

Karar ağacından elde edilen kurallar

1. EĞER (GÖREV = YÖNETİCİ) İSE (MEMNUN = EVET)

2. EĞER (GÖREV = UZMAN) VE (MAAŞ = NORMAL) İSE (MEMNUN = EVET)

3. EĞER (GÖREV = UZMAN) VE (MAAŞ = DÜŞÜK VEYA MAAŞ = YÜKSEK) VE (DENEYİM=YOK) İSE (MEMNUN = EVET)

4. EĞER (GÖREV = UZMAN) VE (MAAŞ = DÜŞÜK VEYA MAAŞ = YÜKSEK) VE (DENEYİM = ORTA VEYA DENEYİM = İYİ) İSE (MEMNUN = HAYIR)

12

Konular

Twoing Algoritması

Gini Algoritması

(7)

13

Gini algoritmasında nitelik değerleri iki parçaya ayrılarak bölümleme yapılır.

Her bölünme için Ginisolve Ginisağdeğerleri hesaplanır.

Burada, Tsinifisoldaki bölümdeki her bir sınıf değerini, Tsinifi sağdaki bölümdeki her bir sınıf değerini, |Bsol| sol bölümdeki tüm değer sayısını, |Bsağ|sağ bölümdeki tüm değer sayısını gösterir.

Her bölümlemeden sonra Gini değeri en küçük olan seçilir.

Gini Algoritması

2

1 2

1

Tsinif Tsinif 1

1

 





 

 



 

k

i sag

i sag

k

i sol

i

sol Gini B

Gini B

sol sol sag sag

j B Gini B Gini

Ginin1 

Örnek

Gini Algoritması

(8)

15

Örnek

EĞİTİM için

320 , 5 0

1 5

1 4

444 , 3 0

2 3

1 1

2 2

2 2







 

 





 

 







 

 





 

 

sag sol

Gini Gini

16

Örnek

YAŞ için

Gini Algoritması

278 , 6 0

1 6

1 5

2 0 2 2

1 0

2 2

2 2







 

 





 

 







 

 





 

 

sag sol

Gini Gini

(9)

17

Örnek

CİNSİYET için

Gini Algoritması

320 , 5 0

1 5

1 4

444 , 3 0

2 3

1 1

2 2

2 2







 

 





 

 







 

 





 

 

sag sol

Gini Gini

Örnek

Gini değerleri

Gini Algoritması

209 , 8 0

) 278 , 0 ( 6 ) 0 ( 2

367 , 8 0

) 320 , 0 ( 5 ) 444 , 0 ( 3

 

 

YAS EGITIM

Gini Gini

(10)

19

Örnek

Aynı işlemler ALT DÜĞÜM için tekrarlanır.

20

Örnek

Gini Algoritması

(11)

21

Örnek – devam

Karar ağacından elde edilen kurallar

1. EĞER (YAŞ = GENÇ) İSE (SONUÇ = HAYIR)

2. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = ERKEK) İSE (SONUÇ = EVET)

3. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = KADIN) VE (YAŞ = YAŞLI) İSE (SONUÇ = EVET)

4. EĞER (YAŞ = ORTA VEYA YAŞ = YAŞLI) VE (CİNSİYET = KADIN) VE (YAŞ = ORTA) İSE (SONUÇ = HAYIR)

Gini Algoritması

Karar ağaçları ile doküman sınıflandırma hakkında bir makale ödevi hazırlayınız.

Ödev

Referanslar

Benzer Belgeler

Sonuç olarak, veri madenciliği kavramı ve yakın ilişkide olduğu; bilgi ve iletişim teknolojileri, büyük veri, yapay zekâ ve derin öğrenme gibi farklı diğer birçok

En önemli bulgularımız çevrimiçi kural çıkarımı sayesinde: (1) çevrimdışı kural çıkarımından çok daha fazla kuralın, (2) çok daha hızlı ve etkin olarak,

The aim of this experiment is to cluster the fifteen clients (vectors) which shows the two clusters where the clients grouped into two clusters (cluster one and cluster two) for

◼ Makine öğrenmesinde, veri bir eğitim kümesi olarak alınır ve bir algoritmanın öğrenmesi için kullanılır.. ◼ Makine öğrenmesi, Bayes ağları, destek vektör

 Büyük veri analitiği yöntemleri veriyi saklamak, veriyi elde etmek ve analiz etmek için gelişmiş teknolojiyi kullanır. Büyük

 İstatistiksel yöntemler, makine öğrenmesi yöntemleri veya yapay sinir ağları sınıflandırma problemleri için kullanılmaktadır..

 Son olarak sınıf niteliğinin entropisinden tüm özellik vektörlerinin entropisi çıkartılarak her özellik için kazanç ölçütü hesaplanır.  En büyük kazanca

 K-means algoritması başlangıç merkez noktalarına bağlı kümeler oluşturur.