• Sonuç bulunamadı

˙Istatistiksel Ö˘grenme: Temel Kavramlar

N/A
N/A
Protected

Academic year: 2021

Share "˙Istatistiksel Ö˘grenme: Temel Kavramlar"

Copied!
64
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

˙Istatistiksel Ö˘grenme: Temel Kavramlar

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi

˙IKT-457 Ekonomi ve Finans ˙Için Yapay Zeka 1 Sürüm 0,93

(2)

Açık Lisans Bilgisi

Bu belge “Creative Commons Attribution-ShareAlike 3.0 Un- ported” (CC BY-SA 3.0) lisansı altında bir açık ders malzemesi olarak genel kullanıma sunulmu¸stur. Bazı ¸sekiller “An Intro- duction to Statistical Learning, with applications in R” (Sprin- ger, 2017) kitabından yazarların izniyle alınmı¸stır. Tüm belge eserin ilk sahibinin belirtilmesi ve geçerli lisansın korunması ko¸suluyla özgürce kullanılabilir, ço ˘galtılabilir, ve de ˘gi¸stirilebi- lir. Creative Commons örgütü ve CC-BY-SA 3.0 lisansı ile il- gili ayrıntılı bilgihttps://creativecommons.orgInternet adresinde yer almaktadır. Ders notlarımın güncel sürümlerine http://yalta.etu.edu.tr adresinden ula¸sabilirsiniz.

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi 2020 – 2021

(3)

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(4)

˙Istatistiksel Modelleme

Basit Bir Örnek

˙Istatistiksel ö˘grenmenin amacı veri setlerindensistematik bilgielde etmektir. Gelin, bunu bir örnek üzerinde açıklayalım.

Belli bir ürünün satı¸sını artırmak istedi ˘gimizi dü¸sünelim. Elimizde bu ürüne ait 200 farklı piyasadaki satı¸slar ile televizyon, radyo ve gazeteler için reklam harcamaları bilgisi oldu ˘gunu varsayalım.

Kısaca, farklı medya türlerindeki reklam harcamasına ba ˘glı olarak satı¸sların nasıl de ˘gi¸sti ˘gini anlamak istiyoruz.

Burada ö ˘grenmek istedi ˘gimiz hedef bilgi satı¸slardır. Buna çıktı (output) de ˘gi¸skeni diyelim.

Bu durumda çıktı de ˘gi¸skenini açıklamak için kullanaca ˘gımız rek- lam harcamaları dagirdi(input) de ˘gi¸skeni olur.

Örne ˘gimizdeki veriler ¸Sekil 1’de gösterilmi¸stir.

(5)

˙Istatistiksel Modelleme

Reklam Verileri

0 50 100 200 300

510152025

Televizyon

Satışlar

0 10 20 30 40 50

510152025

Radyo

Satışlar

0 20 40 60 80 100

510152025

Gazete

Satışlar

¸

Sekil 1:Medya türüne göre reklamların satı¸s üzerindeki etkisi

(6)

˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(7)

˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri

Girdi ve Çıktı De ˘gi¸skenleri

¸

Sekilde çıktı de ˘gi¸skeninin y-ekseninde, girdi de ˘gi¸skenlerinin ise x-ekseninde bulundu ˘guna dikkat ediniz.

Genel olarak, çıktı de ˘gi¸skenini Y harfi ile belirtiriz.

Girdi de ˘gi¸skenlerini ise X1, X2, X3, . . . harfleri ile gösteririz.

Bu de ˘gi¸skenlere duruma göre farklı adlar da verebiliriz:

Çıktı De ˘gi ¸skeni (Y ) Girdi De ˘gi ¸skeni (X )

Ba ˘gımlı de ˘gi¸sken (Dependent variable) Ba ˘gımsız de ˘gi¸sken(Independent variable)

Kestirilen (Predictand) Kestirici (Predictor)

Açıklanan de ˘gi¸sken (Explained variable) Açıklayıcı de ˘gi¸sken(Explanatory variable) Tepki de ˘gi¸skeni (Response variable) Denetim de ˘gi¸skeni (Control variable)

(8)

˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri

˙Istatistiksel Model (1)

Girdi ve çıktı de ˘gi¸skenleri arasındaki ili¸skiyi incelemek için istatis- tiksel modellerden yararlanırız:

˙Istatistiksel model

˙Istatistiksel model(statistical model), anakütleden gelen örneklem ve- rilerinin nasıl olu¸stu ˘gunu açıklayan matematiksel fonksiyondur.

Bir istatistiksel modelin en genel gösterimi a¸sa ˘gıdaki gibidir:

Y = f (X ) + 

Burada f sabit ancak bilinmeyen bir matematiksel fonksiyondur.

X ’lerin Y hakkında sa ˘gladı ˘gı tümsistematik bilgibudur.

Soldaki  (epsilon okunur) ise X ’lerden ba ˘gımsız ve ortalaması sıfır olanrastsal hata terimi(random error term) olarak adlandırılır.

f ’yi ve ’u anlamak için önceki bölümdeki ücret veri setine geri dönelim ve ¸Sekil 2’yi inceleyelim.

(9)

˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri

˙Istatistiksel Model (2)

10 12 14 16 18 20 22

20304050607080

Eğitim süresi (yıl)

Gelir

10 12 14 16 18 20 22

20304050607080

Eğitim süresi (yıl)

Gelir

¸

Sekil 2:Gelir ve e ˘gitim ili¸skisini gösteren istatistiksel model

(10)

˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri

˙Istatistiksel Model (3)

¸

Sekildeki veri seti simülasyon yoluyla olu¸sturuldu ˘gu için bu ör- nekte f bellidir ve sa ˘g panelde mavi çizgi ile gösterilmi¸stir.

Buradaki dikey çizgiler hata terimi olan ’ları göstermektedir.

Hataların bir bölümünün fonksiyon çizgisinin üstünde, di ˘gerlerinin ise çizginin altında kaldı ˘gını ve ortalamalarının yakla¸sık sıfır ola- ca ˘gına dikkat ediniz.

¸

Sekilde e ˘gitim süresi arttıkça gelirin önce artarak arttı ˘gı ve bir noktadan sonra da azalarak artmaya ba¸sladı ˘gı anla¸sılmaktadır.

Ancak uygulamada X ve Y arasındaki ili¸skiyi belirten f fonksiyo- nunu kesin olarak bilmek olanaksızdır.

Gerçek hayatta elimizdeki tek bilgi sol panelde gösterilen veriler- dir. Dolayısıyla f ’yitahmin(estimate) etmemiz gerekir.

(11)

˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri

˙Istatistiksel Model (4)

˙Istatistiksel modellerde genellikle birden fazla girdi bulunur. Örnek olarak, bir yerine iki adet X de ˘gi¸skeni oldu ˘gu zaman f ’yi a¸sa ˘gıdaki gibi üç boyutlu bir yüzey ile gösterebiliriz:

Eğitim Düze yi

Kıde m G

elir

¸

Sekil 3:Gelir, e ˘gitim süresi ve kıdem arasındaki ili¸ski

(12)

˙Istatistiksel Modelleme Kestirim ve çıkarsama

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(13)

˙Istatistiksel Modelleme Kestirim ve çıkarsama

Kestirim

Bir istatistiksel modeli tahmin etmenin iki amacı vardır: kestirim (prediction) veçıkarsama(inference).

Kestirim, eldeki verili X de ˘gerlerini kullanarak buna kar¸sılık gelen Y de ˘gerini tahmin etmek demektir. Bunu ¸söyle gösterebiliriz:

Y = ˆf(X )ˆ

Yukarıda görülenˆ(¸sapka) simgesi tahmin anlamındadır.

Kestirim uygulamasında tahmin edilen f ’yi bir kara kutu olarak gö- rürüz. ˙Içeri ˘gine de ˘gil, do ˘gru sonuç verip vermedi ˘gine bakarız.

(14)

˙Istatistiksel Modelleme Kestirim ve çıkarsama

Azaltılabilen Hata ve Azaltılamayan Hata (1)

Kestirilen ˆY de ˘gerinin do ˘gruluk derecesi iki büyüklü ˘ge ba ˘glıdır:

Azaltılabilen hataveazaltılamayan hata

Azaltılabilen hata, daha iyi ve uygun bir istatistiksel ö ˘grenme aracı kullanılarak kaçınılabilecek olan hatalardır.

Azaltılamayan hata ise rastsal hata teriminden kaynaklanır. Y aynı zamanda ’a da ba ˘glı oldu ˘gu için bundan kaçınmak olanaksızdır.

Peki,  neden vardır? Hata terimi genel olarak (1) ölçemedi ˘gimiz, (2) hatalı ölçebildi ˘gimiz, (3) göz ardı etti ˘gimiz ya da (4) hiç bile- medi ˘gimiz de ˘gi¸skenlerin ortak etkisini gösterir.

Bunların Y ve X ’lerden ba ˘gımsız ve birbirlerinin etkisini yok ettik- leri için sıfır ortalamaya sahip oldukları kabul edilir.

(15)

˙Istatistiksel Modelleme Kestirim ve çıkarsama

Azaltılabilen Hata ve Azaltılamayan Hata (2)

Azaltılabilen hata ile azaltılamayan hatayı açıklamak için ˆf ve X ’lerin sabit oldu ˘gunu varsayalım. Bu durumda ¸sunu yazabiliriz:

E(Y − ˆY )2=E[f (X ) +  − ˆf(X )]2

= [f (X ) +  − ˆf(X )]2

| {z }

Azaltılabilen

+ var()

| {z }

Azaltılamayan

Burada E(Y − ˆY )2, kestirim hatasının karesinin beklenen de ˘geri- dir. Kısaca ortalama hatanın karesidir.

var() ise hata terimine aitvaryans(variance) de ˘geridir.

Görüldü ˘gü gibi, istatistiksel ö ˘grenmedeki amacımız azaltılabilen hatayı minimize etmektedir.

Ancak uygulamada ’dan kaynaklanan bir kestirim hatası her za- man olacaktır.

(16)

˙Istatistiksel Modelleme Kestirim ve çıkarsama

Çıkarsama

Veri çözümlemesinde belli bir Y de ˘gerini kestirmek dı¸sında ço ˘gu zaman çıkarsama da yapılır.

Burada amaç Y ’nin X ’lerden nasıl etkilendi ˘gini anlamaktır. Bu du- rumda f fonksiyonunu bir kara kutu olarak görmeyiz.

Çıkarsama yaparak a¸sa ˘gıdaki sorulara yanıt ararız:

Hangi X de ˘gi¸skenleri Y üzerinde etkilidir?

Y ile her bir X de ˘gi¸skeni arasındaki ili¸ski nedir?

Y ’nin X ’lerle ili¸skisi do ˘grusal mı yoksa daha karma¸sık mıdır?

Örnek olarak, ev satı¸sı yapan bir firmayı ele alalım.

Burada daire geni¸sli ˘gi bir m2 artarsa fiyatın ne kadar artaca ˘gı, dairenin ön cephede olmasının ya da çocuk odasında banyo bu- lunmasının fiyatı nasıl etkilece ˘gi çıkarsamanın konusudur.

Belli bir dairenin yalnızca fiyatını tahmin etmek isteseydik bu kes- tirim konusu olurdu.

(17)

Tahmin Konusu

Matematiksel Gösterim

Tahmin konusuna geçmeden önce kullanaca ˘gımız matematiksel gösterimden kısaca söz edelim.

Bu derste ele alaca ˘gımız birçok farklı yöntemi açıklarken ya da bunları kar¸sıla¸stırırken ortak bir gösterimden yararlanaca ˘gız.

Örnek olarak, veri setimizin uzunlu ˘gunu n olarak belirleyece ˘giz.

Di ˘ger bir deyi¸sle elimizde n adet gözlem oldu ˘gunu dü¸sünecek ve bunları i olarak adlandıraca ˘gız: i = 1, 2, . . . , n.

Açıklayıcı de ˘gi¸sken sayımız ise p olacak ve bunları da j harfi ile gösterece ˘giz: j = 1, 2, . . . , p.

De ˘gi¸skenleri Y ve X ’ler ¸seklinde büyük harflerle yazaca ˘gız.

Tekil gözlemler ise xip ¸seklinde küçük harf olacak.

Örnek olarak, x11 dedi ˘gimiz zaman bu, birinci gözlemdeki birinci X de ˘gi¸skeni anlamına gelecek.

Tüm X de ˘gi¸skenlerine birlikte e ˘gitim verileri (training data) diye- ce ˘giz: xi = (xi1,xi2, . . . ,xip)T.

Amacımız Y ≈ ˆf(X ) olacak ¸sekilde ˆf tahminini bulmak olacak.

(18)

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(19)

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Parametrik ve Parametrik-dı¸sı Yöntemler

Matematiksel gösterimi açıkladıktan sonra artık f fonksiyonunun nasıl tahmin edilece ˘gi konusuna geçebiliriz.

Veri çözümlemesinde amacımızın kestirim mi yoksa çıkarsama mı oldu ˘guna ba ˘glı olarak farklı yöntemler kullanılabiliriz.

Örnek olarak,do ˘grusal(linear) modeller görece basit ve anla¸sıla- bilir yapıları nedeniyle yorumlama kolaylı ˘gı sa ˘glar.

Dolayısıyla bunlar çıkarsama amacı için daha uygundur.

Do ˘grusal olmayan (non-linear) modelleri ise yorumlamak güçtür ama bunlar da kestirim konusunda ço ˘gu zaman daha ba¸sarılıdır.

Bu derste f fonksiyonunu tahmin etmek için çok sayıda do ˘grusal ve do ˘grusal-dı¸sı yöntem görece ˘giz.

Bu yöntemleri genel olarakparametrik(parametric) veparametrik- dı¸sı(non-parametric) ¸seklinde iki gruba ayırabiliriz.

(20)

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Parametrik Yöntemler (1)

Parametrik yöntemlerde iki adımlı bir yakla¸sım izlenir.

1 ˙Ilk adımda f ’nin fonksiyon yapısına karar verilir. Örnek olarak,

¸söyle birdo ˘grusal model(linear model) kullanabiliriz:

Y = β0+ β1X1+ β2X2+ · · · + βpXp

Do ˘grusallık varsayımı model tahminini kolayla¸stırır. Çok karma¸sık olabilecek bir fonksiyonla u ˘gra¸smak yerine p + 1 adet katsayıyı tahmin etmek burada yeterli olur.

2 ˙Ikinci olarak, elimizdeki verileri modeleyakı¸stırmak(fitting), di ˘ger bir deyi¸sle modeli e ˘gitmek (training) isteriz. Böylece, modeldeki katsayıları tahmin ederiz:

Y ≈ ˆβ0+ ˆβ1X1+ ˆβ2X2+ · · · + ˆβpXp

Bu i¸slemin birçok farklı yolu vardır. Bunlar içinde en yaygını ise sıradan enküçük kareler(ordinary least squares) yöntemidir.

(21)

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Parametrik Yöntemler (2)

Parametrik yöntemde fonksiyon yapısını biz belirledi ˘gimiz için tah- min süreci oldukça kolayla¸sır.

Ancak gerçek hayatta de ˘gi¸skenler arasındaki karma¸sık ili¸skileri önceden bilmek zordur.

Dolayısıyla parametrik yakla¸sımın olası sakıncası a¸sırı basit bir model kullanmaktır.

Örnek olarak, ba¸sta söz etti ˘gimiz e ˘gitim süresi, kıdem ve gelir ara- sındaki ili¸skiyi parametrik yöntemle tahmin etmek için a¸sa ˘gıdaki do ˘grusal modeli kullanalım:

Gelir ≈ β0+ β1E ˘gitim + β2Kıdem.

Elimizdeki verileri sıradan enküçük kareler yöntemi ile modele ya- kı¸stıracak olursak ¸Sekil 4’teki tahmin yüzeyini elde ederiz.

(22)

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi

Do ˘grusal modelin ¸Sekil 3’te gördü ˘gümüz gerçek f ’deki e ˘gri yüzeyi yakalayamadı ˘gı anla¸sılıyor. Ancak küçük bir veri seti ile yapılabi- lecek en iyi tahmin belki de bu olabilir.

Eğitim Düze yi

Kıde m G

elir

¸

Sekil 4:Gelir, e ˘gitim, kıdem ili¸skisinin do ˘grusal model ile tahmini

(23)

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Parametrik-dı¸sı Yöntemler (1)

Parametrik-dı¸sı yöntemler f ’nin fonksiyon yapısı konusunda bir varsayımda bulunmaz. Bunun yerine eldeki verilere en iyi yakı¸san fonksiyonu bulmaya çalı¸sır.

Bu yöntemde tahmin sonuçlarının a¸sırı düz ya da a¸sırı e ˘gri ol- maması önemlidir. Bunun için uygun birdüzle¸stirme (smoothing) derecesi seçmek gereklidir.

Parametrik-dı¸sı yakla¸sımı kullanarak de ˘gi¸skenler arasındaki çok karma¸sık ili¸skileri dikkate alabiliriz.

Ancak bu yakla¸sımın sakıncası da bu i¸s için çok daha fazla veriye gereksinim duymalarıdır.

Parametrik-dı¸sı yönteme örnek olarak, ¸simdi de gelir modelimizi ince-katman spline(thin-plate spline) yöntemi ile tahmin edelim.

Buradan elde edilen sonuçlar ¸Sekil 5’te gösterilmi¸stir.

(24)

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi

Bu ¸sekilde spline yöntemi için yüksek bir düzle¸stirme de ˘geri kul- lanılmı¸stır. Tahmin edilen yüzeyin daha önce ¸Sekil 3’te gösterilen gerçek duruma çok yakın oldu ˘gu görülüyor.

Eğitim Düze yi

Kıde m G

elir

¸

Sekil 5:Gelir, e ˘gitim, kıdem ili¸skisinindüzgünince-katman spline ile tahmini

(25)

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi

Burada ise spline için dü¸sük bir düzle¸stirme uygulanmı¸stır. Bu- radaa¸sırı yakı¸sma(over fitting) söz konusudur. Elde edilen sonuç gerçek durumu tam yansıtmamaktadır.

Eğitim Düze yi

Kıde m G

elir

¸

Sekil 6:Gelir, e ˘gitim, kıdem ili¸skisininengebeliince-katman spline ile tahmini

(26)

Tahmin Konusu Kesinlik ve yorumlanabilirlik

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(27)

Tahmin Konusu Kesinlik ve yorumlanabilirlik

Kesinlik ve Yorumlanabilirlik (1)

Bu derste görece ˘gimiz çok sayıda yöntemden bazıları uygulama konusunda esnek, bazıları ise kısıtlayıcıdır.

Örnek olarak do ˘grusal regresyon görece kısıtlayıcıdır çünkü yal- nızca do ˘grusal fonksiyonlara izin verir.

Öte yandan ince-katman spline yöntemi f fonksiyonu için oldukça ayrıntılı ¸sekiller üretebildi ˘gi için esnektir.

Peki, esnek yöntemler varken neden kısıtlayıcı bir yöntem kulla- nalım? Bunun yanıtı ikisi arasındakikesinlik(accuracy) veyorum- lanabilirlik(interpretability) farkıdır.

Esnek yöntemler kullanarak de ˘gi¸skenler arasındaki çok karma¸sık ili¸skileri dikkate alabiliriz. Dolayısıyla bunlar kestirim konusunda genellikle daha ba¸sarılıdır.

Kısıtlayıcı yöntemler ise görece basit ve anla¸sılabilir yapıları ne- deniyle anlaması ve yorumlaması kolay sonuçlar üretirler.

Kesinlik ve yorumlanabilirlik ödünle¸smesi ¸Sekil 7’deki gibidir.

(28)

Tahmin Konusu Kesinlik ve yorumlanabilirlik

Kesinlik ve Yorumlanabilirlik (2)

Esneklik

Yorumlanabilirlik

Düşük

şük

Yüksek Yüksek Altküme Seçimi

Kement

Genellemeli Toplamlı Modeller Ağaçlar

Bagging, Boosting Destek Vektör Makineleri Doğrusal Regresyon

¸

Sekil 7:Kesinlik ve yorumlanabilirlik arasındaki ödünle¸sme

(29)

Tahmin Konusu Kesinlik ve yorumlanabilirlik

Kesinlik ve Yorumlanabilirlik (3)

¸

Sekilde çe¸sitli istatistiksel ö ˘grenme yöntemlerinin esnekli ˘gi art- tıkça yorumlanabilirli ˘ginin dü¸stü ˘gü görülmektedir.

Örnek olarak, Bölüm 8’de ele alaca ˘gımızboostingile Bölüm 9’da görece ˘gimizdestek vektör makinelerioldukça esnek araçlardır.

Ancak bunların üretti ˘gi f fonksiyonu tahminleri son derece karma-

¸sık olabildi ˘gi için her bir X ’in Y üzerindeki etkisini anlamak zordur.

7. Bölümde tartı¸saca ˘gımızgenellemeli toplamlı modellerise 3 Bö- lümde görece ˘gimizdo ˘grusal regresyonyanında daha esnektir.

Yine, 6. Bölümde inceleyece ˘gimizkement(lasso) yöntemi de bazı parametreleri sıfıra e¸sitledi ˘gi için do ˘grusal regresyona göre daha katıdır ancak bu durum yorumlamada kolaylık sa ˘glar.

Peki, yorum yapmakla ilgilenmiyorsak ne olacak? Amacımız yal- nızca kestirim yapmak ise en esnek yöntem en iyisi midir?

Hayır! Esnek yöntemler e ˘ger do ˘gru kullanılmazsa a¸sırı yakı¸sma (overfitting) sorununa neden olurlar. Bu durumda yorumlanabilirlik pahasına kazanılan kesinlik kolayca kaybedilir.

(30)

Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(31)

Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme

Denetimli ve Denetimsiz Ö ˘grenme

˙Istatistiksel ö˘grenme süreçleri parametrik ve parametrik-dı¸sı ayrı- mına ek olarak,denetimli(supervised) vedenetimsiz(unsupervi- sed) olarak da ikiye ayrılır.

Denetimli ö ˘grenmede xi,i = 1, 2, . . . , n ¸seklinde n adet gözlem içeren X de ˘gi¸skenleri ve bunlara kar¸sılık yi de ˘gerleri vardır.

Do ˘grusal regresyon ve lojistik regresyon gibi klasik yöntemlerin yanında GAM, boosting, destek vektör makineleri gibi birçok mo- dern yöntem denetimli ö ˘grenmeye örnektir.

Denetimsiz ö ˘grenmede ise i = 1, 2, . . . , n ¸seklinde gözlemler var- dır ancak veri seti yalnızca X de ˘gi¸skenlerinden olu¸sur.

Tepki de ˘geri olarak yi’lerin olmadı ˘gı böyle durumlarda de ˘gi¸skenler arası ili¸skileri anlamak içinküme çözümlemesi(cluster analysis), di ˘ger bir deyi¸slekümeleme(clustering) yapılabilir.

Kümeleme yöntemine basit bir örnek ¸Sekil 8’de verilmi¸stir.

(32)

Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme

Küme Çözümlemesi (1)

0 2 4 6 8 10 12

24681012

0 2 4 6

2468

X1 X1

X2 X2

¸

Sekil 8:˙Iki farklı veri seti için küme çözümlemesi

(33)

Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme

Küme Çözümlemesi (2)

¸

Sekilde iki farklı veri seti için küme çözümlemesi yapılmı¸stır.

˙Iki örnekte de üç veri kümesi bulunmaktadır. Bunlar burada farklı renklerle gösterilmi¸stir ancak gerçekte kümeler bilinmemektedir.

Sol paneldeki kümeleri ayrı¸stırmak daha kolaydır. Sa ˘gda ise kü- meler örtü¸stü ˘gü için hatasız bir sonuç elde etmek beklenemez.

Küme çözümlemesi günümüzde sık kullanılan bir yakla¸sımdır.

Örnek olarak, bir firma bu yöntemle potansiyel mü¸sterileri ara- sında çok ya da az harcama yapacakları ayrı¸stırmak isteyebilir.

E ˘ger elimizde harcama verileri bulunsaydı denetimli bir çözüm- leme yapılabilirdi. Ancak gerçekle¸secek harcama genellikle önce- den bilinmedi ˘gi için en uygulanabilir yöntem budur.

Son olarak, ço ˘gu durumda ikiden fazla de ˘gi¸sken olaca ˘gına dikkat ediniz. E ˘ger elimizde p adet de ˘gi¸sken varsa her bir de ˘gi¸sken çifti için toplam p(p − 1)/2 farklı serpilim çizimi olu¸sturulabilir.

Bunları insanların yorumlaması zor oldu ˘gu için otomatik sınıflan- dırma yapan geli¸smi¸s yöntemler giderek önem kazanmaktadır.

(34)

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(35)

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yakı¸smanın ˙Iyili ˘gi

Bu derste birçok farklı veri çözümleme tekni ˘gini açıklayaca ˘gımızı söylemi¸stik. Peki, neden yalnızca en yeni ve en geli¸smi¸s yöntemi ö ˘grenmiyoruz?

Çünkü tüm bu yöntemler içinde di ˘gerlerine her veri setinde üstün gelebilen tek bir yöntem yoktur.

Dolayısıyla istatistiksel ö ˘grenmedeki en önemli a¸samalardan biri belli bir durumda en iyi sonucu verecek yöntemi belirlemektir.

Bu amaçla, hesapladı ˘gımız kestirimlerin gerçekle¸sen de ˘gerlere ne kadar yakın oldu ˘gunu ölçmek isteriz.

Bunun içinyakı¸smanın iyili ˘gi(goodness-of-fit) ölçütleri kullanırız.

(36)

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Hata Kareleri Ortalaması

En temel yakı¸smanın iyili ˘gi ölçütlerinden biri hata kareleri ortala- ması(mean squared error), ya da kısacaHKO(MSE) de ˘geridir:

HKO = 1 n

n

X

i=1

(yi− ˆf(xi))2=Ortalama(yi− ˆf(xi))2

Görüldü ˘gü gibi HKO, elimizde bulunan xi ve yi’leri kullanarak yap- tı ˘gımız ˆf(xi) ≈yi ¸seklinde tahminlerin hata kareleri ortalamasıdır.

E ˘ger ˆf(xi) =yi olursa HKO’nun da sıfır olaca ˘gına dikkat ediniz.

Yukarıdaki formülü elimizde var olan verilerle hesaplarız. Dolayı- sıyla bunae ˘gitim HKO(training MSE) demek daha do ˘gru olur.

Ancak bizi asıl ilgilendiren ¸sey elimizde bulunmayan test verileri (test data) kullanırsak tahmin ba¸sarısının ne olaca ˘gıdır.

Elimizde olmayan test verilerine x0 ve y0 diyelim. Dolayısıyla biz aslındatest HKO(test MSE) de ˘gerini bilmek istiyoruz:

HKOTest =Ortalama(y0− ˆf(x0))2

(37)

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (1)

Genellikle elimizde test verileri yoktur. Bu durumda elde olanla ye- tinip e ˘gitim HKO’yu minimum yapan yöntemi seçmek isteyebiliriz.

Bu mantıklı bir yakla¸sım gibi görünür. Sonuçta e ˘gitim verileri ile test verileri birbirine yakın olmak zorundadır.

Ancak burada temel bir sorun ortaya çıkar: E ˘gitim verilerini mini- mum yapan yöntem, test verilerinde de aynı ba¸sarıyı göstermek zorunda da ˘gildir.

Uygulamada genellikle e ˘gitim HKO oldukça dü¸süktür ama test HKO çok daha yüksek çıkar.

Bu olguyu anlayabilmek için ¸Sekil 9’u inceleyelim.

(38)

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (2)

0 20 40 60 80 100

24681012

X

Y

2 5 10 20

0.00.51.01.52.02.5

Esneklik

Hata Kareleri Ortalama

¸

Sekil 9:Yöntem esnekli ˘gi ile HKO arasındaki ili¸ski

(39)

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (3)

¸

Sekilde sol paneldeki küçük yuvarlaklar verilerdir. Siyah e ˘gri ise bu verilerin geldi ˘gi gerçek f fonksiyonudur.

Turuncu, mavi ve ye¸sil çizgiler ise esnekli ˘gi giderek artan üç farklı yöntemi göstermektedir.

Turuncu çizgi do ˘grusal regresyon, mavi çizgi düzle¸stirme derecesi yüksek bir spline, ye¸sil çizgi ise düzle¸stirme derecesi dü¸sük bir spline tahminidir.

Sa ˘g panelde bu üç yöntemin esneklikleri ve HKO de ˘gerleri gö- rülmektedir. Bir çizginin esnekli ˘gini ya da kıvrımlılı ˘gını serbestlik derecesi(degree of freedom) belirler. Burada bunlar 2, 6 ve 23’tür.

Sa ˘gdaki gri renk e ˘gri her bir yönteme ait e ˘gitim HKO de ˘gerleridir.

Bu veri seti belli bir formüle göre yapay olarak üretildi ˘gi için test verileri kolayca yaratılabilir. Dolayısıyla kırmızı e ˘gri de buna göre hesaplanan test HKO de ˘gerleridir.

Son olarak, ortadaki yatay çizgi ise hata teriminin varyansı olup, azaltılamayan minimum hata düzeyini belirtmektedir.

(40)

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (4)

¸

Sekili inceledi ˘gimizde kullanılan yöntemin esnekli ˘gi arttıkça e ˘gitim HKO de ˘gerinin sürekli azaldı ˘gı görülmektedir.

Öte yandan, test HKO de ˘geri ise önce azalmakta ancak bir nok- tadan sonra artmaya ba¸slamaktadır.

Sürekli azalan e ˘gitim HKO’suna kar¸sılık U-¸seklindeki test HKO’su istatistiksel ö ˘grenmedeki temel olgulardan biridir.

Bu durum her veri seti ve her yöntemde kar¸sımıza çıkar.

Bunun nedeni isea¸sırı yakı¸stırma(overfitting) sorunudur. Kısaca, esneklik arttıkça yöntemin a¸sırı detaylı çalı¸smaya ba¸slamasıdır.

Böylece, bilinmeyen gerçek f fonksiyonunda gerçekte olmayan, rastlantısal olu¸smu¸s de ˘gi¸siklikler içinde örüntü yakalamaya çalı¸sır.

E ˘gitim HKO ise sürekli dü¸ser çünkü yöntem bunu minimize eder.

E ˘gitim HKO’su ile test HKO’su arasındaki bu ili¸ski ¸Sekil 10 ve ¸Sekil 11’de farklı veri setleri için gösterilmi¸stir.

(41)

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yüksek Do ˘grusallık Durumunda E ˘gitim ve Test HKO

Bu örnekte gerçek f do ˘grusala yakın oldu ˘gu için test HKO bir miktar azaldıktan sonra artmaya ba¸slamaktadır. Dolayısyla uygun yöntem do ˘grusal regresyondur.

0 20 40 60 80 100

24681012

X

Y

2 5 10 20

0.00.51.01.52.02.5

Esneklik

Hata Kareleri Ortalama

¸

Sekil 10:Yöntem esnekli ˘gi ile HKO arasındaki ili¸ski(yüksek do ˘grusallık)

(42)

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Dü¸sük Do ˘grusallık Durumunda E ˘gitim ve Test HKO

Bu örnekte ise gerçek f dü¸sük do ˘grusallık gösterdi ˘gi için test HKO 10 serbestlik derecesine kadar azalıp daha sonra artmaktadır.

Burada uygun yöntem düzle¸stirme derecesi yüksek spline’dır.

0 20 40 60 80 100

−1001020

X

Y

2 5 10 20

05101520

Esneklik

Hata Kareleri Ortalama

¸

Sekil 11:Yöntem esnekli ˘gi ile HKO arasındaki ili¸ski(dü¸sük do ˘grusallık)

(43)

Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(44)

Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi

Yanlılık-Varyans Ödünle¸smesi (1)

Yukarıda gördü ˘gümüz U-¸seklindeki Test HKO’lar istatistiksel ö ˘g- renme yöntemlerindeki iki farklı özelli ˘gin sonucudur.

Bunu göstermek için beklenen test HKO formülünü ¸söyle yazalım:

E (y0− ˆf(x0)2

=var ˆf(x0) + Yanlılık ˆf(x0)2

+var() Yukarıdaki E (y0− ˆf(x0)2

ifadesi, test HKO’nun beklenen de ˘geri (ortalama de ˘ger) anlamındadır.

Sa ˘gdaki var() ise “azaltılamayan hata” de ˘geridir. Di ˘ger terimler negatif olamayaca ˘gı için test HKO da var()’dan dü¸sük olamaz.

Formüle göre, dü¸sük HKO için aynı anda hem dü¸sük varyans hem de dü¸sük yanlılık sa ˘glayacak yöntemi kullanmamız gereklidir.

Varyans, elimizde farklı bir e ˘gitim veri seti olsaydı ˆf’nın ne kadar de ˘gi¸sece ˘gini gösterir. Esnek yöntemlerde varyans daha yüksektir.

Yanlılık ise gerçek hayatı görece basit bir modele indirgemekten kaynaklanır. Esnek yöntemlerde yanlılık genellikle dü¸süktür.

(45)

Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi

Yanlılık-Varyans Ödünle¸smesi (2)

Genel kural olarak, daha esnek yöntemler kullandıkça varyans ar- tarken yanlılık da dü¸ser. Test HKO de ˘gerinin artması ya da azal- ması bu ikisinin de ˘gi¸sim hızına ba ˘glıdır.

Daha esnek bir yöntem kullandıkça ilk ba¸slarda yanlılık hızla dü-

¸serken varyans ise çok artmaz.

Ancak bir noktadan sonra esnekli ˘gi daha fazla artırmak yanlılı ˘gı çok etkilemeyip varyansın hızla artırmasına yol açar. Böylece, test HKO yükselmeye ba¸slar.

˙I¸ste, bu ili¸skiyeyanlılık-varyans ödünle¸smesi(bias-variance trade- off) diyoruz.

Bu ödünle¸smeyi daha iyi anlamak için önceki örnekte gördü ˘gü- müz üç farklı e ˘gitim-test HKO grafiklerini birlikte inceleyebiliriz.

Bunlar ¸Sekil 12’de verilmi¸stir.

(46)

Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi

Yanlılık-Varyans Ödünle¸smesi (3)

2 5 10 20

0.00.51.01.52.02.5

Esneklik

2 5 10 20

0.00.51.01.52.02.5

Esneklik

2 5 10 20

05101520

Esneklik HKOYanlılık Varyans

¸

Sekil 12:Yanlılık-varyans ödünle¸smesi

(47)

Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi

Yanlılık-Varyans Ödünle¸smesi (4)

¸

Sekildeki her üç panelde de kulanılan yöntemin esnekli ˘gi arttıkça yanlılık azalırken varyansın da arttı ˘gı görülüyor.

Öte yandan, en dü¸sük test HKO için gerekli esneklik derecesi üç örnekte de farklılık gösteriyor.

Dik çizgiler ise test HKO’yu minimize eden esneklikleri veriyor.

Buradan istatistiksel ö ˘grenmedeki asıl zorlu ˘gun bu dik çizgilerdeki test HKO düzeyini sa ˘glayan yöntemi bulmak oldu ˘gunu anlıyoruz.

Bu derste görece ˘gimiz bazı yöntemler o kadar esnektir ki varyansı tümüyle yok edebilir. Ancak farklı uygulamalarda bunların basit yöntemlerden daha ba¸sarılı sonuç verece ˘ginin garantisi de yoktur.

Sonuç olarak, veri çözümlemesinde yanlılık-varyans ödünle¸sme- sini her zaman göz önünde bulundurmalıyız.

(48)

Kesinli ˘gin Ölçülmesi Sınıflandırmada kesinlik

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(49)

Kesinli ˘gin Ölçülmesi Sınıflandırmada kesinlik

Sınıflandırma Çözümlemesi

Model kesinli ˘ginin ölçülmesine yönelik yukarıdaki tartı¸smamızda regresyon örne ˘gini kullandık. Öte yandan, regresyon için vurgula- dı ˘gımız noktalar di ˘ger yöntemler için de geçerlidir.

Örnek olarak, istatistiksel ö ˘grenmede sıkça kullandı ˘gımız bir di-

˘ger yakla¸sımsınıflandırma(classification) çözümlemesidir.

Sınıflandırmada da amacımız aynıdır. {(x1,y1), . . . ,(xn,yn)} ¸sek- lindeki e ˘gitim veri setini kullanarak f fonksiyonunu tahmin ederiz.

Ancak burada y1, . . . ,yn tepki de ˘gi¸skeninicel(quantitative) de ˘gil, nitel(qualitative) de ˘gerlerden olu¸sur.

Nitel de ˘gi¸skenler, üniversite mezunu olup olmama ya da kadın ve erkek gibi farklı sınıflandırmaları gösterir.

Bunlar farklı kategorileri belirten 0, 1, 2 gibi sabit ve kısıtlı de ˘gerler alır. Bu yüzden bunlarakategorik(categorical) de ˘gi¸sken de denir.

Bir veri setinde X ’ler de Y ’ler de kategorik olabilir. Ancak Y de ˘gi¸s- keni e ˘ger nitel ise bu durumda sınıflandırma çözümlemesi olur.

(50)

Kesinli ˘gin Ölçülmesi Sınıflandırmada kesinlik

Hata Oranı

Sınıflandırma çözümlemesinde e ˘gitim HKO yerinee ˘gitim hata oranı (training error rate) ölçütünden yararlanırız:

Hata Oranı = 1 n

n

X

i=1

I(yi 6= ˆyi) =Ortalama I(yi 6= ˆyi) Yukarıda ˆyi, ˆf’yı kullanarak i gözlemi için tahmin etti ˘gimiz sınıftır.

I(yi 6= ˆyi)ifadesine isegösterge de ˘gi¸skeni(indicator variable) de- riz. Belli bir i gözlemi için yi 6= ˆyi oldu ˘gu zaman hatalı tahmin var demektir ve I = 1 olur. Aksi durumda I = 0 de ˘gerini alır.

Yukarıdaki formüle e ˘gitim hata oranı deriz çünkü hesaplarken eli- mizdeki e ˘gitim verilerini kullanırız. Ancak, aslında ilgilendi ˘gimiz

¸seytest hata oranı(test error rate) de ˘geridir:

Hata OranıTest =Ortalama I(y06= ˆy0)

Burada y0, elimizde olmayan test verilerinden gelecek y ’lerdir.

En iyi sınıflandırma ise en dü¸sük test hata oranını verendir.

(51)

Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(52)

Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı

Bayes Sınıflandırıcı (1)

Test hata oranını minimum yapan en ideal yöntemBayes sınıflan- dırıcı(Bayes classifier) adı verilen olasılık hesaplamasıdır.

Bu yöntemde her bir x0gözlemi için Pr(Y = j|X = x0) olasılı ˘gı maksimum olacak ¸sekilde j sınıfı seçilir.

Burada Pr,olasılık(probability) demektir. Parantezin içindeki|i¸sa- reti ise “verili” ¸seklinde okunur.

Dolayısıyla yukarıdaki ifade X = x0durumu verili iken Y = j olma ko¸sullu olasılı ˘gı(conditional probability) anlamına gelir.

Görüldü ˘gü gibi, Bayes sınıflandırıcının yaptı ˘gı ¸sey her bir gözlem için en yüksek olasılı ˘ga sahip sınıfı seçmektir.

˙Iki sınıftan olu¸san bir çözümlemede gerçekle¸sme olasılı ˘gı yüzde 50’den yüksek olan sınıf seçilir.

Bu basit duruma yönelik bir örnek ¸Sekil 13’te verilmi¸stir.

(53)

Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı

Bayes Sınıflandırıcı (2)

o o

o

o o

o o

o

o

o

o

o

o

o o

o o

o o

o o

o oo

o

o

o o

o o o

o

o

o

o

o

o o

o o

o o

o

o

o

oo

o

o

o o o

o

o o o

o o

o o

o o

o

o

o o

o o o

o o o o

o

o o o

o

o o

o o o

o o

o o

o

o o

o

o

o o

o

o o

o o

o o

o o

o o o

o

o o

o

o o

o o

o o

o o

o o

o o

o o

o o

o

o o

o o o o o

o o

o

o

o o

o

o

o o o

o

o o oo o o

o

o o

o o

o

o

o o

o

o o o

o o

o o o

o

o o

o o

o

o o

o

o o

o

o o o

o

o

o o

o

o o

o

o

o o

o

o

o o

X1

X2

¸

Sekil 13:Bayes sınıflandırıcıya göre yapılmı¸s sınıflandırma örne ˘gi

(54)

Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı

Bayes Sınıflandırıcı (3)

¸

Sekilde X1 ve X2 de ˘gi¸skenlerinden olu¸san simülasyon verileriyle ikili bir sınıflandırma çözümlemesi yapılmı¸stır.

Turuncu ve mavi daireler iki farklı sınıfa ait gözlemlerdir. Farklı X1 ve X2de ˘gerlerine ba ˘glı olarak her bir gözlemin turuncu ya da mavi olma olasılı ˘gı farklıdır.

Bu örnekte veriler belli bir formül kullanılarak yapay olarak olu¸stu- ruldu ˘gu için çok sayıda test verisi olu¸sturmak mümkündür. Bunu yaparak X1ve X2için ko¸sullu olasılıkları hesaplayabiliriz.

Bu i¸slem sonucunda turuncu olma olasılı ˘gı %50’den yüksek olan bölge turuncu noktalarla taranmı¸stır. Pr(Y = mavi|X1,X2) > %50 olan bölge de benzer ¸sekilde mavi renkle taranmı¸stır.

Ortadan geçen kesikli çizgiye iseBayes karar sınırı(Bayes deci- sion boundary) adı verilir.

(55)

Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı

Bayes Hata Oranı

Bayes sınıflandırıcı en dü¸sük test hata oranını veren yöntemdir.

Ancak burada da eldeki verilerden kaynaklı olarak bir hata oranı söz konusudur. BunaBayes hata oranı(Bayes error rate) denir:

Bayes Hata Oranı = 1 − E max

j Pr(Y = j|X1,X2)

Formüle göre Bayes hata oranı, yukarıda açıkladı ˘gımız kural uy- gulanarak her sınıf için maksimum yapılan oranın 1’den farkıdır.

Bu oran daha önce tartı¸stı ˘gımız “azaltılamayan hata” kavramı ile yakından ili¸skilidir.

(56)

Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(57)

Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı

K-Enyakın Kom¸su (1)

Uygulamada tüm sınıflandırmalarımızı Bayes hata oranı minimum olacak ¸sekilde yapmak isteriz.

Ancak gerçek hayatta Y ’nin X ’e ba ˘glı ko¸sullu olasılıklarını bileme- di ˘gimiz için Bayes sınıflandırıcıyı kullanmak olanaksızdır.

Bunun yerine ko¸sullu olasılıkları tahmin etme yoluna gideriz.

Bu amaçla kullanılan en yaygın yöntemlerden biriK-enyakın kom¸su (K-nearest neighbor) ya da kısacaK-EK(K-NN) sınıflandırıcıdır.

Bu yöntemde ilk önce pozitif tam sayı olan bir K de ˘geri belirlenir.

Daha sonra her bir x0 gözlemi için bu gözleme en yakın di ˘ger K adet gözlem seçilir. Böylece, N0adı verilen bu set içinden

Pr(Y = j|X = x0) = 1 K

X

i∈N0

I(yi =j)

oranı bulunarak her bir j’ye ait ko¸sullu olasılık tahmin edilir.

Son olarak, Bayes kuralı uygulanarak her bir gözlem için en yük- sek olasılıklı sınıf belirlenir. Yöntem ¸Sekil 14’te gösterilmi¸stir.

(58)

Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı

K-Enyakın Kom¸su (2)

o o

o o

o o o

o o

o o

o o

o

o o

o o o

o o

o o

o

¸

Sekil 14:K-enyakın kom¸su yöntemine göre yapılan sınıflandırma örne ˘gi

(59)

Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı

K-Enyakın Kom¸su (3)

¸

Sekildeki sol panelde K-EK yönteminin nasıl uygulandı ˘gı açıklan- mı¸stır. Bu örnekte K = 3 olarak belirlenmi¸stir.

Çarpı i¸sareti ile gösterilen noktanın sınıfını tahmin etmek istedi ˘gi- miz dü¸sünelim. Bunun için en yakın 3 gözlemin sınıfına bakarız.

Daire ile gösterilen alan içinde x noktasına en yakın 2 adet mavi ve 1 adet turuncu gözlem bulunmaktadır.

Bu durumda mavi olasılı ˘gı yüzde 67, turuncu olasılı ˘gı ise yüzde 33’tür. Dolayısıyla çarpı noktası için tahminimiz de mavi olur.

Bu i¸slemi ¸sekildeki tüm noktalara uygulayarak sa ˘g panelde göste- rilen mavi ve turuncu bölgeleri hesaplayabiliriz.

Böylece, bölgeleri ayıran K-EK karar sınırını da bulmu¸s oluruz.

Simülasyon verileriyle yaptı ˘gımız yukarıdaki örnek için K-EK ile Bayes sınıflandırıcılarının kar¸sıla¸stırması ¸Sekil 15’te verilmi¸stir.

(60)

Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı

K-Enyakın Kom¸su (4)

o o o

o o

o o

o o

o

o

o

o

o o

o o

o oo

o

o

oo o

o o o

o o o

o

o

o

o o o o

o o

o o

o o

o

oo

o

o

o o o

o

o o o

o o o o

o o

o o

o o

o o o

o o o o

o

o o o

o

o o

o o o

o o

o o

o o o

o

o

o o

o

o o

o o

o o

o o

o o o

o

o o

o o o

o o

o o

o o

o o o o

o o

o o

o o o

o o o o o

o o

o

o o

o

o o

o o o

o o

o o oo o

o

o o

o o

o o

o o

o

o o o

o o

o o o

o o o

o o o

o o o

o o

o

o o o

o o

o o

o

o o o

o

o o

o o

o o

X1

X2

K-Enyakın Komşu: K=10

¸

Sekil 15:K-enyakın kom¸su ile Bayes sınıflandırıcıların kar¸sıla¸stırması

(61)

Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı

K-Enyakın Kom¸su (5)

¸

Sekilde görüldü ˘gü gibi, K-EK sınıflandırıcı uygulamada Bayes’e oldukça yakın sonuçlar üretebilmektedir.

Ancak ba¸sta tartı¸stı ˘gımız yanlılık-varyans ödünle¸smesi burada da geçerlidir. Bu da K-EK’in esnekli ˘gini belirleyen K de ˘geri ile yakın- dan ili¸skilidir.

K = 1 ve K = 100 için elde edilen tahminler ¸Sekil 16’da verilmi¸stir.

Bu ¸sekili inceledi ˘gimizde K e ˘ger çok küçük olursa yöntemin a¸sırı esnek sonuçlar üretti ˘gi görülmektedir. K çok büyük oldu ˘gunda ise do ˘grusala yakın, a¸sırı katı bir tahmin ortaya çıkmaktadır.

Esneklik arttıkça e ˘gitim ve test hata oranlarının nasıl de ˘gi¸sti ˘gi ise

¸

Sekil 17’de verilmi¸stir. Daha önce tartı¸stı ˘gımız U-¸seklindeki test hata oranının burada da geçerli oldu ˘guna dikkat ediniz.

Sonuç olarak, tüm istatistiksel ö ˘grenme yöntemleri için do ˘gru es- neklik düzeyini seçmek son derece önemlidir. En iyi esnekli ˘gi be- lirlemeye yarayan yöntemleri Bölüm 5’te görece ˘giz.

Referanslar

Benzer Belgeler

Klasik Do ˘grusal Ba ˘glanım Modeli (KDBM) varsayımları geçerli iken, en küçük kareler yöntemi ile elde edilen tahminler arzulanan bazı özellikler ta¸sırlar.. Gauss -

Yanıt: 3332 büyüklü˘gündeki ˆ β 0 , toplu ta¸sıma hizmetine olan talepte etkili an- cak modelde yer almayan tüm di˘ger etmenlerin ortalama etkisini göstermektedir.. β ˆ

Bu çizelgede hesaplanan F = 13,6558 de˘gerine ait p = 1,66×e −9 de˘geri küçük oldu˘gu için ba˘glanımın bütününün anlamlı olmadı˘gını öne süren sıfır önsavı

2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler. Çoklu

Fakat her zaman bir cismin hareketini sabit bir eksen takımından incelemek m¨umk¨un veya uygun olmaz bir ¸cok m¨uhendislik probleminde noktasal cisim hareketli bir koordinat

Böylece tarım alanlarında yağış, buharlaşma, yüzey akışı, infiltrasyon, taban suyu düzeyi, toprak yapısı, topografya ve yeterli bir drenaj sisteminin

İlk tahminde, tahmin dönemi bir çeyrek olarak belirlenmiş, tüm değişkenler için önceki dönem gerçekleşmeleri kullanılarak üç aylık ortalama logaritmik reel

 Çocuklarda ilk daimi diş genellikle 6 yaşında ve süt azılarının Çocuklarda ilk daimi diş genellikle 6 yaşında ve süt azılarının gerisindeki boşluktan süt