˙Istatistiksel Ö˘grenme: Temel Kavramlar
A. Talha Yalta
TOBB Ekonomi ve Teknoloji Üniversitesi
˙IKT-457 Ekonomi ve Finans ˙Için Yapay Zeka 1 Sürüm 0,93
Açık Lisans Bilgisi
Bu belge “Creative Commons Attribution-ShareAlike 3.0 Un- ported” (CC BY-SA 3.0) lisansı altında bir açık ders malzemesi olarak genel kullanıma sunulmu¸stur. Bazı ¸sekiller “An Intro- duction to Statistical Learning, with applications in R” (Sprin- ger, 2017) kitabından yazarların izniyle alınmı¸stır. Tüm belge eserin ilk sahibinin belirtilmesi ve geçerli lisansın korunması ko¸suluyla özgürce kullanılabilir, ço ˘galtılabilir, ve de ˘gi¸stirilebi- lir. Creative Commons örgütü ve CC-BY-SA 3.0 lisansı ile il- gili ayrıntılı bilgihttps://creativecommons.orgInternet adresinde yer almaktadır. Ders notlarımın güncel sürümlerine http://yalta.etu.edu.tr adresinden ula¸sabilirsiniz.
A. Talha Yalta
TOBB Ekonomi ve Teknoloji Üniversitesi 2020 – 2021
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
˙Istatistiksel Modelleme
Basit Bir Örnek
˙Istatistiksel ö˘grenmenin amacı veri setlerindensistematik bilgielde etmektir. Gelin, bunu bir örnek üzerinde açıklayalım.
Belli bir ürünün satı¸sını artırmak istedi ˘gimizi dü¸sünelim. Elimizde bu ürüne ait 200 farklı piyasadaki satı¸slar ile televizyon, radyo ve gazeteler için reklam harcamaları bilgisi oldu ˘gunu varsayalım.
Kısaca, farklı medya türlerindeki reklam harcamasına ba ˘glı olarak satı¸sların nasıl de ˘gi¸sti ˘gini anlamak istiyoruz.
Burada ö ˘grenmek istedi ˘gimiz hedef bilgi satı¸slardır. Buna çıktı (output) de ˘gi¸skeni diyelim.
Bu durumda çıktı de ˘gi¸skenini açıklamak için kullanaca ˘gımız rek- lam harcamaları dagirdi(input) de ˘gi¸skeni olur.
Örne ˘gimizdeki veriler ¸Sekil 1’de gösterilmi¸stir.
˙Istatistiksel Modelleme
Reklam Verileri
0 50 100 200 300
510152025
Televizyon
Satışlar
0 10 20 30 40 50
510152025
Radyo
Satışlar
0 20 40 60 80 100
510152025
Gazete
Satışlar
¸
Sekil 1:Medya türüne göre reklamların satı¸s üzerindeki etkisi
˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri
Girdi ve Çıktı De ˘gi¸skenleri
¸
Sekilde çıktı de ˘gi¸skeninin y-ekseninde, girdi de ˘gi¸skenlerinin ise x-ekseninde bulundu ˘guna dikkat ediniz.
Genel olarak, çıktı de ˘gi¸skenini Y harfi ile belirtiriz.
Girdi de ˘gi¸skenlerini ise X1, X2, X3, . . . harfleri ile gösteririz.
Bu de ˘gi¸skenlere duruma göre farklı adlar da verebiliriz:
Çıktı De ˘gi ¸skeni (Y ) Girdi De ˘gi ¸skeni (X )
Ba ˘gımlı de ˘gi¸sken (Dependent variable) Ba ˘gımsız de ˘gi¸sken(Independent variable)
Kestirilen (Predictand) Kestirici (Predictor)
Açıklanan de ˘gi¸sken (Explained variable) Açıklayıcı de ˘gi¸sken(Explanatory variable) Tepki de ˘gi¸skeni (Response variable) Denetim de ˘gi¸skeni (Control variable)
˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri
˙Istatistiksel Model (1)
Girdi ve çıktı de ˘gi¸skenleri arasındaki ili¸skiyi incelemek için istatis- tiksel modellerden yararlanırız:
˙Istatistiksel model
˙Istatistiksel model(statistical model), anakütleden gelen örneklem ve- rilerinin nasıl olu¸stu ˘gunu açıklayan matematiksel fonksiyondur.
Bir istatistiksel modelin en genel gösterimi a¸sa ˘gıdaki gibidir:
Y = f (X ) +
Burada f sabit ancak bilinmeyen bir matematiksel fonksiyondur.
X ’lerin Y hakkında sa ˘gladı ˘gı tümsistematik bilgibudur.
Soldaki (epsilon okunur) ise X ’lerden ba ˘gımsız ve ortalaması sıfır olanrastsal hata terimi(random error term) olarak adlandırılır.
f ’yi ve ’u anlamak için önceki bölümdeki ücret veri setine geri dönelim ve ¸Sekil 2’yi inceleyelim.
˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri
˙Istatistiksel Model (2)
10 12 14 16 18 20 22
20304050607080
Eğitim süresi (yıl)
Gelir
10 12 14 16 18 20 22
20304050607080
Eğitim süresi (yıl)
Gelir
¸
Sekil 2:Gelir ve e ˘gitim ili¸skisini gösteren istatistiksel model
˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri
˙Istatistiksel Model (3)
¸
Sekildeki veri seti simülasyon yoluyla olu¸sturuldu ˘gu için bu ör- nekte f bellidir ve sa ˘g panelde mavi çizgi ile gösterilmi¸stir.
Buradaki dikey çizgiler hata terimi olan ’ları göstermektedir.
Hataların bir bölümünün fonksiyon çizgisinin üstünde, di ˘gerlerinin ise çizginin altında kaldı ˘gını ve ortalamalarının yakla¸sık sıfır ola- ca ˘gına dikkat ediniz.
¸
Sekilde e ˘gitim süresi arttıkça gelirin önce artarak arttı ˘gı ve bir noktadan sonra da azalarak artmaya ba¸sladı ˘gı anla¸sılmaktadır.
Ancak uygulamada X ve Y arasındaki ili¸skiyi belirten f fonksiyo- nunu kesin olarak bilmek olanaksızdır.
Gerçek hayatta elimizdeki tek bilgi sol panelde gösterilen veriler- dir. Dolayısıyla f ’yitahmin(estimate) etmemiz gerekir.
˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri
˙Istatistiksel Model (4)
˙Istatistiksel modellerde genellikle birden fazla girdi bulunur. Örnek olarak, bir yerine iki adet X de ˘gi¸skeni oldu ˘gu zaman f ’yi a¸sa ˘gıdaki gibi üç boyutlu bir yüzey ile gösterebiliriz:
Eğitim Düze yi
Kıde m G
elir
¸
Sekil 3:Gelir, e ˘gitim süresi ve kıdem arasındaki ili¸ski
˙Istatistiksel Modelleme Kestirim ve çıkarsama
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
˙Istatistiksel Modelleme Kestirim ve çıkarsama
Kestirim
Bir istatistiksel modeli tahmin etmenin iki amacı vardır: kestirim (prediction) veçıkarsama(inference).
Kestirim, eldeki verili X de ˘gerlerini kullanarak buna kar¸sılık gelen Y de ˘gerini tahmin etmek demektir. Bunu ¸söyle gösterebiliriz:
Y = ˆf(X )ˆ
Yukarıda görülenˆ(¸sapka) simgesi tahmin anlamındadır.
Kestirim uygulamasında tahmin edilen f ’yi bir kara kutu olarak gö- rürüz. ˙Içeri ˘gine de ˘gil, do ˘gru sonuç verip vermedi ˘gine bakarız.
˙Istatistiksel Modelleme Kestirim ve çıkarsama
Azaltılabilen Hata ve Azaltılamayan Hata (1)
Kestirilen ˆY de ˘gerinin do ˘gruluk derecesi iki büyüklü ˘ge ba ˘glıdır:
Azaltılabilen hataveazaltılamayan hata
Azaltılabilen hata, daha iyi ve uygun bir istatistiksel ö ˘grenme aracı kullanılarak kaçınılabilecek olan hatalardır.
Azaltılamayan hata ise rastsal hata teriminden kaynaklanır. Y aynı zamanda ’a da ba ˘glı oldu ˘gu için bundan kaçınmak olanaksızdır.
Peki, neden vardır? Hata terimi genel olarak (1) ölçemedi ˘gimiz, (2) hatalı ölçebildi ˘gimiz, (3) göz ardı etti ˘gimiz ya da (4) hiç bile- medi ˘gimiz de ˘gi¸skenlerin ortak etkisini gösterir.
Bunların Y ve X ’lerden ba ˘gımsız ve birbirlerinin etkisini yok ettik- leri için sıfır ortalamaya sahip oldukları kabul edilir.
˙Istatistiksel Modelleme Kestirim ve çıkarsama
Azaltılabilen Hata ve Azaltılamayan Hata (2)
Azaltılabilen hata ile azaltılamayan hatayı açıklamak için ˆf ve X ’lerin sabit oldu ˘gunu varsayalım. Bu durumda ¸sunu yazabiliriz:
E(Y − ˆY )2=E[f (X ) + − ˆf(X )]2
= [f (X ) + − ˆf(X )]2
| {z }
Azaltılabilen
+ var()
| {z }
Azaltılamayan
Burada E(Y − ˆY )2, kestirim hatasının karesinin beklenen de ˘geri- dir. Kısaca ortalama hatanın karesidir.
var() ise hata terimine aitvaryans(variance) de ˘geridir.
Görüldü ˘gü gibi, istatistiksel ö ˘grenmedeki amacımız azaltılabilen hatayı minimize etmektedir.
Ancak uygulamada ’dan kaynaklanan bir kestirim hatası her za- man olacaktır.
˙Istatistiksel Modelleme Kestirim ve çıkarsama
Çıkarsama
Veri çözümlemesinde belli bir Y de ˘gerini kestirmek dı¸sında ço ˘gu zaman çıkarsama da yapılır.
Burada amaç Y ’nin X ’lerden nasıl etkilendi ˘gini anlamaktır. Bu du- rumda f fonksiyonunu bir kara kutu olarak görmeyiz.
Çıkarsama yaparak a¸sa ˘gıdaki sorulara yanıt ararız:
Hangi X de ˘gi¸skenleri Y üzerinde etkilidir?
Y ile her bir X de ˘gi¸skeni arasındaki ili¸ski nedir?
Y ’nin X ’lerle ili¸skisi do ˘grusal mı yoksa daha karma¸sık mıdır?
Örnek olarak, ev satı¸sı yapan bir firmayı ele alalım.
Burada daire geni¸sli ˘gi bir m2 artarsa fiyatın ne kadar artaca ˘gı, dairenin ön cephede olmasının ya da çocuk odasında banyo bu- lunmasının fiyatı nasıl etkilece ˘gi çıkarsamanın konusudur.
Belli bir dairenin yalnızca fiyatını tahmin etmek isteseydik bu kes- tirim konusu olurdu.
Tahmin Konusu
Matematiksel Gösterim
Tahmin konusuna geçmeden önce kullanaca ˘gımız matematiksel gösterimden kısaca söz edelim.
Bu derste ele alaca ˘gımız birçok farklı yöntemi açıklarken ya da bunları kar¸sıla¸stırırken ortak bir gösterimden yararlanaca ˘gız.
Örnek olarak, veri setimizin uzunlu ˘gunu n olarak belirleyece ˘giz.
Di ˘ger bir deyi¸sle elimizde n adet gözlem oldu ˘gunu dü¸sünecek ve bunları i olarak adlandıraca ˘gız: i = 1, 2, . . . , n.
Açıklayıcı de ˘gi¸sken sayımız ise p olacak ve bunları da j harfi ile gösterece ˘giz: j = 1, 2, . . . , p.
De ˘gi¸skenleri Y ve X ’ler ¸seklinde büyük harflerle yazaca ˘gız.
Tekil gözlemler ise xip ¸seklinde küçük harf olacak.
Örnek olarak, x11 dedi ˘gimiz zaman bu, birinci gözlemdeki birinci X de ˘gi¸skeni anlamına gelecek.
Tüm X de ˘gi¸skenlerine birlikte e ˘gitim verileri (training data) diye- ce ˘giz: xi = (xi1,xi2, . . . ,xip)T.
Amacımız Y ≈ ˆf(X ) olacak ¸sekilde ˆf tahminini bulmak olacak.
Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler
Parametrik ve Parametrik-dı¸sı Yöntemler
Matematiksel gösterimi açıkladıktan sonra artık f fonksiyonunun nasıl tahmin edilece ˘gi konusuna geçebiliriz.
Veri çözümlemesinde amacımızın kestirim mi yoksa çıkarsama mı oldu ˘guna ba ˘glı olarak farklı yöntemler kullanılabiliriz.
Örnek olarak,do ˘grusal(linear) modeller görece basit ve anla¸sıla- bilir yapıları nedeniyle yorumlama kolaylı ˘gı sa ˘glar.
Dolayısıyla bunlar çıkarsama amacı için daha uygundur.
Do ˘grusal olmayan (non-linear) modelleri ise yorumlamak güçtür ama bunlar da kestirim konusunda ço ˘gu zaman daha ba¸sarılıdır.
Bu derste f fonksiyonunu tahmin etmek için çok sayıda do ˘grusal ve do ˘grusal-dı¸sı yöntem görece ˘giz.
Bu yöntemleri genel olarakparametrik(parametric) veparametrik- dı¸sı(non-parametric) ¸seklinde iki gruba ayırabiliriz.
Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler
Parametrik Yöntemler (1)
Parametrik yöntemlerde iki adımlı bir yakla¸sım izlenir.
1 ˙Ilk adımda f ’nin fonksiyon yapısına karar verilir. Örnek olarak,
¸söyle birdo ˘grusal model(linear model) kullanabiliriz:
Y = β0+ β1X1+ β2X2+ · · · + βpXp
Do ˘grusallık varsayımı model tahminini kolayla¸stırır. Çok karma¸sık olabilecek bir fonksiyonla u ˘gra¸smak yerine p + 1 adet katsayıyı tahmin etmek burada yeterli olur.
2 ˙Ikinci olarak, elimizdeki verileri modeleyakı¸stırmak(fitting), di ˘ger bir deyi¸sle modeli e ˘gitmek (training) isteriz. Böylece, modeldeki katsayıları tahmin ederiz:
Y ≈ ˆβ0+ ˆβ1X1+ ˆβ2X2+ · · · + ˆβpXp
Bu i¸slemin birçok farklı yolu vardır. Bunlar içinde en yaygını ise sıradan enküçük kareler(ordinary least squares) yöntemidir.
Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler
Parametrik Yöntemler (2)
Parametrik yöntemde fonksiyon yapısını biz belirledi ˘gimiz için tah- min süreci oldukça kolayla¸sır.
Ancak gerçek hayatta de ˘gi¸skenler arasındaki karma¸sık ili¸skileri önceden bilmek zordur.
Dolayısıyla parametrik yakla¸sımın olası sakıncası a¸sırı basit bir model kullanmaktır.
Örnek olarak, ba¸sta söz etti ˘gimiz e ˘gitim süresi, kıdem ve gelir ara- sındaki ili¸skiyi parametrik yöntemle tahmin etmek için a¸sa ˘gıdaki do ˘grusal modeli kullanalım:
Gelir ≈ β0+ β1E ˘gitim + β2Kıdem.
Elimizdeki verileri sıradan enküçük kareler yöntemi ile modele ya- kı¸stıracak olursak ¸Sekil 4’teki tahmin yüzeyini elde ederiz.
Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler
Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi
Do ˘grusal modelin ¸Sekil 3’te gördü ˘gümüz gerçek f ’deki e ˘gri yüzeyi yakalayamadı ˘gı anla¸sılıyor. Ancak küçük bir veri seti ile yapılabi- lecek en iyi tahmin belki de bu olabilir.
Eğitim Düze yi
Kıde m G
elir
¸
Sekil 4:Gelir, e ˘gitim, kıdem ili¸skisinin do ˘grusal model ile tahmini
Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler
Parametrik-dı¸sı Yöntemler (1)
Parametrik-dı¸sı yöntemler f ’nin fonksiyon yapısı konusunda bir varsayımda bulunmaz. Bunun yerine eldeki verilere en iyi yakı¸san fonksiyonu bulmaya çalı¸sır.
Bu yöntemde tahmin sonuçlarının a¸sırı düz ya da a¸sırı e ˘gri ol- maması önemlidir. Bunun için uygun birdüzle¸stirme (smoothing) derecesi seçmek gereklidir.
Parametrik-dı¸sı yakla¸sımı kullanarak de ˘gi¸skenler arasındaki çok karma¸sık ili¸skileri dikkate alabiliriz.
Ancak bu yakla¸sımın sakıncası da bu i¸s için çok daha fazla veriye gereksinim duymalarıdır.
Parametrik-dı¸sı yönteme örnek olarak, ¸simdi de gelir modelimizi ince-katman spline(thin-plate spline) yöntemi ile tahmin edelim.
Buradan elde edilen sonuçlar ¸Sekil 5’te gösterilmi¸stir.
Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler
Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi
Bu ¸sekilde spline yöntemi için yüksek bir düzle¸stirme de ˘geri kul- lanılmı¸stır. Tahmin edilen yüzeyin daha önce ¸Sekil 3’te gösterilen gerçek duruma çok yakın oldu ˘gu görülüyor.
Eğitim Düze yi
Kıde m G
elir
¸
Sekil 5:Gelir, e ˘gitim, kıdem ili¸skisinindüzgünince-katman spline ile tahmini
Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler
Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi
Burada ise spline için dü¸sük bir düzle¸stirme uygulanmı¸stır. Bu- radaa¸sırı yakı¸sma(over fitting) söz konusudur. Elde edilen sonuç gerçek durumu tam yansıtmamaktadır.
Eğitim Düze yi
Kıde m G
elir
¸
Sekil 6:Gelir, e ˘gitim, kıdem ili¸skisininengebeliince-katman spline ile tahmini
Tahmin Konusu Kesinlik ve yorumlanabilirlik
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
Tahmin Konusu Kesinlik ve yorumlanabilirlik
Kesinlik ve Yorumlanabilirlik (1)
Bu derste görece ˘gimiz çok sayıda yöntemden bazıları uygulama konusunda esnek, bazıları ise kısıtlayıcıdır.
Örnek olarak do ˘grusal regresyon görece kısıtlayıcıdır çünkü yal- nızca do ˘grusal fonksiyonlara izin verir.
Öte yandan ince-katman spline yöntemi f fonksiyonu için oldukça ayrıntılı ¸sekiller üretebildi ˘gi için esnektir.
Peki, esnek yöntemler varken neden kısıtlayıcı bir yöntem kulla- nalım? Bunun yanıtı ikisi arasındakikesinlik(accuracy) veyorum- lanabilirlik(interpretability) farkıdır.
Esnek yöntemler kullanarak de ˘gi¸skenler arasındaki çok karma¸sık ili¸skileri dikkate alabiliriz. Dolayısıyla bunlar kestirim konusunda genellikle daha ba¸sarılıdır.
Kısıtlayıcı yöntemler ise görece basit ve anla¸sılabilir yapıları ne- deniyle anlaması ve yorumlaması kolay sonuçlar üretirler.
Kesinlik ve yorumlanabilirlik ödünle¸smesi ¸Sekil 7’deki gibidir.
Tahmin Konusu Kesinlik ve yorumlanabilirlik
Kesinlik ve Yorumlanabilirlik (2)
Esneklik
Yorumlanabilirlik
Düşük
Düşük
Yüksek Yüksek Altküme Seçimi
Kement
Genellemeli Toplamlı Modeller Ağaçlar
Bagging, Boosting Destek Vektör Makineleri Doğrusal Regresyon
¸
Sekil 7:Kesinlik ve yorumlanabilirlik arasındaki ödünle¸sme
Tahmin Konusu Kesinlik ve yorumlanabilirlik
Kesinlik ve Yorumlanabilirlik (3)
¸
Sekilde çe¸sitli istatistiksel ö ˘grenme yöntemlerinin esnekli ˘gi art- tıkça yorumlanabilirli ˘ginin dü¸stü ˘gü görülmektedir.
Örnek olarak, Bölüm 8’de ele alaca ˘gımızboostingile Bölüm 9’da görece ˘gimizdestek vektör makinelerioldukça esnek araçlardır.
Ancak bunların üretti ˘gi f fonksiyonu tahminleri son derece karma-
¸sık olabildi ˘gi için her bir X ’in Y üzerindeki etkisini anlamak zordur.
7. Bölümde tartı¸saca ˘gımızgenellemeli toplamlı modellerise 3 Bö- lümde görece ˘gimizdo ˘grusal regresyonyanında daha esnektir.
Yine, 6. Bölümde inceleyece ˘gimizkement(lasso) yöntemi de bazı parametreleri sıfıra e¸sitledi ˘gi için do ˘grusal regresyona göre daha katıdır ancak bu durum yorumlamada kolaylık sa ˘glar.
Peki, yorum yapmakla ilgilenmiyorsak ne olacak? Amacımız yal- nızca kestirim yapmak ise en esnek yöntem en iyisi midir?
Hayır! Esnek yöntemler e ˘ger do ˘gru kullanılmazsa a¸sırı yakı¸sma (overfitting) sorununa neden olurlar. Bu durumda yorumlanabilirlik pahasına kazanılan kesinlik kolayca kaybedilir.
Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme
Denetimli ve Denetimsiz Ö ˘grenme
˙Istatistiksel ö˘grenme süreçleri parametrik ve parametrik-dı¸sı ayrı- mına ek olarak,denetimli(supervised) vedenetimsiz(unsupervi- sed) olarak da ikiye ayrılır.
Denetimli ö ˘grenmede xi,i = 1, 2, . . . , n ¸seklinde n adet gözlem içeren X de ˘gi¸skenleri ve bunlara kar¸sılık yi de ˘gerleri vardır.
Do ˘grusal regresyon ve lojistik regresyon gibi klasik yöntemlerin yanında GAM, boosting, destek vektör makineleri gibi birçok mo- dern yöntem denetimli ö ˘grenmeye örnektir.
Denetimsiz ö ˘grenmede ise i = 1, 2, . . . , n ¸seklinde gözlemler var- dır ancak veri seti yalnızca X de ˘gi¸skenlerinden olu¸sur.
Tepki de ˘geri olarak yi’lerin olmadı ˘gı böyle durumlarda de ˘gi¸skenler arası ili¸skileri anlamak içinküme çözümlemesi(cluster analysis), di ˘ger bir deyi¸slekümeleme(clustering) yapılabilir.
Kümeleme yöntemine basit bir örnek ¸Sekil 8’de verilmi¸stir.
Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme
Küme Çözümlemesi (1)
0 2 4 6 8 10 12
24681012
0 2 4 6
2468
X1 X1
X2 X2
¸
Sekil 8:˙Iki farklı veri seti için küme çözümlemesi
Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme
Küme Çözümlemesi (2)
¸
Sekilde iki farklı veri seti için küme çözümlemesi yapılmı¸stır.
˙Iki örnekte de üç veri kümesi bulunmaktadır. Bunlar burada farklı renklerle gösterilmi¸stir ancak gerçekte kümeler bilinmemektedir.
Sol paneldeki kümeleri ayrı¸stırmak daha kolaydır. Sa ˘gda ise kü- meler örtü¸stü ˘gü için hatasız bir sonuç elde etmek beklenemez.
Küme çözümlemesi günümüzde sık kullanılan bir yakla¸sımdır.
Örnek olarak, bir firma bu yöntemle potansiyel mü¸sterileri ara- sında çok ya da az harcama yapacakları ayrı¸stırmak isteyebilir.
E ˘ger elimizde harcama verileri bulunsaydı denetimli bir çözüm- leme yapılabilirdi. Ancak gerçekle¸secek harcama genellikle önce- den bilinmedi ˘gi için en uygulanabilir yöntem budur.
Son olarak, ço ˘gu durumda ikiden fazla de ˘gi¸sken olaca ˘gına dikkat ediniz. E ˘ger elimizde p adet de ˘gi¸sken varsa her bir de ˘gi¸sken çifti için toplam p(p − 1)/2 farklı serpilim çizimi olu¸sturulabilir.
Bunları insanların yorumlaması zor oldu ˘gu için otomatik sınıflan- dırma yapan geli¸smi¸s yöntemler giderek önem kazanmaktadır.
Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yakı¸smanın ˙Iyili ˘gi
Bu derste birçok farklı veri çözümleme tekni ˘gini açıklayaca ˘gımızı söylemi¸stik. Peki, neden yalnızca en yeni ve en geli¸smi¸s yöntemi ö ˘grenmiyoruz?
Çünkü tüm bu yöntemler içinde di ˘gerlerine her veri setinde üstün gelebilen tek bir yöntem yoktur.
Dolayısıyla istatistiksel ö ˘grenmedeki en önemli a¸samalardan biri belli bir durumda en iyi sonucu verecek yöntemi belirlemektir.
Bu amaçla, hesapladı ˘gımız kestirimlerin gerçekle¸sen de ˘gerlere ne kadar yakın oldu ˘gunu ölçmek isteriz.
Bunun içinyakı¸smanın iyili ˘gi(goodness-of-fit) ölçütleri kullanırız.
Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Hata Kareleri Ortalaması
En temel yakı¸smanın iyili ˘gi ölçütlerinden biri hata kareleri ortala- ması(mean squared error), ya da kısacaHKO(MSE) de ˘geridir:
HKO = 1 n
n
X
i=1
(yi− ˆf(xi))2=Ortalama(yi− ˆf(xi))2
Görüldü ˘gü gibi HKO, elimizde bulunan xi ve yi’leri kullanarak yap- tı ˘gımız ˆf(xi) ≈yi ¸seklinde tahminlerin hata kareleri ortalamasıdır.
E ˘ger ˆf(xi) =yi olursa HKO’nun da sıfır olaca ˘gına dikkat ediniz.
Yukarıdaki formülü elimizde var olan verilerle hesaplarız. Dolayı- sıyla bunae ˘gitim HKO(training MSE) demek daha do ˘gru olur.
Ancak bizi asıl ilgilendiren ¸sey elimizde bulunmayan test verileri (test data) kullanırsak tahmin ba¸sarısının ne olaca ˘gıdır.
Elimizde olmayan test verilerine x0 ve y0 diyelim. Dolayısıyla biz aslındatest HKO(test MSE) de ˘gerini bilmek istiyoruz:
HKOTest =Ortalama(y0− ˆf(x0))2
Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
E ˘gitim HKO ile Test HKO ˙Ili¸skisi (1)
Genellikle elimizde test verileri yoktur. Bu durumda elde olanla ye- tinip e ˘gitim HKO’yu minimum yapan yöntemi seçmek isteyebiliriz.
Bu mantıklı bir yakla¸sım gibi görünür. Sonuçta e ˘gitim verileri ile test verileri birbirine yakın olmak zorundadır.
Ancak burada temel bir sorun ortaya çıkar: E ˘gitim verilerini mini- mum yapan yöntem, test verilerinde de aynı ba¸sarıyı göstermek zorunda da ˘gildir.
Uygulamada genellikle e ˘gitim HKO oldukça dü¸süktür ama test HKO çok daha yüksek çıkar.
Bu olguyu anlayabilmek için ¸Sekil 9’u inceleyelim.
Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
E ˘gitim HKO ile Test HKO ˙Ili¸skisi (2)
0 20 40 60 80 100
24681012
X
Y
2 5 10 20
0.00.51.01.52.02.5
Esneklik
Hata Kareleri Ortalaması
¸
Sekil 9:Yöntem esnekli ˘gi ile HKO arasındaki ili¸ski
Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
E ˘gitim HKO ile Test HKO ˙Ili¸skisi (3)
¸
Sekilde sol paneldeki küçük yuvarlaklar verilerdir. Siyah e ˘gri ise bu verilerin geldi ˘gi gerçek f fonksiyonudur.
Turuncu, mavi ve ye¸sil çizgiler ise esnekli ˘gi giderek artan üç farklı yöntemi göstermektedir.
Turuncu çizgi do ˘grusal regresyon, mavi çizgi düzle¸stirme derecesi yüksek bir spline, ye¸sil çizgi ise düzle¸stirme derecesi dü¸sük bir spline tahminidir.
Sa ˘g panelde bu üç yöntemin esneklikleri ve HKO de ˘gerleri gö- rülmektedir. Bir çizginin esnekli ˘gini ya da kıvrımlılı ˘gını serbestlik derecesi(degree of freedom) belirler. Burada bunlar 2, 6 ve 23’tür.
Sa ˘gdaki gri renk e ˘gri her bir yönteme ait e ˘gitim HKO de ˘gerleridir.
Bu veri seti belli bir formüle göre yapay olarak üretildi ˘gi için test verileri kolayca yaratılabilir. Dolayısıyla kırmızı e ˘gri de buna göre hesaplanan test HKO de ˘gerleridir.
Son olarak, ortadaki yatay çizgi ise hata teriminin varyansı olup, azaltılamayan minimum hata düzeyini belirtmektedir.
Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
E ˘gitim HKO ile Test HKO ˙Ili¸skisi (4)
¸
Sekili inceledi ˘gimizde kullanılan yöntemin esnekli ˘gi arttıkça e ˘gitim HKO de ˘gerinin sürekli azaldı ˘gı görülmektedir.
Öte yandan, test HKO de ˘geri ise önce azalmakta ancak bir nok- tadan sonra artmaya ba¸slamaktadır.
Sürekli azalan e ˘gitim HKO’suna kar¸sılık U-¸seklindeki test HKO’su istatistiksel ö ˘grenmedeki temel olgulardan biridir.
Bu durum her veri seti ve her yöntemde kar¸sımıza çıkar.
Bunun nedeni isea¸sırı yakı¸stırma(overfitting) sorunudur. Kısaca, esneklik arttıkça yöntemin a¸sırı detaylı çalı¸smaya ba¸slamasıdır.
Böylece, bilinmeyen gerçek f fonksiyonunda gerçekte olmayan, rastlantısal olu¸smu¸s de ˘gi¸siklikler içinde örüntü yakalamaya çalı¸sır.
E ˘gitim HKO ise sürekli dü¸ser çünkü yöntem bunu minimize eder.
E ˘gitim HKO’su ile test HKO’su arasındaki bu ili¸ski ¸Sekil 10 ve ¸Sekil 11’de farklı veri setleri için gösterilmi¸stir.
Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yüksek Do ˘grusallık Durumunda E ˘gitim ve Test HKO
Bu örnekte gerçek f do ˘grusala yakın oldu ˘gu için test HKO bir miktar azaldıktan sonra artmaya ba¸slamaktadır. Dolayısyla uygun yöntem do ˘grusal regresyondur.
0 20 40 60 80 100
24681012
X
Y
2 5 10 20
0.00.51.01.52.02.5
Esneklik
Hata Kareleri Ortalaması
¸
Sekil 10:Yöntem esnekli ˘gi ile HKO arasındaki ili¸ski(yüksek do ˘grusallık)
Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Dü¸sük Do ˘grusallık Durumunda E ˘gitim ve Test HKO
Bu örnekte ise gerçek f dü¸sük do ˘grusallık gösterdi ˘gi için test HKO 10 serbestlik derecesine kadar azalıp daha sonra artmaktadır.
Burada uygun yöntem düzle¸stirme derecesi yüksek spline’dır.
0 20 40 60 80 100
−1001020
X
Y
2 5 10 20
05101520
Esneklik
Hata Kareleri Ortalaması
¸
Sekil 11:Yöntem esnekli ˘gi ile HKO arasındaki ili¸ski(dü¸sük do ˘grusallık)
Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi
Yanlılık-Varyans Ödünle¸smesi (1)
Yukarıda gördü ˘gümüz U-¸seklindeki Test HKO’lar istatistiksel ö ˘g- renme yöntemlerindeki iki farklı özelli ˘gin sonucudur.
Bunu göstermek için beklenen test HKO formülünü ¸söyle yazalım:
E (y0− ˆf(x0)2
=var ˆf(x0) + Yanlılık ˆf(x0)2
+var() Yukarıdaki E (y0− ˆf(x0)2
ifadesi, test HKO’nun beklenen de ˘geri (ortalama de ˘ger) anlamındadır.
Sa ˘gdaki var() ise “azaltılamayan hata” de ˘geridir. Di ˘ger terimler negatif olamayaca ˘gı için test HKO da var()’dan dü¸sük olamaz.
Formüle göre, dü¸sük HKO için aynı anda hem dü¸sük varyans hem de dü¸sük yanlılık sa ˘glayacak yöntemi kullanmamız gereklidir.
Varyans, elimizde farklı bir e ˘gitim veri seti olsaydı ˆf’nın ne kadar de ˘gi¸sece ˘gini gösterir. Esnek yöntemlerde varyans daha yüksektir.
Yanlılık ise gerçek hayatı görece basit bir modele indirgemekten kaynaklanır. Esnek yöntemlerde yanlılık genellikle dü¸süktür.
Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi
Yanlılık-Varyans Ödünle¸smesi (2)
Genel kural olarak, daha esnek yöntemler kullandıkça varyans ar- tarken yanlılık da dü¸ser. Test HKO de ˘gerinin artması ya da azal- ması bu ikisinin de ˘gi¸sim hızına ba ˘glıdır.
Daha esnek bir yöntem kullandıkça ilk ba¸slarda yanlılık hızla dü-
¸serken varyans ise çok artmaz.
Ancak bir noktadan sonra esnekli ˘gi daha fazla artırmak yanlılı ˘gı çok etkilemeyip varyansın hızla artırmasına yol açar. Böylece, test HKO yükselmeye ba¸slar.
˙I¸ste, bu ili¸skiyeyanlılık-varyans ödünle¸smesi(bias-variance trade- off) diyoruz.
Bu ödünle¸smeyi daha iyi anlamak için önceki örnekte gördü ˘gü- müz üç farklı e ˘gitim-test HKO grafiklerini birlikte inceleyebiliriz.
Bunlar ¸Sekil 12’de verilmi¸stir.
Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi
Yanlılık-Varyans Ödünle¸smesi (3)
2 5 10 20
0.00.51.01.52.02.5
Esneklik
2 5 10 20
0.00.51.01.52.02.5
Esneklik
2 5 10 20
05101520
Esneklik HKOYanlılık Varyans
¸
Sekil 12:Yanlılık-varyans ödünle¸smesi
Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi
Yanlılık-Varyans Ödünle¸smesi (4)
¸
Sekildeki her üç panelde de kulanılan yöntemin esnekli ˘gi arttıkça yanlılık azalırken varyansın da arttı ˘gı görülüyor.
Öte yandan, en dü¸sük test HKO için gerekli esneklik derecesi üç örnekte de farklılık gösteriyor.
Dik çizgiler ise test HKO’yu minimize eden esneklikleri veriyor.
Buradan istatistiksel ö ˘grenmedeki asıl zorlu ˘gun bu dik çizgilerdeki test HKO düzeyini sa ˘glayan yöntemi bulmak oldu ˘gunu anlıyoruz.
Bu derste görece ˘gimiz bazı yöntemler o kadar esnektir ki varyansı tümüyle yok edebilir. Ancak farklı uygulamalarda bunların basit yöntemlerden daha ba¸sarılı sonuç verece ˘ginin garantisi de yoktur.
Sonuç olarak, veri çözümlemesinde yanlılık-varyans ödünle¸sme- sini her zaman göz önünde bulundurmalıyız.
Kesinli ˘gin Ölçülmesi Sınıflandırmada kesinlik
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
Kesinli ˘gin Ölçülmesi Sınıflandırmada kesinlik
Sınıflandırma Çözümlemesi
Model kesinli ˘ginin ölçülmesine yönelik yukarıdaki tartı¸smamızda regresyon örne ˘gini kullandık. Öte yandan, regresyon için vurgula- dı ˘gımız noktalar di ˘ger yöntemler için de geçerlidir.
Örnek olarak, istatistiksel ö ˘grenmede sıkça kullandı ˘gımız bir di-
˘ger yakla¸sımsınıflandırma(classification) çözümlemesidir.
Sınıflandırmada da amacımız aynıdır. {(x1,y1), . . . ,(xn,yn)} ¸sek- lindeki e ˘gitim veri setini kullanarak f fonksiyonunu tahmin ederiz.
Ancak burada y1, . . . ,yn tepki de ˘gi¸skeninicel(quantitative) de ˘gil, nitel(qualitative) de ˘gerlerden olu¸sur.
Nitel de ˘gi¸skenler, üniversite mezunu olup olmama ya da kadın ve erkek gibi farklı sınıflandırmaları gösterir.
Bunlar farklı kategorileri belirten 0, 1, 2 gibi sabit ve kısıtlı de ˘gerler alır. Bu yüzden bunlarakategorik(categorical) de ˘gi¸sken de denir.
Bir veri setinde X ’ler de Y ’ler de kategorik olabilir. Ancak Y de ˘gi¸s- keni e ˘ger nitel ise bu durumda sınıflandırma çözümlemesi olur.
Kesinli ˘gin Ölçülmesi Sınıflandırmada kesinlik
Hata Oranı
Sınıflandırma çözümlemesinde e ˘gitim HKO yerinee ˘gitim hata oranı (training error rate) ölçütünden yararlanırız:
Hata Oranı = 1 n
n
X
i=1
I(yi 6= ˆyi) =Ortalama I(yi 6= ˆyi) Yukarıda ˆyi, ˆf’yı kullanarak i gözlemi için tahmin etti ˘gimiz sınıftır.
I(yi 6= ˆyi)ifadesine isegösterge de ˘gi¸skeni(indicator variable) de- riz. Belli bir i gözlemi için yi 6= ˆyi oldu ˘gu zaman hatalı tahmin var demektir ve I = 1 olur. Aksi durumda I = 0 de ˘gerini alır.
Yukarıdaki formüle e ˘gitim hata oranı deriz çünkü hesaplarken eli- mizdeki e ˘gitim verilerini kullanırız. Ancak, aslında ilgilendi ˘gimiz
¸seytest hata oranı(test error rate) de ˘geridir:
Hata OranıTest =Ortalama I(y06= ˆy0)
Burada y0, elimizde olmayan test verilerinden gelecek y ’lerdir.
En iyi sınıflandırma ise en dü¸sük test hata oranını verendir.
Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı
Bayes Sınıflandırıcı (1)
Test hata oranını minimum yapan en ideal yöntemBayes sınıflan- dırıcı(Bayes classifier) adı verilen olasılık hesaplamasıdır.
Bu yöntemde her bir x0gözlemi için Pr(Y = j|X = x0) olasılı ˘gı maksimum olacak ¸sekilde j sınıfı seçilir.
Burada Pr,olasılık(probability) demektir. Parantezin içindeki|i¸sa- reti ise “verili” ¸seklinde okunur.
Dolayısıyla yukarıdaki ifade X = x0durumu verili iken Y = j olma ko¸sullu olasılı ˘gı(conditional probability) anlamına gelir.
Görüldü ˘gü gibi, Bayes sınıflandırıcının yaptı ˘gı ¸sey her bir gözlem için en yüksek olasılı ˘ga sahip sınıfı seçmektir.
˙Iki sınıftan olu¸san bir çözümlemede gerçekle¸sme olasılı ˘gı yüzde 50’den yüksek olan sınıf seçilir.
Bu basit duruma yönelik bir örnek ¸Sekil 13’te verilmi¸stir.
Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı
Bayes Sınıflandırıcı (2)
o o
o
o o
o o
o
o
o
o
o
o
o o
o o
o o
o o
o oo
o
o
o o
o o o
o
o
o
o
o
o o
o o
o o
o
o
o
oo
o
o
o o o
o
o o o
o o
o o
o o
o
o
o o
o o o
o o o o
o
o o o
o
o o
o o o
o o
o o
o
o o
o
o
o o
o
o o
o o
o o
o o
o o o
o
o o
o
o o
o o
o o
o o
o o
o o
o o
o o
o
o o
o o o o o
o o
o
o
o o
o
o
o o o
o
o o oo o o
o
o o
o o
o
o
o o
o
o o o
o o
o o o
o
o o
o o
o
o o
o
o o
o
o o o
o
o
o o
o
o o
o
o
o o
o
o
o o
X1
X2
¸
Sekil 13:Bayes sınıflandırıcıya göre yapılmı¸s sınıflandırma örne ˘gi
Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı
Bayes Sınıflandırıcı (3)
¸
Sekilde X1 ve X2 de ˘gi¸skenlerinden olu¸san simülasyon verileriyle ikili bir sınıflandırma çözümlemesi yapılmı¸stır.
Turuncu ve mavi daireler iki farklı sınıfa ait gözlemlerdir. Farklı X1 ve X2de ˘gerlerine ba ˘glı olarak her bir gözlemin turuncu ya da mavi olma olasılı ˘gı farklıdır.
Bu örnekte veriler belli bir formül kullanılarak yapay olarak olu¸stu- ruldu ˘gu için çok sayıda test verisi olu¸sturmak mümkündür. Bunu yaparak X1ve X2için ko¸sullu olasılıkları hesaplayabiliriz.
Bu i¸slem sonucunda turuncu olma olasılı ˘gı %50’den yüksek olan bölge turuncu noktalarla taranmı¸stır. Pr(Y = mavi|X1,X2) > %50 olan bölge de benzer ¸sekilde mavi renkle taranmı¸stır.
Ortadan geçen kesikli çizgiye iseBayes karar sınırı(Bayes deci- sion boundary) adı verilir.
Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı
Bayes Hata Oranı
Bayes sınıflandırıcı en dü¸sük test hata oranını veren yöntemdir.
Ancak burada da eldeki verilerden kaynaklı olarak bir hata oranı söz konusudur. BunaBayes hata oranı(Bayes error rate) denir:
Bayes Hata Oranı = 1 − E max
j Pr(Y = j|X1,X2)
Formüle göre Bayes hata oranı, yukarıda açıkladı ˘gımız kural uy- gulanarak her sınıf için maksimum yapılan oranın 1’den farkıdır.
Bu oran daha önce tartı¸stı ˘gımız “azaltılamayan hata” kavramı ile yakından ili¸skilidir.
Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı
Ders Planı
1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama
2 Tahmin Konusu
Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik
Denetimli ve denetimsiz ö ˘grenme
3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi
Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı
K-enyakın kom¸su sınıflandırıcı
Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı
K-Enyakın Kom¸su (1)
Uygulamada tüm sınıflandırmalarımızı Bayes hata oranı minimum olacak ¸sekilde yapmak isteriz.
Ancak gerçek hayatta Y ’nin X ’e ba ˘glı ko¸sullu olasılıklarını bileme- di ˘gimiz için Bayes sınıflandırıcıyı kullanmak olanaksızdır.
Bunun yerine ko¸sullu olasılıkları tahmin etme yoluna gideriz.
Bu amaçla kullanılan en yaygın yöntemlerden biriK-enyakın kom¸su (K-nearest neighbor) ya da kısacaK-EK(K-NN) sınıflandırıcıdır.
Bu yöntemde ilk önce pozitif tam sayı olan bir K de ˘geri belirlenir.
Daha sonra her bir x0 gözlemi için bu gözleme en yakın di ˘ger K adet gözlem seçilir. Böylece, N0adı verilen bu set içinden
Pr(Y = j|X = x0) = 1 K
X
i∈N0
I(yi =j)
oranı bulunarak her bir j’ye ait ko¸sullu olasılık tahmin edilir.
Son olarak, Bayes kuralı uygulanarak her bir gözlem için en yük- sek olasılıklı sınıf belirlenir. Yöntem ¸Sekil 14’te gösterilmi¸stir.
Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı
K-Enyakın Kom¸su (2)
o o
o o
o o o
o o
o o
o o
o
o o
o o o
o o
o o
o
¸
Sekil 14:K-enyakın kom¸su yöntemine göre yapılan sınıflandırma örne ˘gi
Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı
K-Enyakın Kom¸su (3)
¸
Sekildeki sol panelde K-EK yönteminin nasıl uygulandı ˘gı açıklan- mı¸stır. Bu örnekte K = 3 olarak belirlenmi¸stir.
Çarpı i¸sareti ile gösterilen noktanın sınıfını tahmin etmek istedi ˘gi- miz dü¸sünelim. Bunun için en yakın 3 gözlemin sınıfına bakarız.
Daire ile gösterilen alan içinde x noktasına en yakın 2 adet mavi ve 1 adet turuncu gözlem bulunmaktadır.
Bu durumda mavi olasılı ˘gı yüzde 67, turuncu olasılı ˘gı ise yüzde 33’tür. Dolayısıyla çarpı noktası için tahminimiz de mavi olur.
Bu i¸slemi ¸sekildeki tüm noktalara uygulayarak sa ˘g panelde göste- rilen mavi ve turuncu bölgeleri hesaplayabiliriz.
Böylece, bölgeleri ayıran K-EK karar sınırını da bulmu¸s oluruz.
Simülasyon verileriyle yaptı ˘gımız yukarıdaki örnek için K-EK ile Bayes sınıflandırıcılarının kar¸sıla¸stırması ¸Sekil 15’te verilmi¸stir.
Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı
K-Enyakın Kom¸su (4)
o o o
o o
o o
o o
o
o
o
o
o o
o o
o oo
o
o
oo o
o o o
o o o
o
o
o
o o o o
o o
o o
o o
o
oo
o
o
o o o
o
o o o
o o o o
o o
o o
o o
o o o
o o o o
o
o o o
o
o o
o o o
o o
o o
o o o
o
o
o o
o
o o
o o
o o
o o
o o o
o
o o
o o o
o o
o o
o o
o o o o
o o
o o
o o o
o o o o o
o o
o
o o
o
o o
o o o
o o
o o oo o
o
o o
o o
o o
o o
o
o o o
o o
o o o
o o o
o o o
o o o
o o
o
o o o
o o
o o
o
o o o
o
o o
o o
o o
X1
X2
K-Enyakın Komşu: K=10
¸
Sekil 15:K-enyakın kom¸su ile Bayes sınıflandırıcıların kar¸sıla¸stırması
Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı
K-Enyakın Kom¸su (5)
¸
Sekilde görüldü ˘gü gibi, K-EK sınıflandırıcı uygulamada Bayes’e oldukça yakın sonuçlar üretebilmektedir.
Ancak ba¸sta tartı¸stı ˘gımız yanlılık-varyans ödünle¸smesi burada da geçerlidir. Bu da K-EK’in esnekli ˘gini belirleyen K de ˘geri ile yakın- dan ili¸skilidir.
K = 1 ve K = 100 için elde edilen tahminler ¸Sekil 16’da verilmi¸stir.
Bu ¸sekili inceledi ˘gimizde K e ˘ger çok küçük olursa yöntemin a¸sırı esnek sonuçlar üretti ˘gi görülmektedir. K çok büyük oldu ˘gunda ise do ˘grusala yakın, a¸sırı katı bir tahmin ortaya çıkmaktadır.
Esneklik arttıkça e ˘gitim ve test hata oranlarının nasıl de ˘gi¸sti ˘gi ise
¸
Sekil 17’de verilmi¸stir. Daha önce tartı¸stı ˘gımız U-¸seklindeki test hata oranının burada da geçerli oldu ˘guna dikkat ediniz.
Sonuç olarak, tüm istatistiksel ö ˘grenme yöntemleri için do ˘gru es- neklik düzeyini seçmek son derece önemlidir. En iyi esnekli ˘gi be- lirlemeye yarayan yöntemleri Bölüm 5’te görece ˘giz.