˙Istatistiksel Ö˘grenme: Temel Kavramlar

(1)

˙Istatistiksel Ö˘grenme: Temel Kavramlar

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi

˙IKT-457 Ekonomi ve Finans ˙Için Yapay Zeka 1 Sürüm 0,93

(2)

Açık Lisans Bilgisi

Bu belge “Creative Commons Attribution-ShareAlike 3.0 Un- ported” (CC BY-SA 3.0) lisansı altında bir açık ders malzemesi olarak genel kullanıma sunulmu¸stur. Bazı ¸sekiller “An Intro- duction to Statistical Learning, with applications in R” (Sprin- ger, 2017) kitabından yazarların izniyle alınmı¸stır. Tüm belge eserin ilk sahibinin belirtilmesi ve geçerli lisansın korunması ko¸suluyla özgürce kullanılabilir, ço ˘galtılabilir, ve de ˘gi¸stirilebi- lir. Creative Commons örgütü ve CC-BY-SA 3.0 lisansı ile il- gili ayrıntılı bilgihttps://creativecommons.orgInternet adresinde yer almaktadır. Ders notlarımın güncel sürümlerine http://yalta.etu.edu.tr adresinden ula¸sabilirsiniz.

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi 2020 – 2021

(3)

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama

2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

K-enyakın kom¸su sınıflandırıcı

(4)

˙Istatistiksel Modelleme

Basit Bir Örnek

˙Istatistiksel ö˘grenmenin amacı veri setlerindensistematik bilgielde etmektir. Gelin, bunu bir örnek üzerinde açıklayalım.

Belli bir ürünün satı¸sını artırmak istedi ˘gimizi dü¸sünelim. Elimizde bu ürüne ait 200 farklı piyasadaki satı¸slar ile televizyon, radyo ve gazeteler için reklam harcamaları bilgisi oldu ˘gunu varsayalım.

Kısaca, farklı medya türlerindeki reklam harcamasına ba ˘glı olarak satı¸sların nasıl de ˘gi¸sti ˘gini anlamak istiyoruz.

Burada ö ˘grenmek istedi ˘gimiz hedef bilgi satı¸slardır. Buna çıktı (output) de ˘gi¸skeni diyelim.

Bu durumda çıktı de ˘gi¸skenini açıklamak için kullanaca ˘gımız reklam harcamaları dagirdi(input) de ˘gi¸skeni olur.

Örne ˘gimizdeki veriler ¸Sekil 1’de gösterilmi¸stir.

(5)

˙Istatistiksel Modelleme

Reklam Verileri

0 50 100 200 300

510152025

Televizyon

Satışlar

0 10 20 30 40 50

510152025

Radyo

Satışlar

0 20 40 60 80 100

510152025

Gazete

Satışlar

¸

Sekil 1:Medya türüne göre reklamların satı¸s üzerindeki etkisi

(6)

˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri

Ders Planı

2 Tahmin Konusu

(7)

Girdi ve Çıktı De ˘gi¸skenleri

¸

Sekilde çıktı de ˘gi¸skeninin y-ekseninde, girdi de ˘gi¸skenlerinin ise x-ekseninde bulundu ˘guna dikkat ediniz.

Genel olarak, çıktı de ˘gi¸skenini Y harfi ile belirtiriz.

Girdi de ˘gi¸skenlerini ise X₁, X₂, X₃, . . . harfleri ile gösteririz.

Bu de ˘gi¸skenlere duruma göre farklı adlar da verebiliriz:

Çıktı De ˘gi ¸skeni (Y ) Girdi De ˘gi ¸skeni (X )

Ba ˘gımlı de ˘gi¸sken (Dependent variable) Ba ˘gımsız de ˘gi¸sken(Independent variable)

Kestirilen (Predictand) Kestirici (Predictor)

Açıklanan de ˘gi¸sken (Explained variable) Açıklayıcı de ˘gi¸sken(Explanatory variable) Tepki de ˘gi¸skeni (Response variable) Denetim de ˘gi¸skeni (Control variable)

(8)

˙Istatistiksel Model (1)

Girdi ve çıktı de ˘gi¸skenleri arasındaki ili¸skiyi incelemek için istatistiksel modellerden yararlanırız:

˙Istatistiksel model

˙Istatistiksel model(statistical model), anakütleden gelen örneklem ve- rilerinin nasıl olu¸stu ˘gunu açıklayan matematiksel fonksiyondur.

Bir istatistiksel modelin en genel gösterimi a¸sa ˘gıdaki gibidir:

Y = f (X ) +

Burada f sabit ancak bilinmeyen bir matematiksel fonksiyondur.

X ’lerin Y hakkında sa ˘gladı ˘gı tümsistematik bilgibudur.

Soldaki (epsilon okunur) ise X ’lerden ba ˘gımsız ve ortalaması sıfır olanrastsal hata terimi(random error term) olarak adlandırılır.

f ’yi ve ’u anlamak için önceki bölümdeki ücret veri setine geri dönelim ve ¸Sekil 2’yi inceleyelim.

(9)

˙Istatistiksel Model (2)

10 12 14 16 18 20 22

20304050607080

Eğitim süresi (yıl)

Gelir

10 12 14 16 18 20 22

20304050607080

Eğitim süresi (yıl)

Gelir

¸

Sekil 2:Gelir ve e ˘gitim ili¸skisini gösteren istatistiksel model

(10)

˙Istatistiksel Model (3)

¸

Sekildeki veri seti simülasyon yoluyla olu¸sturuldu ˘gu için bu ör- nekte f bellidir ve sa ˘g panelde mavi çizgi ile gösterilmi¸stir.

Buradaki dikey çizgiler hata terimi olan ’ları göstermektedir.

Hataların bir bölümünün fonksiyon çizgisinin üstünde, di ˘gerlerinin ise çizginin altında kaldı ˘gını ve ortalamalarının yakla¸sık sıfır olaca ˘gına dikkat ediniz.

¸

Sekilde e ˘gitim süresi arttıkça gelirin önce artarak arttı ˘gı ve bir noktadan sonra da azalarak artmaya ba¸sladı ˘gı anla¸sılmaktadır.

Ancak uygulamada X ve Y arasındaki ili¸skiyi belirten f fonksiyonunu kesin olarak bilmek olanaksızdır.

Gerçek hayatta elimizdeki tek bilgi sol panelde gösterilen verilerdir. Dolayısıyla f ’yitahmin(estimate) etmemiz gerekir.

(11)

˙Istatistiksel Model (4)

˙Istatistiksel modellerde genellikle birden fazla girdi bulunur. Örnek olarak, bir yerine iki adet X de ˘gi¸skeni oldu ˘gu zaman f ’yi a¸sa ˘gıdaki gibi üç boyutlu bir yüzey ile gösterebiliriz:

Eğitim Düze yi

Kıde m G

elir

¸

Sekil 3:Gelir, e ˘gitim süresi ve kıdem arasındaki ili¸ski

(12)

˙Istatistiksel Modelleme Kestirim ve çıkarsama

Ders Planı

2 Tahmin Konusu

(13)

Kestirim

Bir istatistiksel modeli tahmin etmenin iki amacı vardır: kestirim (prediction) veçıkarsama(inference).

Kestirim, eldeki verili X de ˘gerlerini kullanarak buna kar¸sılık gelen Y de ˘gerini tahmin etmek demektir. Bunu ¸söyle gösterebiliriz:

Y = ˆf(X )ˆ

Yukarıda görülenˆ(¸sapka) simgesi tahmin anlamındadır.

Kestirim uygulamasında tahmin edilen f ’yi bir kara kutu olarak gö- rürüz. ˙Içeri ˘gine de ˘gil, do ˘gru sonuç verip vermedi ˘gine bakarız.

(14)

Azaltılabilen Hata ve Azaltılamayan Hata (1)

Kestirilen ˆY de ˘gerinin do ˘gruluk derecesi iki büyüklü ˘ge ba ˘glıdır:

Azaltılabilen hataveazaltılamayan hata

Azaltılabilen hata, daha iyi ve uygun bir istatistiksel ö ˘grenme aracı kullanılarak kaçınılabilecek olan hatalardır.

Azaltılamayan hata ise rastsal hata teriminden kaynaklanır. Y aynı zamanda ’a da ba ˘glı oldu ˘gu için bundan kaçınmak olanaksızdır.

Peki, neden vardır? Hata terimi genel olarak (1) ölçemedi ˘gimiz, (2) hatalı ölçebildi ˘gimiz, (3) göz ardı etti ˘gimiz ya da (4) hiç bile- medi ˘gimiz de ˘gi¸skenlerin ortak etkisini gösterir.

Bunların Y ve X ’lerden ba ˘gımsız ve birbirlerinin etkisini yok ettik- leri için sıfır ortalamaya sahip oldukları kabul edilir.

(15)

Azaltılabilen Hata ve Azaltılamayan Hata (2)

Azaltılabilen hata ile azaltılamayan hatayı açıklamak için ˆf ve X ’lerin sabit oldu ˘gunu varsayalım. Bu durumda ¸sunu yazabiliriz:

E(Y − ˆY )²=E[f (X ) + − ˆf(X )]²

= [f (X ) + − ˆf(X )]²

| {z }

Azaltılabilen

+ var()

| {z }

Azaltılamayan

Burada E(Y − ˆY )², kestirim hatasının karesinin beklenen de ˘geridir. Kısaca ortalama hatanın karesidir.

var() ise hata terimine aitvaryans(variance) de ˘geridir.

Görüldü ˘gü gibi, istatistiksel ö ˘grenmedeki amacımız azaltılabilen hatayı minimize etmektedir.

Ancak uygulamada ’dan kaynaklanan bir kestirim hatası her zaman olacaktır.

(16)

Çıkarsama

Veri çözümlemesinde belli bir Y de ˘gerini kestirmek dı¸sında ço ˘gu zaman çıkarsama da yapılır.

Burada amaç Y ’nin X ’lerden nasıl etkilendi ˘gini anlamaktır. Bu durumda f fonksiyonunu bir kara kutu olarak görmeyiz.

Çıkarsama yaparak a¸sa ˘gıdaki sorulara yanıt ararız:

Hangi X de ˘gi¸skenleri Y üzerinde etkilidir?

Y ile her bir X de ˘gi¸skeni arasındaki ili¸ski nedir?

Y ’nin X ’lerle ili¸skisi do ˘grusal mı yoksa daha karma¸sık mıdır?

Örnek olarak, ev satı¸sı yapan bir firmayı ele alalım.

Burada daire geni¸sli ˘gi bir m² artarsa fiyatın ne kadar artaca ˘gı, dairenin ön cephede olmasının ya da çocuk odasında banyo bu- lunmasının fiyatı nasıl etkilece ˘gi çıkarsamanın konusudur.

Belli bir dairenin yalnızca fiyatını tahmin etmek isteseydik bu kestirim konusu olurdu.

(17)

Tahmin Konusu

Matematiksel Gösterim

Tahmin konusuna geçmeden önce kullanaca ˘gımız matematiksel gösterimden kısaca söz edelim.

Bu derste ele alaca ˘gımız birçok farklı yöntemi açıklarken ya da bunları kar¸sıla¸stırırken ortak bir gösterimden yararlanaca ˘gız.

Örnek olarak, veri setimizin uzunlu ˘gunu n olarak belirleyece ˘giz.

Di ˘ger bir deyi¸sle elimizde n adet gözlem oldu ˘gunu dü¸sünecek ve bunları i olarak adlandıraca ˘gız: i = 1, 2, . . . , n.

Açıklayıcı de ˘gi¸sken sayımız ise p olacak ve bunları da j harfi ile gösterece ˘giz: j = 1, 2, . . . , p.

De ˘gi¸skenleri Y ve X ’ler ¸seklinde büyük harflerle yazaca ˘gız.

Tekil gözlemler ise x_ip ¸seklinde küçük harf olacak.

Örnek olarak, x₁₁ dedi ˘gimiz zaman bu, birinci gözlemdeki birinci X de ˘gi¸skeni anlamına gelecek.

Tüm X de ˘gi¸skenlerine birlikte e ˘gitim verileri (training data) diye- ce ˘giz: x_i = (x_i1,x_i2, . . . ,x_ip)^T.

Amacımız Y ≈ ˆf(X ) olacak ¸sekilde ˆf tahminini bulmak olacak.

(18)

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Ders Planı

2 Tahmin Konusu

(19)

Parametrik ve Parametrik-dı¸sı Yöntemler

Matematiksel gösterimi açıkladıktan sonra artık f fonksiyonunun nasıl tahmin edilece ˘gi konusuna geçebiliriz.

Veri çözümlemesinde amacımızın kestirim mi yoksa çıkarsama mı oldu ˘guna ba ˘glı olarak farklı yöntemler kullanılabiliriz.

Örnek olarak,do ˘grusal(linear) modeller görece basit ve anla¸sıla- bilir yapıları nedeniyle yorumlama kolaylı ˘gı sa ˘glar.

Dolayısıyla bunlar çıkarsama amacı için daha uygundur.

Do ˘grusal olmayan (non-linear) modelleri ise yorumlamak güçtür ama bunlar da kestirim konusunda ço ˘gu zaman daha ba¸sarılıdır.

Bu derste f fonksiyonunu tahmin etmek için çok sayıda do ˘grusal ve do ˘grusal-dı¸sı yöntem görece ˘giz.

Bu yöntemleri genel olarakparametrik(parametric) veparametrik- dı¸sı(non-parametric) ¸seklinde iki gruba ayırabiliriz.

(20)

Parametrik Yöntemler (1)

Parametrik yöntemlerde iki adımlı bir yakla¸sım izlenir.

1 ˙Ilk adımda f ’nin fonksiyon yapısına karar verilir. Örnek olarak,

¸söyle birdo ˘grusal model(linear model) kullanabiliriz:

Y = β₀+ β₁X₁+ β₂X₂+ · · · + βpXp

Do ˘grusallık varsayımı model tahminini kolayla¸stırır. Çok karma¸sık olabilecek bir fonksiyonla u ˘gra¸smak yerine p + 1 adet katsayıyı tahmin etmek burada yeterli olur.

2 ˙Ikinci olarak, elimizdeki verileri modeleyakı¸stırmak(fitting), di ˘ger bir deyi¸sle modeli e ˘gitmek (training) isteriz. Böylece, modeldeki katsayıları tahmin ederiz:

Y ≈ ˆβ₀+ ˆβ₁X₁+ ˆβ₂X₂+ · · · + ˆβ_pX_p

Bu i¸slemin birçok farklı yolu vardır. Bunlar içinde en yaygını ise sıradan enküçük kareler(ordinary least squares) yöntemidir.

(21)

Parametrik Yöntemler (2)

Parametrik yöntemde fonksiyon yapısını biz belirledi ˘gimiz için tahmin süreci oldukça kolayla¸sır.

Ancak gerçek hayatta de ˘gi¸skenler arasındaki karma¸sık ili¸skileri önceden bilmek zordur.

Dolayısıyla parametrik yakla¸sımın olası sakıncası a¸sırı basit bir model kullanmaktır.

Örnek olarak, ba¸sta söz etti ˘gimiz e ˘gitim süresi, kıdem ve gelir ara- sındaki ili¸skiyi parametrik yöntemle tahmin etmek için a¸sa ˘gıdaki do ˘grusal modeli kullanalım:

Gelir ≈ β₀+ β₁E ˘gitim + β₂Kıdem.

Elimizdeki verileri sıradan enküçük kareler yöntemi ile modele ya- kı¸stıracak olursak ¸Sekil 4’teki tahmin yüzeyini elde ederiz.

(22)

Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi

Do ˘grusal modelin ¸Sekil 3’te gördü ˘gümüz gerçek f ’deki e ˘gri yüzeyi yakalayamadı ˘gı anla¸sılıyor. Ancak küçük bir veri seti ile yapılabi- lecek en iyi tahmin belki de bu olabilir.

Eğitim Düze yi

Kıde m G

elir

¸

Sekil 4:Gelir, e ˘gitim, kıdem ili¸skisinin do ˘grusal model ile tahmini

(23)

Parametrik-dı¸sı Yöntemler (1)

Parametrik-dı¸sı yöntemler f ’nin fonksiyon yapısı konusunda bir varsayımda bulunmaz. Bunun yerine eldeki verilere en iyi yakı¸san fonksiyonu bulmaya çalı¸sır.

Bu yöntemde tahmin sonuçlarının a¸sırı düz ya da a¸sırı e ˘gri ol- maması önemlidir. Bunun için uygun birdüzle¸stirme (smoothing) derecesi seçmek gereklidir.

Parametrik-dı¸sı yakla¸sımı kullanarak de ˘gi¸skenler arasındaki çok karma¸sık ili¸skileri dikkate alabiliriz.

Ancak bu yakla¸sımın sakıncası da bu i¸s için çok daha fazla veriye gereksinim duymalarıdır.

Parametrik-dı¸sı yönteme örnek olarak, ¸simdi de gelir modelimizi ince-katman spline(thin-plate spline) yöntemi ile tahmin edelim.

Buradan elde edilen sonuçlar ¸Sekil 5’te gösterilmi¸stir.

(24)

Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi

Bu ¸sekilde spline yöntemi için yüksek bir düzle¸stirme de ˘geri kul- lanılmı¸stır. Tahmin edilen yüzeyin daha önce ¸Sekil 3’te gösterilen gerçek duruma çok yakın oldu ˘gu görülüyor.

Eğitim Düze yi

Kıde m G

elir

¸

Sekil 5:Gelir, e ˘gitim, kıdem ili¸skisinindüzgünince-katman spline ile tahmini

(25)

Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi

Burada ise spline için dü¸sük bir düzle¸stirme uygulanmı¸stır. Bu- radaa¸sırı yakı¸sma(over fitting) söz konusudur. Elde edilen sonuç gerçek durumu tam yansıtmamaktadır.

Eğitim Düze yi

Kıde m G

elir

¸

Sekil 6:Gelir, e ˘gitim, kıdem ili¸skisininengebeliince-katman spline ile tahmini

(26)

Tahmin Konusu Kesinlik ve yorumlanabilirlik

Ders Planı

2 Tahmin Konusu

(27)

Kesinlik ve Yorumlanabilirlik (1)

Bu derste görece ˘gimiz çok sayıda yöntemden bazıları uygulama konusunda esnek, bazıları ise kısıtlayıcıdır.

Örnek olarak do ˘grusal regresyon görece kısıtlayıcıdır çünkü yal- nızca do ˘grusal fonksiyonlara izin verir.

Öte yandan ince-katman spline yöntemi f fonksiyonu için oldukça ayrıntılı ¸sekiller üretebildi ˘gi için esnektir.

Peki, esnek yöntemler varken neden kısıtlayıcı bir yöntem kulla- nalım? Bunun yanıtı ikisi arasındakikesinlik(accuracy) veyorum- lanabilirlik(interpretability) farkıdır.

Esnek yöntemler kullanarak de ˘gi¸skenler arasındaki çok karma¸sık ili¸skileri dikkate alabiliriz. Dolayısıyla bunlar kestirim konusunda genellikle daha ba¸sarılıdır.

Kısıtlayıcı yöntemler ise görece basit ve anla¸sılabilir yapıları nedeniyle anlaması ve yorumlaması kolay sonuçlar üretirler.

Kesinlik ve yorumlanabilirlik ödünle¸smesi ¸Sekil 7’deki gibidir.

(28)

Kesinlik ve Yorumlanabilirlik (2)

Esneklik

Yorumlanabilirlik

Düşük

Yüksek Yüksek Altküme Seçimi

Kement

Genellemeli Toplamlı Modeller Ağaçlar

Bagging, Boosting Destek Vektör Makineleri Doğrusal Regresyon

¸

Sekil 7:Kesinlik ve yorumlanabilirlik arasındaki ödünle¸sme

(29)

Kesinlik ve Yorumlanabilirlik (3)

¸

Sekilde çe¸sitli istatistiksel ö ˘grenme yöntemlerinin esnekli ˘gi art- tıkça yorumlanabilirli ˘ginin dü¸stü ˘gü görülmektedir.

Örnek olarak, Bölüm 8’de ele alaca ˘gımızboostingile Bölüm 9’da görece ˘gimizdestek vektör makinelerioldukça esnek araçlardır.

Ancak bunların üretti ˘gi f fonksiyonu tahminleri son derece karma-

¸sık olabildi ˘gi için her bir X ’in Y üzerindeki etkisini anlamak zordur.

7. Bölümde tartı¸saca ˘gımızgenellemeli toplamlı modellerise 3 Bö- lümde görece ˘gimizdo ˘grusal regresyonyanında daha esnektir.

Yine, 6. Bölümde inceleyece ˘gimizkement(lasso) yöntemi de bazı parametreleri sıfıra e¸sitledi ˘gi için do ˘grusal regresyona göre daha katıdır ancak bu durum yorumlamada kolaylık sa ˘glar.

Peki, yorum yapmakla ilgilenmiyorsak ne olacak? Amacımız yal- nızca kestirim yapmak ise en esnek yöntem en iyisi midir?

Hayır! Esnek yöntemler e ˘ger do ˘gru kullanılmazsa a¸sırı yakı¸sma (overfitting) sorununa neden olurlar. Bu durumda yorumlanabilirlik pahasına kazanılan kesinlik kolayca kaybedilir.

(30)

Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme

Ders Planı

2 Tahmin Konusu

(31)

Denetimli ve Denetimsiz Ö ˘grenme

˙Istatistiksel ö˘grenme süreçleri parametrik ve parametrik-dı¸sı ayrı- mına ek olarak,denetimli(supervised) vedenetimsiz(unsupervi- sed) olarak da ikiye ayrılır.

Denetimli ö ˘grenmede x_i,i = 1, 2, . . . , n ¸seklinde n adet gözlem içeren X de ˘gi¸skenleri ve bunlara kar¸sılık y_i de ˘gerleri vardır.

Do ˘grusal regresyon ve lojistik regresyon gibi klasik yöntemlerin yanında GAM, boosting, destek vektör makineleri gibi birçok mo- dern yöntem denetimli ö ˘grenmeye örnektir.

Denetimsiz ö ˘grenmede ise i = 1, 2, . . . , n ¸seklinde gözlemler var- dır ancak veri seti yalnızca X de ˘gi¸skenlerinden olu¸sur.

Tepki de ˘geri olarak y_i’lerin olmadı ˘gı böyle durumlarda de ˘gi¸skenler arası ili¸skileri anlamak içinküme çözümlemesi(cluster analysis), di ˘ger bir deyi¸slekümeleme(clustering) yapılabilir.

Kümeleme yöntemine basit bir örnek ¸Sekil 8’de verilmi¸stir.

(32)

Küme Çözümlemesi (1)

0 2 4 6 8 10 12

24681012

0 2 4 6

2468

X1 X1

X2 X2

¸

Sekil 8:˙Iki farklı veri seti için küme çözümlemesi

(33)

Küme Çözümlemesi (2)

¸

Sekilde iki farklı veri seti için küme çözümlemesi yapılmı¸stır.

˙Iki örnekte de üç veri kümesi bulunmaktadır. Bunlar burada farklı renklerle gösterilmi¸stir ancak gerçekte kümeler bilinmemektedir.

Sol paneldeki kümeleri ayrı¸stırmak daha kolaydır. Sa ˘gda ise kü- meler örtü¸stü ˘gü için hatasız bir sonuç elde etmek beklenemez.

Küme çözümlemesi günümüzde sık kullanılan bir yakla¸sımdır.

Örnek olarak, bir firma bu yöntemle potansiyel mü¸sterileri ara- sında çok ya da az harcama yapacakları ayrı¸stırmak isteyebilir.

E ˘ger elimizde harcama verileri bulunsaydı denetimli bir çözüm- leme yapılabilirdi. Ancak gerçekle¸secek harcama genellikle önce- den bilinmedi ˘gi için en uygulanabilir yöntem budur.

Son olarak, ço ˘gu durumda ikiden fazla de ˘gi¸sken olaca ˘gına dikkat ediniz. E ˘ger elimizde p adet de ˘gi¸sken varsa her bir de ˘gi¸sken çifti için toplam p(p − 1)/2 farklı serpilim çizimi olu¸sturulabilir.

Bunları insanların yorumlaması zor oldu ˘gu için otomatik sınıflan- dırma yapan geli¸smi¸s yöntemler giderek önem kazanmaktadır.

(34)

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Ders Planı

2 Tahmin Konusu

(35)

Yakı¸smanın ˙Iyili ˘gi

Bu derste birçok farklı veri çözümleme tekni ˘gini açıklayaca ˘gımızı söylemi¸stik. Peki, neden yalnızca en yeni ve en geli¸smi¸s yöntemi ö ˘grenmiyoruz?

Çünkü tüm bu yöntemler içinde di ˘gerlerine her veri setinde üstün gelebilen tek bir yöntem yoktur.

Dolayısıyla istatistiksel ö ˘grenmedeki en önemli a¸samalardan biri belli bir durumda en iyi sonucu verecek yöntemi belirlemektir.

Bu amaçla, hesapladı ˘gımız kestirimlerin gerçekle¸sen de ˘gerlere ne kadar yakın oldu ˘gunu ölçmek isteriz.

Bunun içinyakı¸smanın iyili ˘gi(goodness-of-fit) ölçütleri kullanırız.

(36)

Hata Kareleri Ortalaması

En temel yakı¸smanın iyili ˘gi ölçütlerinden biri hata kareleri ortala- ması(mean squared error), ya da kısacaHKO(MSE) de ˘geridir:

HKO = 1 n

n

X

i=1

(y_i− ˆf(x_i))²=Ortalama(y_i− ˆf(x_i))²

Görüldü ˘gü gibi HKO, elimizde bulunan x_i ve y_i’leri kullanarak yap- tı ˘gımız ˆf(x_i) ≈y_i ¸seklinde tahminlerin hata kareleri ortalamasıdır.

E ˘ger ˆf(x_i) =y_i olursa HKO’nun da sıfır olaca ˘gına dikkat ediniz.

Yukarıdaki formülü elimizde var olan verilerle hesaplarız. Dolayı- sıyla bunae ˘gitim HKO(training MSE) demek daha do ˘gru olur.

Ancak bizi asıl ilgilendiren ¸sey elimizde bulunmayan test verileri (test data) kullanırsak tahmin ba¸sarısının ne olaca ˘gıdır.

Elimizde olmayan test verilerine x₀ ve y₀ diyelim. Dolayısıyla biz aslındatest HKO(test MSE) de ˘gerini bilmek istiyoruz:

HKO^Test =Ortalama(y₀− ˆf(x₀))²

(37)

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (1)

Genellikle elimizde test verileri yoktur. Bu durumda elde olanla ye- tinip e ˘gitim HKO’yu minimum yapan yöntemi seçmek isteyebiliriz.

Bu mantıklı bir yakla¸sım gibi görünür. Sonuçta e ˘gitim verileri ile test verileri birbirine yakın olmak zorundadır.

Ancak burada temel bir sorun ortaya çıkar: E ˘gitim verilerini minimum yapan yöntem, test verilerinde de aynı ba¸sarıyı göstermek zorunda da ˘gildir.

Uygulamada genellikle e ˘gitim HKO oldukça dü¸süktür ama test HKO çok daha yüksek çıkar.

Bu olguyu anlayabilmek için ¸Sekil 9’u inceleyelim.

(38)

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (2)

0 20 40 60 80 100

24681012

X

Y

2 5 10 20

0.00.51.01.52.02.5

Esneklik

Hata Kareleri Ortalaması

¸

Sekil 9:Yöntem esnekli ˘gi ile HKO arasındaki ili¸ski

(39)

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (3)

¸

Sekilde sol paneldeki küçük yuvarlaklar verilerdir. Siyah e ˘gri ise bu verilerin geldi ˘gi gerçek f fonksiyonudur.

Turuncu, mavi ve ye¸sil çizgiler ise esnekli ˘gi giderek artan üç farklı yöntemi göstermektedir.

Turuncu çizgi do ˘grusal regresyon, mavi çizgi düzle¸stirme derecesi yüksek bir spline, ye¸sil çizgi ise düzle¸stirme derecesi dü¸sük bir spline tahminidir.

Sa ˘g panelde bu üç yöntemin esneklikleri ve HKO de ˘gerleri gö- rülmektedir. Bir çizginin esnekli ˘gini ya da kıvrımlılı ˘gını serbestlik derecesi(degree of freedom) belirler. Burada bunlar 2, 6 ve 23’tür.

Sa ˘gdaki gri renk e ˘gri her bir yönteme ait e ˘gitim HKO de ˘gerleridir.

Bu veri seti belli bir formüle göre yapay olarak üretildi ˘gi için test verileri kolayca yaratılabilir. Dolayısıyla kırmızı e ˘gri de buna göre hesaplanan test HKO de ˘gerleridir.

Son olarak, ortadaki yatay çizgi ise hata teriminin varyansı olup, azaltılamayan minimum hata düzeyini belirtmektedir.

(40)

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (4)

¸

Sekili inceledi ˘gimizde kullanılan yöntemin esnekli ˘gi arttıkça e ˘gitim HKO de ˘gerinin sürekli azaldı ˘gı görülmektedir.

Öte yandan, test HKO de ˘geri ise önce azalmakta ancak bir noktadan sonra artmaya ba¸slamaktadır.

Sürekli azalan e ˘gitim HKO’suna kar¸sılık U-¸seklindeki test HKO’su istatistiksel ö ˘grenmedeki temel olgulardan biridir.

Bu durum her veri seti ve her yöntemde kar¸sımıza çıkar.

Bunun nedeni isea¸sırı yakı¸stırma(overfitting) sorunudur. Kısaca, esneklik arttıkça yöntemin a¸sırı detaylı çalı¸smaya ba¸slamasıdır.

Böylece, bilinmeyen gerçek f fonksiyonunda gerçekte olmayan, rastlantısal olu¸smu¸s de ˘gi¸siklikler içinde örüntü yakalamaya çalı¸sır.

E ˘gitim HKO ise sürekli dü¸ser çünkü yöntem bunu minimize eder.

E ˘gitim HKO’su ile test HKO’su arasındaki bu ili¸ski ¸Sekil 10 ve ¸Sekil 11’de farklı veri setleri için gösterilmi¸stir.

(41)

Yüksek Do ˘grusallık Durumunda E ˘gitim ve Test HKO

Bu örnekte gerçek f do ˘grusala yakın oldu ˘gu için test HKO bir miktar azaldıktan sonra artmaya ba¸slamaktadır. Dolayısyla uygun yöntem do ˘grusal regresyondur.

0 20 40 60 80 100

24681012

X

Y

2 5 10 20

0.00.51.01.52.02.5

Esneklik

¸

Sekil 10:Yöntem esnekli ˘gi ile HKO arasındaki ili¸ski(yüksek do ˘grusallık)

(42)

Dü¸sük Do ˘grusallık Durumunda E ˘gitim ve Test HKO

Bu örnekte ise gerçek f dü¸sük do ˘grusallık gösterdi ˘gi için test HKO 10 serbestlik derecesine kadar azalıp daha sonra artmaktadır.

Burada uygun yöntem düzle¸stirme derecesi yüksek spline’dır.

0 20 40 60 80 100

−1001020

X

Y

2 5 10 20

05101520

Esneklik

¸

Sekil 11:Yöntem esnekli ˘gi ile HKO arasındaki ili¸ski(dü¸sük do ˘grusallık)

(43)

Kesinli ˘gin Ölçülmesi Yanlılık-varyans ödünle¸smesi

Ders Planı

2 Tahmin Konusu

(44)

Yanlılık-Varyans Ödünle¸smesi (1)

Yukarıda gördü ˘gümüz U-¸seklindeki Test HKO’lar istatistiksel ö ˘g- renme yöntemlerindeki iki farklı özelli ˘gin sonucudur.

Bunu göstermek için beklenen test HKO formülünü ¸söyle yazalım:

E (y₀− ˆf(x0)2

=var ˆf(x₀) + Yanlılık ˆf(x₀)2

+var() Yukarıdaki E (y₀− ˆf(x₀)2

ifadesi, test HKO’nun beklenen de ˘geri (ortalama de ˘ger) anlamındadır.

Sa ˘gdaki var() ise “azaltılamayan hata” de ˘geridir. Di ˘ger terimler negatif olamayaca ˘gı için test HKO da var()’dan dü¸sük olamaz.

Formüle göre, dü¸sük HKO için aynı anda hem dü¸sük varyans hem de dü¸sük yanlılık sa ˘glayacak yöntemi kullanmamız gereklidir.

Varyans, elimizde farklı bir e ˘gitim veri seti olsaydı ˆf’nın ne kadar de ˘gi¸sece ˘gini gösterir. Esnek yöntemlerde varyans daha yüksektir.

Yanlılık ise gerçek hayatı görece basit bir modele indirgemekten kaynaklanır. Esnek yöntemlerde yanlılık genellikle dü¸süktür.

(45)

Yanlılık-Varyans Ödünle¸smesi (2)

Genel kural olarak, daha esnek yöntemler kullandıkça varyans ar- tarken yanlılık da dü¸ser. Test HKO de ˘gerinin artması ya da azal- ması bu ikisinin de ˘gi¸sim hızına ba ˘glıdır.

Daha esnek bir yöntem kullandıkça ilk ba¸slarda yanlılık hızla dü-

¸serken varyans ise çok artmaz.

Ancak bir noktadan sonra esnekli ˘gi daha fazla artırmak yanlılı ˘gı çok etkilemeyip varyansın hızla artırmasına yol açar. Böylece, test HKO yükselmeye ba¸slar.

˙I¸ste, bu ili¸skiyeyanlılık-varyans ödünle¸smesi(bias-variance trade- off) diyoruz.

Bu ödünle¸smeyi daha iyi anlamak için önceki örnekte gördü ˘gü- müz üç farklı e ˘gitim-test HKO grafiklerini birlikte inceleyebiliriz.

Bunlar ¸Sekil 12’de verilmi¸stir.

(46)

Yanlılık-Varyans Ödünle¸smesi (3)

2 5 10 20

0.00.51.01.52.02.5

Esneklik

2 5 10 20

0.00.51.01.52.02.5

Esneklik

2 5 10 20

05101520

Esneklik HKOYanlılık Varyans

¸

Sekil 12:Yanlılık-varyans ödünle¸smesi

(47)

Yanlılık-Varyans Ödünle¸smesi (4)

¸

Sekildeki her üç panelde de kulanılan yöntemin esnekli ˘gi arttıkça yanlılık azalırken varyansın da arttı ˘gı görülüyor.

Öte yandan, en dü¸sük test HKO için gerekli esneklik derecesi üç örnekte de farklılık gösteriyor.

Dik çizgiler ise test HKO’yu minimize eden esneklikleri veriyor.

Buradan istatistiksel ö ˘grenmedeki asıl zorlu ˘gun bu dik çizgilerdeki test HKO düzeyini sa ˘glayan yöntemi bulmak oldu ˘gunu anlıyoruz.

Bu derste görece ˘gimiz bazı yöntemler o kadar esnektir ki varyansı tümüyle yok edebilir. Ancak farklı uygulamalarda bunların basit yöntemlerden daha ba¸sarılı sonuç verece ˘ginin garantisi de yoktur.

Sonuç olarak, veri çözümlemesinde yanlılık-varyans ödünle¸sme- sini her zaman göz önünde bulundurmalıyız.

(48)

Kesinli ˘gin Ölçülmesi Sınıflandırmada kesinlik

Ders Planı

2 Tahmin Konusu

(49)

Sınıflandırma Çözümlemesi

Model kesinli ˘ginin ölçülmesine yönelik yukarıdaki tartı¸smamızda regresyon örne ˘gini kullandık. Öte yandan, regresyon için vurgula- dı ˘gımız noktalar di ˘ger yöntemler için de geçerlidir.

Örnek olarak, istatistiksel ö ˘grenmede sıkça kullandı ˘gımız bir di-

˘ger yakla¸sımsınıflandırma(classification) çözümlemesidir.

Sınıflandırmada da amacımız aynıdır. {(x₁,y₁), . . . ,(xn,yn)} ¸seklindeki e ˘gitim veri setini kullanarak f fonksiyonunu tahmin ederiz.

Ancak burada y₁, . . . ,yn tepki de ˘gi¸skeninicel(quantitative) de ˘gil, nitel(qualitative) de ˘gerlerden olu¸sur.

Nitel de ˘gi¸skenler, üniversite mezunu olup olmama ya da kadın ve erkek gibi farklı sınıflandırmaları gösterir.

Bunlar farklı kategorileri belirten 0, 1, 2 gibi sabit ve kısıtlı de ˘gerler alır. Bu yüzden bunlarakategorik(categorical) de ˘gi¸sken de denir.

Bir veri setinde X ’ler de Y ’ler de kategorik olabilir. Ancak Y de ˘gi¸s- keni e ˘ger nitel ise bu durumda sınıflandırma çözümlemesi olur.

(50)

Hata Oranı

Sınıflandırma çözümlemesinde e ˘gitim HKO yerinee ˘gitim hata oranı (training error rate) ölçütünden yararlanırız:

Hata Oranı = 1 n

n

X

i=1

I(y_i 6= ˆy_i) =Ortalama I(y_i 6= ˆy_i) Yukarıda ˆy_i, ˆf’yı kullanarak i gözlemi için tahmin etti ˘gimiz sınıftır.

I(y_i 6= ˆy_i)ifadesine isegösterge de ˘gi¸skeni(indicator variable) deriz. Belli bir i gözlemi için y_i 6= ˆy_i oldu ˘gu zaman hatalı tahmin var demektir ve I = 1 olur. Aksi durumda I = 0 de ˘gerini alır.

Yukarıdaki formüle e ˘gitim hata oranı deriz çünkü hesaplarken elimizdeki e ˘gitim verilerini kullanırız. Ancak, aslında ilgilendi ˘gimiz

¸seytest hata oranı(test error rate) de ˘geridir:

Hata Oranı^Test =Ortalama I(y₀6= ˆy₀)

Burada y₀, elimizde olmayan test verilerinden gelecek y ’lerdir.

En iyi sınıflandırma ise en dü¸sük test hata oranını verendir.

(51)

Kesinli ˘gin Ölçülmesi Bayes sınıflandırıcı

Ders Planı

2 Tahmin Konusu

(52)

Bayes Sınıflandırıcı (1)

Test hata oranını minimum yapan en ideal yöntemBayes sınıflan- dırıcı(Bayes classifier) adı verilen olasılık hesaplamasıdır.

Bu yöntemde her bir x₀gözlemi için Pr(Y = j|X = x₀) olasılı ˘gı maksimum olacak ¸sekilde j sınıfı seçilir.

Burada Pr,olasılık(probability) demektir. Parantezin içindeki|i¸sareti ise “verili” ¸seklinde okunur.

Dolayısıyla yukarıdaki ifade X = x₀durumu verili iken Y = j olma ko¸sullu olasılı ˘gı(conditional probability) anlamına gelir.

Görüldü ˘gü gibi, Bayes sınıflandırıcının yaptı ˘gı ¸sey her bir gözlem için en yüksek olasılı ˘ga sahip sınıfı seçmektir.

˙Iki sınıftan olu¸san bir çözümlemede gerçekle¸sme olasılı ˘gı yüzde 50’den yüksek olan sınıf seçilir.

Bu basit duruma yönelik bir örnek ¸Sekil 13’te verilmi¸stir.

(53)

Bayes Sınıflandırıcı (2)

o o

o

o o

o

o o

o oo

o

o o

o o o

o

o o

o

oo

o

o o o

o

o o o

o o

o

o o

o o o

o o o o

o

o o o

o

o o

o o o

o o

o

o o

o

o o

o

o o

o o o

o

o o

o

o o

o

o o

o o o o o

o o

o

o o

o

o o o

o

o o oo o o

o

o o

o

o o

o

o o o

o o

o o o

o

o o

o

o o

o

o o

o

o o o

o

o o

o

o o

o

o o

o

o o

X1

X2

¸

Sekil 13:Bayes sınıflandırıcıya göre yapılmı¸s sınıflandırma örne ˘gi

(54)

Bayes Sınıflandırıcı (3)

¸

Sekilde X₁ ve X₂ de ˘gi¸skenlerinden olu¸san simülasyon verileriyle ikili bir sınıflandırma çözümlemesi yapılmı¸stır.

Turuncu ve mavi daireler iki farklı sınıfa ait gözlemlerdir. Farklı X₁ ve X₂de ˘gerlerine ba ˘glı olarak her bir gözlemin turuncu ya da mavi olma olasılı ˘gı farklıdır.

Bu örnekte veriler belli bir formül kullanılarak yapay olarak olu¸sturuldu ˘gu için çok sayıda test verisi olu¸sturmak mümkündür. Bunu yaparak X₁ve X₂için ko¸sullu olasılıkları hesaplayabiliriz.

Bu i¸slem sonucunda turuncu olma olasılı ˘gı %50’den yüksek olan bölge turuncu noktalarla taranmı¸stır. Pr(Y = mavi|X₁,X₂) > %50 olan bölge de benzer ¸sekilde mavi renkle taranmı¸stır.

Ortadan geçen kesikli çizgiye iseBayes karar sınırı(Bayes deci- sion boundary) adı verilir.

(55)

Bayes Hata Oranı

Bayes sınıflandırıcı en dü¸sük test hata oranını veren yöntemdir.

Ancak burada da eldeki verilerden kaynaklı olarak bir hata oranı söz konusudur. BunaBayes hata oranı(Bayes error rate) denir:

Bayes Hata Oranı = 1 − E max

j Pr(Y = j|X₁,X₂)

Formüle göre Bayes hata oranı, yukarıda açıkladı ˘gımız kural uygulanarak her sınıf için maksimum yapılan oranın 1’den farkıdır.

Bu oran daha önce tartı¸stı ˘gımız “azaltılamayan hata” kavramı ile yakından ili¸skilidir.

(56)

Kesinli ˘gin Ölçülmesi K-enyakın kom¸su sınıflandırıcı

Ders Planı

2 Tahmin Konusu

(57)

K-Enyakın Kom¸su (1)

Uygulamada tüm sınıflandırmalarımızı Bayes hata oranı minimum olacak ¸sekilde yapmak isteriz.

Ancak gerçek hayatta Y ’nin X ’e ba ˘glı ko¸sullu olasılıklarını bileme- di ˘gimiz için Bayes sınıflandırıcıyı kullanmak olanaksızdır.

Bunun yerine ko¸sullu olasılıkları tahmin etme yoluna gideriz.

Bu amaçla kullanılan en yaygın yöntemlerden biriK-enyakın kom¸su (K-nearest neighbor) ya da kısacaK-EK(K-NN) sınıflandırıcıdır.

Bu yöntemde ilk önce pozitif tam sayı olan bir K de ˘geri belirlenir.

Daha sonra her bir x₀ gözlemi için bu gözleme en yakın di ˘ger K adet gözlem seçilir. Böylece, N₀adı verilen bu set içinden

Pr(Y = j|X = x₀) = 1 K

X

i∈N0

I(y_i =j)

oranı bulunarak her bir j’ye ait ko¸sullu olasılık tahmin edilir.

Son olarak, Bayes kuralı uygulanarak her bir gözlem için en yük- sek olasılıklı sınıf belirlenir. Yöntem ¸Sekil 14’te gösterilmi¸stir.

(58)

K-Enyakın Kom¸su (2)

o o

o o o

o o

o

o o

o o o

o o

o

¸

Sekil 14:K-enyakın kom¸su yöntemine göre yapılan sınıflandırma örne ˘gi

(59)

K-Enyakın Kom¸su (3)

¸

Sekildeki sol panelde K-EK yönteminin nasıl uygulandı ˘gı açıklan- mı¸stır. Bu örnekte K = 3 olarak belirlenmi¸stir.

Çarpı i¸sareti ile gösterilen noktanın sınıfını tahmin etmek istedi ˘gimiz dü¸sünelim. Bunun için en yakın 3 gözlemin sınıfına bakarız.

Daire ile gösterilen alan içinde x noktasına en yakın 2 adet mavi ve 1 adet turuncu gözlem bulunmaktadır.

Bu durumda mavi olasılı ˘gı yüzde 67, turuncu olasılı ˘gı ise yüzde 33’tür. Dolayısıyla çarpı noktası için tahminimiz de mavi olur.

Bu i¸slemi ¸sekildeki tüm noktalara uygulayarak sa ˘g panelde göste- rilen mavi ve turuncu bölgeleri hesaplayabiliriz.

Böylece, bölgeleri ayıran K-EK karar sınırını da bulmu¸s oluruz.

Simülasyon verileriyle yaptı ˘gımız yukarıdaki örnek için K-EK ile Bayes sınıflandırıcılarının kar¸sıla¸stırması ¸Sekil 15’te verilmi¸stir.

(60)

K-Enyakın Kom¸su (4)

o o o

o o

o

o o

o oo

o

oo o

o o o

o

o o o o

o o

o

oo

o

o o o

o

o o o

o o o o

o o

o o o

o o o o

o

o o o

o

o o

o o o

o o

o o o

o

o o

o

o o

o o o

o

o o

o o o

o o

o o o o

o o

o o o

o o o o o

o o

o

o o

o

o o

o o o

o o

o o oo o

o

o o

o

o o o

o o

o o o

o o

o

o o o

o o

o

o o o

o

o o

X1

X2

K-Enyakın Komşu: K=10

¸

Sekil 15:K-enyakın kom¸su ile Bayes sınıflandırıcıların kar¸sıla¸stırması

(61)

K-Enyakın Kom¸su (5)

¸

Sekilde görüldü ˘gü gibi, K-EK sınıflandırıcı uygulamada Bayes’e oldukça yakın sonuçlar üretebilmektedir.

Ancak ba¸sta tartı¸stı ˘gımız yanlılık-varyans ödünle¸smesi burada da geçerlidir. Bu da K-EK’in esnekli ˘gini belirleyen K de ˘geri ile yakın- dan ili¸skilidir.

K = 1 ve K = 100 için elde edilen tahminler ¸Sekil 16’da verilmi¸stir.

Bu ¸sekili inceledi ˘gimizde K e ˘ger çok küçük olursa yöntemin a¸sırı esnek sonuçlar üretti ˘gi görülmektedir. K çok büyük oldu ˘gunda ise do ˘grusala yakın, a¸sırı katı bir tahmin ortaya çıkmaktadır.

Esneklik arttıkça e ˘gitim ve test hata oranlarının nasıl de ˘gi¸sti ˘gi ise

¸

Sekil 17’de verilmi¸stir. Daha önce tartı¸stı ˘gımız U-¸seklindeki test hata oranının burada da geçerli oldu ˘guna dikkat ediniz.

Sonuç olarak, tüm istatistiksel ö ˘grenme yöntemleri için do ˘gru esneklik düzeyini seçmek son derece önemlidir. En iyi esnekli ˘gi be- lirlemeye yarayan yöntemleri Bölüm 5’te görece ˘giz.