Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi

Do ˘grusal modelin ¸Sekil 3’te gördü ˘gümüz gerçek f ’deki e ˘gri yüzeyi

yakalayamadı ˘gı anla¸sılıyor. Ancak küçük bir veri seti ile yapılabi-lecek en iyi tahmin belki de bu olabilir.

E ğitim Düze yi Kıde m G elir ¸

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Parametrik-dı¸sı Yöntemler (1)

Parametrik-dı¸sı yöntemler f ’nin fonksiyon yapısı konusunda bir varsayımda bulunmaz. Bunun yerine eldeki verilere en iyi yakı¸san fonksiyonu bulmaya çalı¸sır.

Bu yöntemde tahmin sonuçlarının a¸sırı düz ya da a¸sırı e ˘gri

ol-maması önemlidir. Bunun için uygun birdüzle¸stirme (smoothing)

derecesi seçmek gereklidir.

Parametrik-dı¸sı yakla¸sımı kullanarak de ˘gi¸skenler arasındaki çok karma¸sık ili¸skileri dikkate alabiliriz.

Ancak bu yakla¸sımın sakıncası da bu i¸s için çok daha fazla veriye gereksinim duymalarıdır.

Parametrik-dı¸sı yönteme örnek olarak, ¸simdi de gelir modelimizi

ince-katman spline(thin-plate spline) yöntemi ile tahmin edelim.

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi

Bu ¸sekilde spline yöntemi için yüksek bir düzle¸stirme de ˘geri

kul-lanılmı¸stır. Tahmin edilen yüzeyin daha önce ¸Sekil 3’te gösterilen

gerçek duruma çok yakın oldu ˘gu görülüyor.

E ğitim Düze yi Kıde m G elir ¸

Tahmin Konusu Parametrik ve parametrik-dı¸sı yöntemler

Do ˘grusal Modelin SEK Yöntemi ile Tahmin Edilmesi

Burada ise spline için dü¸sük bir düzle¸stirme uygulanmı¸stır. Bu-radaa¸sırı yakı¸sma(over fitting) söz konusudur. Elde edilen sonuç gerçek durumu tam yansıtmamaktadır.

E ğitim Düze yi Kıde m G elir ¸

Tahmin Konusu Kesinlik ve yorumlanabilirlik

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama 2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme 3 Kesinli ˘gin Ölçülmesi

Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

Tahmin Konusu Kesinlik ve yorumlanabilirlik

Kesinlik ve Yorumlanabilirlik (1)

Bu derste görece ˘gimiz çok sayıda yöntemden bazıları uygulama konusunda esnek, bazıları ise kısıtlayıcıdır.

Örnek olarak do ˘grusal regresyon görece kısıtlayıcıdır çünkü yal-nızca do ˘grusal fonksiyonlara izin verir.

Öte yandan ince-katman spline yöntemi f fonksiyonu için oldukça ayrıntılı ¸sekiller üretebildi ˘gi için esnektir.

Peki, esnek yöntemler varken neden kısıtlayıcı bir yöntem

kulla-nalım? Bunun yanıtı ikisi arasındakikesinlik(accuracy) ve

yorum-lanabilirlik(interpretability) farkıdır.

Esnek yöntemler kullanarak de ˘gi¸skenler arasındaki çok karma¸sık ili¸skileri dikkate alabiliriz. Dolayısıyla bunlar kestirim konusunda genellikle daha ba¸sarılıdır.

Kısıtlayıcı yöntemler ise görece basit ve anla¸sılabilir yapıları ne-deniyle anlaması ve yorumlaması kolay sonuçlar üretirler.

Tahmin Konusu Kesinlik ve yorumlanabilirlik

Kesinlik ve Yorumlanabilirlik (2)

Esneklik Yorum lana bilir lik Düşük Dü şük Yüksek Yük

sek Altküme Seçimi

Kement

Genellemeli Toplamlı Modeller Ağaçlar

Bagging, Boosting Destek Vektör Makineleri Doğrusal Regresyon

Tahmin Konusu Kesinlik ve yorumlanabilirlik

Kesinlik ve Yorumlanabilirlik (3)

Sekilde çe¸sitli istatistiksel ö ˘grenme yöntemlerinin esnekli ˘gi art-tıkça yorumlanabilirli ˘ginin dü¸stü ˘gü görülmektedir.

Örnek olarak, Bölüm 8’de ele alaca ˘gımızboostingile Bölüm 9’da

görece ˘gimizdestek vektör makinelerioldukça esnek araçlardır.

Ancak bunların üretti ˘gi f fonksiyonu tahminleri son derece karma-¸sık olabildi ˘gi için her bir X ’in Y üzerindeki etkisini anlamak zordur.

7. Bölümde tartı¸saca ˘gımızgenellemeli toplamlı modellerise 3

Bö-lümde görece ˘gimizdo ˘grusal regresyonyanında daha esnektir.

Yine, 6. Bölümde inceleyece ˘gimizkement(lasso) yöntemi de bazı

parametreleri sıfıra e¸sitledi ˘gi için do ˘grusal regresyona göre daha katıdır ancak bu durum yorumlamada kolaylık sa ˘glar.

Peki, yorum yapmakla ilgilenmiyorsak ne olacak? Amacımız yal-nızca kestirim yapmak ise en esnek yöntem en iyisi midir?

Hayır! Esnek yöntemler e ˘ger do ˘gru kullanılmazsa a¸sırı yakı¸sma

(overfitting) sorununa neden olurlar. Bu durumda yorumlanabilirlik pahasına kazanılan kesinlik kolayca kaybedilir.

Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama 2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme 3 Kesinli ˘gin Ölçülmesi

Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme

Denetimli ve Denetimsiz Ö ˘grenme

˙Istatistiksel ö˘grenme süreçleri parametrik ve parametrik-dı¸sı

ayrı-mına ek olarak,denetimli(supervised) vedenetimsiz

(unsupervi-sed) olarak da ikiye ayrılır.

Denetimli ö ˘grenmede x_i,i = 1, 2, . . . , n ¸seklinde n adet gözlem

içeren X de ˘gi¸skenleri ve bunlara kar¸sılık y_i de ˘gerleri vardır.

Do ˘grusal regresyon ve lojistik regresyon gibi klasik yöntemlerin yanında GAM, boosting, destek vektör makineleri gibi birçok mo-dern yöntem denetimli ö ˘grenmeye örnektir.

Denetimsiz ö ˘grenmede ise i = 1, 2, . . . , n ¸seklinde gözlemler var-dır ancak veri seti yalnızca X de ˘gi¸skenlerinden olu¸sur.

Tepki de ˘geri olarak y_i’lerin olmadı ˘gı böyle durumlarda de ˘gi¸skenler

arası ili¸skileri anlamak içinküme çözümlemesi(cluster analysis),

di ˘ger bir deyi¸slekümeleme(clustering) yapılabilir.

Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme

Küme Çözümlemesi (1)

0 2 4 6 8 10 12 2 4 6 8 10 12 0 2 4 6 2 4 6 8 X1 X1 X² X² ¸

Tahmin Konusu Denetimli ve denetimsiz ö ˘grenme

Küme Çözümlemesi (2)

Sekilde iki farklı veri seti için küme çözümlemesi yapılmı¸stır. ˙Iki örnekte de üç veri kümesi bulunmaktadır. Bunlar burada farklı renklerle gösterilmi¸stir ancak gerçekte kümeler bilinmemektedir. Sol paneldeki kümeleri ayrı¸stırmak daha kolaydır. Sa ˘gda ise kü-meler örtü¸stü ˘gü için hatasız bir sonuç elde etmek beklenemez. Küme çözümlemesi günümüzde sık kullanılan bir yakla¸sımdır. Örnek olarak, bir firma bu yöntemle potansiyel mü¸sterileri ara-sında çok ya da az harcama yapacakları ayrı¸stırmak isteyebilir. E ˘ger elimizde harcama verileri bulunsaydı denetimli bir çözüm-leme yapılabilirdi. Ancak gerçekle¸secek harcama genellikle önce-den bilinmedi ˘gi için en uygulanabilir yöntem budur.

Son olarak, ço ˘gu durumda ikiden fazla de ˘gi¸sken olaca ˘gına dikkat ediniz. E ˘ger elimizde p adet de ˘gi¸sken varsa her bir de ˘gi¸sken çifti için toplam p(p − 1)/2 farklı serpilim çizimi olu¸sturulabilir.

Bunları insanların yorumlaması zor oldu ˘gu için otomatik sınıflan-dırma yapan geli¸smi¸s yöntemler giderek önem kazanmaktadır.

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Ders Planı

1 ˙Istatistiksel Modelleme Girdi ve çıktı de ˘gi¸skenleri Kestirim ve çıkarsama 2 Tahmin Konusu

Parametrik ve parametrik-dı¸sı yöntemler Kesinlik ve yorumlanabilirlik

Denetimli ve denetimsiz ö ˘grenme

3 Kesinli ˘gin Ölçülmesi

Yakı¸smanın iyili ˘gi

Yanlılık-varyans ödünle¸smesi Sınıflandırmada kesinlik Bayes sınıflandırıcı

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Yakı¸smanın ˙Iyili ˘gi

Bu derste birçok farklı veri çözümleme tekni ˘gini açıklayaca ˘gımızı söylemi¸stik. Peki, neden yalnızca en yeni ve en geli¸smi¸s yöntemi ö ˘grenmiyoruz?

Çünkü tüm bu yöntemler içinde di ˘gerlerine her veri setinde üstün gelebilen tek bir yöntem yoktur.

Dolayısıyla istatistiksel ö ˘grenmedeki en önemli a¸samalardan biri belli bir durumda en iyi sonucu verecek yöntemi belirlemektir. Bu amaçla, hesapladı ˘gımız kestirimlerin gerçekle¸sen de ˘gerlere ne kadar yakın oldu ˘gunu ölçmek isteriz.

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Hata Kareleri Ortalaması

En temel yakı¸smanın iyili ˘gi ölçütlerinden biri hata kareleri

ortala-ması(mean squared error), ya da kısacaHKO(MSE) de ˘geridir:

HKO = ¹ n n X i=1 (y_i− ˆf(x_i))²=Ortalama(y_i− ˆf(x_i))²

Görüldü ˘gü gibi HKO, elimizde bulunan x_i ve y_i’leri kullanarak

yap-tı ˘gımız ˆf(x_i) ≈y_i ¸seklinde tahminlerin hata kareleri ortalamasıdır.

E ˘ger ˆf(x_i) =y_i olursa HKO’nun da sıfır olaca ˘gına dikkat ediniz.

Yukarıdaki formülü elimizde var olan verilerle hesaplarız.

Dolayı-sıyla bunae ˘gitim HKO(training MSE) demek daha do ˘gru olur.

Ancak bizi asıl ilgilendiren ¸sey elimizde bulunmayan test verileri

(test data) kullanırsak tahmin ba¸sarısının ne olaca ˘gıdır.

Elimizde olmayan test verilerine x₀ ve y₀ diyelim. Dolayısıyla biz

aslındatest HKO(test MSE) de ˘gerini bilmek istiyoruz:

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (1)

Genellikle elimizde test verileri yoktur. Bu durumda elde olanla ye-tinip e ˘gitim HKO’yu minimum yapan yöntemi seçmek isteyebiliriz. Bu mantıklı bir yakla¸sım gibi görünür. Sonuçta e ˘gitim verileri ile test verileri birbirine yakın olmak zorundadır.

Ancak burada temel bir sorun ortaya çıkar: E ˘gitim verilerini mini-mum yapan yöntem, test verilerinde de aynı ba¸sarıyı göstermek zorunda da ˘gildir.

Uygulamada genellikle e ˘gitim HKO oldukça dü¸süktür ama test HKO çok daha yüksek çıkar.

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (2)

0 20 40 60 80 100 2 4 6 8 10 12 X Y 2 5 10 20 0.0 0.5 1.0 1.5 2.0 2.5 Esneklik Hata K ar eler i Or talama sı ¸

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (3)

Sekilde sol paneldeki küçük yuvarlaklar verilerdir. Siyah e ˘gri ise bu verilerin geldi ˘gi gerçek f fonksiyonudur.

Turuncu, mavi ve ye¸sil çizgiler ise esnekli ˘gi giderek artan üç farklı yöntemi göstermektedir.

Turuncu çizgi do ˘grusal regresyon, mavi çizgi düzle¸stirme derecesi yüksek bir spline, ye¸sil çizgi ise düzle¸stirme derecesi dü¸sük bir spline tahminidir.

Sa ˘g panelde bu üç yöntemin esneklikleri ve HKO de ˘gerleri

gö-rülmektedir. Bir çizginin esnekli ˘gini ya da kıvrımlılı ˘gını serbestlik

derecesi(degree of freedom) belirler. Burada bunlar 2, 6 ve 23’tür. Sa ˘gdaki gri renk e ˘gri her bir yönteme ait e ˘gitim HKO de ˘gerleridir. Bu veri seti belli bir formüle göre yapay olarak üretildi ˘gi için test verileri kolayca yaratılabilir. Dolayısıyla kırmızı e ˘gri de buna göre hesaplanan test HKO de ˘gerleridir.

Son olarak, ortadaki yatay çizgi ise hata teriminin varyansı olup, azaltılamayan minimum hata düzeyini belirtmektedir.

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

E ˘gitim HKO ile Test HKO ˙Ili¸skisi (4)

Sekili inceledi ˘gimizde kullanılan yöntemin esnekli ˘gi arttıkça e ˘gitim HKO de ˘gerinin sürekli azaldı ˘gı görülmektedir.

Öte yandan, test HKO de ˘geri ise önce azalmakta ancak bir nok-tadan sonra artmaya ba¸slamaktadır.

Sürekli azalan e ˘gitim HKO’suna kar¸sılık U-¸seklindeki test HKO’su istatistiksel ö ˘grenmedeki temel olgulardan biridir.

Bu durum her veri seti ve her yöntemde kar¸sımıza çıkar.

Bunun nedeni isea¸sırı yakı¸stırma(overfitting) sorunudur. Kısaca,

esneklik arttıkça yöntemin a¸sırı detaylı çalı¸smaya ba¸slamasıdır. Böylece, bilinmeyen gerçek f fonksiyonunda gerçekte olmayan, rastlantısal olu¸smu¸s de ˘gi¸siklikler içinde örüntü yakalamaya çalı¸sır. E ˘gitim HKO ise sürekli dü¸ser çünkü yöntem bunu minimize eder.

E ˘gitim HKO’su ile test HKO’su arasındaki bu ili¸ski ¸Sekil 10 ve ¸Sekil

Kesinli ˘gin Ölçülmesi Yakı¸smanın iyili ˘gi

Belgede ˙Istatistiksel Ö˘grenme: Temel Kavramlar (sayfa 22-41)