• Sonuç bulunamadı

Yeniden Örnekleme

N/A
N/A
Protected

Academic year: 2021

Share "Yeniden Örnekleme"

Copied!
40
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Yeniden Örnekleme

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi

˙IKT-457 Ekonomi ve Finans ˙Için Yapay Zeka 1 Sürüm 0,93

(2)

Açık Lisans Bilgisi

Bu belge “Creative Commons Attribution-ShareAlike 3.0 Un- ported” (CC BY-SA 3.0) lisansı altında bir açık ders malzemesi olarak genel kullanıma sunulmu¸stur. Bazı ¸sekiller “An Intro- duction to Statistical Learning, with applications in R” (Sprin- ger, 2017) kitabından yazarların izniyle alınmı¸stır. Tüm belge eserin ilk sahibinin belirtilmesi ve geçerli lisansın korunması ko¸suluyla özgürce kullanılabilir, ço ˘galtılabilir, ve de ˘gi¸stirilebi- lir. Creative Commons örgütü ve CC-BY-SA 3.0 lisansı ile il- gili ayrıntılı bilgihttps://creativecommons.orgInternet adresinde yer almaktadır. Ders notlarımın güncel sürümlerine http://yalta.etu.edu.tr adresinden ula¸sabilirsiniz.

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi 2020 – 2021

(3)

Ders Planı

1 Çapraz-Geçerleme

Geçerleme-seti yakla¸sımı Bir-eksiltmeli çapraz-geçerleme K -kat çapraz-geçerleme

Sınıflandırma için çapraz-geçerleme

2 Özyetinim

Örnek uygulama

Maksimum entropi özyetinimi

(4)

Çapraz-Geçerleme

Yeniden Örnekleme

Yeniden örnekleme(resampling), bir örneklem veri setinden yeni örneklemler seçme i¸slemine denir.

Bu ¸sekilde tek veri setinden çok sayıda tahminler üretebiliriz.

Böylece, e ˘gitim verilerini bir kez kullanarak elde edebilece ˘gimiz- den daha fazla bilgiye ula¸sabiliriz.

Yeniden örnekleme yo ˘gun hesaplama içeren bir i¸slemdir. Ancak modern bilgisayarlar günlük uygulamalarda yeterli olmaktadır.

Bu bölümde a¸sa ˘gıdaki iki temel yöntem üzerinde duraca ˘gız:

1 Çapraz-geçerleme

2 Özyetinim

Bunlar günümüzde istatistiksel ö ˘grenme için son derece önemli çözümleme yakla¸sımlarıdır.

(5)

Çapraz-Geçerleme

Çapraz-Geçerleme

Çapraz-geçerleme (cross-validation), e ˘gitim verilerini kullanarak test hata oranı tahminleri üreten bir kesinlik ölçüm aracıdır.

E ˘gitim hataları ile test hatalarını 2. Bölümde tartı¸smı¸stık.

Belli bir istatistiksel ö ˘grenme yöntemini eldeki e ˘gitim verileriyle kullanınca ortaya çıkan hata oranına e ˘gitim hata oranı denir.

Test hata oranı ise elimizde olmayan, yeni veriler kullandı ˘gımız zaman görece ˘gimiz hata oranıdır.

E ˘gitim hata oranı her zaman dü¸sük çıkar ve yanıltıcıdır. Ancak ge- nellikle elimizde test verileri de yoktur. Bu yüzden test hata oranını bilmek ço ˘gu zaman olanaksızdır.

˙I¸ste, çapraz-geçerleme bu noktada yararlı bir tahmin aracı sunar.

Bu aracı hem model seçimi hem de model de ˘gerlendirmesi için kullanabiliriz.

Model seçimi(model selection), bir istatistiksel ö ˘grenme yöntemi için en uygun esnekli ˘gi belirlemektir.Model de ˘gerlendirme(model assessment) ise tahminlerin kesinlik performansını ölçmektir.

(6)

Çapraz-Geçerleme Geçerleme-seti yakla¸sımı

Ders Planı

1 Çapraz-Geçerleme

Geçerleme-seti yakla¸sımı Bir-eksiltmeli çapraz-geçerleme K -kat çapraz-geçerleme

Sınıflandırma için çapraz-geçerleme

2 Özyetinim

Örnek uygulama

Maksimum entropi özyetinimi

(7)

Çapraz-Geçerleme Geçerleme-seti yakla¸sımı

Geçerleme-Seti (1)

˙Ilk olarak,geçerleme-seti(validation-set) adı verilen görece basit çapraz-geçerleme yöntemini ele alalım.

Bu yöntem eldeki verileritest seti(test set) vegeçerleme seti(va- lidation set) ¸seklinde iki parçaya bölmeye dayanır. Bölme i¸slemi rastsal ya da kuralsal olabilir.

E ˘gitim seti kullanılarak model tahmin edilir ve geçerleme setine bakarak hata oranı ölçülür.

E ˘ger Y de ˘gi¸skeni nicel ise hata ölçütü olarak genellikle hata ka- releri ortalaması(mean squared error) ya da kısacaHKO(MSE) de ˘geri kullanılır:

HKO = 1 n

X(yi− ˆf(xi))2= KKT n

Konuyu açıklayabilmek için biz ¸simdilik Y ’nin nicel oldu ˘gunu var- sayaca ˘gız.

(8)

Çapraz-Geçerleme Geçerleme-seti yakla¸sımı

Geçerleme-Seti (2)

Geçerleme-seti yakla¸sımını örnek üzerinde görmek için 3. Bölüm- deki otomobil verilerini kullanalım.

Anımsayaca ˘gınız gibi bu veri setinde yakıt tüketimi ile motor gücü arasında do ˘grusal-dı¸sı bir ili¸ski vardı. Bu yüzden 2. derece poli- nom regresyonu kullanmak görece iyi sonuçlar vermi¸sti.

Daha yüksek dereceli bir polinom daha da iyi sonuçlar verebilir.

Geçerleme-seti kullanarak en uygun esneklik derecesini belirle- yebiliriz. Bu i¸slemin adımları a¸sa ˘gıdaki gibidir:

1 Eldeki gözlemler iki parçaya bölünür.

2 Birinci parça e ˘gitim seti olur. Bununla farklı derecelerde poli- nom regresyonları tahmin edilir.

3 ˙Ikinci parça geçerleme seti olarak kullanılarak her bir modele ait HKO de ˘gerleri hesaplanır ve en iyi model seçilir.

Bu ¸sekilde elde etti ˘gimiz sonuçlar ¸Sekil 1’de verilmi¸stir.

(9)

Çapraz-Geçerleme Geçerleme-seti yakla¸sımı

Örnek Geçerleme-Seti Tahmini

Sol panelde geçerleme-seti uygulaması 2. derece polinomu öner- mektedir. Sa ˘gda yöntem yeniden örnekleme yapılarak tekrar edil- mi¸stir. Burada varyans yüksek olsa da genel sonuç aynıdır.

2 4 6 8 10

16182022242628

Polinom derecesi

Hata kareleri ortalaması

2 4 6 8 10

16182022242628

Polinom derecesi

Hata kareleri ortalaması

¸

Sekil 1:Yakıt tüketimi ile motor gücü modeline ait geçerleme-seti tahmini

(10)

Çapraz-Geçerleme Geçerleme-seti yakla¸sımı

Geçerleme-Setinin Sakıncaları

Bu örnekte geçerleme-seti uygulaması bize en iyi modelin 2. de- rece polinom oldu ˘gu bilgisini vermi¸stir. Daha yüksek polinomlar hata oranında fazla iyile¸sme sa ˘glamamaktadır.

Yöntem yararlı oldu ˘gu gibi uygulaması da oldukça kolaydır.

Ancak iki noktaya dikkat etmek önemlidir:

1 Sekilde sa ˘g panelde de görüldü ˘gü gibi sonuçlar fazlaca¸ de ˘gi¸skenlik göstermektedir.

2 Elimizdeki gözlemlerin yarısını kullanmadı ˘gımız için he- sapladı ˘gımız hata oranı gerçek de ˘gerden yüksek olabilir.

Sonuç olarak, geçerleme-seti hem yüksek varyans hem de yük- sek yanlılı ˘ga sahiptir.

Dolayısıyla bu sakıncaları azaltmaya yönelik alma¸sık çapraz ge- çerleme yöntemleri geli¸stirilmi¸stir.

(11)

Çapraz-Geçerleme Bir-eksiltmeli çapraz-geçerleme

Ders Planı

1 Çapraz-Geçerleme

Geçerleme-seti yakla¸sımı Bir-eksiltmeli çapraz-geçerleme K -kat çapraz-geçerleme

Sınıflandırma için çapraz-geçerleme

2 Özyetinim

Örnek uygulama

Maksimum entropi özyetinimi

(12)

Çapraz-Geçerleme Bir-eksiltmeli çapraz-geçerleme

Bir-Eksiltmeli Çapraz-Geçerleme

Geçerleme-setine benzer bir di ˘ger yöntem bir-eksiltmeli çapraz- geçerleme(leave-one-out cross-validation) yakla¸sımıdır.

Bu yöntemin adımları a¸sa ˘gıdaki gibidir:

1 Örneklemden yalnızca bir gözlem çıkarılır.

2 Kalan n − 1 gözlem e ˘gitim seti olarak kullanılır.

3 Çıkartılan tek gözlem ile HKO hesaplanır.

4 ˙I¸slem tüm gözlemler için tekrar edilir

5 Tüm HKO’ların ortalaması alınır: ÇG(n)= 1nPn

i=1HKOi Bir-eksiltmeli çapraz-geçerleme her türlü model tahmininde kulla- nılabilen genel bir yakla¸sım sunar.

Yöntemin önemli bir üstünlü ˘gü e ˘gitim verilerinin neredeyse ta- mamı kullanıldı ˘gı için yanlılı ˘gın neredeyse minimum olmasıdır.

Ayrıca i¸slem tektip oldu ˘gu için sonuç her seferinde aynı çıkar.

(13)

Çapraz-Geçerleme Bir-eksiltmeli çapraz-geçerleme

Bir-Eksiltmeli ÇG’nin Sakıncaları

Bir-eksiltmeli çapraz-geçerlemede yanlılık dü¸sük olmakla birlikte varyans yine de yüksektir.

Bunun nedeni e ˘gitim setlerinin bir gözlem hariç birbiriyle aynı ol- masıdır. Geçerleme için kullanılan tek gözlem ise sürekli de ˘gi¸sti ˘gi için yanlılık yüksek çıkar.

Ayrıca n adet model tahmin edildi ˘gi için hesaplama yükü fazladır.

Bu durum do ˘grusal-dı¸sı ileri yöntemlerde sorun yaratabilir.

Öte yandan do ˘grusal ve polinom modellerde yöntemi tek seferde hesaplamayı sa ˘glayan a¸sa ˘gıdaki kısayol formülü bulunmaktadır:

ÇG(n)= 1 n

n

X

i=1

 yi− ˆyi 1 − hi

2

Yukarıda hi, 3. Bölümde gördü ˘gümüzkaldıraç istatisti ˘gide ˘geridir.

Her zaman [0, 1] aralı ˘gında olan kaldıraç etkisi 1’e yakla¸stıkça payda da 0’a gider. Böylece, dı¸sadü¸sen gözlemler ÇG hata ora- nını yükseltir.

(14)

Çapraz-Geçerleme Bir-eksiltmeli çapraz-geçerleme

Örnek Bir-Eksiltmeli ÇG Tahmini

Yakıt tüketimi ile motor gücü modeline ait bir-eksiltmeli ÇG tah- minleri ¸Sekil 2’de sa ˘g panelde verilmi¸stir. Sol panelde ise yüksek varyanslı geçerleme-seti tahminleri görülmektedir.

2 4 6 8 10

16182022242628

Bir-Eksiltmeli Çapraz-Geçerleme

Polinom derecesi

Hata kareleri ortalaması

2 4 6 8 10

16182022242628

Polinom derecesi

Hata kareleri ortalaması

Geçerleme-Seti

¸

Sekil 2:Bir-eksiltmeli ÇG ile geçerleme-seti yönteminin kar¸sıla¸stırılması

(15)

Çapraz-Geçerleme K -kat çapraz-geçerleme

Ders Planı

1 Çapraz-Geçerleme

Geçerleme-seti yakla¸sımı Bir-eksiltmeli çapraz-geçerleme K -kat çapraz-geçerleme

Sınıflandırma için çapraz-geçerleme

2 Özyetinim

Örnek uygulama

Maksimum entropi özyetinimi

(16)

Çapraz-Geçerleme K -kat çapraz-geçerleme

K -Kat Çapraz-Geçerleme

Varyans-yanlılık ödünle¸smesi dikkate alınınca en uygun ve en çok tercih edilen geçerleme yakla¸sımık -kat çapraz-geçerleme(k -fold cross-validation) olarak görülmektedir.

Bu yöntemin adımları a¸sa ˘gıdaki gibidir:

1 Örneklem e¸sit büyüklükte k adet parçaya bölünür.

2 Parçalardan biri geçerleme için ayrılır.

3 Kalan k − 1 parça topluca e ˘gitim için kullanılır.

4 Parçalar de ˘gi¸stirilerek i¸slem k kez tekrar edilir.

5 HKO’ların ortalaması alınır: ÇG(k )= k1Pk

i=1HKOi

E ˘ger k = n olursa yöntem bir-eksiltmeli ÇG’ye dönü¸sür. Di ˘ger bir deyi¸sle bir-eksiltmeli ÇG aslında k -kat ÇG’nin özel durumudur.

Uygulamada k için genellikle 5 ya da 10 de ˘geri kullanılır.

K -kat çapraz geçerlemenin adımları ¸Sekil 3’te gösterilmi¸stir.

(17)

Çapraz-Geçerleme K -kat çapraz-geçerleme

K -Kat Çapraz Geçerleme Yönteminin Uygulanması

K = 5 için k -kat ÇG yönteminde veri seti önce 5 e¸sit parçaya bölünür. Parçaların 4’ü ile model tahmin edilip di ˘ger parça ile hata oranı hesaplanır. Bu i¸slem farklı parçalar ile 5 kez tekrar edilir.

Geçerleme

Geçerleme

Geçerleme

Geçerleme

Geçerleme Eğitim

Eğitim Eğitim

Eğitim Eğitim

Eğitim Eğitim

Eğitim

¸

Sekil 3:K -kat çapraz geçerleme yönteminin uygulanması

(18)

Çapraz-Geçerleme K -kat çapraz-geçerleme

Örnek K -Kat Çapraz Geçerleme Tahmini

Yakıt ve motor gücü modeline ait 10-kat ÇG tahminleri ¸Sekil 4’te verilmi¸stir. Rastsal yeniden örneklemeler sonucunda elde edilen farklı tahmin sonuçlarının birbirine yakın oldu ˘guna dikkat ediniz.

Polinom derecesi 10-Kat Çapraz Geçerleme

2 4 6 8 10

16182022242628Hata kareleri ortalaması

¸

Sekil 4:Yakıt tüketimi ile motor gücü modeline ait k -kat ÇG tahminleri

(19)

Çapraz-Geçerleme K -kat çapraz-geçerleme

K -Kat ÇG ve Varyans-Yanlılık Ödünle¸smesi

Bir-eksiltmeli ÇG yöntemi toplam n adet model tahmini içerirken k -kat ÇG yalnızca k adet tahmin i¸slemine gerek duyar.

Ancak hesaplamasal kolaylık bir yana, k -kat ÇG’nin asıl üstün- lü ˘gü varyans-yanlılık ödünle¸smesi ile ilgilidir.

Bir-eksiltmeli ÇG yönteminde bir gözlem hariç tüm e ˘gitim verileri kullanıldı ˘gı için yanlılık çok dü¸süktür. Ancak bu durumda geçer- leme i¸slemine tek bir gözlem kaldı ˘gı için varyans yüksek çıkar.

K -kat ÇG ise test seti ile geçerleme seti büyüklükleri arasında bir denge kurarak uygulamada daha iyi sonuçlar üretir.

Bu konudaki çe¸sitli çalı¸smalar varyans-yanlılık ödünle¸smesi açı- sından k = 5 ve k = 10 de ˘gerlerini kullanmayı önermektedir.

Bir-eksiltmeli ÇG ile k -kat ÇG yöntemlerinin test hata oranını tah- min etme konusundaki ba¸sarısı ¸Sekil 5’te görülmektedir.

(20)

Çapraz-Geçerleme K -kat çapraz-geçerleme

K -Kat ÇG ile Bir-Eksiltmeli ÇG’nin Kar¸sıla¸stırılması

¸

Sekilde mavi çizgi gerçek test HKO de ˘geri, kırmızı ve siyah çizgi- ler ise bir-eksiltmeli ÇG ile 10-kat ÇG tahminleridir. ˙Iki yöntemin de genel olarak gerçe ˘ge yakın tahminler üretti ˘gine dikkat ediniz.

2 5 10 20

0.00.51.01.52.02.53.0

Esneklik

Hata kareleri ortalaması

2 5 10 20

0.00.51.01.52.02.53.0

Esneklik

Hata kareleri ortalaması

2 5 10 20

05101520

Esneklik

Hata kareleri ortalaması

SENARYO 1 SENARYO 2 SENARYO 3

¸

Sekil 5:K -Kat ÇG ile bir-eksiltmeli ÇG yöntemlerinin kesinli ˘gi

(21)

Çapraz-Geçerleme Sınıflandırma için çapraz-geçerleme

Ders Planı

1 Çapraz-Geçerleme

Geçerleme-seti yakla¸sımı Bir-eksiltmeli çapraz-geçerleme K -kat çapraz-geçerleme

Sınıflandırma için çapraz-geçerleme

2 Özyetinim

Örnek uygulama

Maksimum entropi özyetinimi

(22)

Çapraz-Geçerleme Sınıflandırma için çapraz-geçerleme

Sınıflandırma ˙Için Çapraz-Geçerleme (1)

¸

Simdiye kadar çapraz-geçerleme yöntemini Y de ˘gi¸skeninin nicel oldu ˘gu regresyon ba ˘glamında inceledik.

Bu do ˘grultuda test hata oranlarını da HKO ile ölçtük.

Öte yandan Y ’nin nitel oldu ˘gu sınıflandırma çözümlemesinde de çapraz-geçerleme son derece kullanı¸slıdır.

Burada da yöntem yukarıda gösterdi ˘gimiz ¸sekillerde uygulanabi- lir. Ancak burada hata oranını ölçmek için yanlı¸s sınıflandırılan gözlem sayısı(number of misclassified observations) kullanılır:

CVn= 1 n

n

X

i=1

Erri

Yukarıda Erri =I(yi 6= ˆyi) ¸seklinde tanımlı bir {0,1} de ˘gi¸skenidir.

(23)

Çapraz-Geçerleme Sınıflandırma için çapraz-geçerleme

Sınıflandırma ˙Için Çapraz-Geçerleme (2)

Sınıflandırma çözümlemesinde çapraz-geçerlemeyi açıklamak için farklı derecelerdeki polinom lojistik modellerden yararlanabiliriz.

Örnek olarak, iki X de ˘gi¸skenli 2. derece lojistik model ¸söyledir:

log

 p

1 − p



= β0+ β1X1+ β2X2+ β3X12+ β4X22 Benzer ¸sekilde 3. derece polinom model de a¸sa ˘gıdaki gibi olur:

log

 p

1 − p



= β0+ β1X1+ β2X2+ β3X12+ β4X22+ β5X13+ β6X23 Bunlar ve daha yüksek derece modeller için test hata oranını tah- min etmek ve en iyi modeli seçmek için çapraz-geçerleme yönte- mini kolayca uygulayabiliriz.

Bunun için 2. Bölümde kullandı ˘gımız simülasyon veri setine geri dönelim. Buradaki Bayes karar sınırı ve 4. dereceye kadar lojistik model ÇG karar sınırları ¸Sekil 6’da verilmi¸stir.

(24)

Çapraz-Geçerleme Sınıflandırma için çapraz-geçerleme

Sınıflandırma ˙Için Örnek ÇG Tahmini (1)

Derece = 1

o o o

o o

o o

o o

o o

o

o o o

o o

o oo

o

o oo o

o o o

oo o

o o o

o o o o

o o

o o o

o

o oo

o o

o o o o

o o o

o o o o

o o

o o

o o

o o o

o o o o

o oo o

o o

o

o o o

o o

o o o o o

o o

o o

o

o o

o o

o o

o o

o o o

o o

o o

o o

o o o o

o o

o o o o

o o

o o

o o

o o

o o o o

o o

o o o

oo o

o o o

o o

o ooo o

o

o o

o o o o

o o o

oo o

o o

o o o

o o o

o o o

o o o

o o o

o o o

o o

o o o

o o o

o

o o

o o o

o

Derece = 2

o o o

o o

o o

o o

o o

o

o o o

o o

o oo

o

o

oo o

o o o

oo o

o o o

o o o o

o o

o o o

o

o oo

o o

o o o o

o o o

o o o o

o o

o o

o o

o o o

o o o o

o oo o

o o

o

o o o

o o

o o o o o

o o

o o

o

o o

o o

o o

o o

o o o

o o

o o

o o

o o o o

o o

o o o o

o o

o o

o o

o o

o o o o

o o

o o o

oo o

o o o

o o

o ooo o

o

o o

o o o o

o o o

oo o

o o

o o o

o o o

o o o

o o o

o o o

o o o

o o

o o o

o o o

o

o o

o o o

o

Derece = 3

o o o

o o

o o

o o

o o

o

o o o

o o

o oo

o

o oo o

o o o

oo o

o o o

o o o o

o o

o o o

o

o oo

o o

o o o o

o o o

o o o o

o o

o o

o o

o o o

o o o o

o oo o

o o

o

o o o

o o

o o o o o

o o

o o

o

o o

o o

o o

o o oo o

o o

o o

o o

o o o o

o o

o o o o

o o

o o

o o

o o

o o o o

o o

o o o

oo o

o o o

o o

o oo o o

o

o o

o o o o

o o o

oo o

o o

o o o

o o o

o o o

o o o

o o o

o o o

o o

o o o

o o o

o

o o

o o

o o

Derece = 4

o o o

o o

o o

o o

o o

o

o o o

o o

o oo

o

o

oo o

o o o

oo o

o o o

o o o o

o o

o o o

o

o oo

o o

o o o o

o o o

o o o o

o o

o o

o o

o o o

o o o o

o oo o

o o

o

o o o

o o

o o o o o

o o

o o

o

o o

o o

o o

o o oo o

o o

o o

o o

o o o o

o o

o o o o

o o

o o

o o

o o

o o o o

o o

o o o

oo o

o o o

o o

o oo o o

o

o o

o o o o

o o o

oo o

o o

o o o

o o o

o o o

o o o

o o o

o o o

o o

o o o

o o o

o

o o

o o

o o

¸

Sekil 6:Farklı derece lojistik model ÇG karar sınırları ve gerçek sınır

(25)

Çapraz-Geçerleme Sınıflandırma için çapraz-geçerleme

Sınıflandırma ˙Için Örnek ÇG Tahmini (2)

Yukarıdaki ¸sekilde sol üst paneldeki do ˘grusal lojistik modelin ger- çek karar sınırını iyi tahmin edemedi ˘gi görülmektedir.

Sa ˘g üst panelde 2. derece polinom modeli daha ba¸sarılı olmakla birlikte yeterince esnek de ˘gildir.

Sol alt kö¸sede ise 3. derece polinom çok daha iyi bir karar sınırı vermektedir. Öte yandan sa ˘g alt panelde görülen 4. derece poli- nom hata oranını daha da fazla dü¸sürememi¸stir.

¸

Sekillere bakıldı ˘gında en iyi model 3. derece polinomdur.

Ancak uygulamada Bayes karar sınırını ve gerçek test hata ora- nını bilmek olanaksızdır. Bu durumda en iyi modeli seçmek için çapraz geçerleme yönteminden yararlanabiliriz.

Bu örnekteki dört farklı modele ait gerçek ve e ˘gitim hata oranları- nın yanı sıra 10-kat ÇG hata oranı tahminleri ¸Sekil 7’deki gibidir.

(26)

Çapraz-Geçerleme Sınıflandırma için çapraz-geçerleme

K -Kat ÇG ile Bir-Eksiltmeli ÇG’nin Kar¸sıla¸stırılması

¸

Sekilde gerçek hata oranı turuncu, e ˘gitim hata oranı mavi ve 10- kat ÇG hata oranı siyah renkle gösterilmi¸stir. Her iki panelde de ÇG yönteminin genel olarak iyi tahminler üretti ˘gi görülmektedir.

2 4 6 8 10

0.120.140.160.180.20

Kullanılan polinom derecesi

Hata oranı

0.01 0.02 0.05 0.10 0.20 0.50 1.00

0.120.140.160.180.20

1/K

Hata oranı

¸

Sekil 7:Sınıflandırma çözümlemesinde ÇG yönteminin kesinli ˘gi

(27)

Özyetinim Örnek uygulama

Ders Planı

1 Çapraz-Geçerleme

Geçerleme-seti yakla¸sımı Bir-eksiltmeli çapraz-geçerleme K -kat çapraz-geçerleme

Sınıflandırma için çapraz-geçerleme

2 Özyetinim

Örnek uygulama

Maksimum entropi özyetinimi

(28)

Özyetinim Örnek uygulama

Özyetinim

Günümüzde son derece yaygın ve güçlü bir di ˘ger yeniden örnek- leme yakla¸sımıözyetinim(bootstrap) yöntemidir.

Özyetinim farklı ¸sekillerde yapılabilmekle birlikte temel olarak a¸sa-

˘gıdaki adımları içerir:

1 Eldeki veri seti yeniden örnekleme yoluyla ço ˘galtılır.

2 Üretilen örneklemlerden çok sayıda tahmin hesaplanır.

3 Bu tahminler birle¸stirilerek ilgi duyulan de ˘gere ili¸skin yüksek kesinlikli güven aralıkları ve kestirimler elde edilir.

Görüldü ˘gü gibi özyetim yo ˘gun hesaplamaya dayalıdır. Ancak mo- dern bilgisayarlar bu yöntemi uygulamayı kolayla¸stırmı¸stır.

Özyetinimin önemli bir üstünlü ˘gü ba¸ska türlü hesaplanamayan ya da hesaplaması zor olan tahmin ve istatistiklere kolayca uyarla- nabilen son derece esnek bir yöntem olmasıdır.

(29)

Özyetinim Örnek uygulama

Portföy Seçimi Uygulaması (1)

Gelin, özyetinimi basit bir örnek yardımıyla açıklayalım.

Elimizdeki bir miktar parayı α oranında X ve (1 − α) oranında Y finansal araçlarında de ˘gerlendirmek istedi ˘gimizi varsayalım.

Yatırımımızı planlarken de toplam risk ya da varyansı minizimize edecek ¸sekilde α’yı belirleyece ˘gimizi dü¸sünelim.

Burada var(αX + (1 − α)Y ) de ˘gerini minimize eden α ¸sudur:

α = var(Y ) − cov(X ,Y ) var(X ) + var(Y ) − 2cov(X ,Y )

Yukarıdaki hesaplamayı yapabilmek için çok sayıda ba ˘gımsız ör- nekleme ihtiyaç duyarız. Ancak getiriler zamana ba ˘glı oldu ˘gu için yeterince gözlem elde etmek zordur.

Özyetinimin sa ˘glayaca ˘gı yararı görmek için önce simülasyon ve- rileri kullanalım. X ve Y için kendimiz varyans ve kovaryans for- mülleri belirleyerek istedi ˘gimiz kadar örneklem üretebiliriz.

Bu ¸sekilde üretilen 4 adet örnek veri seti ¸Sekil 8’de gösterilmi¸stir.

(30)

Özyetinim Örnek uygulama

Portföy Seçimi Uygulaması (2)

−2 −1 0 1 2

−2−1012

X

Y

−2 −1 0 1 2

−2−1012

X

Y

−3 −2 −1 0 1 2

−3−2−1012

X

Y

−2 −1 0 1 2 3

−3−2−1012

X

Y

¸

Sekil 8:Simülasyon yoluyla olu¸sturulan örnek veri setleri

(31)

Özyetinim Örnek uygulama

Portföy Seçimi Uygulaması (3)

Bu simülasyon örne ˘ginde ¸sekildeki gibi veri setlerini 1000 kez üre- terek 1000 farklı ˆαtahmini elde edebiliriz.

Daha sonra elimizdeki çok sayıda yansız tahmini kullanarak ˆα’ların ortalama de ˘gerini buluruz:

¯ˆ

α = 1

1000

1000

X

i=1

ˆ

αi =0,5996

Burada α için ba¸sta belirlenen gerçek de ˘ger 0,6 idi. Tahmin edilen ortalamanın buna ne kadar yakın oldu ˘guna dikkat ediniz.

¸

Simdi, elimizdeki 1000 adet veri setini kullanarak ˆα’ya ait ölçünlü hatayı da a¸sa ˘gıdaki gibi hesaplayabiliriz:

ÖH( ˆα) = v u u t

1 1000 − 1

1000

X

i=1

( ˆαi− ¯α)ˆ 2=0,083 Böylece, ˆα’nın kesinli ˘gi konusunda bilgi sahibi oluruz.

(32)

Özyetinim Örnek uygulama

Portföy Seçimi Uygulaması (4)

Gerçek ya¸sam kontrolümüzdeki bir simülasyon olmadı ˘gı için yu- karıda açıkladı ˘gımız i¸slemi uygulamada yapmak olanaksızdır.

Bu durumda özyetinim bize ideale yakın bir tahmin yöntemi sunar.

Bunun için yukarıdaki gibi yeni veri setleri olu¸sturulur. Ancak bu sefer veriler formülden hesaplanmaz. Bunun yerine eldeki tek e ˘gi- tim veri setinden rastsal yeniden örnekleme yoluyla üretilir.

Örnek olarak, n büyüklü ˘gündeki veri setinden n adet gözlem çe- kilir. Ancak her seferinde çekilen de ˘ger yerine geri koyulur.

Dolayısıyla olu¸sturulan özyetinim veri setinde bazı gözlemler bir- den fazla kez yer alırken bazı gözlemler de hiç yer almayabilir.

Yukarıdaki i¸slem yinelenerek topluluk (ensemble) adı verilen Ω adet özyetinim ço ˘galtması üretilir.

Uygulamada Ω için genellikle 999 ya da 99 de ˘gerleri kullanılır.

(33)

Özyetinim Örnek uygulama

Portföy Seçimi Uygulaması (5)

Özyetinim yöntemiyle üretilen ço ˘galtmalardan ˆα1, ˆα2, . . . , ˆα ¸sek- linde gösterilen özyetinim tahminleri hesaplanabilir.

Daha sonra bunlara ait ¯αˆve ÖH( ˆα)de ˘gerleri de yukarıdakine ben- zer ¸sekilde elde edilir:

ÖHö( ˆα) = v u u t

1 Ω

X

i=1

( ˆαi − ¯αˆ)2=0,087

Burada ÖHöözyetinim yoluyla bulunan ölçünlü hata anlamındadır.

Simülasyon veri setlerini kullanarak α için ölçünlü hatayı 0,083 tahmin etmi¸stik. Tek bir veri setinden üretti ˘gimiz özyetinim ölçünlü hata tahmininin buna ne kadar yakın çıktı ˘gına dikkat ediniz.

Portföy örne ˘gimizde simülasyondan gelen ˆα ideal tahminleri ile ˆ

αözyetinim tahminlerinin kar¸sıla¸stırılması ¸Sekil 9’daki gibidir.

(34)

Özyetinim Örnek uygulama

Portföy Seçimi Uygulaması (6)

¸

Sekilde solda simülasyona dayalı ˆαtahminleri, ortada ise özyeti- nime dayalı ˆα tahminleri görülmektedir. En sa ˘gdaki kutu çizimin- den de anla¸sıldı ˘gı gibi özyetinim ideale çok yakın sonuç vermi¸stir.

0.4 0.5 0.6 0.7 0.8 0.9

050100150200

0.3 0.4 0.5 0.6 0.7 0.8 0.9

050100150200

Gerçek Özyetinim

0.30.40.50.60.70.80.9

α α

α

¸

Sekil 9:˙Ideal tahminler ile özyetinim tahminlerinin kar¸sıla¸stırılması

(35)

Özyetinim Maksimum entropi özyetinimi

Ders Planı

1 Çapraz-Geçerleme

Geçerleme-seti yakla¸sımı Bir-eksiltmeli çapraz-geçerleme K -kat çapraz-geçerleme

Sınıflandırma için çapraz-geçerleme

2 Özyetinim

Örnek uygulama

Maksimum entropi özyetinimi

(36)

Özyetinim Maksimum entropi özyetinimi

Maksimum Entropi Özyetinimi (1)

Yukarıda açıkladı ˘gımız özyetinim i¸slemi birçok durumda gelenek- sel yöntemlerden çok daha ba¸sarılı tahminler üretebilmektedir.

Ancak zaman serilerinde genellikle iyi sonuç verememektedir.

Bunun nedeni zaman serilerinde gözlemlerin belli bir sıra izleme- sidir. Gözlemleri rastsal bir ¸sekilde yeniden düzenlemek bu man- tıksal sırayı yok eder.

Bu sorun a¸smak amacıyla geçmi¸ste zaman serilerine özel özyeti- nim teknikleri geli¸stirilmi¸stir.

Örnek olarak, blok özyetinimi (block bootstrap) adı verilen yön- temde gözlemler sabit büyüklükte bloklar ¸seklinde alınarak yeni- den örnekleme yapılır.

Ancak bu ve bunun gibi yakla¸sımların ba¸sarı düzeyi dü¸süktür. Ye- terli sonuçlar ancak dura ˘ganlık, dü¸sük özilinti ve büyük örneklem gibi belli ko¸sullar altında elde edilebilmektedir.

Sonuç olarak, özyetinim tekni ˘gi yukarıdaki zorluklar nedeniyle mak- roekonomi ve finans gibi alanlarda yaygın kullanım bulamamı¸stır.

(37)

Özyetinim Maksimum entropi özyetinimi

Maksimum Entropi Özyetinimi (2)

Özellikle zaman serileri için geli¸stirilmi¸s olan en yeni ve güncel özyetinim tekni ˘gimaksimum entropi özyetinimi(maximum entropy bootstrap) ya da kısacamebootdenilen yöntemdir.

Entropi(entropy) kavramı, Bayesçi olasılık kuramında yaygın ola- rak kullanılan ve yetersiz bilgi kısıtı altında gereksiz varsayımlar- dan kaçınmaya yarayan güçlü bir araçtır.

Bu kavramı temel alan maksimum entropi özyetinimi yedi adımlı bir algoritma kullanarak Shannon bilgi ölçütünü maksimize eder:

H = E(− ln f (x ))

Böylece, zaman serisi bir bütün olarak ço ˘galtılır.

Bu ¸sekilde üretilen seriler ba¸staki asıl seriye ait ini¸s, çıkı¸s, e ˘gilim gibi ba ˘gımlılık bilgilerini koruma özelli ˘gine sahiptir.

Örnek meboot ço ˘galtmaları ¸Sekil 10’da gösterilmi¸stir.

(38)

Özyetinim Maksimum entropi özyetinimi

Örnek Meboot Ço ˘galtmaları

¸

Sekilde orijinal seri mavi renkle, üç adet örnek meboot ço ˘galtması ise kırmızı renkle gösterilmi¸stir. Ço ˘galtılmı¸s serilerin asıl seriye ait ini¸s, çıkı¸s, e ˘gilim gibi özellikleri korudu ˘guna dikkat ediniz.

1 1.5 2 2.5 3

2012 2013 2014 2015 2016 2017 2018 2019 2020

Çoğaltmalar Orijinal seri

¸

Sekil 10:Örnek meboot ço ˘galtmaları

(39)

Özyetinim Maksimum entropi özyetinimi

Maksimum Entropi Özyetiniminin Uygulanması

Meboot özyetiniminin en önemli üstünlü ˘gü her türlü yapısal kı- rılma, dura ˘gan-dı¸sılık ve e¸stümle¸sim altında herhangi bir dönü¸s- türmeye gerek olmadan kullanılabilmesidir.

Yöntemi uygulamak ba¸sta açıkladı ˘gımız özyetinim gibidir:

1 Eldeki e ˘gitim veri seti meboot algoritması ile Ω kez ço ˘galtılır.

2 Ço ˘galtılan setler ististiksel ö ˘grenme yöntemine uygulanır.

3 Elde edilen çok sayıda tahmin toplula¸stırılarak sa ˘glam kesti- rimler yapılır ya da güven aralıkları in¸sa edilir.

Yukarıdaki i¸slemin blok özyetinimi gibi alma¸sık tekniklere göre daha üstün tahminler üretti ˘gi kapsamlı simülasyon çalı¸smaları ile gös- terilmi¸stir (Vinod, 2015; Yalta, 2016; Singvejsakul et al. 2018).

Meboot tahminine yönelik R dilinde yazılmı¸s açık kaynaklı paket ve örnek kodlar bulunmaktadır.

(40)

Özyetinim Maksimum entropi özyetinimi

Önümüzdeki Dersin Konusu ve Ödev

Ödev

KitaptanBölüm 5“Yeniden Örnekleme” okunacak.

Önümüzdeki Ders Model Seçimi

Referanslar

Benzer Belgeler

Mozart Keman Konçertosu No.3, No.4 veya No.5’ ten biri, sadece 1 ve 2 nci bölüm, kadansıyla (Piyano eşlikli). b) Deşifraj; Komisyonca sınav sırasında belirlenecek önemli

Orta okul yerleşme birimi olarak se- çilen talî merkezler ise, haftalık ihtiyaç- ların karşılanacağı şekilde donatılmışlar ve her 15.000 kişilik mahalle gurubu için

alanı 600m 2 olan bir arsa üzerin- de 7 ibüro ive fki çarşı 'katından oluşan be- tonarme strüktürlü bir yapı kompleksi olup, toplam 5000 m 2 inşaat alanlıdır..

Marmara Üniversitesi Fen Bilimleri Enstitüsü Yüksek Lisans/Doktora Öğrencisi Bülent MERTOĞLU’nun “Lisansüstü tez nasıl yazılır” başlıklı tez çalışması, 24

Ama bunu sık tekrarlayamıyoruz maalesef…” (K17Dil gelişimi normal bulunan çocuğa sahip anne) Normal dil gelişimine sahip çocuğu olan anneler ile riskli dil

b) Rekabet Kurumu, bu kez fiirket'in de aralar›nda bulundu¤u baz› çimento flirketlerinin Marmara Bölgesi'ndeki faaliyetleri üzerinde yapt›¤› inceleme sonucunda, söz

Bu algoritmada dizinin bir ucundan başlanılır, (bu şalangış dizinin başı veya sonu olabilir) Örneğin küçükten büyüğe sıralama için, önce ilk eleman alınır ve daha sonra

gruplardan kaynaklandığını belirlemek için yapılan Tukey testi sonuçlarına göre, büyük kardeşleri günlük iki saat ve daha fazla oyun oynayan çocukların sürekli oynama ( X