Yeniden Örnekleme

(1)

Yeniden Örnekleme

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi

˙IKT-457 Ekonomi ve Finans ˙Için Yapay Zeka 1 Sürüm 0,93

(2)

Açık Lisans Bilgisi

Bu belge “Creative Commons Attribution-ShareAlike 3.0 Un- ported” (CC BY-SA 3.0) lisansı altında bir açık ders malzemesi olarak genel kullanıma sunulmu¸stur. Bazı ¸sekiller “An Intro- duction to Statistical Learning, with applications in R” (Sprin- ger, 2017) kitabından yazarların izniyle alınmı¸stır. Tüm belge eserin ilk sahibinin belirtilmesi ve geçerli lisansın korunması ko¸suluyla özgürce kullanılabilir, ço ˘galtılabilir, ve de ˘gi¸stirilebi- lir. Creative Commons örgütü ve CC-BY-SA 3.0 lisansı ile il- gili ayrıntılı bilgihttps://creativecommons.orgInternet adresinde yer almaktadır. Ders notlarımın güncel sürümlerine http://yalta.etu.edu.tr adresinden ula¸sabilirsiniz.

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi 2020 – 2021

(3)

Ders Planı

1 Çapraz-Geçerleme

Geçerleme-seti yakla¸sımı Bir-eksiltmeli çapraz-geçerleme K -kat çapraz-geçerleme

Sınıflandırma için çapraz-geçerleme

2 Özyetinim

Örnek uygulama

Maksimum entropi özyetinimi

(4)

Çapraz-Geçerleme

Yeniden Örnekleme

Yeniden örnekleme(resampling), bir örneklem veri setinden yeni örneklemler seçme i¸slemine denir.

Bu ¸sekilde tek veri setinden çok sayıda tahminler üretebiliriz.

Böylece, e ˘gitim verilerini bir kez kullanarak elde edebilece ˘gimiz- den daha fazla bilgiye ula¸sabiliriz.

Yeniden örnekleme yo ˘gun hesaplama içeren bir i¸slemdir. Ancak modern bilgisayarlar günlük uygulamalarda yeterli olmaktadır.

Bu bölümde a¸sa ˘gıdaki iki temel yöntem üzerinde duraca ˘gız:

1 Çapraz-geçerleme

2 Özyetinim

Bunlar günümüzde istatistiksel ö ˘grenme için son derece önemli çözümleme yakla¸sımlarıdır.

(5)

Çapraz-Geçerleme

Çapraz-geçerleme (cross-validation), e ˘gitim verilerini kullanarak test hata oranı tahminleri üreten bir kesinlik ölçüm aracıdır.

E ˘gitim hataları ile test hatalarını 2. Bölümde tartı¸smı¸stık.

Belli bir istatistiksel ö ˘grenme yöntemini eldeki e ˘gitim verileriyle kullanınca ortaya çıkan hata oranına e ˘gitim hata oranı denir.

Test hata oranı ise elimizde olmayan, yeni veriler kullandı ˘gımız zaman görece ˘gimiz hata oranıdır.

E ˘gitim hata oranı her zaman dü¸sük çıkar ve yanıltıcıdır. Ancak genellikle elimizde test verileri de yoktur. Bu yüzden test hata oranını bilmek ço ˘gu zaman olanaksızdır.

˙I¸ste, çapraz-geçerleme bu noktada yararlı bir tahmin aracı sunar.

Bu aracı hem model seçimi hem de model de ˘gerlendirmesi için kullanabiliriz.

Model seçimi(model selection), bir istatistiksel ö ˘grenme yöntemi için en uygun esnekli ˘gi belirlemektir.Model de ˘gerlendirme(model assessment) ise tahminlerin kesinlik performansını ölçmektir.

(6)

Çapraz-Geçerleme Geçerleme-seti yakla¸sımı

Ders Planı

2 Özyetinim

Örnek uygulama

(7)

Geçerleme-Seti (1)

˙Ilk olarak,geçerleme-seti(validation-set) adı verilen görece basit çapraz-geçerleme yöntemini ele alalım.

Bu yöntem eldeki verileritest seti(test set) vegeçerleme seti(validation set) ¸seklinde iki parçaya bölmeye dayanır. Bölme i¸slemi rastsal ya da kuralsal olabilir.

E ˘gitim seti kullanılarak model tahmin edilir ve geçerleme setine bakarak hata oranı ölçülür.

E ˘ger Y de ˘gi¸skeni nicel ise hata ölçütü olarak genellikle hata kareleri ortalaması(mean squared error) ya da kısacaHKO(MSE) de ˘geri kullanılır:

HKO = 1 n

X(y_i− ˆf(x_i))²= KKT n

Konuyu açıklayabilmek için biz ¸simdilik Y ’nin nicel oldu ˘gunu var- sayaca ˘gız.

(8)

Geçerleme-Seti (2)

Geçerleme-seti yakla¸sımını örnek üzerinde görmek için 3. Bölüm- deki otomobil verilerini kullanalım.

Anımsayaca ˘gınız gibi bu veri setinde yakıt tüketimi ile motor gücü arasında do ˘grusal-dı¸sı bir ili¸ski vardı. Bu yüzden 2. derece polinom regresyonu kullanmak görece iyi sonuçlar vermi¸sti.

Daha yüksek dereceli bir polinom daha da iyi sonuçlar verebilir.

Geçerleme-seti kullanarak en uygun esneklik derecesini belirle- yebiliriz. Bu i¸slemin adımları a¸sa ˘gıdaki gibidir:

1 Eldeki gözlemler iki parçaya bölünür.

2 Birinci parça e ˘gitim seti olur. Bununla farklı derecelerde polinom regresyonları tahmin edilir.

3 ˙Ikinci parça geçerleme seti olarak kullanılarak her bir modele ait HKO de ˘gerleri hesaplanır ve en iyi model seçilir.

Bu ¸sekilde elde etti ˘gimiz sonuçlar ¸Sekil 1’de verilmi¸stir.

(9)

Örnek Geçerleme-Seti Tahmini

Sol panelde geçerleme-seti uygulaması 2. derece polinomu öner- mektedir. Sa ˘gda yöntem yeniden örnekleme yapılarak tekrar edil- mi¸stir. Burada varyans yüksek olsa da genel sonuç aynıdır.

2 4 6 8 10

16182022242628

Polinom derecesi

Hata kareleri ortalaması

2 4 6 8 10

16182022242628

Polinom derecesi

¸

Sekil 1:Yakıt tüketimi ile motor gücü modeline ait geçerleme-seti tahmini

(10)

Geçerleme-Setinin Sakıncaları

Bu örnekte geçerleme-seti uygulaması bize en iyi modelin 2. derece polinom oldu ˘gu bilgisini vermi¸stir. Daha yüksek polinomlar hata oranında fazla iyile¸sme sa ˘glamamaktadır.

Yöntem yararlı oldu ˘gu gibi uygulaması da oldukça kolaydır.

Ancak iki noktaya dikkat etmek önemlidir:

1 Sekilde sa ˘g panelde de görüldü ˘gü gibi sonuçlar fazlaca¸ de ˘gi¸skenlik göstermektedir.

2 Elimizdeki gözlemlerin yarısını kullanmadı ˘gımız için he- sapladı ˘gımız hata oranı gerçek de ˘gerden yüksek olabilir.

Sonuç olarak, geçerleme-seti hem yüksek varyans hem de yük- sek yanlılı ˘ga sahiptir.

Dolayısıyla bu sakıncaları azaltmaya yönelik alma¸sık çapraz ge- çerleme yöntemleri geli¸stirilmi¸stir.

(11)

Çapraz-Geçerleme Bir-eksiltmeli çapraz-geçerleme

Ders Planı

2 Özyetinim

Örnek uygulama

(12)

Bir-Eksiltmeli Çapraz-Geçerleme

Geçerleme-setine benzer bir di ˘ger yöntem bir-eksiltmeli çapraz- geçerleme(leave-one-out cross-validation) yakla¸sımıdır.

Bu yöntemin adımları a¸sa ˘gıdaki gibidir:

1 Örneklemden yalnızca bir gözlem çıkarılır.

2 Kalan n − 1 gözlem e ˘gitim seti olarak kullanılır.

3 Çıkartılan tek gözlem ile HKO hesaplanır.

4 ˙I¸slem tüm gözlemler için tekrar edilir

5 Tüm HKO’ların ortalaması alınır: ÇG_(n)= ¹_nPn

i=1HKO_i Bir-eksiltmeli çapraz-geçerleme her türlü model tahmininde kulla- nılabilen genel bir yakla¸sım sunar.

Yöntemin önemli bir üstünlü ˘gü e ˘gitim verilerinin neredeyse ta- mamı kullanıldı ˘gı için yanlılı ˘gın neredeyse minimum olmasıdır.

Ayrıca i¸slem tektip oldu ˘gu için sonuç her seferinde aynı çıkar.

(13)

Bir-Eksiltmeli ÇG’nin Sakıncaları

Bir-eksiltmeli çapraz-geçerlemede yanlılık dü¸sük olmakla birlikte varyans yine de yüksektir.

Bunun nedeni e ˘gitim setlerinin bir gözlem hariç birbiriyle aynı ol- masıdır. Geçerleme için kullanılan tek gözlem ise sürekli de ˘gi¸sti ˘gi için yanlılık yüksek çıkar.

Ayrıca n adet model tahmin edildi ˘gi için hesaplama yükü fazladır.

Bu durum do ˘grusal-dı¸sı ileri yöntemlerde sorun yaratabilir.

Öte yandan do ˘grusal ve polinom modellerde yöntemi tek seferde hesaplamayı sa ˘glayan a¸sa ˘gıdaki kısayol formülü bulunmaktadır:

ÇG_(n)= 1 n

n

X

i=1

y_i− ˆy_i 1 − h_i

2

Yukarıda h_i, 3. Bölümde gördü ˘gümüzkaldıraç istatisti ˘gide ˘geridir.

Her zaman [0, 1] aralı ˘gında olan kaldıraç etkisi 1’e yakla¸stıkça payda da 0’a gider. Böylece, dı¸sadü¸sen gözlemler ÇG hata ora- nını yükseltir.

(14)

Örnek Bir-Eksiltmeli ÇG Tahmini

Yakıt tüketimi ile motor gücü modeline ait bir-eksiltmeli ÇG tahminleri ¸Sekil 2’de sa ˘g panelde verilmi¸stir. Sol panelde ise yüksek varyanslı geçerleme-seti tahminleri görülmektedir.

2 4 6 8 10

16182022242628

Bir-Eksiltmeli Çapraz-Geçerleme

Polinom derecesi

2 4 6 8 10

16182022242628

Polinom derecesi

Geçerleme-Seti

¸

Sekil 2:Bir-eksiltmeli ÇG ile geçerleme-seti yönteminin kar¸sıla¸stırılması

(15)

Çapraz-Geçerleme K -kat çapraz-geçerleme

Ders Planı

2 Özyetinim

Örnek uygulama

(16)

K -Kat Çapraz-Geçerleme

Varyans-yanlılık ödünle¸smesi dikkate alınınca en uygun ve en çok tercih edilen geçerleme yakla¸sımık -kat çapraz-geçerleme(k -fold cross-validation) olarak görülmektedir.

Bu yöntemin adımları a¸sa ˘gıdaki gibidir:

1 Örneklem e¸sit büyüklükte k adet parçaya bölünür.

2 Parçalardan biri geçerleme için ayrılır.

3 Kalan k − 1 parça topluca e ˘gitim için kullanılır.

4 Parçalar de ˘gi¸stirilerek i¸slem k kez tekrar edilir.

5 HKO’ların ortalaması alınır: ÇG_{(k )}= _k¹Pk

i=1HKO_i

E ˘ger k = n olursa yöntem bir-eksiltmeli ÇG’ye dönü¸sür. Di ˘ger bir deyi¸sle bir-eksiltmeli ÇG aslında k -kat ÇG’nin özel durumudur.

Uygulamada k için genellikle 5 ya da 10 de ˘geri kullanılır.

K -kat çapraz geçerlemenin adımları ¸Sekil 3’te gösterilmi¸stir.

(17)

K -Kat Çapraz Geçerleme Yönteminin Uygulanması

K = 5 için k -kat ÇG yönteminde veri seti önce 5 e¸sit parçaya bölünür. Parçaların 4’ü ile model tahmin edilip di ˘ger parça ile hata oranı hesaplanır. Bu i¸slem farklı parçalar ile 5 kez tekrar edilir.

Geçerleme

Geçerleme Eğitim

Eğitim Eğitim

Eğitim

¸

Sekil 3:K -kat çapraz geçerleme yönteminin uygulanması

(18)

Örnek K -Kat Çapraz Geçerleme Tahmini

Yakıt ve motor gücü modeline ait 10-kat ÇG tahminleri ¸Sekil 4’te verilmi¸stir. Rastsal yeniden örneklemeler sonucunda elde edilen farklı tahmin sonuçlarının birbirine yakın oldu ˘guna dikkat ediniz.

Polinom derecesi 10-Kat Çapraz Geçerleme

2 4 6 8 10

16182022242628Hata kareleri ortalaması

¸

Sekil 4:Yakıt tüketimi ile motor gücü modeline ait k -kat ÇG tahminleri

(19)

K -Kat ÇG ve Varyans-Yanlılık Ödünle¸smesi

Bir-eksiltmeli ÇG yöntemi toplam n adet model tahmini içerirken k -kat ÇG yalnızca k adet tahmin i¸slemine gerek duyar.

Ancak hesaplamasal kolaylık bir yana, k -kat ÇG’nin asıl üstün- lü ˘gü varyans-yanlılık ödünle¸smesi ile ilgilidir.

Bir-eksiltmeli ÇG yönteminde bir gözlem hariç tüm e ˘gitim verileri kullanıldı ˘gı için yanlılık çok dü¸süktür. Ancak bu durumda geçer- leme i¸slemine tek bir gözlem kaldı ˘gı için varyans yüksek çıkar.

K -kat ÇG ise test seti ile geçerleme seti büyüklükleri arasında bir denge kurarak uygulamada daha iyi sonuçlar üretir.

Bu konudaki çe¸sitli çalı¸smalar varyans-yanlılık ödünle¸smesi açı- sından k = 5 ve k = 10 de ˘gerlerini kullanmayı önermektedir.

Bir-eksiltmeli ÇG ile k -kat ÇG yöntemlerinin test hata oranını tahmin etme konusundaki ba¸sarısı ¸Sekil 5’te görülmektedir.

(20)

K -Kat ÇG ile Bir-Eksiltmeli ÇG’nin Kar¸sıla¸stırılması

¸

Sekilde mavi çizgi gerçek test HKO de ˘geri, kırmızı ve siyah çizgi- ler ise bir-eksiltmeli ÇG ile 10-kat ÇG tahminleridir. ˙Iki yöntemin de genel olarak gerçe ˘ge yakın tahminler üretti ˘gine dikkat ediniz.

2 5 10 20

0.00.51.01.52.02.53.0

Esneklik

2 5 10 20

0.00.51.01.52.02.53.0

Esneklik

2 5 10 20

05101520

Esneklik

SENARYO 1 SENARYO 2 SENARYO 3

¸

Sekil 5:K -Kat ÇG ile bir-eksiltmeli ÇG yöntemlerinin kesinli ˘gi

(21)

Çapraz-Geçerleme Sınıflandırma için çapraz-geçerleme

Ders Planı

2 Özyetinim

Örnek uygulama

(22)

Sınıflandırma ˙Için Çapraz-Geçerleme (1)

¸

Simdiye kadar çapraz-geçerleme yöntemini Y de ˘gi¸skeninin nicel oldu ˘gu regresyon ba ˘glamında inceledik.

Bu do ˘grultuda test hata oranlarını da HKO ile ölçtük.

Öte yandan Y ’nin nitel oldu ˘gu sınıflandırma çözümlemesinde de çapraz-geçerleme son derece kullanı¸slıdır.

Burada da yöntem yukarıda gösterdi ˘gimiz ¸sekillerde uygulanabi- lir. Ancak burada hata oranını ölçmek için yanlı¸s sınıflandırılan gözlem sayısı(number of misclassified observations) kullanılır:

CVn= 1 n

n

X

i=1

Err_i

Yukarıda Err_i =I(y_i 6= ˆy_i) ¸seklinde tanımlı bir {0,1} de ˘gi¸skenidir.

(23)

Sınıflandırma ˙Için Çapraz-Geçerleme (2)

Sınıflandırma çözümlemesinde çapraz-geçerlemeyi açıklamak için farklı derecelerdeki polinom lojistik modellerden yararlanabiliriz.

Örnek olarak, iki X de ˘gi¸skenli 2. derece lojistik model ¸söyledir:

log

p

1 − p

= β0+ β1X₁+ β2X₂+ β3X₁²+ β4X₂² Benzer ¸sekilde 3. derece polinom model de a¸sa ˘gıdaki gibi olur:

log

p

1 − p

= β₀+ β₁X₁+ β₂X₂+ β₃X₁²+ β₄X₂²+ β₅X₁³+ β₆X₂³ Bunlar ve daha yüksek derece modeller için test hata oranını tahmin etmek ve en iyi modeli seçmek için çapraz-geçerleme yönte- mini kolayca uygulayabiliriz.

Bunun için 2. Bölümde kullandı ˘gımız simülasyon veri setine geri dönelim. Buradaki Bayes karar sınırı ve 4. dereceye kadar lojistik model ÇG karar sınırları ¸Sekil 6’da verilmi¸stir.

(24)

Sınıflandırma ˙Için Örnek ÇG Tahmini (1)

Derece = 1

o o o

o o

o

o o o

o o

o oo

o

o oo o

o o o

oo o

o o o

o o o o

o o

o o o

o

o oo

o o

o o o o

o o o

o o o o

o o

o o o

o o o o

o oo o

o o

o

o o o

o o

o o o o o

o o

o

o o

o o o

o o

o o o o

o o

o o o o

o o

o o o o

o o

o o o

oo o

o o o

o o

o ooo o

o

o o

o o o o

o o o

oo o

o o

o o o

o o

o o o

o

o o

o o o

o

Derece = 2

o o o

o o

o

o o o

o o

o oo

o

oo o

o o o

oo o

o o o

o o o o

o o

o o o

o

o oo

o o

o o o o

o o o

o o o o

o o

o o o

o o o o

o oo o

o o

o

o o o

o o

o o o o o

o o

o

o o

o o o

o o

o o o o

o o

o o o o

o o

o o o o

o o

o o o

oo o

o o o

o o

o ooo o

o

o o

o o o o

o o o

oo o

o o

o o o

o o

o o o

o

o o

o o o

o

Derece = 3

o o o

o o

o

o o o

o o

o oo

o

o oo o

o o o

oo o

o o o

o o o o

o o

o o o

o

o oo

o o

o o o o

o o o

o o o o

o o

o o o

o o o o

o oo o

o o

o

o o o

o o

o o o o o

o o

o

o o

o o oo o

o o

o o o o

o o

o o o o

o o

o o o o

o o

o o o

oo o

o o o

o o

o oo o o

o

o o

o o o o

o o o

oo o

o o

o o o

o o

o o o

o

o o

Derece = 4

o o o

o o

o

o o o

o o

o oo

o

oo o

o o o

oo o

o o o

o o o o

o o

o o o

o

o oo

o o

o o o o

o o o

o o o o

o o

o o o

o o o o

o oo o

o o

o

o o o

o o

o o o o o

o o

o

o o

o o oo o

o o

o o o o

o o

o o o o

o o

o o o o

o o

o o o

oo o

o o o

o o

o oo o o

o

o o

o o o o

o o o

oo o

o o

o o o

o o

o o o

o

o o

¸

Sekil 6:Farklı derece lojistik model ÇG karar sınırları ve gerçek sınır

(25)

Sınıflandırma ˙Için Örnek ÇG Tahmini (2)

Yukarıdaki ¸sekilde sol üst paneldeki do ˘grusal lojistik modelin ger- çek karar sınırını iyi tahmin edemedi ˘gi görülmektedir.

Sa ˘g üst panelde 2. derece polinom modeli daha ba¸sarılı olmakla birlikte yeterince esnek de ˘gildir.

Sol alt kö¸sede ise 3. derece polinom çok daha iyi bir karar sınırı vermektedir. Öte yandan sa ˘g alt panelde görülen 4. derece polinom hata oranını daha da fazla dü¸sürememi¸stir.

¸

Sekillere bakıldı ˘gında en iyi model 3. derece polinomdur.

Ancak uygulamada Bayes karar sınırını ve gerçek test hata ora- nını bilmek olanaksızdır. Bu durumda en iyi modeli seçmek için çapraz geçerleme yönteminden yararlanabiliriz.

Bu örnekteki dört farklı modele ait gerçek ve e ˘gitim hata oranları- nın yanı sıra 10-kat ÇG hata oranı tahminleri ¸Sekil 7’deki gibidir.

(26)

K -Kat ÇG ile Bir-Eksiltmeli ÇG’nin Kar¸sıla¸stırılması

¸

Sekilde gerçek hata oranı turuncu, e ˘gitim hata oranı mavi ve 10- kat ÇG hata oranı siyah renkle gösterilmi¸stir. Her iki panelde de ÇG yönteminin genel olarak iyi tahminler üretti ˘gi görülmektedir.

2 4 6 8 10

0.120.140.160.180.20

Kullanılan polinom derecesi

Hata oranı

0.01 0.02 0.05 0.10 0.20 0.50 1.00

0.120.140.160.180.20

1/K

Hata oranı

¸

Sekil 7:Sınıflandırma çözümlemesinde ÇG yönteminin kesinli ˘gi

(27)

Özyetinim Örnek uygulama

Ders Planı

2 Özyetinim

Örnek uygulama

(28)

Özyetinim

Günümüzde son derece yaygın ve güçlü bir di ˘ger yeniden örnek- leme yakla¸sımıözyetinim(bootstrap) yöntemidir.

Özyetinim farklı ¸sekillerde yapılabilmekle birlikte temel olarak a¸sa-

˘gıdaki adımları içerir:

1 Eldeki veri seti yeniden örnekleme yoluyla ço ˘galtılır.

2 Üretilen örneklemlerden çok sayıda tahmin hesaplanır.

3 Bu tahminler birle¸stirilerek ilgi duyulan de ˘gere ili¸skin yüksek kesinlikli güven aralıkları ve kestirimler elde edilir.

Görüldü ˘gü gibi özyetim yo ˘gun hesaplamaya dayalıdır. Ancak modern bilgisayarlar bu yöntemi uygulamayı kolayla¸stırmı¸stır.

Özyetinimin önemli bir üstünlü ˘gü ba¸ska türlü hesaplanamayan ya da hesaplaması zor olan tahmin ve istatistiklere kolayca uyarla- nabilen son derece esnek bir yöntem olmasıdır.

(29)

Portföy Seçimi Uygulaması (1)

Gelin, özyetinimi basit bir örnek yardımıyla açıklayalım.

Elimizdeki bir miktar parayı α oranında X ve (1 − α) oranında Y finansal araçlarında de ˘gerlendirmek istedi ˘gimizi varsayalım.

Yatırımımızı planlarken de toplam risk ya da varyansı minizimize edecek ¸sekilde α’yı belirleyece ˘gimizi dü¸sünelim.

Burada var(αX + (1 − α)Y ) de ˘gerini minimize eden α ¸sudur:

α = var(Y ) − cov(X ,Y ) var(X ) + var(Y ) − 2cov(X ,Y )

Yukarıdaki hesaplamayı yapabilmek için çok sayıda ba ˘gımsız ör- nekleme ihtiyaç duyarız. Ancak getiriler zamana ba ˘glı oldu ˘gu için yeterince gözlem elde etmek zordur.

Özyetinimin sa ˘glayaca ˘gı yararı görmek için önce simülasyon verileri kullanalım. X ve Y için kendimiz varyans ve kovaryans for- mülleri belirleyerek istedi ˘gimiz kadar örneklem üretebiliriz.

Bu ¸sekilde üretilen 4 adet örnek veri seti ¸Sekil 8’de gösterilmi¸stir.

(30)

Portföy Seçimi Uygulaması (2)

−2 −1 0 1 2

−2−1012

X

Y

−2 −1 0 1 2

−2−1012

X

Y

−3 −2 −1 0 1 2

−3−2−1012

X

Y

−2 −1 0 1 2 3

−3−2−1012

X

Y

¸

Sekil 8:Simülasyon yoluyla olu¸sturulan örnek veri setleri

(31)

Portföy Seçimi Uygulaması (3)

Bu simülasyon örne ˘ginde ¸sekildeki gibi veri setlerini 1000 kez üre- terek 1000 farklı ˆαtahmini elde edebiliriz.

Daha sonra elimizdeki çok sayıda yansız tahmini kullanarak ˆα’ların ortalama de ˘gerini buluruz:

¯ˆ

α = 1

1000

X

i=1

ˆ

α_i =0,5996

Burada α için ba¸sta belirlenen gerçek de ˘ger 0,6 idi. Tahmin edilen ortalamanın buna ne kadar yakın oldu ˘guna dikkat ediniz.

¸

Simdi, elimizdeki 1000 adet veri setini kullanarak ˆα’ya ait ölçünlü hatayı da a¸sa ˘gıdaki gibi hesaplayabiliriz:

ÖH( ˆα) = v u u t

1 1000 − 1

1000

X

i=1

( ˆα_i− ¯α)ˆ ²=0,083 Böylece, ˆα’nın kesinli ˘gi konusunda bilgi sahibi oluruz.

(32)

Portföy Seçimi Uygulaması (4)

Gerçek ya¸sam kontrolümüzdeki bir simülasyon olmadı ˘gı için yu- karıda açıkladı ˘gımız i¸slemi uygulamada yapmak olanaksızdır.

Bu durumda özyetinim bize ideale yakın bir tahmin yöntemi sunar.

Bunun için yukarıdaki gibi yeni veri setleri olu¸sturulur. Ancak bu sefer veriler formülden hesaplanmaz. Bunun yerine eldeki tek e ˘gitim veri setinden rastsal yeniden örnekleme yoluyla üretilir.

Örnek olarak, n büyüklü ˘gündeki veri setinden n adet gözlem çe- kilir. Ancak her seferinde çekilen de ˘ger yerine geri koyulur.

Dolayısıyla olu¸sturulan özyetinim veri setinde bazı gözlemler bir- den fazla kez yer alırken bazı gözlemler de hiç yer almayabilir.

Yukarıdaki i¸slem yinelenerek topluluk (ensemble) adı verilen Ω adet özyetinim ço ˘galtması üretilir.

Uygulamada Ω için genellikle 999 ya da 99 de ˘gerleri kullanılır.

(33)

Portföy Seçimi Uygulaması (5)

Özyetinim yöntemiyle üretilen ço ˘galtmalardan ˆα^∗₁, ˆα^∗₂, . . . , ˆα^∗_Ω ¸seklinde gösterilen özyetinim tahminleri hesaplanabilir.

Daha sonra bunlara ait ¯αˆve ÖH( ˆα)de ˘gerleri de yukarıdakine benzer ¸sekilde elde edilir:

ÖH_ö( ˆα) = v u u t

1 Ω

Ω

X

i=1

( ˆα^∗_i − ¯αˆ^∗)²=0,087

Burada ÖH_öözyetinim yoluyla bulunan ölçünlü hata anlamındadır.

Simülasyon veri setlerini kullanarak α için ölçünlü hatayı 0,083 tahmin etmi¸stik. Tek bir veri setinden üretti ˘gimiz özyetinim ölçünlü hata tahmininin buna ne kadar yakın çıktı ˘gına dikkat ediniz.

Portföy örne ˘gimizde simülasyondan gelen ˆα ideal tahminleri ile ˆ

α^∗özyetinim tahminlerinin kar¸sıla¸stırılması ¸Sekil 9’daki gibidir.

(34)

Portföy Seçimi Uygulaması (6)

¸

Sekilde solda simülasyona dayalı ˆαtahminleri, ortada ise özyeti- nime dayalı ˆα^∗ tahminleri görülmektedir. En sa ˘gdaki kutu çizimin- den de anla¸sıldı ˘gı gibi özyetinim ideale çok yakın sonuç vermi¸stir.

0.4 0.5 0.6 0.7 0.8 0.9

050100150200

0.3 0.4 0.5 0.6 0.7 0.8 0.9

050100150200

Gerçek Özyetinim

0.30.40.50.60.70.80.9

α α

α

¸

Sekil 9:˙Ideal tahminler ile özyetinim tahminlerinin kar¸sıla¸stırılması

(35)

Özyetinim Maksimum entropi özyetinimi

Ders Planı

2 Özyetinim

Örnek uygulama

(36)

Maksimum Entropi Özyetinimi (1)

Yukarıda açıkladı ˘gımız özyetinim i¸slemi birçok durumda gelenek- sel yöntemlerden çok daha ba¸sarılı tahminler üretebilmektedir.

Ancak zaman serilerinde genellikle iyi sonuç verememektedir.

Bunun nedeni zaman serilerinde gözlemlerin belli bir sıra izleme- sidir. Gözlemleri rastsal bir ¸sekilde yeniden düzenlemek bu man- tıksal sırayı yok eder.

Bu sorun a¸smak amacıyla geçmi¸ste zaman serilerine özel özyeti- nim teknikleri geli¸stirilmi¸stir.

Örnek olarak, blok özyetinimi (block bootstrap) adı verilen yön- temde gözlemler sabit büyüklükte bloklar ¸seklinde alınarak yeniden örnekleme yapılır.

Ancak bu ve bunun gibi yakla¸sımların ba¸sarı düzeyi dü¸süktür. Ye- terli sonuçlar ancak dura ˘ganlık, dü¸sük özilinti ve büyük örneklem gibi belli ko¸sullar altında elde edilebilmektedir.

Sonuç olarak, özyetinim tekni ˘gi yukarıdaki zorluklar nedeniyle mak- roekonomi ve finans gibi alanlarda yaygın kullanım bulamamı¸stır.

(37)

Maksimum Entropi Özyetinimi (2)

Özellikle zaman serileri için geli¸stirilmi¸s olan en yeni ve güncel özyetinim tekni ˘gimaksimum entropi özyetinimi(maximum entropy bootstrap) ya da kısacamebootdenilen yöntemdir.

Entropi(entropy) kavramı, Bayesçi olasılık kuramında yaygın olarak kullanılan ve yetersiz bilgi kısıtı altında gereksiz varsayımlar- dan kaçınmaya yarayan güçlü bir araçtır.

Bu kavramı temel alan maksimum entropi özyetinimi yedi adımlı bir algoritma kullanarak Shannon bilgi ölçütünü maksimize eder:

H = E(− ln f (x ))

Böylece, zaman serisi bir bütün olarak ço ˘galtılır.

Bu ¸sekilde üretilen seriler ba¸staki asıl seriye ait ini¸s, çıkı¸s, e ˘gilim gibi ba ˘gımlılık bilgilerini koruma özelli ˘gine sahiptir.

Örnek meboot ço ˘galtmaları ¸Sekil 10’da gösterilmi¸stir.

(38)

Örnek Meboot Ço ˘galtmaları

¸

Sekilde orijinal seri mavi renkle, üç adet örnek meboot ço ˘galtması ise kırmızı renkle gösterilmi¸stir. Ço ˘galtılmı¸s serilerin asıl seriye ait ini¸s, çıkı¸s, e ˘gilim gibi özellikleri korudu ˘guna dikkat ediniz.

1 1.5 2 2.5 3

2012 2013 2014 2015 2016 2017 2018 2019 2020

Çoğaltmalar Orijinal seri

¸

Sekil 10:Örnek meboot ço ˘galtmaları

(39)

Maksimum Entropi Özyetiniminin Uygulanması

Meboot özyetiniminin en önemli üstünlü ˘gü her türlü yapısal kı- rılma, dura ˘gan-dı¸sılık ve e¸stümle¸sim altında herhangi bir dönü¸s- türmeye gerek olmadan kullanılabilmesidir.

Yöntemi uygulamak ba¸sta açıkladı ˘gımız özyetinim gibidir:

1 Eldeki e ˘gitim veri seti meboot algoritması ile Ω kez ço ˘galtılır.

2 Ço ˘galtılan setler ististiksel ö ˘grenme yöntemine uygulanır.

3 Elde edilen çok sayıda tahmin toplula¸stırılarak sa ˘glam kestirimler yapılır ya da güven aralıkları in¸sa edilir.

Yukarıdaki i¸slemin blok özyetinimi gibi alma¸sık tekniklere göre daha üstün tahminler üretti ˘gi kapsamlı simülasyon çalı¸smaları ile gös- terilmi¸stir (Vinod, 2015; Yalta, 2016; Singvejsakul et al. 2018).

Meboot tahminine yönelik R dilinde yazılmı¸s açık kaynaklı paket ve örnek kodlar bulunmaktadır.

(40)

Önümüzdeki Dersin Konusu ve Ödev

Ödev

KitaptanBölüm 5“Yeniden Örnekleme” okunacak.

Önümüzdeki Ders Model Seçimi