• Sonuç bulunamadı

Do˘grusal Regresyon

N/A
N/A
Protected

Academic year: 2021

Share "Do˘grusal Regresyon"

Copied!
89
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Do ˘grusal Regresyon

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi

˙IKT-457 Ekonomi ve Finans ˙Için Yapay Zeka 1 Sürüm 0,93

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 1 / 89

(2)

Açık Lisans Bilgisi

Bu belge “Creative Commons Attribution-ShareAlike 3.0 Un- ported” (CC BY-SA 3.0) lisansı altında bir açık ders malzemesi olarak genel kullanıma sunulmu¸stur. Bazı ¸sekiller “An Intro- duction to Statistical Learning, with applications in R” (Sprin- ger, 2017) kitabından yazarların izniyle alınmı¸stır. Tüm belge eserin ilk sahibinin belirtilmesi ve geçerli lisansın korunması ko¸suluyla özgürce kullanılabilir, ço ˘galtılabilir, ve de ˘gi¸stirilebi- lir. Creative Commons örgütü ve CC-BY-SA 3.0 lisansı ile il- gili ayrıntılı bilgihttps://creativecommons.orgInternet adresinde yer almaktadır. Ders notlarımın güncel sürümlerine http://yalta.etu.edu.tr adresinden ula¸sabilirsiniz.

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi 2020 – 2021

(3)

Ders Planı

1 Basit Do ˘grusal Regresyon

Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi

2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler

Çoklu regresyonun uzantıları

3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler

Çoklue¸sdo ˘grusallık

4 K-Enyakın Kom¸su Regresyonu

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 3 / 89

(4)

Basit Do ˘grusal Regresyon

Do ˘grusal Regresyon Yöntemi

Bu bölümde denetimli ö ˘grenmeye temel olan do ˘grusal regresyon çözümlemesini ele alaca ˘gız.

Bu yöntem, daha modern araçların yanında biraz sıkıcı görünse de kolay yorumlanabilirli ˘gi nedeniyle özellikle çıkarsamada en sık kullanılan yakla¸sım olmayı sürdürmektedir.

Ayrıca di ˘ger birçok istatistiksel ö ˘grenme yakla¸sımını anlayabilmek için de iyi bir ba¸slangıç noktası olu¸sturmaktadır.

Kement, ridge, özyetinim, karar a ˘gaçları gibi birçok modern araç regresyonu kullanır.

Dolayısıyla, daha ileri yöntemlere geçmeden önce do ˘grusal reg- resyon konusunda sa ˘glam bir altyapıya sahip olmak önemlidir.

(5)

Basit Do ˘grusal Regresyon

Reklam Veri Seti

Bir önceki bölümde reklam veri setini kullanarak TV, radyo ve gazete reklamlarının satı¸slar üzerindeki etkisini incelemi¸stik.

Böyle bir çözümlemede regresyon kullanarak a¸sa ˘gıdakiler gibi birçok soruyu ele alabiliriz:

1 Reklam bütçesi ile satı¸slar arasında ili¸ski var mıdır?

2 ˙Ili¸ski varsa bu yararlı bir çözümleme yapacak kadar güçlü müdür?

3 Hangi medya aracılı ˘gıyla yapılan reklamlar satı¸slara katkı sa ˘glar?

4 Her bir medyanın katkısını ne kadar kesinlikle tahmin edebiliriz?

5 Gelece ˘ge yönelik ne kadar sa ˘glıklı tahminler yapabiliriz?

6 Reklam ile satı¸slar arasındaki ili¸skinin yapısı nedir?

7 Farklı reklam araçları birlikte daha etkili midir?

Regresyon yöntemini kullanarak bu yedi sorunun yanıtını bulabiliriz.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 5 / 89

(6)

Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Ders Planı

1 Basit Do ˘grusal Regresyon

Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi

2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler

Çoklu regresyonun uzantıları

3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler

Çoklue¸sdo ˘grusallık

4 K-Enyakın Kom¸su Regresyonu

(7)

Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Anakütle Regresyon Fonksiyonu

˙Ilk olarak, en yalın ve kolay durum olanbasit do ˘grusal regresyon (simple linear regresyon) modelini ele alalım.

Bu çözümlemede nicel bir Y de ˘gi¸skeninin tek bir X de ˘gi¸skenine verdi ˘gido ˘grusaltepkiyi inceleriz.

Önceki bölümde X ve Y arasındaki ili¸skinin Y = f (X ) +  ¸seklinde oldu ˘gunu söylemi¸stik. Basit do ˘grusal regresyon için f ¸sudur:

Y = β0+ β1X + 

Yukarıdaki fonksiyonaanakütle regresyon fonksiyonu(population regression function) denir.

Burada β0 ve β1 bir do ˘gruyu tanımlayan katsayılardır. β0, do ˘gru- nun y-eksenini kesti ˘gi nokta, β1ise do ˘grunun e ˘gimini gösterir.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 7 / 89

(8)

Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Örneklem Regresyon Fonksiyonu

Uygulamada β0ve β1’in gerçek de ˘gerlerini bilemedi ˘gimiz için bun- ları tahmin ederiz:

Y = ˆβ0+ ˆβ1X + ˆ

Yukarıdaki fonksiyona daörneklem regresyon fonksiyonu(sample regression function) adı verilir.

Buradaˆya da¸sapka(hat) i¸sareti tahmin anlamına gelmektedir.

Sonuç olarak, elimizde bulunan {(x1,y1), . . . ,(xn,yn)} ¸seklindeki e ˘gitim verilerini kullanarak örneklem regresyon fonksiyonunu he- saplamak istiyoruz.

βˆ0ve ˆβ1de ˘gerlerini bulursak herhangi bir xigözlemi için ˆyitahmini yapabiliriz:

i= ˆβ0+ ˆβ1xi

(9)

Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Sıradan Enküçük Kareler (1)

Örnek olarak, TV reklam harcamalarının satı¸s üzerindeki etkisine bakmak istedi ˘gimizi dü¸sünelim. Reklam veri setinde buna yönelik n = 200 adet gözlem bulunmaktadır.

Bunları kullanarak ˆβ0ve ˆβ1’yı öyle hesaplamalıyız ki buldu ˘gumuz do ˘gru elimizdeki 200 noktaya olabildi ˘gince yakın olsun.

Bir noktanın do ˘gruya yakınlı ˘gını ölçmenin çe¸sitli yolları vardır.

Ancak uygulamada açık ara en yaygın olan yöntem sıradan en- küçük kareler (ordinary least squares) ya da kısaca SEK(OLS) yakla¸sımıdır.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 9 / 89

(10)

Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Sıradan Enküçük Kareler (2)

SEK yöntemini anlamak için herhangi iki ˆβ0 ve ˆβ1 de ˘geri alalım.

Bunları kullanarak ˆyi= ˆβ0+ ˆβ1xi noktalarını tahmin etmi¸s olalım.

Burada her bir i gözlemi için yaptı ˘gımız hata ¸su olur:

i =yi− ˆyi

Yukarıdaki  (epsilon) harfinehata(error) ya da kalıntı(residual) denir. Gözlenen y ile tahmin edilen ˆy arasındaki farktır.

Tüm gözlemlere ait ’ları kullanarakkalıntı kareleri toplamı (resi- dual sum of squares) ya da kısacaKKT(RSS) de ˘gerini buluruz:

KKT = 21+ 22+ · · · + 2n

˙I¸ste, SEK yöntemi elimizdeki verilere en iyi yakı¸san do˘gruyu bul- mak için KKT de ˘gerini minimize eder.

Bu minimizasyon i¸slemi do ˘grusal cebir ve kalkülüs kullanılarak yapılır ve bu dersin konusu dı¸sındadır. ˆβ0 ve ˆβ1 tahminleri gü- nümüzde bilgisayarlar tarafından kolayca hesaplanmaktadır.

(11)

Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Sıradan Enküçük Kareler (3)

0 50 100 150 200 250 300

510152025

TV reklam harcamaları

Satışlar

¸

Sekil 1:Satı¸slar ile TV reklam harcamalarının ikili SEK regresyonu

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 11 / 89

(12)

Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Sıradan Enküçük Kareler (4)

TV reklam harcamalarının satı¸slar üzerindeki etkisine yönelik ba- sit do ˘grusal regresyon tahmini ¸Sekil 1’de gösterilmi¸stir.

¸

Sekildeki kırmızı noktalar gözlemler, mavi çizgi ise tahmin edilen regresyon do ˘grusudur.

SEK yöntemiyle hesaplanan do ˘grunun dikey kesme noktası ˆβ0= 7,03 ve e ˘gimi de ˆβ1=0,0475 olarak bulunmu¸stur.

Bu sonuçları de ˘gi¸skenlerin birimine bakarak yorumlamalıyız. Veri setinde harcamalar 1000 dolar, satı¸slar ise 1000 adet ¸seklindedir.

Dolayısıyla ˆβ1katsayısını ¸söyle yorumlarız: TV reklamı için yapı- lan her 1000 dolarlık harcama satı¸sları yakla¸sık 0,0475 × 1000 = 47,5 adet artırmaktadır.

βˆ0’ı ise ¸söyle yorumlarız: Hiç reklam yapılmaması durumda yak- la¸sık 7,03 × 1000 = 7030 adet satı¸s beklenmektedir.

Farklı ˆβ0 ve ˆβ1 kombinasyonları için hesaplanan KKT de ˘gerleri

¸

Sekil 2’de verilmi¸stir.

(13)

Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Sıradan Enküçük Kareler (5)

¸

Sekilde hem sol hem de sa ˘g paneli inceledi ˘gimizde ˆβ0=7,03 ve βˆ1=0,0475 de ˘gerlerinin KKT’yi minimize etti ˘gini görülmektedir.

β0 β1

2.15

2.2 2.3 2.5

3 3

3 3

5 6 7 8 9

0.030.040.050.06

KKT

β1 β0

¸

Sekil 2:KKT’yi belirleyen farklı ˆβ0ve ˆβ1tahmin de ˘gerleri

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 13 / 89

(14)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Ders Planı

1 Basit Do ˘grusal Regresyon

Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi

2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler

Çoklu regresyonun uzantıları

3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler

Çoklue¸sdo ˘grusallık

4 K-Enyakın Kom¸su Regresyonu

(15)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Katsayıların Kesinli ˘ginin Ölçülmesi (1)

Yukarıda hesapladı ˘gımız ˆβ0 ve ˆβ1 de ˘gerlerini yorumlayabilmek için bunların ne kadar kesin oldu ˘gunu bilmek önemlidir.

Bunlar birer tahmin oldu ˘guna göre bunların gerçek de ˘geri için belli bir aralık söyleyebilmek zorundayız.

Bunun için kullandı ˘gımız standart yöntem eldeki e ˘gitim verilerini kullanarak anakütleye ili¸skin çıkarsama yapmaktır.

Bunu basit bir örnekle açıklayalım: Bir zar atma deneyi dü¸süne- lim. Burada zar 1 ile 6 arasında her de ˘geri alabilir. Öte yandan defalarca zar atarsak bunların ortalaması 3,5’e yakınsayacaktır.

Yalnızca bir ya da iki zar atarak 3,5 de ˘gerini bulamayabiliriz. An- cak yeterince büyük bir örneklem alırsak, söz gelimi 30 kez zar atarsak 3,5’e çok yakın de ˘gerler elde ederiz.

Elde edece ˘gimiz bu de ˘gerler yansız (unbiased) tahminlerdir. Di-

˘ger bir deyi¸sle, 3,5’ten biraz farklı çıkabilirler ama gerçek de ˘ger- den hep daha dü¸sük ya da hep daha yüksek olmazlar.

Ayrıca örneklem büyüdükçe de gerçek de ˘gere yakınsarlar.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 15 / 89

(16)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Katsayıların Kesinli ˘ginin Ölçülmesi (2)

Örneklemden gelen yansız tahminlerin anakütle de ˘gerine yakın- saması olgusu regresyon ba ˘glamında da geçerlidir.

Gerçekte f ’yi bilemeyiz. Elimizde yalnızca bir tahmin olan örnek- lem regresyon fonksiyonu vardır.

Ancak tahminimizin ne kadar kesin oldu ˘gunu hem analitik hem de deneysel olarak inceleyebiliriz.

Deneysel bir örnek olarak a¸sa ˘gıdaki fonksiyonu ele alalım:

Y = 2 + 3X + 

Yukarıdaki formülü kullanarak farklı rastsal X de ˘gerlerine kar¸sılık Y ’leri hesaplayabiliriz. Böylece, deneysel veri setleri üretebiliriz.

Bu ¸sekilde elde edilen örneklemlerden hesaplayaca ˘gımız yansız tahminlerde ˆβ0≈ 2 ve ˆβ1≈ 3 çıkar.

Anakütle regresyon do ˘grusu ile 10 farklı simülasyon veri setinden elde edilen örneklem tahminleri ¸Sekil 3’te verilmi¸stir.

(17)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Katsayıların Kesinli ˘ginin Ölçülmesi (3)

Sol panelde anakütle regresyon fonksiyonu kırmızı, örneklem reg- resyon fonksiyonu ise mavi renkle çizilmi¸stir. Sa ˘gdaki 10 farklı ör- neklem regresyon fonksiyonu da benzer tahminler üretmektedir.

−2 −1 0 1 2

−10−50510

X

Y

−2 −1 0 1 2

−10−50510

X

Y

¸

Sekil 3:Anakütle regresyonu ile yansız örneklem regresyonları

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 17 / 89

(18)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Ölçünlü Hata

Zar örne ˘gine geri dönelim. Diyelim ki 30 defa zar attık ve ortalama 3,78 çıktı. Elimizdeki bu yansız tahminin kesinlik derecesi nedir?

Bunu ö ˘grenmek için buldu ˘gumuz tahmine aitölçünlü hata (stan- dard error) ya da kısacaÖH(SE) de ˘gerini hesaplarız:

ÖH(ˆµ)2=var(ˆµ) =σ2 n

Yukarıda var, varyans ve ˆµda tahmin edilen ortalama demektir.

En sa ˘gdaki σ ise her bir gözlemin ortalama de ˘gerden ne kadar saptı ˘gını gösterenölçünlü sapma(standard deviation) de ˘geridir.

Örneklem büyüklü ˘gü (n) arttıkça ÖH’nin azaldı ˘gına dikkat ediniz.

ÖH de ˘geri bize ortalama bir tahminin gerçek de ˘gerden kaç bi- rim saptı ˘gı bilgisini verir. Bu yakla¸sımı kullanarak regresyon için ÖH( ˆβ0) ve ÖH( ˆβ1) de ˘gerlerini de kolayca bulabiliriz.

Gerçekte anakütleye ait σ de ˘geri bilinmez, ancak bu da tahmin edilebilir. Böylece, elimizde dÖH( ˆβ0) ve dÖH( ˆβ1) tahminleri olur.

(19)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Güven Aralıkları

Ölçünlü hataları kullanarak bir katsayı tahminine aitgüven aralı ˘gı (confidence interval) olu¸sturabiliriz.

Örnek olarak, β0ve β1için %95 güven aralı ˘gı yakla¸sık ¸söyledir:

β0≈ ˆβ0± 2 × dÖH( ˆβ0) ve β1≈ ˆβ1± 2 × dÖH( ˆβ1)

TV reklamı örne ˘gimize dönelim. Bu regresyonda dÖH( ˆβ0)=0,4578 ve dÖH( ˆβ1)=0,0027 bulunmu¸stur.

Buna göre %95 güven aralıkları a¸sa ˘gıdaki gibi hesaplanır:

[6,130 ≤ β0≤ 7,935] ve [0,042 ≤ β1≤ 0,053]

Bu güven aralıklarının yorumu ¸söyledir: E ˘ger farklı test veri set- leri olu¸sturur ve regressionu tekrar tekrar hesaplayacak olursak bulaca ˘gımız 100 tahminden 95’inin bu aralıkta olmasını bekleriz.

Dolayısıyla gerçek de ˘geri de %95 olasılıkla bu aralıkta bekliyoruz.

Uygulamada en çok %95 güven aralıkları kullanılır ancak %90 ve

%99 aralıkları da yaygındır. Bunların yorumu da benzerdir.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 19 / 89

(20)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Önsav Sınamaları (1)

Ölçünlü hataları kullanarak herhangi bir β katsayısı üzerinde ön- sav sınamaları da yapabiliriz.

Bunun için öncelikle bir H0 sıfır önsavı (null hypothesis) ile H1 alma¸sık önsav(alternative hypothesis) belirtiriz. Örnek olarak:

H0: β = β ve H1: β 6= β

Bu sınamada amacımız β için yaptı ˘gımız ˆβtahmininin β’danan- lamlı (significant) derecede uzak olup olmadı ˘gı bulmaktır. Di ˘ger bir deyi¸sle, β = β olmadı ˘gını güvenle söyleyebilir miyiz?

Bunun için a¸sa ˘gıdaki test istatisti ˘gini hesaplarız:

t = β − βˆ dÖH( ˆβ)

H0’ın geçerli olması durumunda yukarıdaki test istatisti ˘gi n − 2 serbestlik derecesi(degree of freedom) ile t da ˘gılımına uyar.

Bulunan de ˘gerin ilgili da ˘gılımdan gelme olasılı ˘gını bilgisayar ile hesaplayabilir ve böylece, H0’ı ret edebilir ya da etmeyebiliriz.

(21)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Önsav Sınamaları (2)

Örnek olarak, TV reklamı örne ˘gimizdeki ˆβ1’nın sıfırdan anlamlı derecede uzak olup olmadı ˘gını sınamak istedi ˘gimizi dü¸sünelim:

H0: β1=0 ve H1: β16= 0

βˆ1 =0,0475 ve dÖH( ˆβ1) = 0,0027 buldu ˘gumuzu daha önce söy- lemi¸stik. Bu durumda test istatisti ˘gi ¸sudur:

t = 0,0475 − 0

0,0027 =17,59

Bilgisayar bize 17,59 de ˘gerinin ilgili t da ˘gılımından gelme olasılı-

˘gının onbinde birden küçük oldu ˘gunu söyleyecektir.

Dolayısıyla anakütledeki gerçek β1 de ˘gerinin 0 olmadı ˘gı konu- sunda yüksek bir kesinlikle çıkarımda bulunabiliriz.

Burada yaptı ˘gımız ¸sey tek bir β parametresine ili¸skin t sınama- sıdır. Bunun dı¸sında birçok farklı önsav sınaması vardır. Bunları daha sonra yeri geldikçe tartı¸saca ˘gız.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 21 / 89

(22)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

˙Ikili Regresyon Bilgisayar Çıktısı

Yukarıda gördü ˘gümüz regresyon katsayı tahminleri ve önsav sı- namaları bilgisayarlar tarafından kolayca hesaplanmaktadır.

TV reklamı regresyonumuza ait bilgisayar çıktısı ¸söyledir:

De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri Sabit terim 7,0325 0,4578 15,36 < 0,0001

TV reklamı 0,0475 0,0027 17,59 < 0,0001

Çizelgede sa ˘gdaki ilk iki sütunda ˆβ0 ve ˆβ1katsayıları ile bunların ölçünlü hataları görülmektedir.

Son iki sütunda ise az önce β1 için yaptı ˘gımız H0 : β = 0 ve H1: β 6=0 ¸seklindeki t-sınaması sonuçları ile bunların p-de ˘gerleri verilmi¸stir. TV reklamı için 17.59 de ˘gerini biz de hesaplamı¸stık.

Tipik bir regresyon çıktısında bu sınama otomatik yapılarak her bir katsayının sıfırdan anlamlı derecede uzak olup olmadı ˘gı ölçülür.

Kesinlik de ˘gerlendirmesi için genellikle yüzde 95 güven düzeyi kullanılır. Bu düzeyde anlamlılık kararı verebilmek için p-de ˘gerinin 0,05’ten küçük olmasına bakılır.

(23)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Modelin Kesinli ˘ginin Ölçülmesi

Model katsayılarının nasıl yorumladı ˘gını ve kesinliklerinin nasıl öl- çüldü ˘günü yukarıda gördük.

Katsayıları de ˘gerlendirdikten sonra tahmin etti ˘gimiz modelin ge- nel olarak verilere ne derece yakı¸stı ˘gını da bilmek isteriz.

Bu amaçla kullandı ˘gımız temel ölçütlerkalıntı ölçünlü hatası (re- sidual standard error), R2istatisti ˘gi ve F -istatisti ˘gidir.

TV reklamları örne ˘gimiz için bu de ˘gerler Çizelge 1’deki gibidir:

˙Istatistik De ˘ger

Kalıntı ölçünlü hatası 3,260

R2 0,612

F -istatisti ˘gi 312,100

Çizelge 1:Satı¸slar ve TV reklamları regresyonuna ait özet istatistikler

¸

Simdi yukarıdakilerden ilk ikisine bakaca ˘gız. F -istatisti ˘gi’ni ise çoklu regresyon bölümünde tartı¸saca ˘gız.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 23 / 89

(24)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Kalıntı Ölçünlü Hatası

Kalıntı ölçünlü hatası(residual standard error) ya da kısacaKÖH (RSE), yi tepki de ˘gerlerinin regresyon do ˘grusundan ortalama kaç birim saptı ˘gını ölçer.

KÖH’ü bulmak için hata terimi ’un ölçünlü sapmasını hesaplarız:

KÖH =

r 1

n − 2KKT = v u u t

1 n − 2

n

X

i=1

(yi − ˆyi)2

Örnek olarak, TV reklamı örne ˘gimizde her bir gözlemin regresyon do ˘grusundan ortalama 3,260 adet saptı ˘gını görüyoruz.

Bunun kabul edilebilir bir de ˘ger olup olmadı ˘gı duruma göre de ˘gi-

¸sir. Bu veri setinde ortalama satı¸s 14,000 adet oldu ˘gu için mode- limizdeki gözlemler 3,260/14,000 = %23 sapma göstermi¸stir.

Görüldü ˘gü gibi, KÖH aslında yakı¸smanın iyili ˘gini de ˘gil, yakı¸sma eksikli ˘gini göstermektedir ve birim ölçe ˘gindedir.

(25)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Belirleme Katsayısı

Yakı¸smanın iyili ˘gine yönelik ikinci ölçütbelirleme katsayısı(coef- ficient of determination) ya da kısaca R2istatisti ˘gidir.

R2’yi yorumlamak daha kolaydır çünkü yakı¸smayı 0 ve 1 aralı-

˘gında bir oran olarak ölçer:

R2= TKT − KKT

TKT =1 − KKT TKT

BuradaTKT(TSS),toplam kareleri toplamı(total sum of squares) anlamındadır. Tepki de ˘gi¸skeni Y ’deki ortalama de ˘gi¸skenli ˘gi verir:

TKT =X

(yi− ¯y )2

KKT, kalıntılardan kaynaklanan ve regresyon tarafından açıklana- mayan de ˘gi¸skenliktir. Dolayısıyla TKT−KKT de regresyonun açık- ladı ˘gı de ˘gi¸skenli ˘gi anlatır. ˙I¸ste, bunun toplama oranı da R2olur.

Örne ˘gimizde R2=0,61 çıkmı¸stır. Bunu ¸söyle yorumlarız: Regres- yon do ˘grusu Y ’deki de ˘gi¸sikli ˘gi yüzde 61 oranında açıklamaktadır.

Geriye kalan yüzde 39 ise di ˘ger etmenlerden kaynaklıdır.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 25 / 89

(26)

Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Ders Planı

1 Basit Do ˘grusal Regresyon

Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi

2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler

Çoklu regresyonun uzantıları

3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler

Çoklue¸sdo ˘grusallık

4 K-Enyakın Kom¸su Regresyonu

(27)

Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Çoklu Do ˘grusal Regresyon (1)

Veri çözümlemesi uygulamalarında genellikle elimizde birden fazla açıklayıcı de ˘gi¸sken olur.

Örnek olarak, reklam veri setinde TV harcamalarının yanı sıra radyo ve gazete reklam harcamaları da bulunmaktadır.

Bu de ˘gi¸skenleri de dikkate almak istedi ˘gimiz zaman tek tek ikili regresyonlar yapabiliriz. Ancak bu do ˘gru bir yakla¸sım de ˘gildir.

Üç ayrı regresyonla tek bir kestirim elde edilemez. Ayrıca ikili reg- resyonlar di ˘ger de ˘gi¸skenlerin etkisini dikkate almayarak eksik ve yanlı sonuçlar üretirler.

TV, gazete ve radyo reklam harcamalarını ayrı ayrı inceleyen ikili regresyonlar Çizelge 2’de görülmektedir.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 27 / 89

(28)

Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Çoklu Do ˘grusal Regresyon (2)

De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri

Sabit terim 7,033 0,458 15,36 < 0,0001

TV reklamı 0,048 0,003 17,59 < 0,0001

De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri

Sabit terim 9,312 0,563 16,54 < 0,0001

Radyo reklamı 0,203 0,020 9,92 < 0,0001

De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri

Sabit terim 12,351 0,621 19,88 < 0,0001

Gazete reklamı 0,055 0,017 3,30 0,0012

Çizelge 2:Satı¸slar ile TV, radyo ve gazete reklamlarının ikili regresyonları

(29)

Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Çoklu Do ˘grusal Regresyon (3)

Elimizde birden fazla X de ˘gi¸skeni oldu ˘gu zaman a¸sa ˘gıdaki gibi bir çoklu do ˘grusal regresyon(multiple linear regression) belirtiriz:

Y = β0+ β1X1+ β2X2+ · · · + βpXp+ 

Burada Xj’ler farklı açıklayıcı de ˘gi¸skenlerdir. Önlerindeki βj kat- sayıları ise di ˘ger tüm de ˘gi¸skenler sabitken ilgili Xj 1 birim arttı ˘gı zaman Y ’nin kaç birim de ˘gi¸sti ˘gini gösterir.

Yukarıdaki anakütle regesyonunu e ˘gitim verileri ile tahmin etmek için yine, örneklem regresyon fonksiyonunu kullanırız:

Y = ˆβ0+ ˆβ1X1+ ˆβ2X2+ · · · + ˆβpXp+ ˆ

Çoklu regresyonda da ˆβ tahminleri için SEK yöntemi kullanılır.

Buradaki karma¸sık i¸slemler bilgisayarlar tarafından kolayca yapıl- maktadır.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 29 / 89

(30)

Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Çoklu Regresyon Bilgisayar Çıktısı

Reklam örne ˘gimize dönelim. Satı¸slar ile TV, radyo ve gazete rek- lam harcamalarına ili¸skin çoklu regresyon modeli ¸söyledir:

Satı¸slar = β0+ β1TV + β2Radyo + β3Gazete +  Model tahminine ili¸skin bilgisayar çıktısı Çizelge 3’te verilmi¸stir.

De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri

Sabit terim 2,939 0,3119 9,42 < 0,0001

TV reklamı 0,046 0,0014 32,81 < 0,0001

Radyo reklamı 0,189 0,0086 21,89 < 0,0001

Gazete reklamı −0,001 0,0059 −0,18 0,8599

Çizelge 3:Satı¸slar ile TV, radyo ve gazete reklamları çoklu regresyonu

(31)

Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Çoklu Regresyon Katsayılarının Yorumlanması

Çizelgedeki katsayıları de ˘gi¸skenlerin birimine göre yorumlarız. Bu veri setinde harcamalar 1000 dolar, satı¸slar 1000 adet ¸seklindedir.

Dolayısıyla TV reklamına ait ˆβ1=0,046 katsayısının yorumu ¸sudur:

Radyo ve gazete reklamısabitken, TV reklamındaki 1 birim (1000 dolar) artı¸s sonucunda satı¸slar 0,046 (×1000) adet artmaktadır.

Di ˘ger bir deyi¸sle TV reklamlarındaki her 1000 dolarlık harcama satı¸sları yakla¸sık 46 adet artırmaktadır.

Radyo ve gazete katsayılarının yorumu da benzer ¸sekildedir.

Sabit terim ˆβ0=2,939 katsayısının yorumu ise ¸söyledir: E ˘ger TV, radyo ve gazete reklam harcamalarının hepsi birden sıfır olursa yakla¸sık 2,939 × 1000 = 2939 adet satı¸s beklenmektedir.

Çoklu regresyondaki ˆβ1, ˆβ2, ˆβ3 katsayıları ikili regresyondakilere benzerdir. Öte yandan sabit terimin farklı oldu ˘guna dikkat ediniz.

Ayrıca burada gazete katsayısının p-de ˘geri 0,8599’a yükselmi¸stir.

Sonuç olarak, ikili ve çoklu regresyon birbirinden oldukça farklı sonuçlar verebilmektedir.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 31 / 89

(32)

Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Karı¸stırıcı De ˘gi¸sken Etkisi

Çoklu regresyonda gazete reklamı p-de ˘gerinin 0,8599 oldu ˘guna dikkat ediniz.

Bu, H0 : β3 = 0 önsav sınamasının sonuç istatisti ˘gidir. Dolayı- sıyla, β3’ün sıfırdan anlamlı derecede uzak olmadı ˘gını gösterir.

Bunun nedeni ise bu örnekte radyo ve gazete reklamlarının yük- sek korelasyona sahip olmasıdır. ˙Ikili regresyon bu ili¸skiyi dikkate almadı ˘gı için daha önce gazete reklamları anlamlı çıkmı¸stı.

Buna benzer durumlar uygulamada sıkça kar¸sımıza çıkar.

Tipik bir örnek olarak, yazın kumsalda dondurma satı¸sları ile kö- pekbalı ˘gı saldırıları arasında güçlü ve anlamlı bir ili¸ski bulabiliriz.

Bu hatalı sonucun nedeni hava sıcaklı ˘gının dikkate alınmamı¸s olmasıdır. Burada hava sıcaklı ˘gınakarı¸stırıcı de ˘gi¸sken(confoun- ding variable) denir. Bunu dikkate alınca sonuçlar düzelir.

Karı¸stırıcı de ˘gi¸skenler modellemede son derece önemlidir. Yapay zeka bu konuda zorlanır.

(33)

Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Ders Planı

1 Basit Do ˘grusal Regresyon

Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi

2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler

Çoklu regresyonun uzantıları

3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler

Çoklue¸sdo ˘grusallık

4 K-Enyakın Kom¸su Regresyonu

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 33 / 89

(34)

Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Çoklu Regresyonda Çıkarsama

Bir regresyon modelini tahmin edip katsayıları yorumlamak kolay i¸stir. Asıl önemli olan, elde yorumlamaya de ˘ger bir sonuç olup ol- madı ˘gını bilebilmektir.

Bu do ˘grultuda a¸sa ˘gıdaki dört temel soruya yanıt ararız:

1 Veriler modele ne kadar iyi yakı¸smı¸stır?

2 Model bir bütün olarak olarak anlamlı mıdır?

3 Y ’yi açıklayan önemli X de ˘gi¸skenleri neleridir?

4 Elde etti ˘gimiz kestirimler ne kadar güvenilirdir?

Gelin, ¸simdi de bu konulara kısaca de ˘ginelim.

(35)

Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Çoklu Regresyonda Yakı¸smanın ˙Iyili ˘gi

En temel yakı¸smanın iyili ˘gi ölçütleri olan R2ve kalıntı ölçünlü ha- tasından ba¸sta söz etmi¸stik.

Bunların hesaplanı¸sı ve yorumu ikili regresyondaki gibidir. Çoklu regresyon örne ˘gimiz için a¸sa ˘gıdaki çizelgeye bakalım:

˙Istatistik De ˘ger

Kalıntı ölçünlü hatası 1,690

R2 0,897

F -istatisti ˘gi 570,000

Çizelge 4:Satı¸s ve reklamlar çoklu regresyonu, özet istatistikler

˙Ilk olarak, KÖH de ˘gerinin 1,690 çıktı ˘gını görüyoruz. Buna göre modelin tahmin etti ˘gi satı¸slar ortalama olarak, gözlenen satı¸slar- dan 1,690 birim (1690 adet) sapmaktadır.

TV ikili regresyonunda bu 3,260 idi. Burada yakı¸sma iyile¸smi¸stir.

Ancak katsayısı anlamlı çıkmayan gazeteyi modelden atarsak KÖH, 1,681 olmaktadır. Buna göre gazetenin yakı¸smaya katkısı yoktur.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 35 / 89

(36)

Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Ayarlamalı R-Kare

R2’ye de bakalım. Çoklu regresyonda R2=0,897 bulunmu¸stur.

Buna göre TV, radyo ve gazete reklam harcamalarını içeren mo- del satı¸slardaki de ˘gi¸simi yüzde 89,7 düzeyinde açıklamaktadır.

Ba¸staki ikili regresyonunda R2=0,612 idi. Dolayısıyla, daha fazla de ˘gi¸skeni dikkate alan çoklu regresyonda yakı¸sma artmı¸stır.

Öte yandan R2, modeldeki de ˘gi¸sken sayısına kar¸sı hassastır. Yeni de ˘gi¸sken eklendikçe bunların açıklama gücü yoksa bile R2artar.

Bu nedenle, tek açıklayıcı de ˘gi¸skeni olan ba¸staki model ile üç açıklayıcı de ˘gi¸skeni olan yeni modeldeki R2’leri kar¸sıla¸stıramayız.

Böyle durumlarda kar¸sıla¸stırılabilir olan istatistikayarlamalı R-kare (adjusted R-squared) ya da kısaca ¯R2de ˘geridir.

Ayarlamalı R-kare modeldeki de ˘gi¸sken sayısını dikkate aldı ˘gı için normal R-kareden dü¸sük çıkar.

Örnek olarak, çoklu regresyon örne ˘gimizde ¯R2 = 0,88’dir. Bunu 0,612 ile kar¸sıla¸stırınca yakı¸smanın iyili ˘ginin arttı ˘gı görülüyor.

(37)

Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

˙Iki De˘gi¸skenli Kalıntı Çizimi

Yakı¸smanın iyili ˘gini ¸sekil üzerinde incelemek de yararlıdır. Burada, yalnızca TV ya da radyo reklamı yapıldı ˘gı zaman modelin satı¸sları yüksek tahmin etti ˘gi görülüyor. Do ˘grusal-dı¸sı bir ili¸ski söz konusu.

Satışlar

TV

Radyo

¸

Sekil 4:Çoklu regresyonda iki de ˘gi¸skenli kalıntı çizimi

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 37 / 89

(38)

Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Çoklu Regresyonda Bütünün Anlamlılı ˘gı

Regresyonda e ˘ger yakı¸sma düzeyi dü¸sükse bütünün anlamlılı ˘gı (overall significance) durumuna özellikle bakmak isteriz.

Bu, a¸sa ˘gıdaki önsav sınamasını yapmak demektir:

H0: β1= β2= . . . = βp=0 ve H1:En az bir βj 6= 0 Görüldü ˘gü gibi burada tüm katsayıların aynı anda sıfır olup olama- yaca ˘gı sorgulanmaktadır. Bunun için ¸su F -istatisti ˘gi hesaplanır:

F = (TKT − KKT)/p KKT/(n − p − 1)

E ˘ger regresyon kalıntıları normal da ˘gılımlıysa ve H0do ˘gru ise yu- karıdaki sınama istatisti ˘gi F da ˘gılımına uyar. Bilgisayar bunu ve buna ait p-de ˘gerini kolayca hesaplar ve çıktı olarak verir.

Bu aslında H0:R2=0 sınamasıdır. Yakı¸smanın yoklu ˘gunu ölçer.

Çizelge 4’e dönersek örne ˘gimizde F = 570 oldu ˘gu görülüyor. ˙Ilgili F da ˘gılımında bu de ˘geri bulma p-de ˘geri < 0,0001’tir. Dolayısıyla modelin bütün olarak anlamlı olmadı ˘gı sıfır önsavını reddederiz.

(39)

Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Genel F Sınaması

Yukarıdaki standart F sınaması dı¸sında iste ˘ge göre kendi özel F sınamalarımızı da tasarlayabiliriz. Örnek olarak, ¸sunu sınayalım:

H0: β1=7, β2= β3 ve H1:H0geçerli de ˘gil.

Bu sıfır önsavının geçerli olması durumunda ba¸staki reklam har- camaları modelimiz de ˘gi¸sir ve a¸sa ˘gıdaki gibi olur:

Y − 7X1= β0+ β2(X2+X3) + 

Yukarıdaki β0, β2ve  de ˘gerleri artık ilk modeldekilerden farklıdır.

Sınırladı ˘gımız modeli kullanarak ¸su F istatisti ˘gini hesaplarız:

F = (KKTs− KKTsz)/m KKTsz/(n − p)

Burada s harfi “sınırlamalı”, sz ise “sınırlamasız” demektir. Ayrıca m harfi sınırlama sayısıdır ve H0’daki = i¸sareti sayısı ile aynıdır.

Görüldü ˘gü gibi, genel F sınaması için ba¸staki (sınırlamasız) mo- del ile H0uygulanmı¸s (sınırlamalı) modeli tahmin edip her ikisinin KKT de ˘gerlerini kullanırız. Tüm bunlar yine bilgisayarda yapılır.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 39 / 89

(40)

Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Önemli Açıklayıcı De ˘gi¸skenler

Çe¸sitli t ve F sınamalarına bakınca bazı X ’lerin anlamlı olma- dı ˘gını bulabiliyoruz. Bu durumda do ˘gal olarak, Y ’yi açıklamada önemli olan de ˘gi¸skenlere karar vermek isteriz.

Bunun için çok fazla sayıda modeli tek tek denemek gerekir.

Ancak bunu yapmak zordur. De ˘gi¸sken sayısı p olan bir modelde 2padet farklı alt-model kombinasyonu söz konusudur.

Seçim i¸sini hızlı ve otomatik yapmak için üç klasik yakla¸sım vardır:

˙Ileri seçim(forward selection): Yalnızca sabit terim içeren en basit modelle ba¸slanır ve KÖH de ˘gerini en çok dü¸süren de ˘gi¸skenler sırayla eklenir. KÖH’ün fazla dü¸smedi ˘gi belli bir noktada durulur.

Geri seçim(backward selection): Ba¸sta tüm de ˘gi¸skenler modele eklenir ve p-de ˘geri en yüksek olan de ˘gi¸skenler sırayla çıkartılır.

Karma seçim(mixed selection): De ˘gi¸skenler modele tek tek ekle- nir. Ancak i¸slem sırasında önceki bir de ˘gi¸skenin p-de ˘geri belli bir e¸sikten fazla yükselirse bu de ˘gi¸sken çıkartılır.

De ˘gi¸sken seçimi konusunu 6. Bölümde ayrıntılı i¸sleyece ˘giz.

(41)

Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Kestirimlerin Güvenilirli ˘gi

Bir model tahmin ederken önemli bir amacımız çe¸sitli X1,X2, . . .Xp

de ˘gerlerine kar¸sılık gelen Y de ˘gerini kestirmektir.

Ancak bu kestirimle ilgili 3 farklı belirsizlik söz konusudur:

1 βˆ0, ˆβ1, . . . , ˆβpkatsayı tahminlerindeki belirsizlik. Bunlar 2. Bö- lümde söz etti ˘gimiz azaltılabilir hatalar ile ilgilidir. Bu belirsizlik ne- deniyle katsayıgüven aralıklarıhesaplarız.

2 f (X ) fonksiyonundaki belirsizlik. Bu,model yanlılı ˘gıdedi ˘gimiz azaltılabilir hata ile ilgilidir. Burada ¸simdilik bunu yok sayalım.

3 Hata terimi ’dan kaynaklı azaltılamayan hata. Bununla ilgili olarak Y ile ˆY ’nın farkına yönelikkestirim aralıklarıhesaplarız.

Katsayı güven aralıkları, veri setindeki tüm Y de ˘gerlerine ili¸skin ortalama belirsizli ˘ge ili¸skindir. Kestirim güven aralı ˘gı ise tek bir Y kestirim de ˘gerine ait belirsizli ˘gi gösterir.

Bu yüzden kestirim aralıkları, güven aralıklarından daha geni¸stir.

Örneklem ortalamasından uzakla¸stıkça kestirim aralı ˘gı geni¸sler.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 41 / 89

(42)

Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler

Ders Planı

1 Basit Do ˘grusal Regresyon

Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi

2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler

Çoklu regresyonun uzantıları

3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler

Çoklue¸sdo ˘grusallık

4 K-Enyakın Kom¸su Regresyonu

(43)

Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler

Nitel De ˘gi¸skenler

Bir nicelik yerine sınıflandırma gösteren nitel (qualitative) de ˘gi¸s- kenlerden önceki bölümde söz etmi¸stik.

Regresyon çözümlemesi uygulamalarında X de ˘gi¸skenleri yalnızca nicel de ˘gil, nitel de olabilir.

Örnek olarak, kredi kartı veri setini ele alalım. Bu veri setinde cin- siyet, ırk, medeni durum ve e ˘gitim düzeyi ¸seklinde dört farklı nitel de ˘gi¸sken bulunmaktadır.

Bunların birbirleriyle ve di ˘ger nicel de ˘gi¸skenlerle olan ili¸skisi ¸Sekil 5’teserpilim çizimi matriksi(scatter plot matrix) olarak verilmi¸stir.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 43 / 89

(44)

Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler

Kredi Kartı Verileri

Borç

20406080100 5 10 15 20 2000 8000 14000

05001500

20406080100

Yaş

Kart sayısı

2468

5101520

Eğ�t�m

Gel�r

50100150

2000800014000

L�m�t

0500 1500 24 6 8 50100 150 200 600 1000

2006001000

Derece

¸

Sekil 5:Kredi kartı veri setindeki de ˘gi¸skenlere ait serpilim çizimi matriksi

(45)

Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler

˙Iki Düzeyden Olu¸san X De˘gi¸skeni

Basit bir örnek olarak, erkek ve kadınlar arasındaki kredi kartı borcu farkını incelemek istedi ˘gimizi dü¸sünelim.

Bunun için yalnızca iki de ˘ger alabilen basit birgösterge(indicator) de ˘gi¸skeni ya dakukla(dummy) de ˘gi¸sken olu¸stururuz:

xi =

(1 e ˘ger i’inci ki¸si kadınsa 0 e ˘ger i’inci ki¸si erkekse Daha sonra bu de ˘gi¸skeni regresyonumuzda kullanırız:

yi = β0+ β1xi+ i =

0+ β1+ i e ˘ger i’inci ki¸si kadınsa β0+ i e ˘ger i’inci ki¸si erkekse Bu modelde β0 de ˘geri erkeklerdeki ortalama kredi kartı borcunu gösterir. β0+ β1ise kadınlar için ortalama borçtur.

Dolayısıyla β1burada kadınların erkeklere göre borçfarkıolur.

Kime 0 ya da 1 de ˘geri verdi ˘gimiz sonucu de ˘gi¸stirmez. E ˘ger erkek- lere 1 dersek bu sefer β1erkeklerin kadınlara göre farkını verir.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 45 / 89

(46)

Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler

Kukla De ˘gi¸skende −1, 1 Kodlaması

Kukla de ˘gi¸skenlere 0 ve 1 de ˘gerleri vermek yerine −1 ve 1 de ˘ger- lerini de kullanabiliriz:

xi =

( 1 e ˘ger i’inci ki¸si kadınsa

−1 e ˘ger i’inci ki¸si erkekse Yeni durumda model belirtimi a¸sa ˘gıdaki gibi olur:

yi = β0+ β1xi+ i =

0+ β1+ i e ˘ger i’inci ki¸si kadınsa β0− β1+ i e ˘ger i’inci ki¸si erkekse Burada β0parametresi kadın/erkek ayrımı yapılmaksızın ortalama kart borcudur. β1ise kadınların bu ortalamanın ne kadar üstünde ve erkeklerin de ortalamanın ne kadar altında oldu ˘gunu verir.

Bu modelin sonuçları önceki model ile aynı çıkar. Aradaki tek fark yorumdadır.

Öte yandan, uygulamada kukla de ˘gi¸skenleri 0 ve 1 ¸seklinde kod- lamak daha yaygındır.

(47)

Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler

˙Ikiden Fazla Sınıftan Olu¸san X De˘gi¸skeni

Sınıf sayısı ikiden çoksa daha fazla kukla de ˘gi¸sken kullanırız:

xi1 =

(1 e ˘ger i’inci ki¸si Asyalıysa 0 e ˘ger i’inci ki¸si Asyalı de ˘gilse xi2=

(1 e ˘ger i’inci ki¸si beyazsa 0 e ˘ger i’inci ki¸si beyaz de ˘gilse Böylece, model a¸sa ˘gıdaki gibi olur:

yi = β0+ β1xi1+ β2xi2+ i =





β0+ β1+ i i’inci ki¸si Asyalıysa β0+ β2+ i i’inci ki¸si beyazsa β0+ i i’inci ki¸si zenciyse Her zaman sınıf sayısından bir eksik kukla de ˘gi¸sken olmalıdır.

Kuklası olmayan sınıfatemelya dakar¸sıla¸stırmasınıfı denir.

Bu modelde β1, Asyalıların zencilere göre borç farkını, β2 ise be- yazların yine zencilere göre borç farkını gösterir.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 47 / 89

(48)

Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler

Kukla De ˘gi¸skenlerin Yorumlanması

Kredi kartı borçlarını etnik kökene göre inceleyen regresyon tah- minleri a¸sa ˘gıdaki gibidir:

De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri Sabit terim 531,00 46,32 11,464 <0,0001

Asyalı −18,69 65,02 −0,287 0,7740

Beyaz −12,50 56,68 −0,221 0,8260

Çizelge 5:Kredi kartı borcu ile etnik köken çoklu regresyonu

Çizelgede taban sınıf olan zenciler için ortalama kredi kartı borcu 531 dolardır. Bu miktar Asyalılar için 18,69 dolar, beyazlar için ise 12,50 dolar daha dü¸sük bulunmu¸stur.

Ancak Asyalılar ve beyazlara ait katsayılerın p-de ˘gerleri yüksektir.

Bu durumda üç grup arasında anlamlı bir fark yoktur diyebiliriz.

Öte yandan katsayılar ve p-de ˘gerleri kuklaların nasıl belirlendi-

˘gine de ba ˘glıdır. Dolayısıyla, bu konuda kesin karar vermek için H0: β1= β2=0 ¸seklinde bir F sınaması yapmak uygun olur.

(49)

Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları

Ders Planı

1 Basit Do ˘grusal Regresyon

Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi

2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler

Çoklu regresyonun uzantıları

3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler

Çoklue¸sdo ˘grusallık

4 K-Enyakın Kom¸su Regresyonu

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 49 / 89

(50)

Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları

Toplanırlık ve Do ˘grusallık Varsayımları

Do ˘grusal regresyon modeli yorumlaması oldukça kolay ve çıkar- sama için de yararlı sonuçlar üretir.

Ancak bunu genellikle uygulamada geçerli olmayan iki kısıtlayıcı varsayım pahasına yapar:

1 Y ve X ’ler arasındatoplanır(additive) bir ili¸ski vardır.

2 Y ve X ’ler arasındado ˘grusal(linear) bir ili¸ski vardır.

Toplanır ili¸ski, belli bir Xj’nin Y üzerindeki etkisinin di ˘ger X ’lerden ba ˘gımsız olması anlamına gelir.

Do ˘grusal ili¸ski ise Xj’deki bir birim de ˘gi¸sikli ˘gin Y ’ye etkisinin hep sabit olması, Xj’nin büyüklü ˘günden etkilenmemesi demektir.

¸

Simdi, bu iki varsayımı nasıl gev¸setebilece ˘gimizi kısaca tartı¸salım.

(51)

Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları

Etkile¸sim Terimi

˙Ilk olarak, toplanırlık varsayımını ele alalım. A¸sa˘gıdaki üç de˘gi¸s- kenli modeli inceleyelim:

Y = β0+ β1X1+ β2X2+ 

Burada X1e ˘ger 1 birim artarsa Y de ortalama β1birim artmakta- dır. Öte yandan bu etki X2’den ba ˘gımsızdır. X2 sıfır da olsa, yük- sek bir de ˘ger de alsa etki sabittir.

Bu durum gerçek ya¸samda geçerli olmayabilir. Örnek olarak, TV reklamının etkisi radyo reklamının varlı ˘gıyla güçlenebilir. Pazarla- mada bunasinerji(synergy) etkisi denilmektedir.

Bu etkiyi dikkate almanın bir yolu yeni bir de ˘gi¸sken eklemektir:

Y = β0+ β1X1+ β2X2+ β3X1X2+ 

Burada β3’eetkile¸sim terimi (interaction term) denir. Adından da anla¸sıldı ˘gın gibi bu terim X1ve X2arasındaki etkile¸simi ölçer.

Yeni de ˘gi¸skeni X1ile X2’yi çarparak bizim olu¸sturdu ˘gumuza dikkat ediniz.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 51 / 89

(52)

Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları

Etkile¸sim Teriminin Yorumu (1)

Etkile¸sim terimini anlamak için reklam örne ˘gimize geri dönelim:

Satı¸s = β0+ β1TV + β2Radyo + β3(TV × Radyo) +  Yukarıdaki modeli yorumlamayı kolayla¸stırmak amacıyla iki farklı

¸sekilde yeniden yazabiliriz:

Satı¸s = β0+ (β1+ β3× Radyo)TV + β2Radyo +  Satı¸s = β0+ (β2+ β3× TV) Radyo + β1TV + 

Görüldü ˘gü gibi, etkile¸sim terimi içeren modelde TV reklamının sa- tı¸slara etkisi artık β1+ β3× Radyo harcaması kadardır.

Benzer ¸sekilde radyo reklamının etkisi de β2 + β3 × TV reklam harcamasına ba ˘glıdır.

(53)

Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları

Etkile¸sim Teriminin Yorumu (2)

Modele ait regresyon tahmin sonuçları a¸sa ˘gıda verilmi¸stir:

De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri

Sabit terim 6,7502 0,248 27,23 <0,0001

TV 0,0191 0,002 12,70 <0,0001

Radyo 0,0289 0,009 3,24 0,0014

TV×Radyo 0,0011 0,000 20,73 <0,0001

Çizelge 6:Satı¸slar ile TV ve radyo reklamları etkile¸simli regresyonu Yukarıda etkile¸sim teriminin anlamlı oldu ˘gu görülmektedir. Ayrıca etkile¸simin eklenmesiyle R2de 0,897’den 0,968’e yükselmi¸stir.

Burada artık bir reklam türünün etkisi di ˘gerinin miktarına ba ˘glıdır.

Örnek olarak, radyo reklam harcaması 1000 dolar iken 1000 do- larlık TV reklamının satı¸slara etkisi 19,1 + 1,1 × 1 = 20,2 adettir.

Radyo reklamı 5000 dolar oldu ˘gunda ise aynı 1000 dolarlık TV reklamının etkisi artarak 19,1 + 1,1 × 5 = 24,6’ya yükselir.

Radyo reklamlarının etkisi de buna benzer ¸sekilde hesaplanır.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 53 / 89

(54)

Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları

Kukla Etkile¸sim Terimi (1)

Etkile¸sim terimlerini kukla de ˘gi¸skenlerle de kolayca kullanabiliriz.

Örnek olarak, kredi kartı borcunun gelire ve ö ˘grenci olma niteli-

˘gine göre regresyonu etkile¸sim terimiyle birlikte ¸söyle modellenir:

Borç = β0+ β1Gelir + β2Ö ˘grenci + β3(Gelir × Ö ˘grenci) +  Bu durumda a¸sa ˘gıdaki regresyon tahmin edilmi¸s olur:

Borç =

((β0+ β2) + (β1+ β3)Gelir e ˘ger ö ˘grenci ise β0+ β1Gelir e ˘ger ö ˘grenci de ˘gilse Yukarıda β2, ikinci do ˘grunun (ö ˘grenci olmanın) sabit terim farkı olarak yorumlanır. β3ise ikinci do ˘grunune ˘gim farkıolur.

Dolayısıyla aslında iki ayrı regresyon do ˘grusu tahmin etti ˘gimize dikkat ediniz. Bunlar ¸Sekil 6’da gösterilmi¸stir.

(55)

Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları

Kukla Etkile¸sim Terimi (2)

0 50 100 150

20060010001400

Gelir

Borç

öğrenci öğrenci değil

¸

Sekil 6:Kredi borcunun gelire ve ö ˘grenci olma niteli ˘gine göre regresyonları

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 55 / 89

(56)

Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları

Polinom Regresyonu (1)

Do ˘grusallık varsayımının uygulamada regresyon modelleri için bir kısıtlama olu¸sturdu ˘gunu yukarıda söylemi¸stik.

Do ˘grusal-dı¸sı ili¸skileri dikkate almanın basit bir yolupolinom reg- resyon(polynomial regression) modelidir.

Örnek olarak, yakıt tüketimi ile motor gücünü a¸sa ˘gıdaki gibi ikinci derece bir polinom regresyonuna yakı¸stırabiliriz:

Yakıt tüketimi = β0+ β1Güç + β2Güç2+ 

Daha yüksek derece polinom regresyonları da buna benzerdir:

Yakıt tüketimi = β0+ β1Güç + β2Güç2+ · · · + βp Güçp+  Bu modellerde regresyon çizgisi bir do ˘gru de ˘gil, e ˘gri ¸seklindedir.

Dolayısıyla X ’in Y ’ye etkisi X ’in büyüklü ˘güne göre de ˘gi¸sir.

Otomobil veri seti kullanılarak tahmin edilmi¸s do ˘grusal model ile 2. derece ve 5. derece polinom modelleri ¸Sekil 7’deki gibidir.

(57)

Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları

Polinom Regresyonu (2)

¸

Sekilde 2. derece polinom regresyonunun verilere iyi yakı¸stı ˘gı, 5.

derece polinomun ise gereksiz derecede kıvrımlı oldu ˘gu görül- mektedir. Dolayısıyla esneklik seçimi burada da önemlidir.

50 100 150 200

1020304050

Beygir gücü

Galon başına mil

Doğrusal 2. derece 5. derece

¸

Sekil 7:Yakıt tüketimi ile motor gücüne ili¸skin polinom regresyonlar

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 57 / 89

(58)

Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Ders Planı

1 Basit Do ˘grusal Regresyon

Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi

2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler

Çoklu regresyonun uzantıları

3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler

Çoklue¸sdo ˘grusallık

4 K-Enyakın Kom¸su Regresyonu

(59)

Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Uygulamada Kar¸sıla¸sılan Sorunlar

Bir veri setine regresyon modeli yakı¸stırdı ˘gımız zaman çe¸sitli so- runlarla kar¸sıla¸sabiliriz. Bunların ba¸slıcaları ¸sunlardır:

1 Modelleme hatası

2 Hata teriminde korelasyon

3 Hata teriminde farklıserpilimsellik

4 Dı¸sadü¸senler

5 E¸sdo ˘grusallık

Yukarıdaki hataları saptamak ve düzeltmek oldukça ayrıntılı ba¸s- lıklardır. Bu konularda yazılmı¸s birçok kitap bulunmaktadır.

Burada biz uygulamada kar¸sıla¸sılan olası sorunları kısa ve öz bir

¸sekilde ele alaca ˘gız.

Modelleme hatası ile ba¸slayalım.

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 59 / 89

(60)

Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Modelleme Sorunu (1)

Regresyon yönteminde modelleme sorunu genellikle do ˘grusal- dı¸sı ili¸skiler modelde dikkate alınmadı ˘gı zaman ortaya çıkar.

Bu durumda tüm tahminler ku¸skulu duruma dü¸ser ve modelin kes- tirim gücü de ciddi oranda azalabilir.

Do ˘grusal-dı¸sı ili¸skileri saptamanın iyi bir yolu de ˘gi¸skenleri ya da kalıntıları ¸sekil üzerinde incelemektir.

Bu amaçla regresyon kalıntıları ile yakı¸stırılan ˆyi de ˘gerlerinin çizi- mine bakılır. Ayrıca farklı X ’lerin Y ’ye kar¸sı çizimleri de yararlıdır.

E ˘ger görsel incelemede do ˘grusal-dı¸sı ili¸ski bulunursa de ˘gi¸skenler üzerinde log(X ), √

X gibi dönü¸stürmeler yapılabilir ya da X2 gibi yeni de ˘gi¸skenler modele eklenebilir.

Örnek olarak, otomobil veri setindeki yakıt tüketimi ve motor gücü regresyonuna ili¸skin kalıntılar ile yakı¸stırılan de ˘gerler ¸Sekil 8’de gösterilmi¸stir.

(61)

Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Modelleme Sorunu (2)

Sol paneldeki do ˘grusal modele ait kalıntılar güçlü bir do ˘grusal- dı¸sı örüntü göstermektedir. Modele X2eklenerek elde edilen sa ˘g paneldeki polinom modelde ise sorun büyük oranda düzelmi¸stir.

5 10 15 20 25 30

−15−10−505101520

Yakıştırılan değerler

Kalıntılar

Doğrusal Yakıştırmaya ait Kalıntılar

330323 334

15 20 25 30 35

−15−10−5051015

Yakıştırılan değerler

Kalıntılar

334 323

155

2. Derece Polinom Yakıştırmasına ait Kalıntılar

¸

Sekil 8:Do ˘grusal ve polinom regresyonlara ait kalıntı çizimleri

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 61 / 89

Referanslar

Benzer Belgeler

Bu matrisin birinci satırı a 0 katsayısı için, ikinci satırı ise a 1 katsayısı için bir tahmin olup regresyon tahmin modelinde aranan katsayılardır.. Regresyon

Belirlilik katsayısı ise gözlemlerin eğriye ne kadar yakın olduğunu, diğer bir deyişle örneklem regresyon eğrisinin veriye ne kadar iyi uyduğunu gösteren özet

Grafik olarak bu model aynı başlangıç noktaları fakat farklı eğimler

Bağımsız değişkenler arasında çoklu bağlantılılık olmadığı, ya da yok sayılacak kadar önemsiz olduğundan emin olunmalıdır. Bunun için bazı istatistiksel

Kolaylık olması bakımından bu örneği k=1 (Basit Doğrusal Regresyon) modeli için çözelim.. Aşağıdaki teoremlerde X matrisinin sabitlerden oluşan ve tam ranklı olduğu

Cauchy integral formülü

Daha sonra modellerin azaltılmış ortalama mutlak yüzdesel hatalarına göre sıralanarak en düşük hatalaya sahip değerler ile yapılan tahmin sonuçları ele

Test veri kümesi ile tahmin veri kümesi arasındaki hata oranı Kaplama Alanı çıktı değeri için Tablo 6.2.’deki gibi elde edilmiştir.. Kaplama alanı değerlerinin