Do ˘grusal Regresyon
A. Talha Yalta
TOBB Ekonomi ve Teknoloji Üniversitesi
˙IKT-457 Ekonomi ve Finans ˙Için Yapay Zeka 1 Sürüm 0,93
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 1 / 89
Açık Lisans Bilgisi
Bu belge “Creative Commons Attribution-ShareAlike 3.0 Un- ported” (CC BY-SA 3.0) lisansı altında bir açık ders malzemesi olarak genel kullanıma sunulmu¸stur. Bazı ¸sekiller “An Intro- duction to Statistical Learning, with applications in R” (Sprin- ger, 2017) kitabından yazarların izniyle alınmı¸stır. Tüm belge eserin ilk sahibinin belirtilmesi ve geçerli lisansın korunması ko¸suluyla özgürce kullanılabilir, ço ˘galtılabilir, ve de ˘gi¸stirilebi- lir. Creative Commons örgütü ve CC-BY-SA 3.0 lisansı ile il- gili ayrıntılı bilgihttps://creativecommons.orgInternet adresinde yer almaktadır. Ders notlarımın güncel sürümlerine http://yalta.etu.edu.tr adresinden ula¸sabilirsiniz.
A. Talha Yalta
TOBB Ekonomi ve Teknoloji Üniversitesi 2020 – 2021
Ders Planı
1 Basit Do ˘grusal Regresyon
Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi
2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler
Çoklu regresyonun uzantıları
3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler
Çoklue¸sdo ˘grusallık
4 K-Enyakın Kom¸su Regresyonu
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 3 / 89
Basit Do ˘grusal Regresyon
Do ˘grusal Regresyon Yöntemi
Bu bölümde denetimli ö ˘grenmeye temel olan do ˘grusal regresyon çözümlemesini ele alaca ˘gız.
Bu yöntem, daha modern araçların yanında biraz sıkıcı görünse de kolay yorumlanabilirli ˘gi nedeniyle özellikle çıkarsamada en sık kullanılan yakla¸sım olmayı sürdürmektedir.
Ayrıca di ˘ger birçok istatistiksel ö ˘grenme yakla¸sımını anlayabilmek için de iyi bir ba¸slangıç noktası olu¸sturmaktadır.
Kement, ridge, özyetinim, karar a ˘gaçları gibi birçok modern araç regresyonu kullanır.
Dolayısıyla, daha ileri yöntemlere geçmeden önce do ˘grusal reg- resyon konusunda sa ˘glam bir altyapıya sahip olmak önemlidir.
Basit Do ˘grusal Regresyon
Reklam Veri Seti
Bir önceki bölümde reklam veri setini kullanarak TV, radyo ve gazete reklamlarının satı¸slar üzerindeki etkisini incelemi¸stik.
Böyle bir çözümlemede regresyon kullanarak a¸sa ˘gıdakiler gibi birçok soruyu ele alabiliriz:
1 Reklam bütçesi ile satı¸slar arasında ili¸ski var mıdır?
2 ˙Ili¸ski varsa bu yararlı bir çözümleme yapacak kadar güçlü müdür?
3 Hangi medya aracılı ˘gıyla yapılan reklamlar satı¸slara katkı sa ˘glar?
4 Her bir medyanın katkısını ne kadar kesinlikle tahmin edebiliriz?
5 Gelece ˘ge yönelik ne kadar sa ˘glıklı tahminler yapabiliriz?
6 Reklam ile satı¸slar arasındaki ili¸skinin yapısı nedir?
7 Farklı reklam araçları birlikte daha etkili midir?
Regresyon yöntemini kullanarak bu yedi sorunun yanıtını bulabiliriz.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 5 / 89
Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Ders Planı
1 Basit Do ˘grusal Regresyon
Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi
2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler
Çoklu regresyonun uzantıları
3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler
Çoklue¸sdo ˘grusallık
4 K-Enyakın Kom¸su Regresyonu
Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Anakütle Regresyon Fonksiyonu
˙Ilk olarak, en yalın ve kolay durum olanbasit do ˘grusal regresyon (simple linear regresyon) modelini ele alalım.
Bu çözümlemede nicel bir Y de ˘gi¸skeninin tek bir X de ˘gi¸skenine verdi ˘gido ˘grusaltepkiyi inceleriz.
Önceki bölümde X ve Y arasındaki ili¸skinin Y = f (X ) + ¸seklinde oldu ˘gunu söylemi¸stik. Basit do ˘grusal regresyon için f ¸sudur:
Y = β0+ β1X +
Yukarıdaki fonksiyonaanakütle regresyon fonksiyonu(population regression function) denir.
Burada β0 ve β1 bir do ˘gruyu tanımlayan katsayılardır. β0, do ˘gru- nun y-eksenini kesti ˘gi nokta, β1ise do ˘grunun e ˘gimini gösterir.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 7 / 89
Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Örneklem Regresyon Fonksiyonu
Uygulamada β0ve β1’in gerçek de ˘gerlerini bilemedi ˘gimiz için bun- ları tahmin ederiz:
Y = ˆβ0+ ˆβ1X + ˆ
Yukarıdaki fonksiyona daörneklem regresyon fonksiyonu(sample regression function) adı verilir.
Buradaˆya da¸sapka(hat) i¸sareti tahmin anlamına gelmektedir.
Sonuç olarak, elimizde bulunan {(x1,y1), . . . ,(xn,yn)} ¸seklindeki e ˘gitim verilerini kullanarak örneklem regresyon fonksiyonunu he- saplamak istiyoruz.
βˆ0ve ˆβ1de ˘gerlerini bulursak herhangi bir xigözlemi için ˆyitahmini yapabiliriz:
yˆi= ˆβ0+ ˆβ1xi
Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Sıradan Enküçük Kareler (1)
Örnek olarak, TV reklam harcamalarının satı¸s üzerindeki etkisine bakmak istedi ˘gimizi dü¸sünelim. Reklam veri setinde buna yönelik n = 200 adet gözlem bulunmaktadır.
Bunları kullanarak ˆβ0ve ˆβ1’yı öyle hesaplamalıyız ki buldu ˘gumuz do ˘gru elimizdeki 200 noktaya olabildi ˘gince yakın olsun.
Bir noktanın do ˘gruya yakınlı ˘gını ölçmenin çe¸sitli yolları vardır.
Ancak uygulamada açık ara en yaygın olan yöntem sıradan en- küçük kareler (ordinary least squares) ya da kısaca SEK(OLS) yakla¸sımıdır.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 9 / 89
Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Sıradan Enküçük Kareler (2)
SEK yöntemini anlamak için herhangi iki ˆβ0 ve ˆβ1 de ˘geri alalım.
Bunları kullanarak ˆyi= ˆβ0+ ˆβ1xi noktalarını tahmin etmi¸s olalım.
Burada her bir i gözlemi için yaptı ˘gımız hata ¸su olur:
i =yi− ˆyi
Yukarıdaki (epsilon) harfinehata(error) ya da kalıntı(residual) denir. Gözlenen y ile tahmin edilen ˆy arasındaki farktır.
Tüm gözlemlere ait ’ları kullanarakkalıntı kareleri toplamı (resi- dual sum of squares) ya da kısacaKKT(RSS) de ˘gerini buluruz:
KKT = 21+ 22+ · · · + 2n
˙I¸ste, SEK yöntemi elimizdeki verilere en iyi yakı¸san do˘gruyu bul- mak için KKT de ˘gerini minimize eder.
Bu minimizasyon i¸slemi do ˘grusal cebir ve kalkülüs kullanılarak yapılır ve bu dersin konusu dı¸sındadır. ˆβ0 ve ˆβ1 tahminleri gü- nümüzde bilgisayarlar tarafından kolayca hesaplanmaktadır.
Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Sıradan Enküçük Kareler (3)
0 50 100 150 200 250 300
510152025
TV reklam harcamaları
Satışlar
¸
Sekil 1:Satı¸slar ile TV reklam harcamalarının ikili SEK regresyonu
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 11 / 89
Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Sıradan Enküçük Kareler (4)
TV reklam harcamalarının satı¸slar üzerindeki etkisine yönelik ba- sit do ˘grusal regresyon tahmini ¸Sekil 1’de gösterilmi¸stir.
¸
Sekildeki kırmızı noktalar gözlemler, mavi çizgi ise tahmin edilen regresyon do ˘grusudur.
SEK yöntemiyle hesaplanan do ˘grunun dikey kesme noktası ˆβ0= 7,03 ve e ˘gimi de ˆβ1=0,0475 olarak bulunmu¸stur.
Bu sonuçları de ˘gi¸skenlerin birimine bakarak yorumlamalıyız. Veri setinde harcamalar 1000 dolar, satı¸slar ise 1000 adet ¸seklindedir.
Dolayısıyla ˆβ1katsayısını ¸söyle yorumlarız: TV reklamı için yapı- lan her 1000 dolarlık harcama satı¸sları yakla¸sık 0,0475 × 1000 = 47,5 adet artırmaktadır.
βˆ0’ı ise ¸söyle yorumlarız: Hiç reklam yapılmaması durumda yak- la¸sık 7,03 × 1000 = 7030 adet satı¸s beklenmektedir.
Farklı ˆβ0 ve ˆβ1 kombinasyonları için hesaplanan KKT de ˘gerleri
¸
Sekil 2’de verilmi¸stir.
Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Sıradan Enküçük Kareler (5)
¸
Sekilde hem sol hem de sa ˘g paneli inceledi ˘gimizde ˆβ0=7,03 ve βˆ1=0,0475 de ˘gerlerinin KKT’yi minimize etti ˘gini görülmektedir.
β0 β1
2.15
2.2 2.3 2.5
3 3
3 3
5 6 7 8 9
0.030.040.050.06
KKT
β1 β0
¸
Sekil 2:KKT’yi belirleyen farklı ˆβ0ve ˆβ1tahmin de ˘gerleri
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 13 / 89
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Ders Planı
1 Basit Do ˘grusal Regresyon
Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi
2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler
Çoklu regresyonun uzantıları
3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler
Çoklue¸sdo ˘grusallık
4 K-Enyakın Kom¸su Regresyonu
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Katsayıların Kesinli ˘ginin Ölçülmesi (1)
Yukarıda hesapladı ˘gımız ˆβ0 ve ˆβ1 de ˘gerlerini yorumlayabilmek için bunların ne kadar kesin oldu ˘gunu bilmek önemlidir.
Bunlar birer tahmin oldu ˘guna göre bunların gerçek de ˘geri için belli bir aralık söyleyebilmek zorundayız.
Bunun için kullandı ˘gımız standart yöntem eldeki e ˘gitim verilerini kullanarak anakütleye ili¸skin çıkarsama yapmaktır.
Bunu basit bir örnekle açıklayalım: Bir zar atma deneyi dü¸süne- lim. Burada zar 1 ile 6 arasında her de ˘geri alabilir. Öte yandan defalarca zar atarsak bunların ortalaması 3,5’e yakınsayacaktır.
Yalnızca bir ya da iki zar atarak 3,5 de ˘gerini bulamayabiliriz. An- cak yeterince büyük bir örneklem alırsak, söz gelimi 30 kez zar atarsak 3,5’e çok yakın de ˘gerler elde ederiz.
Elde edece ˘gimiz bu de ˘gerler yansız (unbiased) tahminlerdir. Di-
˘ger bir deyi¸sle, 3,5’ten biraz farklı çıkabilirler ama gerçek de ˘ger- den hep daha dü¸sük ya da hep daha yüksek olmazlar.
Ayrıca örneklem büyüdükçe de gerçek de ˘gere yakınsarlar.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 15 / 89
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Katsayıların Kesinli ˘ginin Ölçülmesi (2)
Örneklemden gelen yansız tahminlerin anakütle de ˘gerine yakın- saması olgusu regresyon ba ˘glamında da geçerlidir.
Gerçekte f ’yi bilemeyiz. Elimizde yalnızca bir tahmin olan örnek- lem regresyon fonksiyonu vardır.
Ancak tahminimizin ne kadar kesin oldu ˘gunu hem analitik hem de deneysel olarak inceleyebiliriz.
Deneysel bir örnek olarak a¸sa ˘gıdaki fonksiyonu ele alalım:
Y = 2 + 3X +
Yukarıdaki formülü kullanarak farklı rastsal X de ˘gerlerine kar¸sılık Y ’leri hesaplayabiliriz. Böylece, deneysel veri setleri üretebiliriz.
Bu ¸sekilde elde edilen örneklemlerden hesaplayaca ˘gımız yansız tahminlerde ˆβ0≈ 2 ve ˆβ1≈ 3 çıkar.
Anakütle regresyon do ˘grusu ile 10 farklı simülasyon veri setinden elde edilen örneklem tahminleri ¸Sekil 3’te verilmi¸stir.
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Katsayıların Kesinli ˘ginin Ölçülmesi (3)
Sol panelde anakütle regresyon fonksiyonu kırmızı, örneklem reg- resyon fonksiyonu ise mavi renkle çizilmi¸stir. Sa ˘gdaki 10 farklı ör- neklem regresyon fonksiyonu da benzer tahminler üretmektedir.
−2 −1 0 1 2
−10−50510
X
Y
−2 −1 0 1 2
−10−50510
X
Y
¸
Sekil 3:Anakütle regresyonu ile yansız örneklem regresyonları
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 17 / 89
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Ölçünlü Hata
Zar örne ˘gine geri dönelim. Diyelim ki 30 defa zar attık ve ortalama 3,78 çıktı. Elimizdeki bu yansız tahminin kesinlik derecesi nedir?
Bunu ö ˘grenmek için buldu ˘gumuz tahmine aitölçünlü hata (stan- dard error) ya da kısacaÖH(SE) de ˘gerini hesaplarız:
ÖH(ˆµ)2=var(ˆµ) =σ2 n
Yukarıda var, varyans ve ˆµda tahmin edilen ortalama demektir.
En sa ˘gdaki σ ise her bir gözlemin ortalama de ˘gerden ne kadar saptı ˘gını gösterenölçünlü sapma(standard deviation) de ˘geridir.
Örneklem büyüklü ˘gü (n) arttıkça ÖH’nin azaldı ˘gına dikkat ediniz.
ÖH de ˘geri bize ortalama bir tahminin gerçek de ˘gerden kaç bi- rim saptı ˘gı bilgisini verir. Bu yakla¸sımı kullanarak regresyon için ÖH( ˆβ0) ve ÖH( ˆβ1) de ˘gerlerini de kolayca bulabiliriz.
Gerçekte anakütleye ait σ de ˘geri bilinmez, ancak bu da tahmin edilebilir. Böylece, elimizde dÖH( ˆβ0) ve dÖH( ˆβ1) tahminleri olur.
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Güven Aralıkları
Ölçünlü hataları kullanarak bir katsayı tahminine aitgüven aralı ˘gı (confidence interval) olu¸sturabiliriz.
Örnek olarak, β0ve β1için %95 güven aralı ˘gı yakla¸sık ¸söyledir:
β0≈ ˆβ0± 2 × dÖH( ˆβ0) ve β1≈ ˆβ1± 2 × dÖH( ˆβ1)
TV reklamı örne ˘gimize dönelim. Bu regresyonda dÖH( ˆβ0)=0,4578 ve dÖH( ˆβ1)=0,0027 bulunmu¸stur.
Buna göre %95 güven aralıkları a¸sa ˘gıdaki gibi hesaplanır:
[6,130 ≤ β0≤ 7,935] ve [0,042 ≤ β1≤ 0,053]
Bu güven aralıklarının yorumu ¸söyledir: E ˘ger farklı test veri set- leri olu¸sturur ve regressionu tekrar tekrar hesaplayacak olursak bulaca ˘gımız 100 tahminden 95’inin bu aralıkta olmasını bekleriz.
Dolayısıyla gerçek de ˘geri de %95 olasılıkla bu aralıkta bekliyoruz.
Uygulamada en çok %95 güven aralıkları kullanılır ancak %90 ve
%99 aralıkları da yaygındır. Bunların yorumu da benzerdir.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 19 / 89
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Önsav Sınamaları (1)
Ölçünlü hataları kullanarak herhangi bir β katsayısı üzerinde ön- sav sınamaları da yapabiliriz.
Bunun için öncelikle bir H0 sıfır önsavı (null hypothesis) ile H1 alma¸sık önsav(alternative hypothesis) belirtiriz. Örnek olarak:
H0: β = β∗ ve H1: β 6= β∗
Bu sınamada amacımız β için yaptı ˘gımız ˆβtahmininin β∗’danan- lamlı (significant) derecede uzak olup olmadı ˘gı bulmaktır. Di ˘ger bir deyi¸sle, β = β∗ olmadı ˘gını güvenle söyleyebilir miyiz?
Bunun için a¸sa ˘gıdaki test istatisti ˘gini hesaplarız:
t = β − βˆ ∗ dÖH( ˆβ)
H0’ın geçerli olması durumunda yukarıdaki test istatisti ˘gi n − 2 serbestlik derecesi(degree of freedom) ile t da ˘gılımına uyar.
Bulunan de ˘gerin ilgili da ˘gılımdan gelme olasılı ˘gını bilgisayar ile hesaplayabilir ve böylece, H0’ı ret edebilir ya da etmeyebiliriz.
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Önsav Sınamaları (2)
Örnek olarak, TV reklamı örne ˘gimizdeki ˆβ1’nın sıfırdan anlamlı derecede uzak olup olmadı ˘gını sınamak istedi ˘gimizi dü¸sünelim:
H0: β1=0 ve H1: β16= 0
βˆ1 =0,0475 ve dÖH( ˆβ1) = 0,0027 buldu ˘gumuzu daha önce söy- lemi¸stik. Bu durumda test istatisti ˘gi ¸sudur:
t = 0,0475 − 0
0,0027 =17,59
Bilgisayar bize 17,59 de ˘gerinin ilgili t da ˘gılımından gelme olasılı-
˘gının onbinde birden küçük oldu ˘gunu söyleyecektir.
Dolayısıyla anakütledeki gerçek β1 de ˘gerinin 0 olmadı ˘gı konu- sunda yüksek bir kesinlikle çıkarımda bulunabiliriz.
Burada yaptı ˘gımız ¸sey tek bir β parametresine ili¸skin t sınama- sıdır. Bunun dı¸sında birçok farklı önsav sınaması vardır. Bunları daha sonra yeri geldikçe tartı¸saca ˘gız.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 21 / 89
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
˙Ikili Regresyon Bilgisayar Çıktısı
Yukarıda gördü ˘gümüz regresyon katsayı tahminleri ve önsav sı- namaları bilgisayarlar tarafından kolayca hesaplanmaktadır.
TV reklamı regresyonumuza ait bilgisayar çıktısı ¸söyledir:
De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri Sabit terim 7,0325 0,4578 15,36 < 0,0001
TV reklamı 0,0475 0,0027 17,59 < 0,0001
Çizelgede sa ˘gdaki ilk iki sütunda ˆβ0 ve ˆβ1katsayıları ile bunların ölçünlü hataları görülmektedir.
Son iki sütunda ise az önce β1 için yaptı ˘gımız H0 : β = 0 ve H1: β 6=0 ¸seklindeki t-sınaması sonuçları ile bunların p-de ˘gerleri verilmi¸stir. TV reklamı için 17.59 de ˘gerini biz de hesaplamı¸stık.
Tipik bir regresyon çıktısında bu sınama otomatik yapılarak her bir katsayının sıfırdan anlamlı derecede uzak olup olmadı ˘gı ölçülür.
Kesinlik de ˘gerlendirmesi için genellikle yüzde 95 güven düzeyi kullanılır. Bu düzeyde anlamlılık kararı verebilmek için p-de ˘gerinin 0,05’ten küçük olmasına bakılır.
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Modelin Kesinli ˘ginin Ölçülmesi
Model katsayılarının nasıl yorumladı ˘gını ve kesinliklerinin nasıl öl- çüldü ˘günü yukarıda gördük.
Katsayıları de ˘gerlendirdikten sonra tahmin etti ˘gimiz modelin ge- nel olarak verilere ne derece yakı¸stı ˘gını da bilmek isteriz.
Bu amaçla kullandı ˘gımız temel ölçütlerkalıntı ölçünlü hatası (re- sidual standard error), R2istatisti ˘gi ve F -istatisti ˘gidir.
TV reklamları örne ˘gimiz için bu de ˘gerler Çizelge 1’deki gibidir:
˙Istatistik De ˘ger
Kalıntı ölçünlü hatası 3,260
R2 0,612
F -istatisti ˘gi 312,100
Çizelge 1:Satı¸slar ve TV reklamları regresyonuna ait özet istatistikler
¸
Simdi yukarıdakilerden ilk ikisine bakaca ˘gız. F -istatisti ˘gi’ni ise çoklu regresyon bölümünde tartı¸saca ˘gız.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 23 / 89
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Kalıntı Ölçünlü Hatası
Kalıntı ölçünlü hatası(residual standard error) ya da kısacaKÖH (RSE), yi tepki de ˘gerlerinin regresyon do ˘grusundan ortalama kaç birim saptı ˘gını ölçer.
KÖH’ü bulmak için hata terimi ’un ölçünlü sapmasını hesaplarız:
KÖH =
r 1
n − 2KKT = v u u t
1 n − 2
n
X
i=1
(yi − ˆyi)2
Örnek olarak, TV reklamı örne ˘gimizde her bir gözlemin regresyon do ˘grusundan ortalama 3,260 adet saptı ˘gını görüyoruz.
Bunun kabul edilebilir bir de ˘ger olup olmadı ˘gı duruma göre de ˘gi-
¸sir. Bu veri setinde ortalama satı¸s 14,000 adet oldu ˘gu için mode- limizdeki gözlemler 3,260/14,000 = %23 sapma göstermi¸stir.
Görüldü ˘gü gibi, KÖH aslında yakı¸smanın iyili ˘gini de ˘gil, yakı¸sma eksikli ˘gini göstermektedir ve birim ölçe ˘gindedir.
Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Belirleme Katsayısı
Yakı¸smanın iyili ˘gine yönelik ikinci ölçütbelirleme katsayısı(coef- ficient of determination) ya da kısaca R2istatisti ˘gidir.
R2’yi yorumlamak daha kolaydır çünkü yakı¸smayı 0 ve 1 aralı-
˘gında bir oran olarak ölçer:
R2= TKT − KKT
TKT =1 − KKT TKT
BuradaTKT(TSS),toplam kareleri toplamı(total sum of squares) anlamındadır. Tepki de ˘gi¸skeni Y ’deki ortalama de ˘gi¸skenli ˘gi verir:
TKT =X
(yi− ¯y )2
KKT, kalıntılardan kaynaklanan ve regresyon tarafından açıklana- mayan de ˘gi¸skenliktir. Dolayısıyla TKT−KKT de regresyonun açık- ladı ˘gı de ˘gi¸skenli ˘gi anlatır. ˙I¸ste, bunun toplama oranı da R2olur.
Örne ˘gimizde R2=0,61 çıkmı¸stır. Bunu ¸söyle yorumlarız: Regres- yon do ˘grusu Y ’deki de ˘gi¸sikli ˘gi yüzde 61 oranında açıklamaktadır.
Geriye kalan yüzde 39 ise di ˘ger etmenlerden kaynaklıdır.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 25 / 89
Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Ders Planı
1 Basit Do ˘grusal Regresyon
Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi
2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler
Çoklu regresyonun uzantıları
3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler
Çoklue¸sdo ˘grusallık
4 K-Enyakın Kom¸su Regresyonu
Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Çoklu Do ˘grusal Regresyon (1)
Veri çözümlemesi uygulamalarında genellikle elimizde birden fazla açıklayıcı de ˘gi¸sken olur.
Örnek olarak, reklam veri setinde TV harcamalarının yanı sıra radyo ve gazete reklam harcamaları da bulunmaktadır.
Bu de ˘gi¸skenleri de dikkate almak istedi ˘gimiz zaman tek tek ikili regresyonlar yapabiliriz. Ancak bu do ˘gru bir yakla¸sım de ˘gildir.
Üç ayrı regresyonla tek bir kestirim elde edilemez. Ayrıca ikili reg- resyonlar di ˘ger de ˘gi¸skenlerin etkisini dikkate almayarak eksik ve yanlı sonuçlar üretirler.
TV, gazete ve radyo reklam harcamalarını ayrı ayrı inceleyen ikili regresyonlar Çizelge 2’de görülmektedir.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 27 / 89
Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Çoklu Do ˘grusal Regresyon (2)
De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri
Sabit terim 7,033 0,458 15,36 < 0,0001
TV reklamı 0,048 0,003 17,59 < 0,0001
De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri
Sabit terim 9,312 0,563 16,54 < 0,0001
Radyo reklamı 0,203 0,020 9,92 < 0,0001
De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri
Sabit terim 12,351 0,621 19,88 < 0,0001
Gazete reklamı 0,055 0,017 3,30 0,0012
Çizelge 2:Satı¸slar ile TV, radyo ve gazete reklamlarının ikili regresyonları
Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Çoklu Do ˘grusal Regresyon (3)
Elimizde birden fazla X de ˘gi¸skeni oldu ˘gu zaman a¸sa ˘gıdaki gibi bir çoklu do ˘grusal regresyon(multiple linear regression) belirtiriz:
Y = β0+ β1X1+ β2X2+ · · · + βpXp+
Burada Xj’ler farklı açıklayıcı de ˘gi¸skenlerdir. Önlerindeki βj kat- sayıları ise di ˘ger tüm de ˘gi¸skenler sabitken ilgili Xj 1 birim arttı ˘gı zaman Y ’nin kaç birim de ˘gi¸sti ˘gini gösterir.
Yukarıdaki anakütle regesyonunu e ˘gitim verileri ile tahmin etmek için yine, örneklem regresyon fonksiyonunu kullanırız:
Y = ˆβ0+ ˆβ1X1+ ˆβ2X2+ · · · + ˆβpXp+ ˆ
Çoklu regresyonda da ˆβ tahminleri için SEK yöntemi kullanılır.
Buradaki karma¸sık i¸slemler bilgisayarlar tarafından kolayca yapıl- maktadır.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 29 / 89
Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Çoklu Regresyon Bilgisayar Çıktısı
Reklam örne ˘gimize dönelim. Satı¸slar ile TV, radyo ve gazete rek- lam harcamalarına ili¸skin çoklu regresyon modeli ¸söyledir:
Satı¸slar = β0+ β1TV + β2Radyo + β3Gazete + Model tahminine ili¸skin bilgisayar çıktısı Çizelge 3’te verilmi¸stir.
De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri
Sabit terim 2,939 0,3119 9,42 < 0,0001
TV reklamı 0,046 0,0014 32,81 < 0,0001
Radyo reklamı 0,189 0,0086 21,89 < 0,0001
Gazete reklamı −0,001 0,0059 −0,18 0,8599
Çizelge 3:Satı¸slar ile TV, radyo ve gazete reklamları çoklu regresyonu
Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Çoklu Regresyon Katsayılarının Yorumlanması
Çizelgedeki katsayıları de ˘gi¸skenlerin birimine göre yorumlarız. Bu veri setinde harcamalar 1000 dolar, satı¸slar 1000 adet ¸seklindedir.
Dolayısıyla TV reklamına ait ˆβ1=0,046 katsayısının yorumu ¸sudur:
Radyo ve gazete reklamısabitken, TV reklamındaki 1 birim (1000 dolar) artı¸s sonucunda satı¸slar 0,046 (×1000) adet artmaktadır.
Di ˘ger bir deyi¸sle TV reklamlarındaki her 1000 dolarlık harcama satı¸sları yakla¸sık 46 adet artırmaktadır.
Radyo ve gazete katsayılarının yorumu da benzer ¸sekildedir.
Sabit terim ˆβ0=2,939 katsayısının yorumu ise ¸söyledir: E ˘ger TV, radyo ve gazete reklam harcamalarının hepsi birden sıfır olursa yakla¸sık 2,939 × 1000 = 2939 adet satı¸s beklenmektedir.
Çoklu regresyondaki ˆβ1, ˆβ2, ˆβ3 katsayıları ikili regresyondakilere benzerdir. Öte yandan sabit terimin farklı oldu ˘guna dikkat ediniz.
Ayrıca burada gazete katsayısının p-de ˘geri 0,8599’a yükselmi¸stir.
Sonuç olarak, ikili ve çoklu regresyon birbirinden oldukça farklı sonuçlar verebilmektedir.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 31 / 89
Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu
Karı¸stırıcı De ˘gi¸sken Etkisi
Çoklu regresyonda gazete reklamı p-de ˘gerinin 0,8599 oldu ˘guna dikkat ediniz.
Bu, H0 : β3 = 0 önsav sınamasının sonuç istatisti ˘gidir. Dolayı- sıyla, β3’ün sıfırdan anlamlı derecede uzak olmadı ˘gını gösterir.
Bunun nedeni ise bu örnekte radyo ve gazete reklamlarının yük- sek korelasyona sahip olmasıdır. ˙Ikili regresyon bu ili¸skiyi dikkate almadı ˘gı için daha önce gazete reklamları anlamlı çıkmı¸stı.
Buna benzer durumlar uygulamada sıkça kar¸sımıza çıkar.
Tipik bir örnek olarak, yazın kumsalda dondurma satı¸sları ile kö- pekbalı ˘gı saldırıları arasında güçlü ve anlamlı bir ili¸ski bulabiliriz.
Bu hatalı sonucun nedeni hava sıcaklı ˘gının dikkate alınmamı¸s olmasıdır. Burada hava sıcaklı ˘gınakarı¸stırıcı de ˘gi¸sken(confoun- ding variable) denir. Bunu dikkate alınca sonuçlar düzelir.
Karı¸stırıcı de ˘gi¸skenler modellemede son derece önemlidir. Yapay zeka bu konuda zorlanır.
Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Ders Planı
1 Basit Do ˘grusal Regresyon
Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi
2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler
Çoklu regresyonun uzantıları
3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler
Çoklue¸sdo ˘grusallık
4 K-Enyakın Kom¸su Regresyonu
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 33 / 89
Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Çoklu Regresyonda Çıkarsama
Bir regresyon modelini tahmin edip katsayıları yorumlamak kolay i¸stir. Asıl önemli olan, elde yorumlamaya de ˘ger bir sonuç olup ol- madı ˘gını bilebilmektir.
Bu do ˘grultuda a¸sa ˘gıdaki dört temel soruya yanıt ararız:
1 Veriler modele ne kadar iyi yakı¸smı¸stır?
2 Model bir bütün olarak olarak anlamlı mıdır?
3 Y ’yi açıklayan önemli X de ˘gi¸skenleri neleridir?
4 Elde etti ˘gimiz kestirimler ne kadar güvenilirdir?
Gelin, ¸simdi de bu konulara kısaca de ˘ginelim.
Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Çoklu Regresyonda Yakı¸smanın ˙Iyili ˘gi
En temel yakı¸smanın iyili ˘gi ölçütleri olan R2ve kalıntı ölçünlü ha- tasından ba¸sta söz etmi¸stik.
Bunların hesaplanı¸sı ve yorumu ikili regresyondaki gibidir. Çoklu regresyon örne ˘gimiz için a¸sa ˘gıdaki çizelgeye bakalım:
˙Istatistik De ˘ger
Kalıntı ölçünlü hatası 1,690
R2 0,897
F -istatisti ˘gi 570,000
Çizelge 4:Satı¸s ve reklamlar çoklu regresyonu, özet istatistikler
˙Ilk olarak, KÖH de ˘gerinin 1,690 çıktı ˘gını görüyoruz. Buna göre modelin tahmin etti ˘gi satı¸slar ortalama olarak, gözlenen satı¸slar- dan 1,690 birim (1690 adet) sapmaktadır.
TV ikili regresyonunda bu 3,260 idi. Burada yakı¸sma iyile¸smi¸stir.
Ancak katsayısı anlamlı çıkmayan gazeteyi modelden atarsak KÖH, 1,681 olmaktadır. Buna göre gazetenin yakı¸smaya katkısı yoktur.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 35 / 89
Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Ayarlamalı R-Kare
R2’ye de bakalım. Çoklu regresyonda R2=0,897 bulunmu¸stur.
Buna göre TV, radyo ve gazete reklam harcamalarını içeren mo- del satı¸slardaki de ˘gi¸simi yüzde 89,7 düzeyinde açıklamaktadır.
Ba¸staki ikili regresyonunda R2=0,612 idi. Dolayısıyla, daha fazla de ˘gi¸skeni dikkate alan çoklu regresyonda yakı¸sma artmı¸stır.
Öte yandan R2, modeldeki de ˘gi¸sken sayısına kar¸sı hassastır. Yeni de ˘gi¸sken eklendikçe bunların açıklama gücü yoksa bile R2artar.
Bu nedenle, tek açıklayıcı de ˘gi¸skeni olan ba¸staki model ile üç açıklayıcı de ˘gi¸skeni olan yeni modeldeki R2’leri kar¸sıla¸stıramayız.
Böyle durumlarda kar¸sıla¸stırılabilir olan istatistikayarlamalı R-kare (adjusted R-squared) ya da kısaca ¯R2de ˘geridir.
Ayarlamalı R-kare modeldeki de ˘gi¸sken sayısını dikkate aldı ˘gı için normal R-kareden dü¸sük çıkar.
Örnek olarak, çoklu regresyon örne ˘gimizde ¯R2 = 0,88’dir. Bunu 0,612 ile kar¸sıla¸stırınca yakı¸smanın iyili ˘ginin arttı ˘gı görülüyor.
Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
˙Iki De˘gi¸skenli Kalıntı Çizimi
Yakı¸smanın iyili ˘gini ¸sekil üzerinde incelemek de yararlıdır. Burada, yalnızca TV ya da radyo reklamı yapıldı ˘gı zaman modelin satı¸sları yüksek tahmin etti ˘gi görülüyor. Do ˘grusal-dı¸sı bir ili¸ski söz konusu.
Satışlar
TV
Radyo
¸
Sekil 4:Çoklu regresyonda iki de ˘gi¸skenli kalıntı çizimi
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 37 / 89
Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Çoklu Regresyonda Bütünün Anlamlılı ˘gı
Regresyonda e ˘ger yakı¸sma düzeyi dü¸sükse bütünün anlamlılı ˘gı (overall significance) durumuna özellikle bakmak isteriz.
Bu, a¸sa ˘gıdaki önsav sınamasını yapmak demektir:
H0: β1= β2= . . . = βp=0 ve H1:En az bir βj 6= 0 Görüldü ˘gü gibi burada tüm katsayıların aynı anda sıfır olup olama- yaca ˘gı sorgulanmaktadır. Bunun için ¸su F -istatisti ˘gi hesaplanır:
F = (TKT − KKT)/p KKT/(n − p − 1)
E ˘ger regresyon kalıntıları normal da ˘gılımlıysa ve H0do ˘gru ise yu- karıdaki sınama istatisti ˘gi F da ˘gılımına uyar. Bilgisayar bunu ve buna ait p-de ˘gerini kolayca hesaplar ve çıktı olarak verir.
Bu aslında H0:R2=0 sınamasıdır. Yakı¸smanın yoklu ˘gunu ölçer.
Çizelge 4’e dönersek örne ˘gimizde F = 570 oldu ˘gu görülüyor. ˙Ilgili F da ˘gılımında bu de ˘geri bulma p-de ˘geri < 0,0001’tir. Dolayısıyla modelin bütün olarak anlamlı olmadı ˘gı sıfır önsavını reddederiz.
Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Genel F Sınaması
Yukarıdaki standart F sınaması dı¸sında iste ˘ge göre kendi özel F sınamalarımızı da tasarlayabiliriz. Örnek olarak, ¸sunu sınayalım:
H0: β1=7, β2= β3 ve H1:H0geçerli de ˘gil.
Bu sıfır önsavının geçerli olması durumunda ba¸staki reklam har- camaları modelimiz de ˘gi¸sir ve a¸sa ˘gıdaki gibi olur:
Y − 7X1= β0+ β2(X2+X3) +
Yukarıdaki β0, β2ve de ˘gerleri artık ilk modeldekilerden farklıdır.
Sınırladı ˘gımız modeli kullanarak ¸su F istatisti ˘gini hesaplarız:
F = (KKTs− KKTsz)/m KKTsz/(n − p)
Burada s harfi “sınırlamalı”, sz ise “sınırlamasız” demektir. Ayrıca m harfi sınırlama sayısıdır ve H0’daki = i¸sareti sayısı ile aynıdır.
Görüldü ˘gü gibi, genel F sınaması için ba¸staki (sınırlamasız) mo- del ile H0uygulanmı¸s (sınırlamalı) modeli tahmin edip her ikisinin KKT de ˘gerlerini kullanırız. Tüm bunlar yine bilgisayarda yapılır.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 39 / 89
Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Önemli Açıklayıcı De ˘gi¸skenler
Çe¸sitli t ve F sınamalarına bakınca bazı X ’lerin anlamlı olma- dı ˘gını bulabiliyoruz. Bu durumda do ˘gal olarak, Y ’yi açıklamada önemli olan de ˘gi¸skenlere karar vermek isteriz.
Bunun için çok fazla sayıda modeli tek tek denemek gerekir.
Ancak bunu yapmak zordur. De ˘gi¸sken sayısı p olan bir modelde 2padet farklı alt-model kombinasyonu söz konusudur.
Seçim i¸sini hızlı ve otomatik yapmak için üç klasik yakla¸sım vardır:
˙Ileri seçim(forward selection): Yalnızca sabit terim içeren en basit modelle ba¸slanır ve KÖH de ˘gerini en çok dü¸süren de ˘gi¸skenler sırayla eklenir. KÖH’ün fazla dü¸smedi ˘gi belli bir noktada durulur.
Geri seçim(backward selection): Ba¸sta tüm de ˘gi¸skenler modele eklenir ve p-de ˘geri en yüksek olan de ˘gi¸skenler sırayla çıkartılır.
Karma seçim(mixed selection): De ˘gi¸skenler modele tek tek ekle- nir. Ancak i¸slem sırasında önceki bir de ˘gi¸skenin p-de ˘geri belli bir e¸sikten fazla yükselirse bu de ˘gi¸sken çıkartılır.
De ˘gi¸sken seçimi konusunu 6. Bölümde ayrıntılı i¸sleyece ˘giz.
Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi
Kestirimlerin Güvenilirli ˘gi
Bir model tahmin ederken önemli bir amacımız çe¸sitli X1,X2, . . .Xp
de ˘gerlerine kar¸sılık gelen Y de ˘gerini kestirmektir.
Ancak bu kestirimle ilgili 3 farklı belirsizlik söz konusudur:
1 βˆ0, ˆβ1, . . . , ˆβpkatsayı tahminlerindeki belirsizlik. Bunlar 2. Bö- lümde söz etti ˘gimiz azaltılabilir hatalar ile ilgilidir. Bu belirsizlik ne- deniyle katsayıgüven aralıklarıhesaplarız.
2 f (X ) fonksiyonundaki belirsizlik. Bu,model yanlılı ˘gıdedi ˘gimiz azaltılabilir hata ile ilgilidir. Burada ¸simdilik bunu yok sayalım.
3 Hata terimi ’dan kaynaklı azaltılamayan hata. Bununla ilgili olarak Y ile ˆY ’nın farkına yönelikkestirim aralıklarıhesaplarız.
Katsayı güven aralıkları, veri setindeki tüm Y de ˘gerlerine ili¸skin ortalama belirsizli ˘ge ili¸skindir. Kestirim güven aralı ˘gı ise tek bir Y kestirim de ˘gerine ait belirsizli ˘gi gösterir.
Bu yüzden kestirim aralıkları, güven aralıklarından daha geni¸stir.
Örneklem ortalamasından uzakla¸stıkça kestirim aralı ˘gı geni¸sler.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 41 / 89
Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler
Ders Planı
1 Basit Do ˘grusal Regresyon
Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi
2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler
Çoklu regresyonun uzantıları
3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler
Çoklue¸sdo ˘grusallık
4 K-Enyakın Kom¸su Regresyonu
Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler
Nitel De ˘gi¸skenler
Bir nicelik yerine sınıflandırma gösteren nitel (qualitative) de ˘gi¸s- kenlerden önceki bölümde söz etmi¸stik.
Regresyon çözümlemesi uygulamalarında X de ˘gi¸skenleri yalnızca nicel de ˘gil, nitel de olabilir.
Örnek olarak, kredi kartı veri setini ele alalım. Bu veri setinde cin- siyet, ırk, medeni durum ve e ˘gitim düzeyi ¸seklinde dört farklı nitel de ˘gi¸sken bulunmaktadır.
Bunların birbirleriyle ve di ˘ger nicel de ˘gi¸skenlerle olan ili¸skisi ¸Sekil 5’teserpilim çizimi matriksi(scatter plot matrix) olarak verilmi¸stir.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 43 / 89
Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler
Kredi Kartı Verileri
Borç
20406080100 5 10 15 20 2000 8000 14000
05001500
20406080100
Yaş
Kart sayısı
2468
5101520
Eğ�t�m
Gel�r
50100150
2000800014000
L�m�t
0500 1500 24 6 8 50100 150 200 600 1000
2006001000
Derece
¸
Sekil 5:Kredi kartı veri setindeki de ˘gi¸skenlere ait serpilim çizimi matriksi
Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler
˙Iki Düzeyden Olu¸san X De˘gi¸skeni
Basit bir örnek olarak, erkek ve kadınlar arasındaki kredi kartı borcu farkını incelemek istedi ˘gimizi dü¸sünelim.
Bunun için yalnızca iki de ˘ger alabilen basit birgösterge(indicator) de ˘gi¸skeni ya dakukla(dummy) de ˘gi¸sken olu¸stururuz:
xi =
(1 e ˘ger i’inci ki¸si kadınsa 0 e ˘ger i’inci ki¸si erkekse Daha sonra bu de ˘gi¸skeni regresyonumuzda kullanırız:
yi = β0+ β1xi+ i =
(β0+ β1+ i e ˘ger i’inci ki¸si kadınsa β0+ i e ˘ger i’inci ki¸si erkekse Bu modelde β0 de ˘geri erkeklerdeki ortalama kredi kartı borcunu gösterir. β0+ β1ise kadınlar için ortalama borçtur.
Dolayısıyla β1burada kadınların erkeklere göre borçfarkıolur.
Kime 0 ya da 1 de ˘geri verdi ˘gimiz sonucu de ˘gi¸stirmez. E ˘ger erkek- lere 1 dersek bu sefer β1erkeklerin kadınlara göre farkını verir.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 45 / 89
Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler
Kukla De ˘gi¸skende −1, 1 Kodlaması
Kukla de ˘gi¸skenlere 0 ve 1 de ˘gerleri vermek yerine −1 ve 1 de ˘ger- lerini de kullanabiliriz:
xi =
( 1 e ˘ger i’inci ki¸si kadınsa
−1 e ˘ger i’inci ki¸si erkekse Yeni durumda model belirtimi a¸sa ˘gıdaki gibi olur:
yi = β0+ β1xi+ i =
(β0+ β1+ i e ˘ger i’inci ki¸si kadınsa β0− β1+ i e ˘ger i’inci ki¸si erkekse Burada β0parametresi kadın/erkek ayrımı yapılmaksızın ortalama kart borcudur. β1ise kadınların bu ortalamanın ne kadar üstünde ve erkeklerin de ortalamanın ne kadar altında oldu ˘gunu verir.
Bu modelin sonuçları önceki model ile aynı çıkar. Aradaki tek fark yorumdadır.
Öte yandan, uygulamada kukla de ˘gi¸skenleri 0 ve 1 ¸seklinde kod- lamak daha yaygındır.
Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler
˙Ikiden Fazla Sınıftan Olu¸san X De˘gi¸skeni
Sınıf sayısı ikiden çoksa daha fazla kukla de ˘gi¸sken kullanırız:
xi1 =
(1 e ˘ger i’inci ki¸si Asyalıysa 0 e ˘ger i’inci ki¸si Asyalı de ˘gilse xi2=
(1 e ˘ger i’inci ki¸si beyazsa 0 e ˘ger i’inci ki¸si beyaz de ˘gilse Böylece, model a¸sa ˘gıdaki gibi olur:
yi = β0+ β1xi1+ β2xi2+ i =
β0+ β1+ i i’inci ki¸si Asyalıysa β0+ β2+ i i’inci ki¸si beyazsa β0+ i i’inci ki¸si zenciyse Her zaman sınıf sayısından bir eksik kukla de ˘gi¸sken olmalıdır.
Kuklası olmayan sınıfatemelya dakar¸sıla¸stırmasınıfı denir.
Bu modelde β1, Asyalıların zencilere göre borç farkını, β2 ise be- yazların yine zencilere göre borç farkını gösterir.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 47 / 89
Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler
Kukla De ˘gi¸skenlerin Yorumlanması
Kredi kartı borçlarını etnik kökene göre inceleyen regresyon tah- minleri a¸sa ˘gıdaki gibidir:
De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri Sabit terim 531,00 46,32 11,464 <0,0001
Asyalı −18,69 65,02 −0,287 0,7740
Beyaz −12,50 56,68 −0,221 0,8260
Çizelge 5:Kredi kartı borcu ile etnik köken çoklu regresyonu
Çizelgede taban sınıf olan zenciler için ortalama kredi kartı borcu 531 dolardır. Bu miktar Asyalılar için 18,69 dolar, beyazlar için ise 12,50 dolar daha dü¸sük bulunmu¸stur.
Ancak Asyalılar ve beyazlara ait katsayılerın p-de ˘gerleri yüksektir.
Bu durumda üç grup arasında anlamlı bir fark yoktur diyebiliriz.
Öte yandan katsayılar ve p-de ˘gerleri kuklaların nasıl belirlendi-
˘gine de ba ˘glıdır. Dolayısıyla, bu konuda kesin karar vermek için H0: β1= β2=0 ¸seklinde bir F sınaması yapmak uygun olur.
Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları
Ders Planı
1 Basit Do ˘grusal Regresyon
Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi
2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler
Çoklu regresyonun uzantıları
3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler
Çoklue¸sdo ˘grusallık
4 K-Enyakın Kom¸su Regresyonu
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 49 / 89
Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları
Toplanırlık ve Do ˘grusallık Varsayımları
Do ˘grusal regresyon modeli yorumlaması oldukça kolay ve çıkar- sama için de yararlı sonuçlar üretir.
Ancak bunu genellikle uygulamada geçerli olmayan iki kısıtlayıcı varsayım pahasına yapar:
1 Y ve X ’ler arasındatoplanır(additive) bir ili¸ski vardır.
2 Y ve X ’ler arasındado ˘grusal(linear) bir ili¸ski vardır.
Toplanır ili¸ski, belli bir Xj’nin Y üzerindeki etkisinin di ˘ger X ’lerden ba ˘gımsız olması anlamına gelir.
Do ˘grusal ili¸ski ise Xj’deki bir birim de ˘gi¸sikli ˘gin Y ’ye etkisinin hep sabit olması, Xj’nin büyüklü ˘günden etkilenmemesi demektir.
¸
Simdi, bu iki varsayımı nasıl gev¸setebilece ˘gimizi kısaca tartı¸salım.
Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları
Etkile¸sim Terimi
˙Ilk olarak, toplanırlık varsayımını ele alalım. A¸sa˘gıdaki üç de˘gi¸s- kenli modeli inceleyelim:
Y = β0+ β1X1+ β2X2+
Burada X1e ˘ger 1 birim artarsa Y de ortalama β1birim artmakta- dır. Öte yandan bu etki X2’den ba ˘gımsızdır. X2 sıfır da olsa, yük- sek bir de ˘ger de alsa etki sabittir.
Bu durum gerçek ya¸samda geçerli olmayabilir. Örnek olarak, TV reklamının etkisi radyo reklamının varlı ˘gıyla güçlenebilir. Pazarla- mada bunasinerji(synergy) etkisi denilmektedir.
Bu etkiyi dikkate almanın bir yolu yeni bir de ˘gi¸sken eklemektir:
Y = β0+ β1X1+ β2X2+ β3X1X2+
Burada β3’eetkile¸sim terimi (interaction term) denir. Adından da anla¸sıldı ˘gın gibi bu terim X1ve X2arasındaki etkile¸simi ölçer.
Yeni de ˘gi¸skeni X1ile X2’yi çarparak bizim olu¸sturdu ˘gumuza dikkat ediniz.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 51 / 89
Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları
Etkile¸sim Teriminin Yorumu (1)
Etkile¸sim terimini anlamak için reklam örne ˘gimize geri dönelim:
Satı¸s = β0+ β1TV + β2Radyo + β3(TV × Radyo) + Yukarıdaki modeli yorumlamayı kolayla¸stırmak amacıyla iki farklı
¸sekilde yeniden yazabiliriz:
Satı¸s = β0+ (β1+ β3× Radyo)TV + β2Radyo + Satı¸s = β0+ (β2+ β3× TV) Radyo + β1TV +
Görüldü ˘gü gibi, etkile¸sim terimi içeren modelde TV reklamının sa- tı¸slara etkisi artık β1+ β3× Radyo harcaması kadardır.
Benzer ¸sekilde radyo reklamının etkisi de β2 + β3 × TV reklam harcamasına ba ˘glıdır.
Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları
Etkile¸sim Teriminin Yorumu (2)
Modele ait regresyon tahmin sonuçları a¸sa ˘gıda verilmi¸stir:
De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri
Sabit terim 6,7502 0,248 27,23 <0,0001
TV 0,0191 0,002 12,70 <0,0001
Radyo 0,0289 0,009 3,24 0,0014
TV×Radyo 0,0011 0,000 20,73 <0,0001
Çizelge 6:Satı¸slar ile TV ve radyo reklamları etkile¸simli regresyonu Yukarıda etkile¸sim teriminin anlamlı oldu ˘gu görülmektedir. Ayrıca etkile¸simin eklenmesiyle R2de 0,897’den 0,968’e yükselmi¸stir.
Burada artık bir reklam türünün etkisi di ˘gerinin miktarına ba ˘glıdır.
Örnek olarak, radyo reklam harcaması 1000 dolar iken 1000 do- larlık TV reklamının satı¸slara etkisi 19,1 + 1,1 × 1 = 20,2 adettir.
Radyo reklamı 5000 dolar oldu ˘gunda ise aynı 1000 dolarlık TV reklamının etkisi artarak 19,1 + 1,1 × 5 = 24,6’ya yükselir.
Radyo reklamlarının etkisi de buna benzer ¸sekilde hesaplanır.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 53 / 89
Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları
Kukla Etkile¸sim Terimi (1)
Etkile¸sim terimlerini kukla de ˘gi¸skenlerle de kolayca kullanabiliriz.
Örnek olarak, kredi kartı borcunun gelire ve ö ˘grenci olma niteli-
˘gine göre regresyonu etkile¸sim terimiyle birlikte ¸söyle modellenir:
Borç = β0+ β1Gelir + β2Ö ˘grenci + β3(Gelir × Ö ˘grenci) + Bu durumda a¸sa ˘gıdaki regresyon tahmin edilmi¸s olur:
Borç =
((β0+ β2) + (β1+ β3)Gelir e ˘ger ö ˘grenci ise β0+ β1Gelir e ˘ger ö ˘grenci de ˘gilse Yukarıda β2, ikinci do ˘grunun (ö ˘grenci olmanın) sabit terim farkı olarak yorumlanır. β3ise ikinci do ˘grunune ˘gim farkıolur.
Dolayısıyla aslında iki ayrı regresyon do ˘grusu tahmin etti ˘gimize dikkat ediniz. Bunlar ¸Sekil 6’da gösterilmi¸stir.
Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları
Kukla Etkile¸sim Terimi (2)
0 50 100 150
20060010001400
Gelir
Borç
öğrenci öğrenci değil
¸
Sekil 6:Kredi borcunun gelire ve ö ˘grenci olma niteli ˘gine göre regresyonları
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 55 / 89
Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları
Polinom Regresyonu (1)
Do ˘grusallık varsayımının uygulamada regresyon modelleri için bir kısıtlama olu¸sturdu ˘gunu yukarıda söylemi¸stik.
Do ˘grusal-dı¸sı ili¸skileri dikkate almanın basit bir yolupolinom reg- resyon(polynomial regression) modelidir.
Örnek olarak, yakıt tüketimi ile motor gücünü a¸sa ˘gıdaki gibi ikinci derece bir polinom regresyonuna yakı¸stırabiliriz:
Yakıt tüketimi = β0+ β1Güç + β2Güç2+
Daha yüksek derece polinom regresyonları da buna benzerdir:
Yakıt tüketimi = β0+ β1Güç + β2Güç2+ · · · + βp Güçp+ Bu modellerde regresyon çizgisi bir do ˘gru de ˘gil, e ˘gri ¸seklindedir.
Dolayısıyla X ’in Y ’ye etkisi X ’in büyüklü ˘güne göre de ˘gi¸sir.
Otomobil veri seti kullanılarak tahmin edilmi¸s do ˘grusal model ile 2. derece ve 5. derece polinom modelleri ¸Sekil 7’deki gibidir.
Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları
Polinom Regresyonu (2)
¸
Sekilde 2. derece polinom regresyonunun verilere iyi yakı¸stı ˘gı, 5.
derece polinomun ise gereksiz derecede kıvrımlı oldu ˘gu görül- mektedir. Dolayısıyla esneklik seçimi burada da önemlidir.
50 100 150 200
1020304050
Beygir gücü
Galon başına mil
Doğrusal 2. derece 5. derece
¸
Sekil 7:Yakıt tüketimi ile motor gücüne ili¸skin polinom regresyonlar
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 57 / 89
Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Ders Planı
1 Basit Do ˘grusal Regresyon
Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi
2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler
Çoklu regresyonun uzantıları
3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler
Çoklue¸sdo ˘grusallık
4 K-Enyakın Kom¸su Regresyonu
Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Uygulamada Kar¸sıla¸sılan Sorunlar
Bir veri setine regresyon modeli yakı¸stırdı ˘gımız zaman çe¸sitli so- runlarla kar¸sıla¸sabiliriz. Bunların ba¸slıcaları ¸sunlardır:
1 Modelleme hatası
2 Hata teriminde korelasyon
3 Hata teriminde farklıserpilimsellik
4 Dı¸sadü¸senler
5 E¸sdo ˘grusallık
Yukarıdaki hataları saptamak ve düzeltmek oldukça ayrıntılı ba¸s- lıklardır. Bu konularda yazılmı¸s birçok kitap bulunmaktadır.
Burada biz uygulamada kar¸sıla¸sılan olası sorunları kısa ve öz bir
¸sekilde ele alaca ˘gız.
Modelleme hatası ile ba¸slayalım.
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 59 / 89
Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Modelleme Sorunu (1)
Regresyon yönteminde modelleme sorunu genellikle do ˘grusal- dı¸sı ili¸skiler modelde dikkate alınmadı ˘gı zaman ortaya çıkar.
Bu durumda tüm tahminler ku¸skulu duruma dü¸ser ve modelin kes- tirim gücü de ciddi oranda azalabilir.
Do ˘grusal-dı¸sı ili¸skileri saptamanın iyi bir yolu de ˘gi¸skenleri ya da kalıntıları ¸sekil üzerinde incelemektir.
Bu amaçla regresyon kalıntıları ile yakı¸stırılan ˆyi de ˘gerlerinin çizi- mine bakılır. Ayrıca farklı X ’lerin Y ’ye kar¸sı çizimleri de yararlıdır.
E ˘ger görsel incelemede do ˘grusal-dı¸sı ili¸ski bulunursa de ˘gi¸skenler üzerinde log(X ), √
X gibi dönü¸stürmeler yapılabilir ya da X2 gibi yeni de ˘gi¸skenler modele eklenebilir.
Örnek olarak, otomobil veri setindeki yakıt tüketimi ve motor gücü regresyonuna ili¸skin kalıntılar ile yakı¸stırılan de ˘gerler ¸Sekil 8’de gösterilmi¸stir.
Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu
Modelleme Sorunu (2)
Sol paneldeki do ˘grusal modele ait kalıntılar güçlü bir do ˘grusal- dı¸sı örüntü göstermektedir. Modele X2eklenerek elde edilen sa ˘g paneldeki polinom modelde ise sorun büyük oranda düzelmi¸stir.
5 10 15 20 25 30
−15−10−505101520
Yakıştırılan değerler
Kalıntılar
Doğrusal Yakıştırmaya ait Kalıntılar
330323 334
15 20 25 30 35
−15−10−5051015
Yakıştırılan değerler
Kalıntılar
334 323
155
2. Derece Polinom Yakıştırmasına ait Kalıntılar
¸
Sekil 8:Do ˘grusal ve polinom regresyonlara ait kalıntı çizimleri
A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 61 / 89