Do˘grusal Regresyon

(1)

Do ˘grusal Regresyon

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi

˙IKT-457 Ekonomi ve Finans ˙Için Yapay Zeka 1 Sürüm 0,93

A. Talha Yalta (TOBB ETÜ) Regresyon Yöntemi Sürüm 0,93 1 / 89

(2)

Açık Lisans Bilgisi

Bu belge “Creative Commons Attribution-ShareAlike 3.0 Un- ported” (CC BY-SA 3.0) lisansı altında bir açık ders malzemesi olarak genel kullanıma sunulmu¸stur. Bazı ¸sekiller “An Intro- duction to Statistical Learning, with applications in R” (Sprin- ger, 2017) kitabından yazarların izniyle alınmı¸stır. Tüm belge eserin ilk sahibinin belirtilmesi ve geçerli lisansın korunması ko¸suluyla özgürce kullanılabilir, ço ˘galtılabilir, ve de ˘gi¸stirilebi- lir. Creative Commons örgütü ve CC-BY-SA 3.0 lisansı ile ilgili ayrıntılı bilgihttps://creativecommons.orgInternet adresinde yer almaktadır. Ders notlarımın güncel sürümlerine http://yalta.etu.edu.tr adresinden ula¸sabilirsiniz.

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi 2020 – 2021

(3)

Ders Planı

1 Basit Do ˘grusal Regresyon

Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi

2 Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu Katsayıların ve modelin kesinli ˘gi Nitel de ˘gi¸skenler

Çoklu regresyonun uzantıları

3 Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Hata teriminde korelasyon Hata teriminde farklıserpilimsellik Dı¸sadü¸senler

Çoklue¸sdo ˘grusallık

4 K-Enyakın Kom¸su Regresyonu

(4)

Basit Do ˘grusal Regresyon

Do ˘grusal Regresyon Yöntemi

Bu bölümde denetimli ö ˘grenmeye temel olan do ˘grusal regresyon çözümlemesini ele alaca ˘gız.

Bu yöntem, daha modern araçların yanında biraz sıkıcı görünse de kolay yorumlanabilirli ˘gi nedeniyle özellikle çıkarsamada en sık kullanılan yakla¸sım olmayı sürdürmektedir.

Ayrıca di ˘ger birçok istatistiksel ö ˘grenme yakla¸sımını anlayabilmek için de iyi bir ba¸slangıç noktası olu¸sturmaktadır.

Kement, ridge, özyetinim, karar a ˘gaçları gibi birçok modern araç regresyonu kullanır.

Dolayısıyla, daha ileri yöntemlere geçmeden önce do ˘grusal regresyon konusunda sa ˘glam bir altyapıya sahip olmak önemlidir.

(5)

Basit Do ˘grusal Regresyon

Reklam Veri Seti

Bir önceki bölümde reklam veri setini kullanarak TV, radyo ve gazete reklamlarının satı¸slar üzerindeki etkisini incelemi¸stik.

Böyle bir çözümlemede regresyon kullanarak a¸sa ˘gıdakiler gibi birçok soruyu ele alabiliriz:

1 Reklam bütçesi ile satı¸slar arasında ili¸ski var mıdır?

2 ˙Ili¸ski varsa bu yararlı bir çözümleme yapacak kadar güçlü müdür?

3 Hangi medya aracılı ˘gıyla yapılan reklamlar satı¸slara katkı sa ˘glar?

4 Her bir medyanın katkısını ne kadar kesinlikle tahmin edebiliriz?

5 Gelece ˘ge yönelik ne kadar sa ˘glıklı tahminler yapabiliriz?

6 Reklam ile satı¸slar arasındaki ili¸skinin yapısı nedir?

7 Farklı reklam araçları birlikte daha etkili midir?

Regresyon yöntemini kullanarak bu yedi sorunun yanıtını bulabiliriz.

(6)

Basit Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Ders Planı

(7)

Anakütle Regresyon Fonksiyonu

˙Ilk olarak, en yalın ve kolay durum olanbasit do ˘grusal regresyon (simple linear regresyon) modelini ele alalım.

Bu çözümlemede nicel bir Y de ˘gi¸skeninin tek bir X de ˘gi¸skenine verdi ˘gido ˘grusaltepkiyi inceleriz.

Önceki bölümde X ve Y arasındaki ili¸skinin Y = f (X ) + ¸seklinde oldu ˘gunu söylemi¸stik. Basit do ˘grusal regresyon için f ¸sudur:

Y = β₀+ β₁X +

Yukarıdaki fonksiyonaanakütle regresyon fonksiyonu(population regression function) denir.

Burada β₀ ve β₁ bir do ˘gruyu tanımlayan katsayılardır. β₀, do ˘grunun y-eksenini kesti ˘gi nokta, β₁ise do ˘grunun e ˘gimini gösterir.

(8)

Örneklem Regresyon Fonksiyonu

Uygulamada β₀ve β₁’in gerçek de ˘gerlerini bilemedi ˘gimiz için bun- ları tahmin ederiz:

Y = ˆβ₀+ ˆβ₁X + ˆ

Yukarıdaki fonksiyona daörneklem regresyon fonksiyonu(sample regression function) adı verilir.

Buradaˆya da¸sapka(hat) i¸sareti tahmin anlamına gelmektedir.

Sonuç olarak, elimizde bulunan {(x₁,y₁), . . . ,(xn,yn)} ¸seklindeki e ˘gitim verilerini kullanarak örneklem regresyon fonksiyonunu he- saplamak istiyoruz.

βˆ₀ve ˆβ₁de ˘gerlerini bulursak herhangi bir x_igözlemi için ˆy_itahmini yapabiliriz:

yˆ_i= ˆβ₀+ ˆβ₁x_i

(9)

Sıradan Enküçük Kareler (1)

Örnek olarak, TV reklam harcamalarının satı¸s üzerindeki etkisine bakmak istedi ˘gimizi dü¸sünelim. Reklam veri setinde buna yönelik n = 200 adet gözlem bulunmaktadır.

Bunları kullanarak ˆβ0ve ˆβ1’yı öyle hesaplamalıyız ki buldu ˘gumuz do ˘gru elimizdeki 200 noktaya olabildi ˘gince yakın olsun.

Bir noktanın do ˘gruya yakınlı ˘gını ölçmenin çe¸sitli yolları vardır.

Ancak uygulamada açık ara en yaygın olan yöntem sıradan en- küçük kareler (ordinary least squares) ya da kısaca SEK(OLS) yakla¸sımıdır.

(10)

Sıradan Enküçük Kareler (2)

SEK yöntemini anlamak için herhangi iki ˆβ₀ ve ˆβ₁ de ˘geri alalım.

Bunları kullanarak ˆy_i= ˆβ0+ ˆβ1x_i noktalarını tahmin etmi¸s olalım.

Burada her bir i gözlemi için yaptı ˘gımız hata ¸su olur:

i =y_i− ˆy_i

Yukarıdaki (epsilon) harfinehata(error) ya da kalıntı(residual) denir. Gözlenen y ile tahmin edilen ˆy arasındaki farktır.

Tüm gözlemlere ait ’ları kullanarakkalıntı kareleri toplamı (residual sum of squares) ya da kısacaKKT(RSS) de ˘gerini buluruz:

KKT = ²₁+ ²₂+ · · · + ²_n

˙I¸ste, SEK yöntemi elimizdeki verilere en iyi yakı¸san do˘gruyu bulmak için KKT de ˘gerini minimize eder.

Bu minimizasyon i¸slemi do ˘grusal cebir ve kalkülüs kullanılarak yapılır ve bu dersin konusu dı¸sındadır. ˆβ₀ ve ˆβ₁ tahminleri gü- nümüzde bilgisayarlar tarafından kolayca hesaplanmaktadır.

(11)

Sıradan Enküçük Kareler (3)

0 50 100 150 200 250 300

510152025

TV reklam harcamaları

Satışlar

¸

Sekil 1:Satı¸slar ile TV reklam harcamalarının ikili SEK regresyonu

(12)

Sıradan Enküçük Kareler (4)

TV reklam harcamalarının satı¸slar üzerindeki etkisine yönelik basit do ˘grusal regresyon tahmini ¸Sekil 1’de gösterilmi¸stir.

¸

Sekildeki kırmızı noktalar gözlemler, mavi çizgi ise tahmin edilen regresyon do ˘grusudur.

SEK yöntemiyle hesaplanan do ˘grunun dikey kesme noktası ˆβ0= 7,03 ve e ˘gimi de ˆβ₁=0,0475 olarak bulunmu¸stur.

Bu sonuçları de ˘gi¸skenlerin birimine bakarak yorumlamalıyız. Veri setinde harcamalar 1000 dolar, satı¸slar ise 1000 adet ¸seklindedir.

Dolayısıyla ˆβ₁katsayısını ¸söyle yorumlarız: TV reklamı için yapı- lan her 1000 dolarlık harcama satı¸sları yakla¸sık 0,0475 × 1000 = 47,5 adet artırmaktadır.

βˆ0’ı ise ¸söyle yorumlarız: Hiç reklam yapılmaması durumda yakla¸sık 7,03 × 1000 = 7030 adet satı¸s beklenmektedir.

Farklı ˆβ₀ ve ˆβ₁ kombinasyonları için hesaplanan KKT de ˘gerleri

¸

Sekil 2’de verilmi¸stir.

(13)

Sıradan Enküçük Kareler (5)

¸

Sekilde hem sol hem de sa ˘g paneli inceledi ˘gimizde ˆβ₀=7,03 ve βˆ₁=0,0475 de ˘gerlerinin KKT’yi minimize etti ˘gini görülmektedir.

β₀ β1

2.15

2.2 2.3 2.5

3 3

5 6 7 8 9

0.030.040.050.06

KKT

β₁ β₀

¸

Sekil 2:KKT’yi belirleyen farklı ˆβ₀ve ˆβ₁tahmin de ˘gerleri

(14)

Basit Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Ders Planı

(15)

Katsayıların Kesinli ˘ginin Ölçülmesi (1)

Yukarıda hesapladı ˘gımız ˆβ₀ ve ˆβ₁ de ˘gerlerini yorumlayabilmek için bunların ne kadar kesin oldu ˘gunu bilmek önemlidir.

Bunlar birer tahmin oldu ˘guna göre bunların gerçek de ˘geri için belli bir aralık söyleyebilmek zorundayız.

Bunun için kullandı ˘gımız standart yöntem eldeki e ˘gitim verilerini kullanarak anakütleye ili¸skin çıkarsama yapmaktır.

Bunu basit bir örnekle açıklayalım: Bir zar atma deneyi dü¸süne- lim. Burada zar 1 ile 6 arasında her de ˘geri alabilir. Öte yandan defalarca zar atarsak bunların ortalaması 3,5’e yakınsayacaktır.

Yalnızca bir ya da iki zar atarak 3,5 de ˘gerini bulamayabiliriz. An- cak yeterince büyük bir örneklem alırsak, söz gelimi 30 kez zar atarsak 3,5’e çok yakın de ˘gerler elde ederiz.

Elde edece ˘gimiz bu de ˘gerler yansız (unbiased) tahminlerdir. Di-

˘ger bir deyi¸sle, 3,5’ten biraz farklı çıkabilirler ama gerçek de ˘gerden hep daha dü¸sük ya da hep daha yüksek olmazlar.

Ayrıca örneklem büyüdükçe de gerçek de ˘gere yakınsarlar.

(16)

Katsayıların Kesinli ˘ginin Ölçülmesi (2)

Örneklemden gelen yansız tahminlerin anakütle de ˘gerine yakın- saması olgusu regresyon ba ˘glamında da geçerlidir.

Gerçekte f ’yi bilemeyiz. Elimizde yalnızca bir tahmin olan örnek- lem regresyon fonksiyonu vardır.

Ancak tahminimizin ne kadar kesin oldu ˘gunu hem analitik hem de deneysel olarak inceleyebiliriz.

Deneysel bir örnek olarak a¸sa ˘gıdaki fonksiyonu ele alalım:

Y = 2 + 3X +

Yukarıdaki formülü kullanarak farklı rastsal X de ˘gerlerine kar¸sılık Y ’leri hesaplayabiliriz. Böylece, deneysel veri setleri üretebiliriz.

Bu ¸sekilde elde edilen örneklemlerden hesaplayaca ˘gımız yansız tahminlerde ˆβ₀≈ 2 ve ˆβ₁≈ 3 çıkar.

Anakütle regresyon do ˘grusu ile 10 farklı simülasyon veri setinden elde edilen örneklem tahminleri ¸Sekil 3’te verilmi¸stir.

(17)

Katsayıların Kesinli ˘ginin Ölçülmesi (3)

Sol panelde anakütle regresyon fonksiyonu kırmızı, örneklem regresyon fonksiyonu ise mavi renkle çizilmi¸stir. Sa ˘gdaki 10 farklı ör- neklem regresyon fonksiyonu da benzer tahminler üretmektedir.

−2 −1 0 1 2

−10−50510

X

Y

−2 −1 0 1 2

−10−50510

X

Y

¸

Sekil 3:Anakütle regresyonu ile yansız örneklem regresyonları

(18)

Ölçünlü Hata

Zar örne ˘gine geri dönelim. Diyelim ki 30 defa zar attık ve ortalama 3,78 çıktı. Elimizdeki bu yansız tahminin kesinlik derecesi nedir?

Bunu ö ˘grenmek için buldu ˘gumuz tahmine aitölçünlü hata (standard error) ya da kısacaÖH(SE) de ˘gerini hesaplarız:

ÖH(ˆµ)²=var(ˆµ) =σ² n

Yukarıda var, varyans ve ˆµda tahmin edilen ortalama demektir.

En sa ˘gdaki σ ise her bir gözlemin ortalama de ˘gerden ne kadar saptı ˘gını gösterenölçünlü sapma(standard deviation) de ˘geridir.

Örneklem büyüklü ˘gü (n) arttıkça ÖH’nin azaldı ˘gına dikkat ediniz.

ÖH de ˘geri bize ortalama bir tahminin gerçek de ˘gerden kaç birim saptı ˘gı bilgisini verir. Bu yakla¸sımı kullanarak regresyon için ÖH( ˆβ₀) ve ÖH( ˆβ₁) de ˘gerlerini de kolayca bulabiliriz.

Gerçekte anakütleye ait σ de ˘geri bilinmez, ancak bu da tahmin edilebilir. Böylece, elimizde dÖH( ˆβ₀) ve dÖH( ˆβ₁) tahminleri olur.

(19)

Güven Aralıkları

Ölçünlü hataları kullanarak bir katsayı tahminine aitgüven aralı ˘gı (confidence interval) olu¸sturabiliriz.

Örnek olarak, β₀ve β₁için %95 güven aralı ˘gı yakla¸sık ¸söyledir:

β₀≈ ˆβ₀± 2 × dÖH( ˆβ₀) ve β₁≈ ˆβ₁± 2 × dÖH( ˆβ₁)

TV reklamı örne ˘gimize dönelim. Bu regresyonda dÖH( ˆβ₀)=0,4578 ve dÖH( ˆβ1)=0,0027 bulunmu¸stur.

Buna göre %95 güven aralıkları a¸sa ˘gıdaki gibi hesaplanır:

[6,130 ≤ β₀≤ 7,935] ve [0,042 ≤ β₁≤ 0,053]

Bu güven aralıklarının yorumu ¸söyledir: E ˘ger farklı test veri setleri olu¸sturur ve regressionu tekrar tekrar hesaplayacak olursak bulaca ˘gımız 100 tahminden 95’inin bu aralıkta olmasını bekleriz.

Dolayısıyla gerçek de ˘geri de %95 olasılıkla bu aralıkta bekliyoruz.

Uygulamada en çok %95 güven aralıkları kullanılır ancak %90 ve

%99 aralıkları da yaygındır. Bunların yorumu da benzerdir.

(20)

Önsav Sınamaları (1)

Ölçünlü hataları kullanarak herhangi bir β katsayısı üzerinde ön- sav sınamaları da yapabiliriz.

Bunun için öncelikle bir H₀ sıfır önsavı (null hypothesis) ile H₁ alma¸sık önsav(alternative hypothesis) belirtiriz. Örnek olarak:

H₀: β = β^∗ ve H₁: β 6= β^∗

Bu sınamada amacımız β için yaptı ˘gımız ˆβtahmininin β^∗’danan- lamlı (significant) derecede uzak olup olmadı ˘gı bulmaktır. Di ˘ger bir deyi¸sle, β = β^∗ olmadı ˘gını güvenle söyleyebilir miyiz?

Bunun için a¸sa ˘gıdaki test istatisti ˘gini hesaplarız:

t = β − βˆ ^∗ dÖH( ˆβ)

H₀’ın geçerli olması durumunda yukarıdaki test istatisti ˘gi n − 2 serbestlik derecesi(degree of freedom) ile t da ˘gılımına uyar.

Bulunan de ˘gerin ilgili da ˘gılımdan gelme olasılı ˘gını bilgisayar ile hesaplayabilir ve böylece, H₀’ı ret edebilir ya da etmeyebiliriz.

(21)

Önsav Sınamaları (2)

Örnek olarak, TV reklamı örne ˘gimizdeki ˆβ1’nın sıfırdan anlamlı derecede uzak olup olmadı ˘gını sınamak istedi ˘gimizi dü¸sünelim:

H₀: β₁=0 ve H₁: β₁6= 0

βˆ1 =0,0475 ve dÖH( ˆβ1) = 0,0027 buldu ˘gumuzu daha önce söy- lemi¸stik. Bu durumda test istatisti ˘gi ¸sudur:

t = 0,0475 − 0

0,0027 =17,59

Bilgisayar bize 17,59 de ˘gerinin ilgili t da ˘gılımından gelme olasılı-

˘gının onbinde birden küçük oldu ˘gunu söyleyecektir.

Dolayısıyla anakütledeki gerçek β₁ de ˘gerinin 0 olmadı ˘gı konusunda yüksek bir kesinlikle çıkarımda bulunabiliriz.

Burada yaptı ˘gımız ¸sey tek bir β parametresine ili¸skin t sınama- sıdır. Bunun dı¸sında birçok farklı önsav sınaması vardır. Bunları daha sonra yeri geldikçe tartı¸saca ˘gız.

(22)

˙Ikili Regresyon Bilgisayar Çıktısı

Yukarıda gördü ˘gümüz regresyon katsayı tahminleri ve önsav sı- namaları bilgisayarlar tarafından kolayca hesaplanmaktadır.

TV reklamı regresyonumuza ait bilgisayar çıktısı ¸söyledir:

De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri Sabit terim 7,0325 0,4578 15,36 < 0,0001

TV reklamı 0,0475 0,0027 17,59 < 0,0001

Çizelgede sa ˘gdaki ilk iki sütunda ˆβ₀ ve ˆβ₁katsayıları ile bunların ölçünlü hataları görülmektedir.

Son iki sütunda ise az önce β₁ için yaptı ˘gımız H₀ : β = 0 ve H₁: β 6=0 ¸seklindeki t-sınaması sonuçları ile bunların p-de ˘gerleri verilmi¸stir. TV reklamı için 17.59 de ˘gerini biz de hesaplamı¸stık.

Tipik bir regresyon çıktısında bu sınama otomatik yapılarak her bir katsayının sıfırdan anlamlı derecede uzak olup olmadı ˘gı ölçülür.

Kesinlik de ˘gerlendirmesi için genellikle yüzde 95 güven düzeyi kullanılır. Bu düzeyde anlamlılık kararı verebilmek için p-de ˘gerinin 0,05’ten küçük olmasına bakılır.

(23)

Modelin Kesinli ˘ginin Ölçülmesi

Model katsayılarının nasıl yorumladı ˘gını ve kesinliklerinin nasıl öl- çüldü ˘günü yukarıda gördük.

Katsayıları de ˘gerlendirdikten sonra tahmin etti ˘gimiz modelin genel olarak verilere ne derece yakı¸stı ˘gını da bilmek isteriz.

Bu amaçla kullandı ˘gımız temel ölçütlerkalıntı ölçünlü hatası (residual standard error), R²istatisti ˘gi ve F -istatisti ˘gidir.

TV reklamları örne ˘gimiz için bu de ˘gerler Çizelge 1’deki gibidir:

˙Istatistik De ˘ger

Kalıntı ölçünlü hatası 3,260

R² 0,612

F -istatisti ˘gi 312,100

Çizelge 1:Satı¸slar ve TV reklamları regresyonuna ait özet istatistikler

¸

Simdi yukarıdakilerden ilk ikisine bakaca ˘gız. F -istatisti ˘gi’ni ise çoklu regresyon bölümünde tartı¸saca ˘gız.

(24)

Kalıntı Ölçünlü Hatası

Kalıntı ölçünlü hatası(residual standard error) ya da kısacaKÖH (RSE), y_i tepki de ˘gerlerinin regresyon do ˘grusundan ortalama kaç birim saptı ˘gını ölçer.

KÖH’ü bulmak için hata terimi ’un ölçünlü sapmasını hesaplarız:

KÖH =

r 1

n − 2KKT = v u u t

1 n − 2

n

X

i=1

(y_i − ˆy_i)²

Örnek olarak, TV reklamı örne ˘gimizde her bir gözlemin regresyon do ˘grusundan ortalama 3,260 adet saptı ˘gını görüyoruz.

Bunun kabul edilebilir bir de ˘ger olup olmadı ˘gı duruma göre de ˘gi-

¸sir. Bu veri setinde ortalama satı¸s 14,000 adet oldu ˘gu için mode- limizdeki gözlemler 3,260/14,000 = %23 sapma göstermi¸stir.

Görüldü ˘gü gibi, KÖH aslında yakı¸smanın iyili ˘gini de ˘gil, yakı¸sma eksikli ˘gini göstermektedir ve birim ölçe ˘gindedir.

(25)

Belirleme Katsayısı

Yakı¸smanın iyili ˘gine yönelik ikinci ölçütbelirleme katsayısı(coef- ficient of determination) ya da kısaca R²istatisti ˘gidir.

R²’yi yorumlamak daha kolaydır çünkü yakı¸smayı 0 ve 1 aralı-

˘gında bir oran olarak ölçer:

R²= TKT − KKT

TKT =1 − KKT TKT

BuradaTKT(TSS),toplam kareleri toplamı(total sum of squares) anlamındadır. Tepki de ˘gi¸skeni Y ’deki ortalama de ˘gi¸skenli ˘gi verir:

TKT =X

(y_i− ¯y )²

KKT, kalıntılardan kaynaklanan ve regresyon tarafından açıklana- mayan de ˘gi¸skenliktir. Dolayısıyla TKT−KKT de regresyonun açık- ladı ˘gı de ˘gi¸skenli ˘gi anlatır. ˙I¸ste, bunun toplama oranı da R²olur.

Örne ˘gimizde R²=0,61 çıkmı¸stır. Bunu ¸söyle yorumlarız: Regres- yon do ˘grusu Y ’deki de ˘gi¸sikli ˘gi yüzde 61 oranında açıklamaktadır.

Geriye kalan yüzde 39 ise di ˘ger etmenlerden kaynaklıdır.

(26)

Çoklu Do ˘grusal Regresyon Katsayıların tahmini ve yorumu

Ders Planı

(27)

Çoklu Do ˘grusal Regresyon (1)

Veri çözümlemesi uygulamalarında genellikle elimizde birden fazla açıklayıcı de ˘gi¸sken olur.

Örnek olarak, reklam veri setinde TV harcamalarının yanı sıra radyo ve gazete reklam harcamaları da bulunmaktadır.

Bu de ˘gi¸skenleri de dikkate almak istedi ˘gimiz zaman tek tek ikili regresyonlar yapabiliriz. Ancak bu do ˘gru bir yakla¸sım de ˘gildir.

Üç ayrı regresyonla tek bir kestirim elde edilemez. Ayrıca ikili regresyonlar di ˘ger de ˘gi¸skenlerin etkisini dikkate almayarak eksik ve yanlı sonuçlar üretirler.

TV, gazete ve radyo reklam harcamalarını ayrı ayrı inceleyen ikili regresyonlar Çizelge 2’de görülmektedir.

(28)

Çoklu Do ˘grusal Regresyon (2)

De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri

Sabit terim 7,033 0,458 15,36 < 0,0001

TV reklamı 0,048 0,003 17,59 < 0,0001

Sabit terim 9,312 0,563 16,54 < 0,0001

Radyo reklamı 0,203 0,020 9,92 < 0,0001

Sabit terim 12,351 0,621 19,88 < 0,0001

Gazete reklamı 0,055 0,017 3,30 0,0012

Çizelge 2:Satı¸slar ile TV, radyo ve gazete reklamlarının ikili regresyonları

(29)

Çoklu Do ˘grusal Regresyon (3)

Elimizde birden fazla X de ˘gi¸skeni oldu ˘gu zaman a¸sa ˘gıdaki gibi bir çoklu do ˘grusal regresyon(multiple linear regression) belirtiriz:

Y = β₀+ β₁X₁+ β₂X₂+ · · · + βpXp+

Burada X_j’ler farklı açıklayıcı de ˘gi¸skenlerdir. Önlerindeki β_j kat- sayıları ise di ˘ger tüm de ˘gi¸skenler sabitken ilgili X_j 1 birim arttı ˘gı zaman Y ’nin kaç birim de ˘gi¸sti ˘gini gösterir.

Yukarıdaki anakütle regesyonunu e ˘gitim verileri ile tahmin etmek için yine, örneklem regresyon fonksiyonunu kullanırız:

Y = ˆβ₀+ ˆβ₁X₁+ ˆβ₂X₂+ · · · + ˆβ_pX_p+ ˆ

Çoklu regresyonda da ˆβ tahminleri için SEK yöntemi kullanılır.

Buradaki karma¸sık i¸slemler bilgisayarlar tarafından kolayca yapıl- maktadır.

(30)

Çoklu Regresyon Bilgisayar Çıktısı

Reklam örne ˘gimize dönelim. Satı¸slar ile TV, radyo ve gazete reklam harcamalarına ili¸skin çoklu regresyon modeli ¸söyledir:

Satı¸slar = β₀+ β1TV + β₂Radyo + β₃Gazete + Model tahminine ili¸skin bilgisayar çıktısı Çizelge 3’te verilmi¸stir.

Sabit terim 2,939 0,3119 9,42 < 0,0001

TV reklamı 0,046 0,0014 32,81 < 0,0001

Radyo reklamı 0,189 0,0086 21,89 < 0,0001

Gazete reklamı −0,001 0,0059 −0,18 0,8599

Çizelge 3:Satı¸slar ile TV, radyo ve gazete reklamları çoklu regresyonu

(31)

Çoklu Regresyon Katsayılarının Yorumlanması

Çizelgedeki katsayıları de ˘gi¸skenlerin birimine göre yorumlarız. Bu veri setinde harcamalar 1000 dolar, satı¸slar 1000 adet ¸seklindedir.

Dolayısıyla TV reklamına ait ˆβ₁=0,046 katsayısının yorumu ¸sudur:

Radyo ve gazete reklamısabitken, TV reklamındaki 1 birim (1000 dolar) artı¸s sonucunda satı¸slar 0,046 (×1000) adet artmaktadır.

Di ˘ger bir deyi¸sle TV reklamlarındaki her 1000 dolarlık harcama satı¸sları yakla¸sık 46 adet artırmaktadır.

Radyo ve gazete katsayılarının yorumu da benzer ¸sekildedir.

Sabit terim ˆβ₀=2,939 katsayısının yorumu ise ¸söyledir: E ˘ger TV, radyo ve gazete reklam harcamalarının hepsi birden sıfır olursa yakla¸sık 2,939 × 1000 = 2939 adet satı¸s beklenmektedir.

Çoklu regresyondaki ˆβ₁, ˆβ₂, ˆβ₃ katsayıları ikili regresyondakilere benzerdir. Öte yandan sabit terimin farklı oldu ˘guna dikkat ediniz.

Ayrıca burada gazete katsayısının p-de ˘geri 0,8599’a yükselmi¸stir.

Sonuç olarak, ikili ve çoklu regresyon birbirinden oldukça farklı sonuçlar verebilmektedir.

(32)

Karı¸stırıcı De ˘gi¸sken Etkisi

Çoklu regresyonda gazete reklamı p-de ˘gerinin 0,8599 oldu ˘guna dikkat ediniz.

Bu, H₀ : β3 = 0 önsav sınamasının sonuç istatisti ˘gidir. Dolayı- sıyla, β₃’ün sıfırdan anlamlı derecede uzak olmadı ˘gını gösterir.

Bunun nedeni ise bu örnekte radyo ve gazete reklamlarının yük- sek korelasyona sahip olmasıdır. ˙Ikili regresyon bu ili¸skiyi dikkate almadı ˘gı için daha önce gazete reklamları anlamlı çıkmı¸stı.

Buna benzer durumlar uygulamada sıkça kar¸sımıza çıkar.

Tipik bir örnek olarak, yazın kumsalda dondurma satı¸sları ile kö- pekbalı ˘gı saldırıları arasında güçlü ve anlamlı bir ili¸ski bulabiliriz.

Bu hatalı sonucun nedeni hava sıcaklı ˘gının dikkate alınmamı¸s olmasıdır. Burada hava sıcaklı ˘gınakarı¸stırıcı de ˘gi¸sken(confoun- ding variable) denir. Bunu dikkate alınca sonuçlar düzelir.

Karı¸stırıcı de ˘gi¸skenler modellemede son derece önemlidir. Yapay zeka bu konuda zorlanır.

(33)

Çoklu Do ˘grusal Regresyon Katsayıların ve modelin kesinli ˘gi

Ders Planı

(34)

Çoklu Regresyonda Çıkarsama

Bir regresyon modelini tahmin edip katsayıları yorumlamak kolay i¸stir. Asıl önemli olan, elde yorumlamaya de ˘ger bir sonuç olup ol- madı ˘gını bilebilmektir.

Bu do ˘grultuda a¸sa ˘gıdaki dört temel soruya yanıt ararız:

1 Veriler modele ne kadar iyi yakı¸smı¸stır?

2 Model bir bütün olarak olarak anlamlı mıdır?

3 Y ’yi açıklayan önemli X de ˘gi¸skenleri neleridir?

4 Elde etti ˘gimiz kestirimler ne kadar güvenilirdir?

Gelin, ¸simdi de bu konulara kısaca de ˘ginelim.

(35)

Çoklu Regresyonda Yakı¸smanın ˙Iyili ˘gi

En temel yakı¸smanın iyili ˘gi ölçütleri olan R²ve kalıntı ölçünlü ha- tasından ba¸sta söz etmi¸stik.

Bunların hesaplanı¸sı ve yorumu ikili regresyondaki gibidir. Çoklu regresyon örne ˘gimiz için a¸sa ˘gıdaki çizelgeye bakalım:

˙Istatistik De ˘ger

Kalıntı ölçünlü hatası 1,690

R² 0,897

F -istatisti ˘gi 570,000

Çizelge 4:Satı¸s ve reklamlar çoklu regresyonu, özet istatistikler

˙Ilk olarak, KÖH de ˘gerinin 1,690 çıktı ˘gını görüyoruz. Buna göre modelin tahmin etti ˘gi satı¸slar ortalama olarak, gözlenen satı¸slar- dan 1,690 birim (1690 adet) sapmaktadır.

TV ikili regresyonunda bu 3,260 idi. Burada yakı¸sma iyile¸smi¸stir.

Ancak katsayısı anlamlı çıkmayan gazeteyi modelden atarsak KÖH, 1,681 olmaktadır. Buna göre gazetenin yakı¸smaya katkısı yoktur.

(36)

Ayarlamalı R-Kare

R²’ye de bakalım. Çoklu regresyonda R²=0,897 bulunmu¸stur.

Buna göre TV, radyo ve gazete reklam harcamalarını içeren model satı¸slardaki de ˘gi¸simi yüzde 89,7 düzeyinde açıklamaktadır.

Ba¸staki ikili regresyonunda R²=0,612 idi. Dolayısıyla, daha fazla de ˘gi¸skeni dikkate alan çoklu regresyonda yakı¸sma artmı¸stır.

Öte yandan R², modeldeki de ˘gi¸sken sayısına kar¸sı hassastır. Yeni de ˘gi¸sken eklendikçe bunların açıklama gücü yoksa bile R²artar.

Bu nedenle, tek açıklayıcı de ˘gi¸skeni olan ba¸staki model ile üç açıklayıcı de ˘gi¸skeni olan yeni modeldeki R²’leri kar¸sıla¸stıramayız.

Böyle durumlarda kar¸sıla¸stırılabilir olan istatistikayarlamalı R-kare (adjusted R-squared) ya da kısaca ¯R²de ˘geridir.

Ayarlamalı R-kare modeldeki de ˘gi¸sken sayısını dikkate aldı ˘gı için normal R-kareden dü¸sük çıkar.

Örnek olarak, çoklu regresyon örne ˘gimizde ¯R² = 0,88’dir. Bunu 0,612 ile kar¸sıla¸stırınca yakı¸smanın iyili ˘ginin arttı ˘gı görülüyor.

(37)

˙Iki De˘gi¸skenli Kalıntı Çizimi

Yakı¸smanın iyili ˘gini ¸sekil üzerinde incelemek de yararlıdır. Burada, yalnızca TV ya da radyo reklamı yapıldı ˘gı zaman modelin satı¸sları yüksek tahmin etti ˘gi görülüyor. Do ˘grusal-dı¸sı bir ili¸ski söz konusu.

Satışlar

TV

Radyo

¸

Sekil 4:Çoklu regresyonda iki de ˘gi¸skenli kalıntı çizimi

(38)

Çoklu Regresyonda Bütünün Anlamlılı ˘gı

Regresyonda e ˘ger yakı¸sma düzeyi dü¸sükse bütünün anlamlılı ˘gı (overall significance) durumuna özellikle bakmak isteriz.

Bu, a¸sa ˘gıdaki önsav sınamasını yapmak demektir:

H₀: β₁= β₂= . . . = βp=0 ve H₁:En az bir β_j 6= 0 Görüldü ˘gü gibi burada tüm katsayıların aynı anda sıfır olup olama- yaca ˘gı sorgulanmaktadır. Bunun için ¸su F -istatisti ˘gi hesaplanır:

F = (TKT − KKT)/p KKT/(n − p − 1)

E ˘ger regresyon kalıntıları normal da ˘gılımlıysa ve H₀do ˘gru ise yu- karıdaki sınama istatisti ˘gi F da ˘gılımına uyar. Bilgisayar bunu ve buna ait p-de ˘gerini kolayca hesaplar ve çıktı olarak verir.

Bu aslında H₀:R²=0 sınamasıdır. Yakı¸smanın yoklu ˘gunu ölçer.

Çizelge 4’e dönersek örne ˘gimizde F = 570 oldu ˘gu görülüyor. ˙Ilgili F da ˘gılımında bu de ˘geri bulma p-de ˘geri < 0,0001’tir. Dolayısıyla modelin bütün olarak anlamlı olmadı ˘gı sıfır önsavını reddederiz.

(39)

Genel F Sınaması

Yukarıdaki standart F sınaması dı¸sında iste ˘ge göre kendi özel F sınamalarımızı da tasarlayabiliriz. Örnek olarak, ¸sunu sınayalım:

H₀: β₁=7, β₂= β₃ ve H₁:H₀geçerli de ˘gil.

Bu sıfır önsavının geçerli olması durumunda ba¸staki reklam har- camaları modelimiz de ˘gi¸sir ve a¸sa ˘gıdaki gibi olur:

Y − 7X₁= β0+ β2(X₂+X₃) +

Yukarıdaki β₀, β₂ve de ˘gerleri artık ilk modeldekilerden farklıdır.

Sınırladı ˘gımız modeli kullanarak ¸su F istatisti ˘gini hesaplarız:

F = (KKT_s− KKTsz)/m KKTsz/(n − p)

Burada s harfi “sınırlamalı”, sz ise “sınırlamasız” demektir. Ayrıca m harfi sınırlama sayısıdır ve H₀’daki = i¸sareti sayısı ile aynıdır.

Görüldü ˘gü gibi, genel F sınaması için ba¸staki (sınırlamasız) model ile H₀uygulanmı¸s (sınırlamalı) modeli tahmin edip her ikisinin KKT de ˘gerlerini kullanırız. Tüm bunlar yine bilgisayarda yapılır.

(40)

Önemli Açıklayıcı De ˘gi¸skenler

Çe¸sitli t ve F sınamalarına bakınca bazı X ’lerin anlamlı olma- dı ˘gını bulabiliyoruz. Bu durumda do ˘gal olarak, Y ’yi açıklamada önemli olan de ˘gi¸skenlere karar vermek isteriz.

Bunun için çok fazla sayıda modeli tek tek denemek gerekir.

Ancak bunu yapmak zordur. De ˘gi¸sken sayısı p olan bir modelde 2^padet farklı alt-model kombinasyonu söz konusudur.

Seçim i¸sini hızlı ve otomatik yapmak için üç klasik yakla¸sım vardır:

˙Ileri seçim(forward selection): Yalnızca sabit terim içeren en basit modelle ba¸slanır ve KÖH de ˘gerini en çok dü¸süren de ˘gi¸skenler sırayla eklenir. KÖH’ün fazla dü¸smedi ˘gi belli bir noktada durulur.

Geri seçim(backward selection): Ba¸sta tüm de ˘gi¸skenler modele eklenir ve p-de ˘geri en yüksek olan de ˘gi¸skenler sırayla çıkartılır.

Karma seçim(mixed selection): De ˘gi¸skenler modele tek tek eklenir. Ancak i¸slem sırasında önceki bir de ˘gi¸skenin p-de ˘geri belli bir e¸sikten fazla yükselirse bu de ˘gi¸sken çıkartılır.

De ˘gi¸sken seçimi konusunu 6. Bölümde ayrıntılı i¸sleyece ˘giz.

(41)

Kestirimlerin Güvenilirli ˘gi

Bir model tahmin ederken önemli bir amacımız çe¸sitli X₁,X₂, . . .Xp

de ˘gerlerine kar¸sılık gelen Y de ˘gerini kestirmektir.

Ancak bu kestirimle ilgili 3 farklı belirsizlik söz konusudur:

1 βˆ₀, ˆβ₁, . . . , ˆβ_pkatsayı tahminlerindeki belirsizlik. Bunlar 2. Bö- lümde söz etti ˘gimiz azaltılabilir hatalar ile ilgilidir. Bu belirsizlik nedeniyle katsayıgüven aralıklarıhesaplarız.

2 f (X ) fonksiyonundaki belirsizlik. Bu,model yanlılı ˘gıdedi ˘gimiz azaltılabilir hata ile ilgilidir. Burada ¸simdilik bunu yok sayalım.

3 Hata terimi ’dan kaynaklı azaltılamayan hata. Bununla ilgili olarak Y ile ˆY ’nın farkına yönelikkestirim aralıklarıhesaplarız.

Katsayı güven aralıkları, veri setindeki tüm Y de ˘gerlerine ili¸skin ortalama belirsizli ˘ge ili¸skindir. Kestirim güven aralı ˘gı ise tek bir Y kestirim de ˘gerine ait belirsizli ˘gi gösterir.

Bu yüzden kestirim aralıkları, güven aralıklarından daha geni¸stir.

Örneklem ortalamasından uzakla¸stıkça kestirim aralı ˘gı geni¸sler.

(42)

Çoklu Do ˘grusal Regresyon Nitel de ˘gi¸skenler

Ders Planı

(43)

Nitel De ˘gi¸skenler

Bir nicelik yerine sınıflandırma gösteren nitel (qualitative) de ˘gi¸s- kenlerden önceki bölümde söz etmi¸stik.

Regresyon çözümlemesi uygulamalarında X de ˘gi¸skenleri yalnızca nicel de ˘gil, nitel de olabilir.

Örnek olarak, kredi kartı veri setini ele alalım. Bu veri setinde cin- siyet, ırk, medeni durum ve e ˘gitim düzeyi ¸seklinde dört farklı nitel de ˘gi¸sken bulunmaktadır.

Bunların birbirleriyle ve di ˘ger nicel de ˘gi¸skenlerle olan ili¸skisi ¸Sekil 5’teserpilim çizimi matriksi(scatter plot matrix) olarak verilmi¸stir.

(44)

Kredi Kartı Verileri

Borç

20406080100 5 10 15 20 2000 8000 14000

05001500

20406080100

Yaş

Kart sayısı

2468

5101520

Eğ�t�m

Gel�r

50100150

2000800014000

L�m�t

0500 1500 24 6 8 50100 150 200 600 1000

2006001000

Derece

¸

Sekil 5:Kredi kartı veri setindeki de ˘gi¸skenlere ait serpilim çizimi matriksi

(45)

˙Iki Düzeyden Olu¸san X De˘gi¸skeni

Basit bir örnek olarak, erkek ve kadınlar arasındaki kredi kartı borcu farkını incelemek istedi ˘gimizi dü¸sünelim.

Bunun için yalnızca iki de ˘ger alabilen basit birgösterge(indicator) de ˘gi¸skeni ya dakukla(dummy) de ˘gi¸sken olu¸stururuz:

x_i =

(1 e ˘ger i’inci ki¸si kadınsa 0 e ˘ger i’inci ki¸si erkekse Daha sonra bu de ˘gi¸skeni regresyonumuzda kullanırız:

y_i = β₀+ β₁x_i+ _i =

(β₀+ β₁+ _i e ˘ger i’inci ki¸si kadınsa β₀+ _i e ˘ger i’inci ki¸si erkekse Bu modelde β₀ de ˘geri erkeklerdeki ortalama kredi kartı borcunu gösterir. β₀+ β₁ise kadınlar için ortalama borçtur.

Dolayısıyla β₁burada kadınların erkeklere göre borçfarkıolur.

Kime 0 ya da 1 de ˘geri verdi ˘gimiz sonucu de ˘gi¸stirmez. E ˘ger erkeklere 1 dersek bu sefer β₁erkeklerin kadınlara göre farkını verir.

(46)

Kukla De ˘gi¸skende −1, 1 Kodlaması

Kukla de ˘gi¸skenlere 0 ve 1 de ˘gerleri vermek yerine −1 ve 1 de ˘gerlerini de kullanabiliriz:

x_i =

( 1 e ˘ger i’inci ki¸si kadınsa

−1 e ˘ger i’inci ki¸si erkekse Yeni durumda model belirtimi a¸sa ˘gıdaki gibi olur:

y_i = β₀+ β₁x_i+ _i =

(β₀+ β₁+ _i e ˘ger i’inci ki¸si kadınsa β₀− β₁+ _i e ˘ger i’inci ki¸si erkekse Burada β₀parametresi kadın/erkek ayrımı yapılmaksızın ortalama kart borcudur. β₁ise kadınların bu ortalamanın ne kadar üstünde ve erkeklerin de ortalamanın ne kadar altında oldu ˘gunu verir.

Bu modelin sonuçları önceki model ile aynı çıkar. Aradaki tek fark yorumdadır.

Öte yandan, uygulamada kukla de ˘gi¸skenleri 0 ve 1 ¸seklinde kod- lamak daha yaygındır.

(47)

˙Ikiden Fazla Sınıftan Olu¸san X De˘gi¸skeni

Sınıf sayısı ikiden çoksa daha fazla kukla de ˘gi¸sken kullanırız:

x_i1 =

(1 e ˘ger i’inci ki¸si Asyalıysa 0 e ˘ger i’inci ki¸si Asyalı de ˘gilse x_i2=

(1 e ˘ger i’inci ki¸si beyazsa 0 e ˘ger i’inci ki¸si beyaz de ˘gilse Böylece, model a¸sa ˘gıdaki gibi olur:

y_i = β0+ β1x_i1+ β2x_i2+ i =







β₀+ β₁+ _i i’inci ki¸si Asyalıysa β₀+ β₂+ _i i’inci ki¸si beyazsa β0+ i i’inci ki¸si zenciyse Her zaman sınıf sayısından bir eksik kukla de ˘gi¸sken olmalıdır.

Kuklası olmayan sınıfatemelya dakar¸sıla¸stırmasınıfı denir.

Bu modelde β₁, Asyalıların zencilere göre borç farkını, β₂ ise be- yazların yine zencilere göre borç farkını gösterir.

(48)

Kukla De ˘gi¸skenlerin Yorumlanması

Kredi kartı borçlarını etnik kökene göre inceleyen regresyon tahminleri a¸sa ˘gıdaki gibidir:

De ˘gi ¸sken Katsayı Ölçünlü hata t-istatisti ˘gi p-de ˘geri Sabit terim 531,00 46,32 11,464 <0,0001

Asyalı −18,69 65,02 −0,287 0,7740

Beyaz −12,50 56,68 −0,221 0,8260

Çizelge 5:Kredi kartı borcu ile etnik köken çoklu regresyonu

Çizelgede taban sınıf olan zenciler için ortalama kredi kartı borcu 531 dolardır. Bu miktar Asyalılar için 18,69 dolar, beyazlar için ise 12,50 dolar daha dü¸sük bulunmu¸stur.

Ancak Asyalılar ve beyazlara ait katsayılerın p-de ˘gerleri yüksektir.

Bu durumda üç grup arasında anlamlı bir fark yoktur diyebiliriz.

Öte yandan katsayılar ve p-de ˘gerleri kuklaların nasıl belirlendi-

˘gine de ba ˘glıdır. Dolayısıyla, bu konuda kesin karar vermek için H₀: β1= β2=0 ¸seklinde bir F sınaması yapmak uygun olur.

(49)

Çoklu Do ˘grusal Regresyon Çoklu regresyonun uzantıları

Ders Planı

(50)

Toplanırlık ve Do ˘grusallık Varsayımları

Do ˘grusal regresyon modeli yorumlaması oldukça kolay ve çıkar- sama için de yararlı sonuçlar üretir.

Ancak bunu genellikle uygulamada geçerli olmayan iki kısıtlayıcı varsayım pahasına yapar:

1 Y ve X ’ler arasındatoplanır(additive) bir ili¸ski vardır.

2 Y ve X ’ler arasındado ˘grusal(linear) bir ili¸ski vardır.

Toplanır ili¸ski, belli bir X_j’nin Y üzerindeki etkisinin di ˘ger X ’lerden ba ˘gımsız olması anlamına gelir.

Do ˘grusal ili¸ski ise X_j’deki bir birim de ˘gi¸sikli ˘gin Y ’ye etkisinin hep sabit olması, X_j’nin büyüklü ˘günden etkilenmemesi demektir.

¸

Simdi, bu iki varsayımı nasıl gev¸setebilece ˘gimizi kısaca tartı¸salım.

(51)

Etkile¸sim Terimi

˙Ilk olarak, toplanırlık varsayımını ele alalım. A¸sa˘gıdaki üç de˘gi¸s- kenli modeli inceleyelim:

Y = β₀+ β1X₁+ β2X₂+

Burada X₁e ˘ger 1 birim artarsa Y de ortalama β₁birim artmakta- dır. Öte yandan bu etki X₂’den ba ˘gımsızdır. X₂ sıfır da olsa, yük- sek bir de ˘ger de alsa etki sabittir.

Bu durum gerçek ya¸samda geçerli olmayabilir. Örnek olarak, TV reklamının etkisi radyo reklamının varlı ˘gıyla güçlenebilir. Pazarla- mada bunasinerji(synergy) etkisi denilmektedir.

Bu etkiyi dikkate almanın bir yolu yeni bir de ˘gi¸sken eklemektir:

Y = β₀+ β₁X₁+ β₂X₂+ β₃X₁X₂+

Burada β₃’eetkile¸sim terimi (interaction term) denir. Adından da anla¸sıldı ˘gın gibi bu terim X₁ve X₂arasındaki etkile¸simi ölçer.

Yeni de ˘gi¸skeni X₁ile X₂’yi çarparak bizim olu¸sturdu ˘gumuza dikkat ediniz.

(52)

Etkile¸sim Teriminin Yorumu (1)

Etkile¸sim terimini anlamak için reklam örne ˘gimize geri dönelim:

Satı¸s = β₀+ β₁TV + β₂Radyo + β₃(TV × Radyo) + Yukarıdaki modeli yorumlamayı kolayla¸stırmak amacıyla iki farklı

¸sekilde yeniden yazabiliriz:

Satı¸s = β₀+ (β₁+ β₃× Radyo)TV + β₂Radyo + Satı¸s = β₀+ (β2+ β3× TV) Radyo + β1TV +

Görüldü ˘gü gibi, etkile¸sim terimi içeren modelde TV reklamının sa- tı¸slara etkisi artık β₁+ β₃× Radyo harcaması kadardır.

Benzer ¸sekilde radyo reklamının etkisi de β₂ + β₃ × TV reklam harcamasına ba ˘glıdır.

(53)

Etkile¸sim Teriminin Yorumu (2)

Modele ait regresyon tahmin sonuçları a¸sa ˘gıda verilmi¸stir:

Sabit terim 6,7502 0,248 27,23 <0,0001

TV 0,0191 0,002 12,70 <0,0001

Radyo 0,0289 0,009 3,24 0,0014

TV×Radyo 0,0011 0,000 20,73 <0,0001

Çizelge 6:Satı¸slar ile TV ve radyo reklamları etkile¸simli regresyonu Yukarıda etkile¸sim teriminin anlamlı oldu ˘gu görülmektedir. Ayrıca etkile¸simin eklenmesiyle R²de 0,897’den 0,968’e yükselmi¸stir.

Burada artık bir reklam türünün etkisi di ˘gerinin miktarına ba ˘glıdır.

Örnek olarak, radyo reklam harcaması 1000 dolar iken 1000 do- larlık TV reklamının satı¸slara etkisi 19,1 + 1,1 × 1 = 20,2 adettir.

Radyo reklamı 5000 dolar oldu ˘gunda ise aynı 1000 dolarlık TV reklamının etkisi artarak 19,1 + 1,1 × 5 = 24,6’ya yükselir.

Radyo reklamlarının etkisi de buna benzer ¸sekilde hesaplanır.

(54)

Kukla Etkile¸sim Terimi (1)

Etkile¸sim terimlerini kukla de ˘gi¸skenlerle de kolayca kullanabiliriz.

Örnek olarak, kredi kartı borcunun gelire ve ö ˘grenci olma niteli-

˘gine göre regresyonu etkile¸sim terimiyle birlikte ¸söyle modellenir:

Borç = β₀+ β1Gelir + β₂Ö ˘grenci + β₃(Gelir × Ö ˘grenci) + Bu durumda a¸sa ˘gıdaki regresyon tahmin edilmi¸s olur:

Borç =

((β₀+ β₂) + (β₁+ β₃)Gelir e ˘ger ö ˘grenci ise β0+ β1Gelir e ˘ger ö ˘grenci de ˘gilse Yukarıda β₂, ikinci do ˘grunun (ö ˘grenci olmanın) sabit terim farkı olarak yorumlanır. β₃ise ikinci do ˘grunune ˘gim farkıolur.

Dolayısıyla aslında iki ayrı regresyon do ˘grusu tahmin etti ˘gimize dikkat ediniz. Bunlar ¸Sekil 6’da gösterilmi¸stir.

(55)

Kukla Etkile¸sim Terimi (2)

0 50 100 150

20060010001400

Gelir

Borç

öğrenci öğrenci değil

¸

Sekil 6:Kredi borcunun gelire ve ö ˘grenci olma niteli ˘gine göre regresyonları

(56)

Polinom Regresyonu (1)

Do ˘grusallık varsayımının uygulamada regresyon modelleri için bir kısıtlama olu¸sturdu ˘gunu yukarıda söylemi¸stik.

Do ˘grusal-dı¸sı ili¸skileri dikkate almanın basit bir yolupolinom regresyon(polynomial regression) modelidir.

Örnek olarak, yakıt tüketimi ile motor gücünü a¸sa ˘gıdaki gibi ikinci derece bir polinom regresyonuna yakı¸stırabiliriz:

Yakıt tüketimi = β₀+ β₁Güç + β₂Güç²+

Daha yüksek derece polinom regresyonları da buna benzerdir:

Yakıt tüketimi = β₀+ β₁Güç + β₂Güç²+ · · · + β_p Güç^p+ Bu modellerde regresyon çizgisi bir do ˘gru de ˘gil, e ˘gri ¸seklindedir.

Dolayısıyla X ’in Y ’ye etkisi X ’in büyüklü ˘güne göre de ˘gi¸sir.

Otomobil veri seti kullanılarak tahmin edilmi¸s do ˘grusal model ile 2. derece ve 5. derece polinom modelleri ¸Sekil 7’deki gibidir.

(57)

Polinom Regresyonu (2)

¸

Sekilde 2. derece polinom regresyonunun verilere iyi yakı¸stı ˘gı, 5.

derece polinomun ise gereksiz derecede kıvrımlı oldu ˘gu görül- mektedir. Dolayısıyla esneklik seçimi burada da önemlidir.

50 100 150 200

1020304050

Beygir gücü

Galon başına mil

Doğrusal 2. derece 5. derece

¸

Sekil 7:Yakıt tüketimi ile motor gücüne ili¸skin polinom regresyonlar

(58)

Uygulamada Kar¸sıla¸sılan Sorunlar Modelleme sorunu

Ders Planı

(59)

Uygulamada Kar¸sıla¸sılan Sorunlar

Bir veri setine regresyon modeli yakı¸stırdı ˘gımız zaman çe¸sitli so- runlarla kar¸sıla¸sabiliriz. Bunların ba¸slıcaları ¸sunlardır:

1 Modelleme hatası

2 Hata teriminde korelasyon

3 Hata teriminde farklıserpilimsellik

4 Dı¸sadü¸senler

5 E¸sdo ˘grusallık

Yukarıdaki hataları saptamak ve düzeltmek oldukça ayrıntılı ba¸s- lıklardır. Bu konularda yazılmı¸s birçok kitap bulunmaktadır.

Burada biz uygulamada kar¸sıla¸sılan olası sorunları kısa ve öz bir

¸sekilde ele alaca ˘gız.

Modelleme hatası ile ba¸slayalım.

(60)

Modelleme Sorunu (1)

Regresyon yönteminde modelleme sorunu genellikle do ˘grusal- dı¸sı ili¸skiler modelde dikkate alınmadı ˘gı zaman ortaya çıkar.

Bu durumda tüm tahminler ku¸skulu duruma dü¸ser ve modelin kestirim gücü de ciddi oranda azalabilir.

Do ˘grusal-dı¸sı ili¸skileri saptamanın iyi bir yolu de ˘gi¸skenleri ya da kalıntıları ¸sekil üzerinde incelemektir.

Bu amaçla regresyon kalıntıları ile yakı¸stırılan ˆy_i de ˘gerlerinin çizi- mine bakılır. Ayrıca farklı X ’lerin Y ’ye kar¸sı çizimleri de yararlıdır.

E ˘ger görsel incelemede do ˘grusal-dı¸sı ili¸ski bulunursa de ˘gi¸skenler üzerinde log(X ), √

X gibi dönü¸stürmeler yapılabilir ya da X² gibi yeni de ˘gi¸skenler modele eklenebilir.

Örnek olarak, otomobil veri setindeki yakıt tüketimi ve motor gücü regresyonuna ili¸skin kalıntılar ile yakı¸stırılan de ˘gerler ¸Sekil 8’de gösterilmi¸stir.

(61)

Modelleme Sorunu (2)

Sol paneldeki do ˘grusal modele ait kalıntılar güçlü bir do ˘grusal- dı¸sı örüntü göstermektedir. Modele X²eklenerek elde edilen sa ˘g paneldeki polinom modelde ise sorun büyük oranda düzelmi¸stir.

5 10 15 20 25 30

−15−10−505101520

Yakıştırılan değerler

Kalıntılar

Doğrusal Yakıştırmaya ait Kalıntılar

330323 334

15 20 25 30 35

−15−10−5051015

Yakıştırılan değerler

Kalıntılar

334 323

155

2. Derece Polinom Yakıştırmasına ait Kalıntılar

¸

Sekil 8:Do ˘grusal ve polinom regresyonlara ait kalıntı çizimleri