• Sonuç bulunamadı

Basit doğrusal regresyon modeli

1. Bağımlı (ilişkili) örneklerde ortalamalar arasındaki farka ait hipotez testi: İki farklı ana kitleden çekilmiş iki örneğin içerdiği bireyler veya gözlemler birbiri ile ilişki içerisinde değil

6.8. Doğrusal Regresyon Analizi

6.8.1. Basit doğrusal regresyon modeli

Basit doğrusal regresyon modelinde sadece iki değişken yer almaktadır ve bunların arasındaki ilişki doğrusaldır. Değişkenlerden bir tanesi bağımlı değişken, diğeri ise bağımsız değişkendir. Bağımlı değişken, bir başka değişkendeki değişkene bağlı olarak değişim gösteren değişkendir. Bağımsız değişken ise, başka bir değişkene bağlı olmayan ve diğer bir değişkende değişmeler yol açan değişkenlerdir. Örneğin tüketici gelirleri ile gıda harcamaları incelendiğinde, gıda harcamalarının gelire bağlı olarak değiştiğini görürüz. Bu durumda gıda harcamaları “bağımlı değişken”, gelir ise “bağımsız değişken” dir. İki değişken arasındaki doğrusal regresyon modeli matematiksel olarak aşağıdaki gibi gösterilir.

X

Y  (ana kitle için) bX

a

Y   (örnek için)

Eşitliklerde  ana kitle için bulunan regresyon modelinin sabit terimini, ana kitleye ait regresyon modelinde eğimi, a örneğe ait regresyon modelindeki sabit terimi ve b ise örneğe ait regresyon modelindeki eğimi ifade etmektedir.

a ve b’nin farklı değerleri için farklı regresyon doğruları söz konusu olmaktadır.

Örneğin a=50 ve b=5 olduğunda basit doğrusal regresyon modeli Y 50 5Xşeklindedir.

Buna ait regresyon doğrusunu çizmek için, öncelikle denklemden yararlanarak X’in iki farklı değeri için Y’nin aldığı değerlerin bulunması gerekmektedir. Daha sonra X ve Y değerleri koordinat sisteminde işaretlenerek regresyon doğrusu elde edilir.

X=0 iken Y 50(5)(0)50 X=10 iken Y 50(5)(10)100

Y

200 Y=50+5X

150

100 X=10, Y=100

50 X=0, Y=50

5 10 15 20 25 X

“a”, regresyon doğrusunun Y eksenini kestiği noktayı göstermektedir ve “sabit terim”

olarak isimlendirilmektedir. Denklemde yer alan “b” ise, regresyon doğrusunun eğimini göstermektedir. Eğim X’in değişen her bir birimi için Y’nin ne kadar değişeceğini göstermektedir. Örneğimizde X’in 1 birim artması durumunda, Y kendi biriminden 5 birim artacaktır. Aşağıda regresyon doğrusu üzerinde b katsayısının özelliği anlatılmıştır.

Y

200 Y=50+5X

150 5 (Y’deki değişim) 1 (X’deki değişim)

100 5 (Y’deki değişim) 1 (X’deki değişim)

50

5 10 15 20 25 X

bX a

Y   modelinde, Y ve X arasında tam bir doğrusal ilişki söz konusudur. X’in belirli bir değeri için, Y’nin kesin tek bir değeri bulunmaktadır. Bu sebeple bu tip modellere

“deterministik modeller” adı verilmektedir. Ancak gerçek hayatta bir olayı etkileyen birden fazla değişken mevcuttur ve X’in belirli bir değeri için Y belirli bir olasılıkla değer almaktadır. Bu durumda daha önce konu edilen deterministik modele tesadüfi hata teriminin

ilave edilmesi gerekli olmaktadır ve model YabXeşekline dönüşmektedir. Bu tip modele ise “ihtimalli regresyon modeli” adı verilmektedir.

İhtimalli modelde yer alan hata terimi, (i) analize dahil edilmeyen değişkenlerin etkisi ve (ii) tesadüfi değişimin etkisi olmak üzere iki unsuru ihtiva etmektedir. Gerçek dünyada bir olay üzerinde etkili olan çok sayıda değişken bulunmaktadır. Oysa, model kurulurken çok sayıda değişken içerisinden daha önemli olanları dikkate alınıp, diğer değişkenler göz ardı edilmektedir. Daha önce üzerinde çalıştığımız örnekte gıda harcamalarını etkileyen tek değişkenin gelir olduğunu kabul etmiştik. Oysa, gerçek hayatta gelirden başka gıda harcamaları üzerinde etkili olan aile büyüklüğü, aile bireylerinin zevk ve tercihleri vb gibi bir çok değişken bulunmaktadır. Tesadüfi hata terimi, analize dahil edilmeyen bu değişkenlerin etkisini içermektedir. Diğer taraftan, insan davranışlarını tahmin etmek mümkün olmadığından, tesadüfi değişimler de söz konusu olabilmektedir. Örneğin incelenen dönemde bir çok kez toplantı düzenleyen bir aile o dönemde her zamankinden fazla gıda harcaması yapabilir. Aynı aile ilgili dönemde eve yeni mobilya aldığı için her zamankinden az gıda harcaması yapabilir. Bu sebeplerle gıda harcamalarında meydana gelen değişim “tesadüfi değişim” olarak bilinmektedir ve hata terimi içinde yer almaktadır.

Basit doğrusal regresyon modelini oluşturmak için yapılacak ilk iş bağımlı değişken dik eksende, bağımsız değişken yatay eksende yer alacak şekilde koordinat sistemini hazırlamak ve değişkenler arasındaki ilişkiyi görmek için verileri koordinat sisteminde işaretleyerek noktalı diyagramı oluşturmaktır. Daha sonra noktaların arasından doğrular geçirilir. Her bir doğru ayrı bir regresyon doğrusunu temsil etmektedir ve her birinin “a” ve

“b” değerleri farklıdır. Aşağıda gıda harcamaları ve gelir arasındaki ilişkiyi yansıtan rakamlar verilmiştir.

Gelir (milyar TL)

Gıda harcamaları (milyar TL) 35

49 21 39 15 28 25

9 15

7 11

5 8 9

Örneğimiz için koordinat sisteminde işaretlemeler yapılmış ve noktalar arasından muhtelif doğrular geçirilmiştir (Şekil 6.1).

Gıda harcamaları 16

12 x x x

8 x x x x x 4

10 20 30 40 50 Gelir Şekil 6.1. Gelir ile gıda harcamaları arasındaki ilişki

Regresyon analizinde, noktalar arasından geçen en iyi doğru bulunmaya çalışılmaktadır. Bu doğru “en küçük kareler yöntemi” ile bulunmaktadır. En küçük kareler yöntemine göre “a” ve “b” katsayıları aşağıdaki formüller yardımıyla hesaplanmaktadır.

 

  

n X X

n Y XY X

b 2

2 ( )

) )(

(

Y bX a

Formüllerde a regresyon doğrusunun Y eksenini kestiği noktayı (sabit terim), b eğimi,

XY bağımlı ve bağımsız değişkenlerin değerlerinin çarpımlarının toplamını,

Xbağımsız değişken değerlerinin toplamını,

X2bağımsız değişken değerlerinin karelerinin toplamını, n gözlem sayısını, X bağımsız değişken için aritmetik ortalamayı ve Y bağımlı değişken için aritmetik ortalamayı ifade etmektedir.

Şimdi gelir ve gıda harcamaları arasındaki ilişkiyi bulmak için en küçük kareler yöntemi ile regresyon doğrusunu ve denklemini oluşturalım:

Adım 1: Verilerin hazırlanması

Bu aşamada çarpımlar, kareler toplamı ve bağımlı ve bağımsız değişkenlerin değerlerinin toplamı hesaplanır. Mevcut verilerden yararlanarak değişkenler ait ortalamalar hesaplanır.

Gelir

Adım 2: Katsayıların hesaplanması

2642

Adım 3: Regresyon denkleminin oluşturulması ve katsayıların yorumu X

Y 1.14140.2642

a katsayısının yorumu: Hiç geliri olmayan bir ailenin yılda 1.1414 milyar TL’lik gıda harcaması olacaktır.

b katsayısının yorumu: Bu katsayının yorumu için öncelikle işaretine bakılmalıdır. İşaret pozitif olduğundan, gelir ile gıda harcamaları aynı yönde hareket etmektedir. Buna göre gelir 1 milyar TL arttığında, gıda harcamaları 264.2 milyon TL artacaktır.

Adım 4: Regresyon doğrusunun çizilmesi

Regresyon doğrusunun çizilmesi için X’in çeşitli değerleri için Y’nin aldığı değerler denklem yardımıyla bulunur. Daha sonra bunlar koordinat sisteminde işaretlenerek regresyon doğrusu elde edilir.

y = 1.1414+0.2642X

0 4 8 12 16

0 10 20 30 40 50 60

Gelir (milyar TL)

Gıda harcamaları (milyar TL)

Regresyon modelinden yararlanarak, bağımsız değişkenin belirli bir değeri için, bağımlı değişkenin değerini tahmin etmek mümkündür. Bunun için oluşturulan regresyon denkleminde X’in istenen değeri yerine konulur ve Y değeri bulunur. Örneğin gelir 35 milyar TL olduğunda gıda harcamaları ne kadar olacaktır. X’in yerine modelde 35 konulduğunda, gıda harcamaları Y 1.1414(0.2642)(35)10.3884 milyar TL olarak bulunur. Ancak oluşturulan regresyon modeline dayanarak tahminlerde bulunurken dikkatli olmak gerekmektedir. Her şeyden önce, model oluşturulurken bağımsız değişkenin en küçük ve en büyük değerleri arasında kalan değerler için tahminlerin tutarlı sonuç vereceği unutulmamalıdır. Eğer seride bulunan verilerden çok büyük veya küçük değerler için tahmin yapılırsa, önemli düzeyde hata içerecektir.

Anket yoluyla kişilerden elde edilen gıda harcamaları değerleri “gerçek değerler” veya

“gözlenen değerler” olarak bilinirler. Regresyon doğrusu veya denklemi kullanılarak elde edilen gıda harcamaları değerleri ise “tahmini değer” dir. Regresyon modelinde yer alan hata terimi gerçek değer ile tahmin değeri arasındaki farka eşittir.

e= Gerçek gıda harcamaları – Tahmini gıda harcamaları = Y  Y

Eğer gerçek gözlem değeri tahmin değerinden büyükse hata terimi pozitif değer almaktadır. Gerçek gözlem değeri tahmin değerinden küçük olduğu durumda ise, hata terimi negatif değer almaktadır. Hata terimlerinin toplamı sıfıra eşittir (

 

e (Y Y)0).

Hatanın ne derece büyük olduğunu bize hata teriminin standart hatası göstermektedir. Hata teriminin standart hatası aşağıdaki formül kullanılarak hesaplanmaktadır.

2

Formülde n-2 regresyon modelinin serbestlik derecesini ifade etmektedir. Şimdi örneğimiz için standart sapmayı hesaplayalım.

9922

Regresyon modelinde yapılan hataların toplamını ifade eden genel hata kareleri toplamının iki önemli bileşeni bulunmaktadır (

birincisi hata kareleri toplamının regresyon denklemi tarafından açıklanan kısmıdır (HKT).

En küçük kareler yönteminde amaç, hata kareleri toplamının regresyon tarafından açıklanan kısmının en aza indirilmesidir (HKT

e2

(Y Y)2 min). Diğer bileşen ise regresyon denklemi tarafından açıklanmayan kısımdır (AHKTGHKTHKT).

Örneğimizde 35 milyar TL’lik gelir için, gıda harcamalarının 10.3884 milyar TL tahmini gıda harcamaları değerlerinin farkını alarak hataları tespit edelim. Daha sonra, hesaplanan hata terimlerinden yararlanarak regresyon denklemi tarafından açıklanan ve açıklanmaya hata kareleri toplamı ve genel hata kareleri toplamını bulalım.

Gelir

Buna göre regresyon modeli ile açıklanan hata kareleri toplamı 4.9283’tür. Genel hata kareleri

olarak bulunur. Genel hata kareleri toplamının regresyon denklemi ile açıklanamayan bölümü de,

Regresyon modeline ilişkin hata kareleri toplamları bulunduktan sonra, oluşturulan regresyon modelinin ne derece iyi olduğunu gösteren “determinasyon (belirleme) katsayısının” hesaplanması gerekmektedir. Genellikle yüksek r2 değeri, iyi bir regresyon modelini göstergesidir. Hata kareleri toplamının regresyon denklemi ile açıklanmayan kısmının, genel hata kareleri toplamına oranı bize determinasyon katsayısını vermektedir.

GHKT r 2 AHKT

Determinasyon katsayısı aynı zamanda aşağıdaki formül yardımıyla hesaplanabilmektedir.

 

Determinasyon katsayısı, toplam hatanın regresyon modeli ile açıklanma oranını göstermektedir ve bu katsayı 0 ile 1 arasında değişmektedir (0 r2 1). R2 bağımlı değişkendeki değişimin, ele alınan bağımsız değişken tarafından açıklanan yüzdesini göstermektedir. Modelde açıklanmadan geri kalan kısım, modelde ele alınmayan diğer değişkenlerin etkisinden ve tesadüfi değişimden kaynaklanmaktadır. Şimdi örneğimiz için determinasyon katsayısını hesaplayalım:

92

Buna göre gıda harcamalarında meydana gelen değişimin %92’si, bağımsız değişken olarak incelenen gelir tarafından açıklanmaktadır. Toplam değişimin geriye kalan %8’lik kısmı ise ele alınmayan değişkenlerin etkisinden ve tesadüfi değişimden kaynaklanmaktadır.

Doğrusal regresyon analizinde, elde edilen “b” katsayısının hipotez testinin yapılması gerekmektedir. “b” katsayısının testi yapılırken, eğer n>30 ise z dağılımı, n<30 ise t dağılımı kullanılmaktadır. Hipotez testi yapılırken aşağıdaki formüller kullanılmaktadır.

n X X

Sb Se

2

2 ( )

Sb

t b

Formüllerde Sbb katsayısına ait standart hatayı, Sehata teriminin standart hatasını, b eğimi ve

 ana kitle eğimini ifade etmektedir. Formülde  başlangıç hipotezinden dolayı sıfır olarak alınmaktadır. Şimdi örmeğimiz için katsayıları test edelim:

1. Hipotezlerin belirlenmesi:

0

0:b

H (Eğim sıfırdır, yada katsayı istatistik açıdan önemsizdir) 0

0:b

H (Eğim pozitiftir, yada katsayı istatistik açıdan önemlidir.)

2. Test dağılımının belirlenmesi:

n<30 olduğundan t dağılımı kullanılır.

3. Kabul ve red bölgelerinin belirlenmesi: SD=n-2=7-2=5

KABUL RED α=0.01

 0.01 n-2=5 3.365

0 3.365 4. Test istatistiğinin hesaplanması:

035 . 31 0 . 28

992 . 0 )

( 2

2

 

n X X

Sb Se

549 . 035 7

. 0

0 2642 .

0  

 

Sb

t b

5. Kararın alınması:

tablo hesap t

t  olduğundan (7.549<3.365) H0 hipotezi reddedilip, H1 hipotezi kabul edilecektir. Yani b katsayısı istatistik açıdan önemlidir.

Örnek:

8 otomobil sürücüsünün, sürücülük deneyimi ile aylık sigorta prim ödemeleri aşağıdaki gibidir.

Sürücülük deneyimi (yıl)

Aylık sigorta primi (milyon TL) 5

2 12

9 15

6 25 16

64 87 50 71 44 56 42 60

a) Verilere bakarak, bu iki değişken arasında bir ilişki var mıdır?Varsa yönü nedir? Bu değişkenlerden hangisi bağımlı değişken, hangisi bağımsız değişkendir?

b) Doğrusal regresyon modelini oluşturup, regresyon doğrusunu çiziniz?

c) Korelasyon katsayısı ve determinasyon katsayısını hesaplayınız?

d) 10 yıllık sürücülük deneyimine sahip bir sürücünün aylık sigorta primini tahmin ediniz?

e) Hata terimine ait standart hatayı hesaplayınız?

f) b katsayısına ilişkin hipotez testini yapınız?

Çözüm:

a) İki rakam grubuna bakarak aralarında negatif bir bağlantının olduğunu söylemek mümkündür. Sürücülük deneyimi bağımsız, aylık sigorta primi ise bağımlı değişkendir.

b)

X  90

X2  1396

Y  474

Y2  29642

XY  4739

y = 76.6605-1,5476x 0

Aylık sigorta primi (milyon TL)

c) 0.77

Y milyon TL’dir.

e) Tesadüfi hata teriminin standart hatası

S milyon TL’dir.

f) B katsayısının testi aşağıdaki gibidir.

1. Hipotezlerin belirlenmesi:

0

0:b

H (Eğim sıfırdır, yada katsayı istatistik açıdan önemsizdir) 0

0:b

H (Eğim negatiftir, yada katsayı istatistik açıdan önemlidir.)

2. Test dağılımının belirlenmesi:

n<30 olduğundan t dağılımı kullanılır.

3. Kabul ve red bölgelerinin belirlenmesi: SD=n-2=8-2=6

KABUL RED α=0.05

 0.05 n-2=6 -1.943

-1.943 0 4. Test istatistiğinin hesaplanması:

5270 . 583 0 . 19

3199 . 10 )

( 2

2

 

n X X

Sb Se

937 . 5270 2

. 0

0 5476 .

1  

 

  Sb

t b

5. Kararın alınması:

tablo hesap t

t  olduğundan (2.937<1.943) H0 hipotezi reddedilip, H1 hipotezi kabul edilecektir. Yani b katsayısı istatistik açıdan önemlidir.

Benzer Belgeler