Ders 12: Regresyon ve Korelasyon
Regresyon analizinin amacı ve yapısı
En küçük kareler tahmini
Varyans ve kareler toplamı
Hipotez testi ve güven aralıkları
Kalıntı (residual) analizi
Çok değişkenli doğrusal regresyon
Doğrusal olmayan regresyon
İki veya daha fazla değişken arasındaki rastsal (deterministik olmayan) ilişkiyi
araştıran istatistiksel yönteme regresyon analizi denir
Gözlemlerden yola çıkarak değişkenler arasındaki ilişkinin yapısı ve parametleri öngörülmeye çalışılır.
Bağımsız değişkenlerdeki değişikliğin,
bağımlı değişkeni nasıl etkileyeceği tahmin edilir.
0 5 10 15 20 25
0 1 2 3 4 5 6 7 8 9 10
𝑅𝑎𝑠𝑡𝑠𝑎𝑙 𝐻𝑎𝑡𝑎 {
} 𝑅𝑎𝑠𝑡𝑠𝑎𝑙 𝐻𝑎𝑡𝑎
İlişki yok Pozitif doğrusal ilişki
Negatif doğrusal ilişki Doğrusal olmayan ilişki
Bağımsız 𝑋 değişkeni ile bağımlı 𝑌 değişkeni arasında doğrusal bir ilişki vardır.
𝐸 𝑌 = 𝛼 + 𝛽𝑋
Her bir 𝑌𝑖 gözleminin beklenen değer ve rastsal terimden oluştuğu varsayılır
𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝜀𝑖
𝛼 ve 𝛽 parametreleri için yapılan tahminler olan 𝑎 ve 𝑏 kullanılarak tahmin edilmiş
regresyon doğrusu elde edilir:
𝑦 = 𝑎 + 𝑏𝑥
Bağımlı değişken 𝑌 ile bağımsız değişken 𝑋 arasındaki ilişki doğrusaldır.
Bağımsız değişken 𝑋 doğrusal modelin dışında belirlenir.
Rastsal terimler:
◦ Birbirlerinden bağımsızdırlar
◦ Normal dağılımdan gelirler
◦ Varyansları sabittir
Regresyon doğrusu ile gözlem arasındaki farklar hata terimi denir.
Hata kareler toplamı:
𝑆𝑆𝐸 = 𝑒𝑖2 = 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 2
𝑛 𝑖=1 𝑛
Amaç hata kareler toplamının en düşük olacağı 𝑎 ve 𝑏 𝑖=1
değerlerini bulmak olduğu için kısmı türevleri alıp sıfıra eşitleyerek en küçük kareler tahmin edicilerini elde edebiliriz:
𝑎 = 𝑦 − 𝑏𝑥
𝑏 = 𝑛𝑖=1 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 2
𝑛𝑖=1
Gözlem ile ortalama arasındaki sapmaların karelerinin toplamı:
𝑆𝑆 = 𝑦𝑖 − 𝑦 2
𝑛
𝑖=1
Tahmin ile ortalama arasındaki farkın kareler toplamı, regresyon kareler toplamı:
𝑆𝑆𝑅 = 𝑦 𝑖 − 𝑦 2
𝑛
𝑖=1
Tahmin ile gözlem arasındaki farkın kareler toplamı, hata kareler toplamı:
𝑆𝑆𝐸 = 𝑦𝑖 − 𝑦 𝑖 2
𝑛 𝑖=1
Sapma kareler toplamı, regresyon kareler
toplamı ile hata kareler toplamının toplamına eşittir:
𝑆𝑆 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸
Belirleyicilik katsayısı, bağımlı değişkenin değişkenliğinin ne kadarının bağımsız
değişkenlerdeki değişim ile açılanabildiğini belirtir:
𝑟2 = 𝑆𝑆𝑅 𝑆𝑆
𝑆𝑆 = 𝑦𝑖 − 𝑦 2
𝑛
𝑖=1 𝑆𝑆𝑅 = 𝑦 𝑖 − 𝑦 2
𝑛 𝑖=1
𝑆𝑆𝐸 = 𝑦𝑖 − 𝑦 𝑖 2
𝑛 𝑖=1
𝛼 Parametresi için güven aralığı:
𝑎 − 𝑡 × 𝜎 𝑛𝑖=1 𝑥𝑖2
𝑛 ∙ 𝑆𝑋𝑋 < 𝛼 < 𝑎 + 𝑡 × 𝜎 𝑛𝑖=1 𝑥𝑖2 𝑛 ∙ 𝑆𝑋𝑋
𝛽 Parametresi için güven aralığı:
𝑏 − 𝑡 × 𝜎
𝑆𝑋𝑋 < 𝛽 < 𝑏 + 𝑡 × 𝜎 𝑆𝑋𝑋
𝑡’nin serbestlik derecesi 𝑛 − 2 olacaktır
Regresyon modelinin anlamlı olup olmadığını test etmek için:
𝐻0: 𝛽0 = 0
𝐻𝑎: 𝛽0 ≠ 0
𝑡 = 𝑏−𝛽𝜎 0
𝑆𝑋𝑋
𝑡’nin serbestlik derecesi 𝑛 − 2 olacaktır
Kalıntıların incelenmesi ile regresyon analizinin varsayımlarının ihlal edilip edilmediği kontrol edilebilir.
Kalıntıların tüm değişkenlerden ve
birbirlerinden bağımsız olması gerekir.
Varsayımları sınamak için hipotez testleri
kullanılabileceği gibi kalıntıların değişkenlere göre dağılımları çizilerek görsel olarak da
kontrol edilebilir.
𝑋 ve 𝑌 arasındaki 2. derece ilişki modele katılmadığı için 𝑒 ve 𝑋 bağımsız değiller
-50 0 50 100 150 200 250
0 5 10 15 20
-30 -20 -10 0 10 20 30 40
0 5 10 15 20
𝑋
𝑋
𝑌 𝑒
Hata terimleri birbirlerinden bağımsız değiller.
Özellikle zaman serilerinde karşılaşılır.
Durbin-Watson testi ile sınanabilir.
0 20 40 60 80 100 120 140
0 20 40 60 80 -8
-6 -4 -2 0 2 4 6
-8 -6 -4 -2 0 2 4 6
𝑋
𝑌 𝑒 𝑖
𝑒 𝑖−1
Huni etkisi: Hata terimleri bağımlı ya da
bağımsız bir değişkenin değerine bağlı olarak daha fazla yayılırlar
0 20 40 60 80 100 120
0 5 10 15 -80
-60 -40 -20 0 20 40 60
0 5 10 15
𝑋
𝑌 𝑒
𝑋
Bir pazarcı karpuzları tartmak yerine mezura ile çevrelerini ölçerek satmaktadır. Rastgele seçilen 23 karpuzun çevre ve ağırlık ölçümleri verilmiştir.
a) Çevre ve ağırlığın serpilme diyagramını çizip uygun
regresyon modelini oluşturun.
b) Regresyon katsayılarını hesaplayıp yorumlayın.
c) Belirleyicilik katsayısını hesaplayıp yorumlayın.
Çevre (cm) Ağırlık (gr) 50 1200 55 2000 54 1500 52 1700
37 500
52 1000 53 1500 47 1400 51 1500 63 2500
33 500
43 1000 57 2000 66 2500 82 4600 83 4600 70 3100
34 600
51 1500 50 1500 49 1600 60 2300 59 2100
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
0 10 20 30 40 50 60 70 80 90
Ağırlık (gr)
Çevre (cm)
a) Regresyon modeli:
𝐸 𝑎ğ𝚤𝑟𝑙𝚤𝑘 = 𝛼 + 𝛽 ∙ ç𝑒𝑣𝑟𝑒
b) 𝑏 = 𝑛𝑖=1 𝑥𝑖−𝑥 𝑦𝑥 𝑖−𝑦
𝑖−𝑥 2
𝑛𝑖=1 = 293391,33557,5 ≅ 82,47
Karpuzun çevresi 1cm arttığında ağırlığının 82,47 gram artması beklenmektedir
𝑎 = 𝑦 − 𝑏𝑥 = 1856 − 82,47 × 54,4 ≅ −2639,2 Çevresi 0cm olan karpuzun ağırlığının - 2639,2gr olması beklenmektedir.
c) 𝑟2 = 𝑆𝑆𝑅
𝑆𝑆 = 𝑛𝑖=1 𝑦 𝑖−𝑦 2
𝑦𝑖−𝑦 2
𝑛𝑖=1 = 24196481,65
25816521,74 ≅ 0,9372
Ağırlıktaki değişimin %94’ü, çevredeki değişim ile açıklanabilmektedir.
Bağımsız değişken sayısı birden fazlaysa:
𝐸 𝑌 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑟𝑥𝑟 Matris notasyonu ile:
𝒚 = 𝑿𝜷 + 𝝐
𝒚 =
𝑦1
⋮
𝑦𝑛 , 𝑿 =
1 𝑥11 1 𝑥12
… 𝑥𝑘1
… 𝑥𝑘2
1 ⋮
1 𝑥1𝑛
⋱ ⋮
… 𝑥𝑘𝑛
, 𝜷 =
𝛽0 𝛽1
⋮ 𝛽𝑘
, 𝝐 =
𝜖0 𝜖1
⋮ 𝜖𝑘 En küçük kareler tahmin edicisi:
𝛽 = 𝑿′𝑿 −1 𝑿′𝒚
Bazen değişkenler arası ilişki doğrusal değil, üstel olabilir:
𝐸 𝑌 = 𝛾 ∙ 𝛿𝑥
Eşitliğin iki tarafının da logaritması alınırsa:
log 𝐸 𝑌 = log 𝛾 + log 𝛿 ∙ 𝑥
Doğrusal modeli tahmin edilebilir.
Regresyon ile polinom eğrisi de hesaplanabilir.
𝐸 𝑌 = 𝛽0 + 𝛽1𝑥 + 𝛽2𝑥2 + ⋯ + 𝛽𝑟𝑥𝑟
Şeklinde yazılan denklemde 𝜷 için tahmin edicileri hesaplamak için
𝑥1 = 𝑥, 𝑥2 = 𝑥2, … 𝑥𝑟 = 𝑥𝑟konularak çok
değişkenli regresyon modeli oluşturulur.