• Sonuç bulunamadı

Ders 12: Regresyon ve Korelasyon

N/A
N/A
Protected

Academic year: 2022

Share "Ders 12: Regresyon ve Korelasyon"

Copied!
23
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Ders 12: Regresyon ve Korelasyon

(2)

Regresyon analizinin amacı ve yapısı

En küçük kareler tahmini

Varyans ve kareler toplamı

Hipotez testi ve güven aralıkları

Kalıntı (residual) analizi

Çok değişkenli doğrusal regresyon

Doğrusal olmayan regresyon

(3)

İki veya daha fazla değişken arasındaki rastsal (deterministik olmayan) ilişkiyi

araştıran istatistiksel yönteme regresyon analizi denir

Gözlemlerden yola çıkarak değişkenler arasındaki ilişkinin yapısı ve parametleri öngörülmeye çalışılır.

Bağımsız değişkenlerdeki değişikliğin,

bağımlı değişkeni nasıl etkileyeceği tahmin edilir.

(4)

0 5 10 15 20 25

0 1 2 3 4 5 6 7 8 9 10

𝑅𝑎𝑠𝑡𝑠𝑎𝑙 𝐻𝑎𝑡𝑎 {

} 𝑅𝑎𝑠𝑡𝑠𝑎𝑙 𝐻𝑎𝑡𝑎

(5)

İlişki yok Pozitif doğrusal ilişki

Negatif doğrusal ilişki Doğrusal olmayan ilişki

(6)

Bağımsız 𝑋 değişkeni ile bağımlı 𝑌 değişkeni arasında doğrusal bir ilişki vardır.

𝐸 𝑌 = 𝛼 + 𝛽𝑋

Her bir 𝑌𝑖 gözleminin beklenen değer ve rastsal terimden oluştuğu varsayılır

𝑌𝑖 = 𝛼 + 𝛽𝑋𝑖 + 𝜀𝑖

𝛼 ve 𝛽 parametreleri için yapılan tahminler olan 𝑎 ve 𝑏 kullanılarak tahmin edilmiş

regresyon doğrusu elde edilir:

𝑦 = 𝑎 + 𝑏𝑥

(7)

Bağımlı değişken 𝑌 ile bağımsız değişken 𝑋 arasındaki ilişki doğrusaldır.

Bağımsız değişken 𝑋 doğrusal modelin dışında belirlenir.

Rastsal terimler:

Birbirlerinden bağımsızdırlar

Normal dağılımdan gelirler

Varyansları sabittir

(8)

Regresyon doğrusu ile gözlem arasındaki farklar hata terimi denir.

Hata kareler toplamı:

𝑆𝑆𝐸 = 𝑒𝑖2 = 𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 2

𝑛 𝑖=1 𝑛

Amaç hata kareler toplamının en düşük olacağı 𝑎 ve 𝑏 𝑖=1

değerlerini bulmak olduğu için kısmı türevleri alıp sıfıra eşitleyerek en küçük kareler tahmin edicilerini elde edebiliriz:

𝑎 = 𝑦 − 𝑏𝑥

𝑏 = 𝑛𝑖=1 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 2

𝑛𝑖=1

(9)

Gözlem ile ortalama arasındaki sapmaların karelerinin toplamı:

𝑆𝑆 = 𝑦𝑖 − 𝑦 2

𝑛

𝑖=1

Tahmin ile ortalama arasındaki farkın kareler toplamı, regresyon kareler toplamı:

𝑆𝑆𝑅 = 𝑦 𝑖 − 𝑦 2

𝑛

𝑖=1

Tahmin ile gözlem arasındaki farkın kareler toplamı, hata kareler toplamı:

𝑆𝑆𝐸 = 𝑦𝑖 − 𝑦 𝑖 2

𝑛 𝑖=1

(10)

Sapma kareler toplamı, regresyon kareler

toplamı ile hata kareler toplamının toplamına eşittir:

𝑆𝑆 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸

Belirleyicilik katsayısı, bağımlı değişkenin değişkenliğinin ne kadarının bağımsız

değişkenlerdeki değişim ile açılanabildiğini belirtir:

𝑟2 = 𝑆𝑆𝑅 𝑆𝑆

(11)

𝑆𝑆 = 𝑦𝑖 − 𝑦 2

𝑛

𝑖=1 𝑆𝑆𝑅 = 𝑦 𝑖 − 𝑦 2

𝑛 𝑖=1

𝑆𝑆𝐸 = 𝑦𝑖 − 𝑦 𝑖 2

𝑛 𝑖=1

(12)

𝛼 Parametresi için güven aralığı:

𝑎 − 𝑡 × 𝜎 𝑛𝑖=1 𝑥𝑖2

𝑛 ∙ 𝑆𝑋𝑋 < 𝛼 < 𝑎 + 𝑡 × 𝜎 𝑛𝑖=1 𝑥𝑖2 𝑛 ∙ 𝑆𝑋𝑋

𝛽 Parametresi için güven aralığı:

𝑏 − 𝑡 × 𝜎

𝑆𝑋𝑋 < 𝛽 < 𝑏 + 𝑡 × 𝜎 𝑆𝑋𝑋

𝑡’nin serbestlik derecesi 𝑛 − 2 olacaktır

(13)

Regresyon modelinin anlamlı olup olmadığını test etmek için:

𝐻0: 𝛽0 = 0

𝐻𝑎: 𝛽0 ≠ 0

𝑡 = 𝑏−𝛽𝜎 0

𝑆𝑋𝑋

𝑡’nin serbestlik derecesi 𝑛 − 2 olacaktır

(14)

Kalıntıların incelenmesi ile regresyon analizinin varsayımlarının ihlal edilip edilmediği kontrol edilebilir.

Kalıntıların tüm değişkenlerden ve

birbirlerinden bağımsız olması gerekir.

Varsayımları sınamak için hipotez testleri

kullanılabileceği gibi kalıntıların değişkenlere göre dağılımları çizilerek görsel olarak da

kontrol edilebilir.

(15)

𝑋 ve 𝑌 arasındaki 2. derece ilişki modele katılmadığı için 𝑒 ve 𝑋 bağımsız değiller

-50 0 50 100 150 200 250

0 5 10 15 20

-30 -20 -10 0 10 20 30 40

0 5 10 15 20

𝑋

𝑋

𝑌 𝑒

(16)

Hata terimleri birbirlerinden bağımsız değiller.

Özellikle zaman serilerinde karşılaşılır.

Durbin-Watson testi ile sınanabilir.

0 20 40 60 80 100 120 140

0 20 40 60 80 -8

-6 -4 -2 0 2 4 6

-8 -6 -4 -2 0 2 4 6

𝑋

𝑌 𝑒 𝑖

𝑒 𝑖−1

(17)

Huni etkisi: Hata terimleri bağımlı ya da

bağımsız bir değişkenin değerine bağlı olarak daha fazla yayılırlar

0 20 40 60 80 100 120

0 5 10 15 -80

-60 -40 -20 0 20 40 60

0 5 10 15

𝑋

𝑌 𝑒

𝑋

(18)

Bir pazarcı karpuzları tartmak yerine mezura ile çevrelerini ölçerek satmaktadır. Rastgele seçilen 23 karpuzun çevre ve ağırlık ölçümleri verilmiştir.

a) Çevre ve ağırlığın serpilme diyagramını çizip uygun

regresyon modelini oluşturun.

b) Regresyon katsayılarını hesaplayıp yorumlayın.

c) Belirleyicilik katsayısını hesaplayıp yorumlayın.

Çevre (cm) Ağırlık (gr) 50 1200 55 2000 54 1500 52 1700

37 500

52 1000 53 1500 47 1400 51 1500 63 2500

33 500

43 1000 57 2000 66 2500 82 4600 83 4600 70 3100

34 600

51 1500 50 1500 49 1600 60 2300 59 2100

(19)

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000

0 10 20 30 40 50 60 70 80 90

Ağırlık (gr)

Çevre (cm)

(20)

a) Regresyon modeli:

𝐸 𝑎ğ𝚤𝑟𝑙𝚤𝑘 = 𝛼 + 𝛽 ∙ ç𝑒𝑣𝑟𝑒

b) 𝑏 = 𝑛𝑖=1 𝑥𝑖−𝑥 𝑦𝑥 𝑖−𝑦

𝑖−𝑥 2

𝑛𝑖=1 = 293391,33557,5 ≅ 82,47

Karpuzun çevresi 1cm arttığında ağırlığının 82,47 gram artması beklenmektedir

𝑎 = 𝑦 − 𝑏𝑥 = 1856 − 82,47 × 54,4 ≅ −2639,2 Çevresi 0cm olan karpuzun ağırlığının - 2639,2gr olması beklenmektedir.

c) 𝑟2 = 𝑆𝑆𝑅

𝑆𝑆 = 𝑛𝑖=1 𝑦 𝑖−𝑦 2

𝑦𝑖−𝑦 2

𝑛𝑖=1 = 24196481,65

25816521,74 ≅ 0,9372

Ağırlıktaki değişimin %94’ü, çevredeki değişim ile açıklanabilmektedir.

(21)

Bağımsız değişken sayısı birden fazlaysa:

𝐸 𝑌 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑟𝑥𝑟 Matris notasyonu ile:

𝒚 = 𝑿𝜷 + 𝝐

𝒚 =

𝑦1

𝑦𝑛 , 𝑿 =

1 𝑥11 1 𝑥12

… 𝑥𝑘1

… 𝑥𝑘2

1 ⋮

1 𝑥1𝑛

⋱ ⋮

… 𝑥𝑘𝑛

, 𝜷 =

𝛽0 𝛽1

⋮ 𝛽𝑘

, 𝝐 =

𝜖0 𝜖1

⋮ 𝜖𝑘 En küçük kareler tahmin edicisi:

𝛽 = 𝑿𝑿 −1 𝑿𝒚

(22)

Bazen değişkenler arası ilişki doğrusal değil, üstel olabilir:

𝐸 𝑌 = 𝛾 ∙ 𝛿𝑥

Eşitliğin iki tarafının da logaritması alınırsa:

log 𝐸 𝑌 = log 𝛾 + log 𝛿 ∙ 𝑥

Doğrusal modeli tahmin edilebilir.

(23)

Regresyon ile polinom eğrisi de hesaplanabilir.

𝐸 𝑌 = 𝛽0 + 𝛽1𝑥 + 𝛽2𝑥2 + ⋯ + 𝛽𝑟𝑥𝑟

Şeklinde yazılan denklemde 𝜷 için tahmin edicileri hesaplamak için

𝑥1 = 𝑥, 𝑥2 = 𝑥2, … 𝑥𝑟 = 𝑥𝑟konularak çok

değişkenli regresyon modeli oluşturulur.

Referanslar

Benzer Belgeler

• Tahmin sonrası açıklanmaya çalışılan değerler ile bunu açıklayan değerler şapka (^) ile yazılırsa regresyon tahmin modeli elde edilmiş olur.. • Tahmin

Bu çalışmada, aşağıda sunulan örneğimiz için ilgili doğrusal regresyon modelini kurarak belirli bir güven aralığında 25 defa telefonla aranması durumundaki ürün

• Determinasyon katsayısı olarak

The customer service quality in regards to reliability also does not meet customer’s expectations from hypermarkets in Oman because the reliability dimension has

Bu teorem, en küçük kareler kestiricilerinin &#34;en iyi doğrusal yansız kestiriciler (Best Linear Unbiased Estimator, BLUE)&#34; olduğunu kanıtlamaktadır.  En

 Enterpolasyon yapılabilmesi için çizilmiş eğri, gerçek f(x) fonksiyonunun değişimine çok yakın olmalıdır.. Aksi taktirde arada bir fark meydana gelir ve yi

Ahmed Anzavur'un altm~~~ kadar `avenesiyle Gönen'in S~z~~ karyesi ci- vânnda oldu~u istihbar edilmesi üzerine mümâileyhe kar~~~ Gönen'deki ni- zamiye kuvvetiyle Kuvay-~~ Milliye