11. HAFTA ANT330 BİYOİSTATİSTİK

(1)

ANT330 BİYOİSTATİSTİK

11. HAFTA

(2)

• x ve y arasındaki ilişki korelasyon

• ilişkinin ayrıntıları

• bir değişkenden yola çıkarak diğerinin tahmini

• Regresyon: Korelasyon + Tahmin

▫x’e dayalı tahmin

• Regresyon eşitliği

▫bir doğruyu tanımlayan formül

▫y’ = bx + a

▫not

 y= gerçek değer

 y’= tahmin değer

(3)

Best-fit Line

=

ŷ

, predicted value

• Doğrusal regresyonun amacı, ŷ = ax + b

• Herhangi bir x yardımıyla en iyi y tahmini

intercept

ε

ŷ = ax + b

ε = residual error

= y _i, true value

slope

(4)

(5)

Least Squares Regression

Residual (ε) = y - ŷ

Sum of squares of residuals = Σ (y – ŷ)

²

Model doğrusu: ŷ = ax + b



minimize a ve b değerleri Σ (y – ŷ)

²

a = slope, b = intercept

(6)

(7)

b

• Min. toplam kareyi veren b değeri bulunur

ε _b ε

b



Farklı b değerlerine göre doğrunun scatter plottaki

konumu

(8)

a

b b b



b sabit kalırken, farklı a değerlerine göre doğrunun değişimi

• Min. toplam kareyi veren a değeri bulunur

(9)

Min. toplam kareler

• Minimize Σ(y–ŷ)

²

• ŷ = ax + b

• min:

Σ(y - ax - b)

²

• Eğer kareler toplamını farklı a ve b değerleriyle çizersek

parabol elde ederiz

• Bu durumda min. toplam kareler

değeri en altta 0 olacaktır.

Values of a and b

sums of squares (S)

Gradient = 0 min S

(10)

• a ve b:

a = r s s

_y_x

r = correlation coefficient of x and y s_y= standard deviation of y

s_x = standard deviation of x



Not:



Düşük korelasyon katsayısı düz eğri verir (küçük a değeri)



Geniş dağılımlı y, ör. yüksek SD, daha eğimlidir (büyük a değeri)



Geniş dağılımlı x, ör. yüksek SD, daha düz eğri

verir (büyük a değeri)

(11)

• Modelimiz ŷ = ax + b

• Doğru ortalamadan geçmelidir, böylelikle:

y = ax + b b = y – ax b = y – ax

b = y - r s s

_y_x

r = correlation coefficient of x and y s_y= standard deviation of y

s_x = standard deviation of x

x

 Korelasyon küçüldükçe, b küçülür

(12)

model

• Korelasyon 0 ise, y ortalamayı her bir x değerine göre tahmin ederiz ve regresyon eğrimiz x i y de kesen düz bir doğru olacaktır

• Herhangi bir veri için regresyon doğrusunu çizebiliriz,

ancak önemli olan verinin bu doğruya ne dar uyacağı ya da x’e göre y’nin ne kadar iyi tahmin edildiğidir.

ŷ = ax + b = r s

_y

s

_x

r s

_y

s

_x

x + y - x r s

_y

s

_x

ŷ = (x – x) + y

Yeniden düzenlersek:

a b

a a

(13)

(14)

(15)

(16)

Model nasıl?

• Y nin toplam varyansı: s

_y²

= ∑(y – y)

²

n - 1

SS

_y

df

_y

=

 Tahmin edilen y (ŷ) değerinin varyansı :

 Standart hata:

s

_ŷ²

= ∑(ŷ – y)

²

n - 1

SS

_pred

df

_ŷ

=

Regresyon modelimizin varyansı

s

_error²

= ∑(y – ŷ)

²

n - 2

SS

_er

df

_er

=

Gerçek ve tahmin edilen y değerleri arasındaki hata

(17)

• Toplam varyans = tahmin edilen varyans + standart hata

s

_y²

= s

_ŷ²

+ s

_er²

s

_ŷ²

= r

²

s

_y²

r

²

= s

_ŷ²

/ s

_y²

• r

²

regresyon modelimizle hesaplanan y deki varyans oranı

(18)

• r

²

s

_y²

yerine konulduğunda s

_y²

= s

_ŷ²

+ s

_er²

s

_er²

= s

_y²

– r

²

s

_y²

= s

_y²

(1 – r

²