• Sonuç bulunamadı

T.C. ONDOKUZ MAYIS ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ İSTATİSTİK BÖLÜMÜ İST 705 PARAMETRİK OLMAYAN REGRESYON PROF. DR. KAMİL ALAKUŞ SAMSUN, 2020

N/A
N/A
Protected

Academic year: 2022

Share "T.C. ONDOKUZ MAYIS ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ İSTATİSTİK BÖLÜMÜ İST 705 PARAMETRİK OLMAYAN REGRESYON PROF. DR. KAMİL ALAKUŞ SAMSUN, 2020"

Copied!
16
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

T.C. ONDOKUZ MAYIS ÜNİVERSİTESİ FEN-EDEBİYAT FAKÜLTESİ

İSTATİSTİK BÖLÜMÜ

İST 705 PARAMETRİK OLMAYAN REGRESYON

PROF. DR. KAMİL ALAKUŞ

SAMSUN, 2020

(2)

1

I. BÖLÜM: Basit Doğrusal Regresyon Çözümlemesi I.1 Giriş

Regresyon çözümlemesi; uygulamalarda çok kullanılan istatistiksel yöntemlerden biridir.

Örneklem birilerinden elde edilen verilere uygun olan regresyon modelinin parametrelerinin tahmin edilmesinde en yaygın kullanılan yöntem, en küçük kareler (EKK) yöntemidir. Ancak modelin parametreleri ile ilgili olan hipotezlerin bu yolla test edilmesi belirli varsayımlar gerektirir. Hatırlanacağı gibi bu varsayımlar, hata teriminin dağılımı ile ilgilidir. Hata teriminin dağılımı ile ilgili olan normallik ve homojen varyans varsayımları sağlanmıyorsa parametrik olmayan bir yöntem kullanmak daha uygun olacaktır. EKK yönteminin parametrik olmayan alternatiflerinden ikisi kısaca tanıtılmaya çalışılacaktır. Bu iki yöntem de tahmin ve testlerde hemen yukarıda belirtilen iki varsayımın kabul ve/veya geçerliliğine ihtiyaç duymazlar.

Yöntemleri öneren istatistikçilerin isimleri ile bilinen bu yöntemler Mood-Brown Yöntemi ve Theil Yöntemi takipteki alt bölümlerde örneklerle açıklanmaya çalışılacaktır.

I.2 Mood-Brown Yöntemi

I.2.1 Model Parametrelerinin Tahmini

𝑛 hacimli bir örneklemden en az eşit aralıklı düzeyde ölçülen 𝑋 bağımsız değişkeni ile 𝑌 bağımlı değişkeni bakımından veriler toplandığını düşünelim. Bu durumda veriler (𝑥1, 𝑦1), ⋯, (𝑥𝑛, 𝑦𝑛) sayı ikililerinden oluşacaktır. Ayrıca serpme diagramına uygun olan modelin 𝑌 = 𝛽0 + 𝛽1𝑋 + 𝜀 olarak bilinen basit doğrusal regresyon modeli olduğunu varsayalım. Mood-Brown yöntemi sadece bu basit doğrusal modelin parametrelerini tahmin etmek için kullanılabilir.

Diğer modelller için bu yöntemi kullanamayız.

Regreyon çözümlemesinde amaçlardan biri uygun modelin parametrelerini tahmin etmektir.

Yani 𝛽0 ve 𝛽1 parametrelerinin tahmin edicileri olan 𝛽̂0 ve 𝛽̂1 istatistiklerini ve dolayısı ile de 𝑌̂ = 𝛽̂0+ 𝛽̂1𝑋 doğrusunu tahmin etmek amaçlarımızdan biridir. Hatırlanacağı gibi 𝛽̂0 doğrunun 𝑌 eksenini (𝑥 = 0 iken) kestiği noktayı ve 𝛽̂1 de doğrunun eğimini ifade etmektedir. Şimdi Mood-Brown yöntemi ile 𝑌̂ = 𝛽̂0 + 𝛽̂1𝑋 şeklindeki regresyon doğrusuna bakalım. Yöntemin mantığı son derece basittir. Yapılacak işlemler sistematik olarak takipteki verildiği gibidir.

a) Örneklem birileri 𝑋 değişkeni bakımından (𝑋’in doğal sırası adı verilen) aldıkları değerlere göre küçükten büyüğe doğru sıraya dizilir.

b) Örneklem birimlerinden 𝑋 ve 𝑌 değişkenleri bakımından saptanan verilerin (sıralı ikililerin) serpme diyagramı oluşturulur.

c) 𝑋’in ortancasına dik olan bir doğru çizilir. Bu doğrudan serpme diyagramındaki noktaların yarısı doğrunun sol, dğer yarısı da sağ tarafında kalacaktır. Sol taraftaki noktalara

(3)

2

birinci grup ve sağ taraftaki noktalara da ikinci grup diyelim. Yani birinci gruptaki noktalar 𝑋’in ortancasından küçük ve baenzer şekilde ikinci gruptaki noktalar ise 𝑋’in ortancasından büyük değerli olan noktalardır.

d) Birinci gruptaki örneklem birimlerinin 𝑋 ve 𝑌 değişkenleri bakımından ortancaları bulunur. benzer şekilde ikinci gruptaki örneklem birimlerinin de aynı şekilde ortancaları bulunur. Bu işleme bağlı olarak 𝑥1, 𝑥2, 𝑦1 ve 𝑦2 değerleri aşağıdaki gibi tanımlanır.

𝑥1: Birinci gruptaki örneklem birimlerinin 𝑋 dğişkeni bakımından ortancası, 𝑦1: Birinci gruptaki örneklem birimlerinin 𝑌 dğişkeni bakımından ortancası, 𝑥2: İkinci gruptaki örneklem birimlerinin 𝑋 dğişkeni bakımından ortancası, 𝑦2: İkinci gruptaki örneklem birimlerinin 𝑌 dğişkeni bakımından ortancasıdır.

e) D şıkkındaki açıklanan sıralı ikilileri ( noktaları) (𝑥1, 𝑦1) ve (𝑥2, 𝑦2) ile gösterelim.

Serpme diyagramında bu iki noktayı belirleyelim. İşte aradığımız 𝑌̂ = 𝛽̂0+ 𝛽̂1𝑋 doğrusu (𝑥1, 𝑦1) ve (𝑥2, 𝑦2) noktalarından geçen doğrudur. Bu iki noktadan geçen doğrunun eğimi kaolayca bulunabilir. Şöyle ki 𝛽̂1 =(𝑦2−𝑦1)

(𝑥2−𝑥1) olup, doğrunun 𝑌 eksenini kestiği nokta ise 𝛽̂1 bulundukran sonra ya 𝑦1 = 𝛽̂0+ 𝛽̂1𝑥1 ya da 𝑦2 = 𝛽̂0+ 𝛽̂1𝑥2 eşitlikleri yardımı ile bulunur.

Örnek-I.1: Tesadüfi olarak seçilen 𝑛 = 10 öğrencinin istatistik dersi sınava hazırlanma süresi (saat olarak) ve sınav sonrası değerlendirme sonuçları (20 üzerinden) Tablo.I.1’de verildiği gibi tespit edilmiş olsun.

Tablo.I.1: Örnek-I.1 İçin Veri.

Ö.No 1 2 3 4 5 6 7 8 9 10

𝑥𝑖 (saat) 4 6 7 5 3 8 10 14 15 18 𝑦𝑖 (puan) 2 4 5 7 1 9 10 14 13 16

İki değişken arasındaki basit doğrusal regresyon modelinin parametrelerini Mood-Brown yöntemi ile tahmin ediniz.

Çözüm-I.1:Aşağıda 𝑋 değişken değerleri bakımından oluşturulan sıralama görülmektedir.

𝑥𝑖 (saat) 3 4 5 6 7 8 10 14 15 18 𝑦𝑖 (puan) 1 2 7 4 5 9 10 14 13 16

Şimdi de serpme diyagramını çizelim. Hatırlanacağı gibi serpme diyagramı her bir sıralı ikilinin düzlemde bir nokta ile belrtilmesidir.

(4)

3

Şekil.I.1: Örnek-I.1 İçin Serpme Diyagramı.

𝑛 = 10 olup çift sayı iken 𝑋’in ortancası, 𝑋’in doğal sırasındaki ortadaki iki değerin ortalamasıdır. Yani 𝑋’in ortancası 𝑥̃ =(𝑥5+𝑥6)

2 =7+8

2 = 7.5. takipteki grafikte bu doğru dikey eksene parelel olarak gösterilmiştir. Serpme diyagramından da görüldüğü gibi 𝑋’in ortancasına göre oluşturulan iki gruptaki örneklem birimlerinin 𝑋 ve 𝑌 değişkenleri bakımından aldıkları değerler Tablo.I.2’de verildiği gibidir.

Ortancanın Solu Ortancanın Sağı Birinci Grup İkinci Grup

𝒙𝒊 𝒚𝒊 𝒙𝒊 𝒚𝒊

3 1 8 9

4 2 10 10

5 7 14 14

6 4 15 13

7 5 18 16

Birinci gruptaki 5 gözlemin 𝑋 değişkeni bakımından ortancası 5 ve 𝑌 değişkeni bakımından ortancası ise 7’dir. Bunzer şekilde ikinci gruptaki 5 gözlemin 𝑋 değişkeni bakımından ortancası 14 ve 𝑌 değişkeni bakımından da ortancası 14’dür. Böylece 𝑥1 = 5, 𝑥2= 14, 𝑦1 = 7 ve 𝑦2 = 14 olduğu açıktır. Şimdi de serpme diyagramında bu iki noktayı belirleyelim. Bu noktalar (5;

7) ve (14; 14) olup aynı diyagram üzerinde belirlenmiş ve bu noktalar bir doğru ile belirtilmiştir.

Böylece 𝑌̂ = 𝛽̂0+ 𝛽̂1𝑋 doğrusu koordinatları (5; 7) ve (14; 14) olan iki noktadan geçmektedir.

Şimdi de doğrunun eğimini (𝛽̂1′i) ve 𝑌 eksenini kestiği noktayı (𝛽̂0′ı) bulalım. 𝛽̂1 = (𝑦2−𝑦1)

(𝑥2−𝑥1)=

14−7 14−5 =7

9 ≅ 0.778 bulunur. 𝛽̂0 ise ya 7 = 𝛽̂0 + 0.778(5) ya da 14 = 𝛽̂0+ 0.778(14)

Hazırlanma süresi (saat)

Sınav Sonucu (puan)

0 5 10 15

51015

Hazırlanma süresi ve Sınav Sonucu Çalışması

(5;7)

(14;14)

X'in Ortancasının Solu

X'in Ortancasının Sağı

(5)

4

eşitliklerinin biri yardımı ile bulunur. Böylece 𝛽̂0 ≅ 3.111 olduğu açıktır. Sonuç olarak basit doğrusal regresyon modelinin Mood-Brown yöntemi ile tahmini, 𝑌̂ = 3.111 + 0.778𝑋 olarak bulunur. Buradan ayrıca istatistik dersine 20 saat hazırlanan bir öğrencinin sınavda almasını beklediğimiz puanı tahmin etmek istediğimizi düşünelim. 𝑌̂ = 3.111 + 0.778(20) ≅ 18.671 ≅ 19 puan olur.

I.2.2 Modeli Önemliliği İçin Test

Regresyon çözümlemesinde 𝛽1 parametresi ile ilgili hipotezlerin testine çoğu kez ihtiyaç duyulur. 𝛽1 parametresi bağımsız değişkenin modele katkısının olup olmadığını gösterir.

Böylece test işlemi adımları aşağıdaki gibi verilebilir.

a) Hipotezler: 𝐻0: 𝛽1 = 0 (model önemsizdir) 𝐻1: 𝛽1 ≠ 0 (önemlidir) eklinde kurulur.

b) Test İstatistiği: 𝐻0 hipotezi doğru iken Mood-Brown tarafından önerilen test istatistiği, 𝜒𝐻2 = 16

𝑛 (𝑛1𝑛

4)2~𝜒(1)2 dağılımına sahiptir. Burada 𝑛: toplam gözlem ikililerininin sayısını, 𝑛1: 𝑥 serisinin ortancasından küçük ve 𝑦 serisinin ortancasından büyük noktaların ( gözlem ikililerinin) sayısını göstermektedir. Bu bölge koodinat düzleminde Şekil.I.2’de gösterilmiştir.

𝑦̃

> 𝑥̃ ve < 𝑦̃

Bölgesi 𝑥̃

Şekil.I.2: Koordinat Düzleminde 𝑛1 Bölgesinin Yeri.

c) Karar: 𝛼 önem seviyesi ve 1 serbestlik derecesinde 𝜒𝑇2 = 𝜒

1; (1−𝛼2)

2 kritik tablo değeri olmak üzere; eğer 𝜒𝐻2 ≤ 𝜒𝑇2 => 𝐻0 hipotezi kabul edilir. Aksi durumda (𝜒𝐻2 > 𝜒𝑇2) ise 𝐻0 hipotezi ret edilir ve modolin önemli olduğu söylenir.

d) Yorum: Karara göre yorum yapılır.

Örnek-I.2: Örnek-I.1’deki 𝛽1 parametresinin 𝛼 = 0.05 önem seviyesinde önemli olduğu söylenebilir mi?

Çözüm-I.2: a) Hipotezler: 𝐻0: 𝛽1 = 0 ve 𝐻1: 𝛽1 ≠ 0, b) Test İstatistiği: 𝜒𝐻2 = 16

𝑛 (𝑛1𝑛

4)2 =

16

10(0 −10

4)2 = 10 olarak bulunur. Bu örnekte; 𝑛1 bölgesi, Şekil.I.1’de gösterilmiştir. c) Karar: 𝛼 = 0.05 önem seviyesi ve 1 serbestlik derecesinde 𝜒𝑇2 = 𝜒1; (0.975)2 = 5.024 kritik tablo değeri olmak üzere; 𝜒𝐻2 > 𝜒𝑇2 olduğundan 𝐻0 hipotezi ret edilir. d) Yorum:% 95 güvenilirlikle 𝛽1 parametresi oldukça önemlidir. Yani model geçerlidir.

(6)

5

Şekil.I.3: Örnek-I.2 İçin 𝑛1 Bölgesinin Yeri.

Çalışma Sorusu-I.1: Tesadüfi olarak seçilen 13 firmanın yıllık reklam harcamaları (𝑋; milyon TL) ve yıllık gelirleri (𝑌; kar milyon TL) takipteki gibi elde edilmiştir.

Firma No 1 2 3 4 5 6 7 8 9 10 11 12 13

𝑥; milyon TL 1 3 2 5 5 6 8 7 10 12 14 15 16 𝑦; milyon TL 2 3 4 6 3 7 9 12 11 14 16 18 17 a) İki değişken arasındaki basit doğrusal regresyon modelinin parametrelerini Mood- Brown yöntemi ile tahmin ediniz.

b) 𝛼 = 0.05 önem seviyesinde 𝛽1 parametresinin (reklam harcamasının firmanın karını etkilediği) önemli olduğu söylenebilir mi?

(Cevaplar: a) 𝑌̂ = −4.5 + 1.5𝑋; b) 𝜒𝐻2 = 13,evet söylenebilir)

Hazırlanma Süresi (Saat)

Sınav Sonucu (Puan)

5 10 15

51015

Bolge Boş

Hazırlanma Süresi-Sınav Sonucu Çalışması

Reklam Karcaması (Milyon TL)

Kar (Milyon TL)

5 10 15

05101520

(5;3)

(13;15)

Reklam Harcaması-Kar Çalışması

X Ortancasının Solu

X Ortancasının Sağı

(7)

6

Araştırma Ödevi-I.1: Her öğrenci basit doğrusal regresyon yapısında bir veri seti bulacak ve bu veri seti için:

a) Basit doğrusal regresyon modelini (ya da parametrelerin) EKK ile tahmin edecek.

b) a) şıkkında tahmin etmiş olduğu modelin geçerliliğini (yani; 𝛽1 parametresinin önemliliğini) test edecek.

c) Basit doğrusal regresyon modelinin parametrelerini Mood-Brown yöntemi ile tahmin edecek.

d) c) şıkkında tahmin etmiş olduğu modelin geçerliliğini (yani; 𝛽1 parametresinin önemliliğini) test edecek.

Not: Test işlemlerinde önem seviyesini %5 olarak alınız.

Kaynakça: Gamgam, H. (1989). Parametrik Olmayan İstatistiksel Teknikler. Ankara: G.Ü.

Teknik Eğitim Fak. Matbaası, X. Bölüm, Sayfa: 232-49.

Reklam Karcaması (Milyon TL)

Kar (Milyon TL)

5 10 15

51015

Bolge Boş

Reklam Harcaması-Kar Çalışması

(8)

7 I.3 Theil Yöntemi

Theil yöntemi, Theil-Sen ya da Theil-Kendall yöntemi olarak da bilinir.

I.3.1 Model Parametrelerinin Tahmini

Serpme diyagramına uygun olan model, 𝑌 = 𝛽0+ 𝛽1𝑋 + 𝜀 modeli ise bu modelin parametrelerinin tahmin edilmesinde ikinci bir yöntem Theil (Theil-Sen ya da Theil-Kendall) tarafından önerilmiştir. Theil yöntemi ile 𝑌 = 𝛽0+ 𝛽1𝑋 + 𝜀 modelinin parametrelerin tahmin edilmesi basit; ancak oldukça uzun işlemler gerektirir. Öyle olsa da teknoloji çağında bu işlem kolaylaşmaktadır. 𝛽1 parametresinin tahmin edicisi olan 𝛽̂1 istatistiğini bulmak için önce örneklem birimleri ikişerli olarak ele alındığında tüm dürümlerin eğimleri, 𝑆𝑖𝑗 =𝑦𝑗−𝑦𝑖

𝑥𝑗−𝑥𝑖 , 𝑗 > 𝑖 = 1,2, ⋯ , 𝑛 eşitliği ile hesaplanır. 𝑗 > 𝑖 şartına bağlı olarak 𝑆𝑖𝑗 değerleri tüm durumlar için hesaplanırsa, 𝑆𝑖𝑗’lerin sayısının (𝑛

2) =(𝑛−1)𝑛

2 kadar olduğu görülür. 𝛽1 parametresinin tahmin edicisi olan 𝛽̂1 istatistiği 𝑆𝑖𝑗 eğim değerlerinin ortancasıdır. Yani; 𝛽̂1= 𝑀𝑒𝑑{𝑆𝑖𝑗} yazılabilir.

Regresyon doğrusunun eğimi bu şekilde bulunduktan sonra bu doğrunun üzerinde olduğu herhangi bir noktanın koordinatlarından yararlanarak doğrunun 𝑌 eksenini kestiği nokta olan 𝛽̂0 tahmin edicisi kolayca hesaplanır. Şöyle ki 𝛽̂1= 𝑆𝑙𝑘 olsun. Öyle ise 𝛽̂0 = 𝑦𝑘ü𝑠𝑡−𝛽̂1(𝑥𝑙ü𝑠𝑡)

yazılabilir.

Örnek-I.2: Tesadüfen seçilen 6 hastanın yaşları ve eksik diş sayıları Tablo.I.2’de verildiği gibi tespit edilmiştir.

Tablo.I.2: Örnek-I.2 İçin Veri.

H No 1 2 3 4 5 6

𝑥𝑖 (Yaş) 25 30 32 40 50 65 𝑦𝑖 (Eksik Diş) 2 6 4 7 8 12

Acaba hastanın yaşı ile eksik diş sayısını tahmin edebilir miyiz? Uygun modeli serpme diyagramı ile belirleyerek Theil yöntemi ile tahmin ediniz?

Çözüm-I.2: Serpme Diyagramı Şekil-1.2’den de görüldüğü gibi veriye uygun olan model basit doğrusal regresyon modelidir. Bu nedenle 𝑌 = 𝛽0 + 𝛽1𝑋 + 𝜀 modelindeki 𝛽1 parametresini Theil yöntemi ile tahmin edelim. 𝑛 = 6 olduğundan (6

2) = 5(6)

2 = 15 farklı durumda eğim noktası hesaplanabilir. Bu eğim noktaları Tablo.I.2’de verilmiştir.

(9)

8

Şekil-1.2: Örnek-I.2 İçin Serpme Diyagramı.

Tablo:Örnek-I.2’nin 𝑆𝑖𝑗 Eğim DeğeriSonuçları 𝑗 →

𝑖 ↓ 2 3 4 5 6

1 0,8 0,285714 0,333333 0,24 0,25

2 - -1 0.1 0.1 0,171429

3 - - 0,375 0,222222 0,242424

4 - - - 0.1 0.2

5 - - - - 0,266667

Şimdi de bu 𝑆𝑖𝑗 değerlerinin ortancasını hesaplayalım. Ortanca ise bilindiği gibi bu 15 değerin küçükten büyüğe ya da büyükten küçüge sıralanması sonucu bulunur. Buradan 𝛽̂1 = 𝑀𝑒𝑑{−1; ⋯ , 0.24; ⋯ 0.8} = 0.24 bulunur. Bu değer 𝑆15 = 8−2

50−25= 6

25 = 0.24 eğim noktasından gelmektedir. Bu eğimin doğrusu (25; 2) ve (50; 8) noktalarından geçtiği görülmektedir. Bu durumda 𝛽̂0’ın değeri ya 2 = 𝛽̂0+ 0.24(25) ya da 8 = 𝛽̂0+ 0.24(50) =>

𝛽̂0 = −4 bulunur. Öyle ise aranan modelin Theil tahmini, 𝑌̂ = −4 + 0.24𝑋 olarak bulunur.

Buradan hastanın yaşının bir birim (burada yıl) arttığında eksik diş sayısının da 0.24 artmasını bekleriz. Örnek olarak yaşı 47 olan bir bireyin eksik diş sayısını tahmin etmek istediğimizde 𝑌̂ = −4 + 0.24(47) = 7.28 ≅ 7 diş olur.

I.3.2 Eğim 𝜷𝟏 ve Kesim 𝜷𝟎 Parametrelerinin Ortak Tahmini

Bu bölümde iki modifiye yöntem verilmiştir. Bunların ikisi de Theil-Kendall yöntemine dayanır. 𝑌 = 𝛽0+ 𝛽1𝑋 + 𝜀 modeli verilsin ve 𝛽̂1 Theil-Kendall tahminini göstersin. Takipteki iki yöntem 𝛽0’ın tahmini için modifiye edilmiş tahmin yöntemleridir.

yaş

Eksik D Sayısı

30 40 50 60

24681012

Yaş ve Eksik Diş Çalışması

(10)

9

I.3.2.1 İşaret Testine Dayalı Optimum Tahmin Yöntemi

𝑑𝑖 = 𝑦𝑖 − 𝛽̂1𝑥𝑖 deperleri hesaplanır ve bu değerlerin ortancası 𝛽0’ın tahmini (yani; 𝛽̂0) olur. Bu tür modifikasyon 𝑑𝑖’lerin simetrik dağılımlı varsayımını gerektirmez. Özellikle ekstrem (aşırı uç) veriler için daha uygundur.

I.3.2.1 Hodges-Lehmann Tahmin Yöntemi

𝐷𝑖 = 𝑌𝑖− 𝛽1𝑋𝑖 değişkeni tanımlansın. Bu yaklaşım 𝐷𝑖’lerin 𝛽0 etrafında simetrik dağıldığı varsayımı gerektirir. Şimdi 𝑑𝑖 = 𝑦𝑖 − 𝛽̂1𝑥𝑖 değerleri hesaplansın. Hodges-Lehmann modifikasyon yöntemine göre 𝛽0’ın tahmini; 𝛽̂0, 𝑑𝑖‘lerin aritmetik ortalamasıdır. Yani; 𝛽̂0 = 𝑑̅ = 1

𝑛𝑛𝑖=1𝑑𝑖 eşitliği ile verilir. Bu tür modifikasyon ekstrem nokları olan veriler için uygun olmayabilir.

Örnek-I.3: Örnek-I.2’deki veriler için; a) Optimum ve b) Hodges-Lehmann modifikasyonlara göre 𝛽0 parametresini tahmin ederek modelleri tahmin ediniz. c) Theil, optimum ve Hodges- Lehmann tahminlerini hata kareler toplamı (HKT) kriterini kullanarak karşılaştırınız.

Çözüm-I.3: a) Önce 𝑑𝑖 = 𝑦𝑖 − 0.24𝑥𝑖 değerlerini hesaplayalım. 𝑑𝑖: -4; -1.2; -3.68; -2.6; -4; - 3.6 bulunur. Optimum yönteme göre ; 𝛽̂0 = 𝑀𝑒𝑑{𝑑𝑖} =−3.68−3.6

2 = −7.28

2 = −3.64 bulunur.

Böylece modelin tahmini, 𝑌̂ = −3.64 + 0.24𝑋 olarak bulunmuş olur. b) Hodges-Lehmann modifikasyonlara göre 𝛽0 parametresinin tahmini ise 𝛽̂0 = 1

𝑛𝑛𝑖=1𝑑𝑖 = −19.08

6 = −3.18 olup tahmin modeli 𝑌̂ = −3.18 + 0.24𝑋 olur. c) Theil yönteme göre model tahmini, 𝑌̂ = −4 + 0.24𝑋; otimum yönteme göre model tahmini, 𝑌̂ = −3.68 + 0.24𝑋 ve Hodges-Lehmann yönteme göre model tahmini ise 𝑌̂ = −3.18 + 0.24𝑋 olur. Şimdi 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 tanımlansın.

𝐻𝐾𝑇𝑇ℎ𝑒𝑖𝑙 = 10.0624; 𝐻𝐾𝑇𝑂𝑝𝑡𝑖𝑚𝑢𝑚 = 7.2976 ve 𝐻𝐾𝑇𝐻𝐿 = 6.028 bulunur. Bu sonuçlar gösteriyor ki bu veri için en iyi model tahmini Hodges-Lehmann modifikasyonu ile elde edilen 𝑌̂ = −3.18 + 0.24𝑋 modeldir.

I.3.3 Modelin Önemliliği İçin Test (Theil Testi)

𝛽10 herhangi bir reel sayı olmak üsere 𝐻0: 𝛽1 = 𝛽10 hipotezini test etmek için bir diğer yöntem Theil tarafından önerilmiştir. Theil 𝐻0 hipotezinin testi için Kendall’ın 𝜏 (to) istatistiğini kullanmıştır. Theil tarafından önerilen bu istatistik takipteki gibi hesaplanır.

a) 𝑖 = 1,2, ⋯ , 𝑛 için 𝑦𝑖 − 𝛽10𝑥𝑖 değerleri hesaplanır ve (𝑥𝑖; 𝑦𝑖 − 𝛽10𝑥𝑖 ) sıralı ikilileri 𝑥𝑖 değerleri bakımından küçükten büyüğe sıralanır. Buna 𝑋 değişkeninin doğal sırası denir.

b) 𝑦𝑖 − 𝛽10𝑥𝑖 değerlerinin her biri için doğal sıranın sağlanıp sağlanmadığı durumların sayısı bulunur. Doğal sıranın sağlandığı durumların sayısının toplamına 𝑃 ve sağlanmadığı durumların sayısının toplamına da 𝑄 denilir.

(11)

10

c) Böylece 𝑆 = 𝑃 − 𝑄 değeri hesaplanır ve Kendall’ın 𝜏 korelasyon katsayısının tahmin edicisi olan 𝜏̂ istatistiği, 𝜏̂ = 𝑆

𝑛(𝑛+1)/2= 2𝑆

𝑛(𝑛+1) eşitliği ile hesaplanır.

Böylece test işlemi adımları aşağıdaki gibi verilebilir.

a) Hipotezler: 𝐻0: 𝛽1 = 𝛽10 (model önemsizdir) 𝐻1: 𝛽1 {

<

>

} 𝛽10 (önemlidir) eklinde kurulur.

b) Test İstatistiği: (𝑛 ≥ 10) ve 𝐻0 hipotezi doğru iken test istatistiği, 𝑧𝐻 =

3𝑆√2

√𝑛(𝑛−1)(2𝑛+5)=3𝜏̂√𝑛(𝑛−1)

√2(2𝑛+5) ~𝑁(0; 1) dağılımına sahiptir.

c) Karar: 𝛼 önem seviyesi olmak üzere 𝑧𝑇 = 𝑧𝛼(𝛼

2) kritik tablo değeri olmak üzere; eğer

|𝑧𝐻| ≤ |𝑧𝑇| => 𝐻0 hipotezi kabul edilir. Aksi durumda (|𝑧𝐻| > |𝑧𝑇|) ise 𝐻0 hipotezi ret edilir ve modolin önemli olduğu söylenir.

d) Yorum: Karara göre yorum yapılır.

Örnek-I.4: Örnek-I.2’deki veriler için 𝛼 = 0.05 önem seviyesinde eksik diş sayısının yaşa bağlı olduğu iddia edilebilir mi? Theil yöntemini kullanarak karar veriniz.

Çözüm-I.4: a) Hipotezler: 𝐻0: 𝜏 = 0 (ya da 𝛽1 = 0 model önemsizdir) 𝐻1: 𝜏 ≠ 0 (𝛽1 ≠ 0 önemlidir) eklinde kurulur. b) Test İstatistiği: (𝑛 ≥ 10) olduğunu kabul edelim. 𝑧𝐻 =

3𝑆√2

√𝑛(𝑛−1)(2𝑛+5)= 3𝜏̂√𝑛(𝑛−1)

√2(2𝑛+5) istatistiğidir. 𝛽10 = 0 olduğundan 𝑦𝑖 − 𝛽10𝑥𝑖 = 𝑦𝑖 olacaktır. Bu ise Kendall’ın 𝜏̂ istatistiğine indirgenmiş olur.

𝑥𝑖 25 30 32 40 50 65

𝑦𝑖 − 𝛽10𝑥𝑖 = 𝑦𝑖 2 6 4 7 8 12

𝑃𝑖 5 3 3 2 1 0 14 P

𝑄𝑖 0 1 0 0 0 0 1 Q

𝜏̂ = 2𝑆

𝑛(𝑛−1) =2(14−1)

6(5) = 26

30 ≅ 0.867 bulunur. Böylece 𝑧𝐻 = 3𝑆√2

√𝑛(𝑛−1)(2𝑛+5)=3𝜏̂√𝑛(𝑛−1)

√2(2𝑛+5) ≅ 2.442 bulunur. c) Karar: 𝛼 = 0.05 önem seviyesinde 𝑧𝑇 = 𝑧0.025) = 1.96 olup 𝑧𝐻 > 𝑧𝑇 olduğundan 𝐻0 hipotezi ret edilir. d) Yorum: %95 güvenilirlikle yaş ile eksik diş arasındaki ilişki ( aynı yönde) önemlidir.

(12)

11

Çalışma Sorusu-I.2: Tablo.I.3’de 1970-75yılları arasında yağış miktarı ile yıllık şeker üretimi rekolteleri verilmiştir.

Tablo.I.3: Ç.S-I.2 İçin Veri.

Yıl 1970 1971 1972 1973 1974 1975

Yağış Miktarı (𝑥𝑖; Kg) 20 26 17 22 24 14 Verim ((𝑦𝑖, 100 bin ton) 63 77 61 73 45 62

a) Yağış miktarı ile verim arasındaki ilişkinin modelini Theil-Kendal yöntemi ile tahmin ediniz.

b) 𝛽0 parametresini ve modeli optimum ve Hodges-Lehmann yöntemleri ile ayrı ayrı tahmin ediniz ve sonuçları HKT kriteri ile karşılaştırınız.

c) 𝛽1 parametresinin ( ya da modelin) önemliliğini 𝛼 = 0.05 önem seviyesi ve Theil yöntemle test ederseniz kararınız ne olur?

ÇS Çözüm-I.2: a) Serpme Diyagramı Şekil-1.3’den de görüldüğü gibi veriye uygun olan model basit doğrusal regresyon modelidir. Bu nedenle 𝑌 = 𝛽0+ 𝛽1𝑋 + 𝜀 modelindeki 𝛽1 parametresini Theil yöntemi ile tahmin edelim. 𝑛 = 6 olduğundan (6

2) =5(6)

2 = 15 farklı durumda eğim noktası hesaplanabilir. Bu eğim noktaları Tablo.I.4’de verilmiştir.

Tablo:Çalışma Sorusu-I.2 𝑆𝑖𝑗 Eğim Değeri Sonuçları 𝑗 →

𝑖 ↓ 2 3 4 5 6

1 2,333333 0,666667 5 -4,5 0,166667

2 - 1,777778 1 16 1,25

3 - - 2,4 -2,28571 -0,33333

4 - - - -14 1,375

5 - - - - -1,7

Şimdi de bu 𝑆𝑖𝑗 değerlerinin ortancasını hesaplayalım. Ortanca ise bilindiği gibi bu 15 değerin küçükten büyüğe ya da büyükten küçüge sıralanması sonucu bulunur. Buradan 𝛽̂1 = 𝑀𝑒𝑑{−14; ⋯ , 1; ⋯ ,16} = 1 bulunur. Bu değer 𝑆24 =73−77

22−26= −4

−4= 1 eğim noktasından gelmektedir. Bu eğimin doğrusu (22; 73) ve (26; 77) noktalarından geçtiği görülmektedir. Bu durumda 𝛽̂0’ın değeri ya 73 = 𝛽̂0+ 1(22) ya da 77 = 𝛽̂0+ 1(26) => 𝛽̂0 = 51 bulunur. Öyle ise aranan modelin Theil tahmini, 𝑌̂ = 51 + 𝑋 olarak bulunur. b) Önce 𝑑𝑖 = 𝑦𝑖 − 𝑥𝑖 değerlerini hesaplayalım. 𝑑𝑖: 43; 51; 44; 51; 21; 48 bulunur. Optimum yönteme göre ; 𝛽̂0 = 𝑀𝑒𝑑{𝑑𝑖} =

44+48 2 = 92

2 = 46 bulunur. Böylece modelin tahmini, 𝑌̂ = 46 + 𝑋 olarak bulunmuş olur.

Hodges-Lehmann modifikasyonlara göre 𝛽0 parametresinin tahmini ise 𝛽̂0 = 1

𝑛𝑛𝑖=1𝑑𝑖 =

(13)

12

258

6 = 43 olup tahmin modeli 𝑌̂43 + 𝑋 olur. b) Theil yönteme göre model tahmini, 𝑌̂ = 51 + 𝑋; otimum yönteme göre model tahmini, 𝑌̂ = 46 + 𝑋 ve Hodges-Lehmann yönteme göre model tahmini ise 𝑌̂ = 43 + 𝑋 olur. Şimdi 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 tanımlansın. 𝐻𝐾𝑇𝑇ℎ𝑒𝑖𝑙 = 1022;

𝐻𝐾𝑇𝑂𝑝𝑡𝑖𝑚𝑢𝑚 = 692 ve 𝐻𝐾𝑇𝐻𝐿 = 638 bulunur. Bu sonuçlar gösteriyor ki bu veri için en iyi model tahmini Hodges-Lehmann modifikasyonu ile elde edilen 𝑌̂ = 43 + 𝑋 modeldir. c) 𝜏̂ = 2𝑆

𝑛(𝑛−1) =2(10−5)

6(5) = 10

30 ≅ 0.333 bulunur. Böylece 𝑧𝐻 = 3𝑆√2

√𝑛(𝑛−1)(2𝑛+5)=3𝜏̂√𝑛(𝑛−1)

√2(2𝑛+5) =

3(0.333)√6(5)

√2[2(6)+5] ≅ 0.939 bulunur, 𝛼 = 0.05 önem seviyesinde 𝑧𝑇= 𝑧0.025) = 1.96 olup 𝑧𝐻 < 𝑧𝑇 olduğundan 𝐻0 hipotezi ret edilemez. Sonuç olarak %95 güvenilirlikle yağış miktarı ile verim arasındaki ilişki ( aynı yönde olsa da) önemsizdir.

Çalışma Sorusu-I.3: Örnek-I.1’deki veri için Ç.S.-I.2’deki istekleri tekrarlayınız.

ÇS Çözüm-I.3:

Tablo: Örnek-I.1’in Theil Eğim (𝑆𝑖𝑗) Sonuçları 𝑗 →

𝑖 ↓ 2 3 4 5 6 7 8 9 10

1 1 1 5 1 1,75 1,333333 1,2 1 1

2 1 -3 1 2,5 1,5 1,25 1 1

3 -1 1 4 1,666667 1,285714 1 1

4 3 0,666667 0,6 0,777778 0,6 0,692308

5 1,6 1,285714 1,181818 1 1

6 0,5 0,833333 0,571429 0,7

7 1 0,6 0,75

8 -1 0,5

9 1

𝛽̂1= 𝑀𝑒𝑑{−3, ⋯ ,1, ⋯ ,5} = 1 olup a) Theil yönteme göre 16 adet ortanca eğim değeri olduğundan bu 16 eğim değerinin hem X ve hem de Y değişken değerleri bakımından alt ve üst değerlerinin ortalaması kullanılabilir. Ya da bu eşit olarak 16 adet 𝛽̂0 değerinin ortalaması kullanılır. Bu örnekte x1= 6; x2=12.0625, y1=4.125 ve y2=10.1875 olup 𝛽̂0= 10.1875 − 12.0625 = −1.875 veya 𝛽̂0= 4.125 − 6 = −1.875 bulunur. b) Hodges-Lehmann tahmini, 𝛽̂0= 𝑀𝑒𝑑{𝑦𝑖− 𝛽̂1𝑥𝑖} = {𝑦𝑖− 𝑥𝑖} = −2 ve c) Optimum yönteme göre ise 𝛽̂0=10𝑖=1𝑑𝑖

𝑛 = − 9

10= −0,9 olur. 𝐻𝐾𝑇𝑇ℎ𝑒𝑖𝑙= 30.40625; 𝐻𝐾𝑇𝐻𝐿 = 33 ve 𝐻𝐾𝑇𝑂𝑝𝑡 = 20.9

(14)

13

Genel Uygulama Sorusu Kaynak:

1. Helmut Spaeth (1991).Mathematical Algorithms for Linear Regression. Academic Press.

ISBN 0-12-656460-4.

2. S Weisberg (1980). Applied Linear Regression.Wiley, page 146.

Tartışma:

Petrol tanklara pompalandığında hidrokarbonlar dışarı çıkar. Kirlilik kontrollerinin etkinliğini değerlendirmek için deneyler yapıldı. Kaçan hidrokarbon miktarı tank sıcaklığına. pompalanan benzinin sıcaklığına. tanktaki başlangıç basıncına ve pompalanan benzinin basıncına bağlı olarak ölçüldü.

Veri dosyasında 32 satır veri vardır. Veriler şunları içerir:I. indeks; X1. tank sıcaklığı; X2. benzin sıcaklığı; X3. ilk tank basıncı;X4. benzin basıncı; Y. kaçan hidrokarbonların miktarı.

Model Denklemi: Y =B0+B1*X1+B2*X2+B3*X3+B4*X4

Orijinal Veri 6 sütun ve 32 satırdan oluşmakta olup sırası ile İndeks. Tank sıcaklığı (derece Fahrenheit). Petrol sıcaklığı (derece Fahrenheit). İlk tank basıncı (pound / inç kare). Benzin basıncı (pound / inç kare). Kaçan hidrokarbonlar (gram) değerlerinden oluşmaktadır.

Bu çalışmada Benzin basıncı (x; pound / inç kare) değerinin Kaçan hidrokarbonlar (y; gram) değeri açıklayıp açıklamadığı çalışılmıştır. Veriler aşağıdaki tabloda verildiği gibidir.

Sıra No y; gram x; pound / inç kare

1 16 2.59

2 22 2.59

3 19 2.64

4 20 2.95

5 21 3.03

6 22 3.08

7 26 3.18

8 24 3.26

9 27 3.41

10 29 3.42

11 22 3.45

12 24 3.49

13 33 3.89

14 23 3.94

(15)

14

15 27 4.02

16 29 4.08

17 37 4.10

18 37 4.30

19 36 4.36

20 32 4.39

21 32 4.41

22 34 4.42

23 34 4.53

24 34 4.53

25 33 4.57

26 34 4.72

27 31 5.80

28 45 6.60

29 40 6.70

30 46 7.20

31 52 7.26

32 55 7.45

İstenenler: Bu derste anlatılan Parametrik olmayan bütün yöntem uygulayınız.

A) Model Tahminleri:

a) EKK Sonucu: 𝑌̂ = 4.305422 + 6.202851𝑋 olup HKT = 411.3411 bulunur.

b) Mood-Brown Sonucu: 𝑌̂ = 3.541152 + 6.584362𝑋 olup HKT = 445.1598 bulunur.

c) Theil Sonucu: 𝑌̂ = 1.23913 + 6.521739𝑋 olup HKT = 508.5719 bulunur.

d) Hodges-Lehman Sonucu: 𝑌̂ = 3.206522 + 6.521739𝑋 olup HKT = 419.9539 bulunur.

e) Optimum Sonucu: 𝑌̂ = 2.92663 + 6.521739𝑋 olup HKT = 417.4468 bulunur.

Not: c), d) ve e) şıklarındaki eğim parametre değeri (𝛽1)tahmin edilirken 𝑋 değişken değerlerindeki birinci ve ikinci ve yine 23’üncü ve 24’üncü değerler eşit olduğundan bu iki değere ait 𝑌 değişken değerinin ortalaması kullnıldı. Böylece veri 30 noktaya indirgenmiş oldu.

Sonuçta toplam eğim sayısı, 30(29)

2 = 435 hesaplandı. Çünkü payda değeri 0 olduğunda eğim değeri hesaplanamamaktadır. Kesim parametresi (𝛽0) tahmin edilirken verinin tamamı kullanılmıştır.

B) Tesler: 𝐻0: 𝛽1 = 0 ve 𝐻1: 𝛽1 ≠ 0 a) EKK (parametrik testler):

1) 𝑡𝐻 = 𝛽̂1

𝑠ℎ(𝛽̂1)=6.202851

0.4779 ≅ 12,9802; 𝑠ℎ(𝛽̂1) = √𝐻𝐾𝑂

𝐾𝑇𝑋 = √

411.3411 30

60.04255 ≅ 0.4779; 𝑡𝑇 = 𝑡𝑛−2;1−𝛼/2 = 𝑡30;0.975 = 2.042 olup 𝛽1 parametresi oldukça önemlidir. Dolayısı ile model de geçerlidir.

(16)

15 2) 𝐹𝐻 = 𝑡𝐻2 = 𝑅𝐾𝑂

𝐻𝐾𝑂 = 2310.159

13.71137 ≅ 168.4849; 𝑡𝑇 = 𝐹𝑘−1;𝑛−2;1−𝛼/2 = 𝑡1;30;0.95 =4.171 olup 𝛽1 parametresi oldukça önemlidir. Dolayısı ile model de geçerlidir.

b) Mood Testi: 𝜒𝐻2 =16

𝑛 (𝑛1𝑛

4)2=16

32(1 −32

4)2=16(49)

32 = 24.5; 𝜒𝑇2 = 𝜒1;0.952 = 3.841 olup 𝛽1 parametresi oldukça önemlidir. Dolayısı ile model de geçerlidir.

c) Kendal Testi: 𝑧𝐻 = 3𝑆√2

√𝑛(𝑛−1)(2𝑛+5)=3𝜏̂√𝑛(𝑛−1)

√2(2𝑛+5) = 3(0.728)√32(31)

√2[2(32)+5] ≅ 5.854; 𝑧𝑇 = 𝑧0.025) = 1.96 olup 𝑧𝐻 > 𝑧𝑇 olduğundan 𝐻0 hipotezi ret edilir. Dolayısı ile 𝛽1 parametresi oldukça önemli olup model de geçerlidir.

Referanslar

Benzer Belgeler

Antikodon tRNA'nın diğer bir kolunda yer alır (Şekil 5.5). Belli bir antikodon taşıyan bir tRNA sadece belli bir amino asiti taşır. Bir amino asitin hangi tRNA’ya

Şekil 4.2Elektrik Alan Çizgileri (a) Pozitif q nokta yükünün elektrik alan çizgileri, (b) Sonsuz uzunluktaki zıt yüklü paralel iletken iki plakanın elektrik alan

Bilgisayar Programcılığı Önlisans Programı Tarım Makineleri Önlisans Programı Mimari Dekoratif Sanatlar Önlisans Programı Seracılık Önlisans Programı Basım ve

b) Anlamsız (nonsense) mutasyonlar: DNA üzerinde bir baz çifti değişimi sonucu mRNA'da normalde bir amino asiti kodlayan bir kodonun yerine bir sonlanma ko- donunun (UAG, UAA,

Lojistik regresyona giriş, bazı önemli tanımlar, Lojistik regresyonun lineer regresyon ile ilişkisi, lojistiğin tercih edilme nedenleri ve lojistik regresyonun kullanım

 Not–1: İki değişkenlide olduğu gibi n  3 ve pozitif tamsayı olduğunda da tesadüfi değişkenlere ilişkin marjinal ve şartlı olasılık (veya yoğunluk

Eksik belge veya ilan edilen süre dışında (adayın parmak izi ve kamera kaydı yapılacağından) posta ile veya vekâleten kayıt yaptırılamaz. Bu kural

Bu metod düşük fosfat iyonu konsantrasyonları için kullanılır (4-18 mg/l). Renk yoğunluğunun ölçümü spektrofotometre kullanılarak yapılır. Bu metodu kullanarak,