TEMEL KAVRAMLAR

256  Download (0)

Tam metin

(1)

TEMEL KAVRAMLAR

1.1. Giriş

Zaman serileri, bilimin her alanında uygulamaları bulunan, genellikle istatistiğin bazen de ekonometrinin önemli bir uygulama alanıdır. Bir zaman serisi, periyodik zaman aralıklarında gözlenen ölçümlerin bir dizisidir. Bir fabrikadan ihraç edilen aylık ürün miktarları, bir karayolunda meydana gelen haftalık kaza sayıları, bir göldeki saatlik su seviyesi yüksekliği, bir ülkenin yıllık ithalat ve ihracat miktarları, yıllık yatırım ve gayri safi milli hasıla gelirleri, yıllık işsizlik oranları, bir şehirdeki aylık yağış miktarları zaman serilerine örnek olarak verilebilir. Örnekler, iktisat, işletme, mühendislik ve temel bilimlerden verilebilecek uygulamalar ile genişletilebilir. Jeofizik, meteoroloji ve iktisadi verilerin incelenmesinde zaman serileri yoğun olarak kullanılmaktadır. Örneğin, geçmiş yıllara ait yıllık ihracat miktarları varsa, önümüzdeki yılın ihracat miktarı için iyi bir öngörü, bütçe hazırlıkları aşamasında önemlidir.

Bir araştırmacı faiz oranlarının enflasyonu nasıl etkilediğini öğrenmek isteyebilir. Bunun için ilk akla gelen, enflasyon ile faiz oranları arasındaki regresyon ilişkisini araştırmaktır. Böyle bir regresyon modeli başlangıçta uygun görünse de temel varsayımlar göz önüne alındığında uygun değildir.

Hem faiz oranları hem de enflasyon oranları bağımlı değişkenlerdir. Oysa, regresyonda açıklayıcı değişken rolündeki değişken biliniyor (sabit) olmalı ve bağımlı değişken rolündeki değişken de bağımsız olmalıdır. Burada ise hem faiz oranları hem de enflasyon oranları bağımlı rasgele değişkenlerdir.

Hemen hemen bütün istatistiki sonuç çıkarımlarda (tahmin, kestirim, öngörü gibi) olduğu gibi önce iyi bir modele ihtiyaç vardır. İyi bir model için model varsayımları kontrol edilmelidir.

BÖLÜM 1

(2)

Devlet, genellikle ekonomik değişkenlerle ilgili önceden kestirimleri kullanır. Başka bir deyişle, Gayri Safi Milli Hasıla (GSMH) ve bununla ilgili yatırım, istihdam, genel fiyat düzeyi gibi makro ekonomik değişkenlerin önceden kestirimi üzerinde durulur. Kısa, orta ve uzun dönemde uygulanacak ekonomik politikaların belirlenmesinde, örneğin faiz ve vergi oranlarının karşılaştırılmasında Devlet, GSMH’nın kestirim değerini temel alabilir. Bunun için de GSMH’ya etki eden parasal ve mali faktörlerin enflasyon, sermaye harcamaları, ithalat ve ihracat gibi makro değişkenlerin ileride alabileceği değerlere ihtiyaç duyulur.

Makro düzeydeki bir önceden kestirim, sadece bir değişken için yapılmaz, böyle bir önceden kestirim tek başına bir anlam ifade etmeyebilir.

Makro düzeydeki önceden kestirimler, GSMH ve bunu etkileyen diğer faktörlerin birleşimi şeklinde yapılmaktadır. Önceden kestirimler, ekonomik politika değişkenlerinin ileriki dönemlerde alabileceği değerler hakkında bilgi sağlar. Bu bilgiler, Devletin ekonomiyi düzenlemek ve kontrol altına almak için düşündüğü seçeneklerden birini maksimum kılma amacı ile yapılır.

Bir perakendeci firma stok politikasını belirlerken, basit bir önceden kestirim yöntemine göre hareket eder. Geçmiş dönemlerdeki ürün satış miktarlarını göz önüne alır. Gelecek dönemlerin de geçmiş ile benzer olacağı varsayımından hareketle, ne kadar ürünün stokta bulunması gerektiğine karar verir. Böyle bir karar, önceden kestirimlerin stok kontrol politikası yapımında kullanılmasından başka bir şey değildir.

Özellikle orta ve büyük hacimli firmalar üretim, satış, bütçe, plan ve programlarını hazırlarken ekonomik koşulları göz önünde bulundururlar. Bu konuda yararlanabilecekleri kaynaklardan biri, belki de en önemlisi, devletin makro ekonomik önceden kestirimleridir. Bu ve buna benzer problemlerde zaman serisi teknikleri yoğun olarak kullanılmaktadır. Zaman serilerinde kullanılan bütün gözlemler birim zaman içinde elde edilmiş değerlerdir.

Zaman serileri, ortalamadan gösterdiği sapmalara göre, durağan ve durağan olmayan seriler olarak iki temel başlık altında incelenir. İncelenen zaman serisinin ortalaması ve varyansı simetrik bir değişme gösteriyorsa veya seri periyodik dalgalanmalardan arınmış ise bu tür seriler durağan

(3)

zaman serileridir. Durağanlık zaman serilerinde önemli bir kavramdır. Bir çok istatistiki sonuç çıkarım serinin durağanlığı varsayımına dayanır. Seri durağan değilse, bazı teknikler kullanılarak (fark alma gibi) durağan hale getirildikten sonra analizler yapılır. Bir çok iktisadi veri (özellikle parasal veriler) durağan değildir. Durağan olmayan zaman serilerini de iki kısımda incelemek gerekir. Pratikte, durağanlığı bozan başlıca iki neden vardır.

Birincisi, serinin ortalaması zamana bağlı olabilir. Yani, seri deterministik bir trend içerebilir. Diğeri de, serinin otokorelasyonların zamana bağlı olmasıdır. Deterministik trendi (ortalaması zamana bağlı ise) yok etmek basittir. Diğer durumda ise, serideki trend stokastik olup trendin ortadan kaldırılabilmesi için bazı teknikler (dönüşüm yapmak, fark almak gibi) kullanılır. Onun için serideki trendin deterministik mi, yoksa stokastik mi olduğu önceden kontrol edilmelidir. Bu konular ileride ayrıntılı olarak incelenmeye çalışılacaktır.

Zaman serisi modelleri genellikle regresyon modeline benzemesine rağmen, temel varsayımlarda birbirinden ayrılır. Zaman serisi modeli regresyon modeli gibi düşünüldüğünde, açıklayıcı değişken (bağımsız değişken) rolündeki değişkenler rasgeledir. Bu açıklayıcı değişkenler aynı zamanda bağımlı değişkenlerdir. Açıklayıcı değişkenler regresyon modelinde, rasgele olmayan değişken değildir. Bazı varsayımlar (durağanlık gibi) altında istatistiki sonuç çıkarımlar açısından yine regresyon teknikleri kullanılır. Aşağıda, bazı regresyon kavramları ayrıntılarına girilmeden kısaca özetlenecektir.

1.2. Lineer (Doğrusal) Regresyon

Bu kısımda, zaman serileri gibi bir çok alanda yoğun olarak kullanılan ve iki değişken arasındaki istatistiksel ilişkiden, yani regresyondan bahsedilecektir. X ve Y gibi iki değişken arasında, Y  f X( ) şeklinde bir ilişki, f fonksiyonu biliniyorsa deterministiktir. Örneğin, Y 2X  gibi 3 bir ilişki için X 1 ise Y  , 5 X  ise 0 Y  ve 3 X   ise 1 Y  1 değerleri elde edilir.

(4)

Böyle bir fonksiyonun grafiği yan tarafta verilmiştir. Diğer taraftan, iki değişken arasındaki ilişki doğrusal olmayabilir.

Örneğin, YX2 şeklinde parabolik bir 3 ilişki de olabilir. Burada, X’in herhangi bir değeri için Y nin değeri tam olarak bellidir.

Gerçek hayatta değişkenlerden biri sabit tutularak (genellikle X ) deney bir çok defa tekrarlanarak diğer değişkenin değerleri gözlenir. Aynı X değeri için Y nin değerleri farklı olabilir. Yani, Y değerleri belli bir hata ile gözlenir. Başka bir ifade ile, Y ile X arasında, Y  f X( )e gibi (bilinmeyen bir f fonksiyonuna bağlı) bir ilişkiden söz edilmektedir. Böyle bir ilişkiye istatistiksel (veya stokastik) bir ilişki denir.

Regresyonda önemli olan bazı koşullar altında bilinmeyen f fonksiyonunun belirlenmesidir. Bu koşullar (veya varsayımlar) genellikle

e

hata terimi üzerindedir.

Xp

X

X1, 2,..., değişkenlerinin değerleri biliniyorsa

X

i ler ile Y arasında Y  f X X( 1, 2,...,Xp) gibi istatistiksel bir ilişkiyi göz önüne e alalım. Y bağımlı değişkeni rasgele olmak üzere,

X

i ler açıklayıcı değişkenlerdir (reel sayılardır). Yani, Y  f(x1,x2,...,xp)e regresyon eşitliğinden bahsedilmektedir. Burada, Y bağımlı değişken, x1,x2,...,xp ler açıklayıcı değişkenler,

e

hata terimi, f de bilinmeyen parametre içeren ve ilişkinin yapısını gösteren bir fonksiyondur. Regresyonda amaç, f fonksiyonunu hataların kareleri en küçük (minimum) olacak şekilde tahmin etmektir. x1,x2,...,xp ler X X1, 2,..,Xp değişkenlerinin aldığı değerler olmak üzere, Y nin X X1, 2,..,Xp ler üzerine regresyonu,

) ,...,

|

(Y X1 x1 Xp xp

E  

(5)

şeklinde koşullu beklenen değerdir. Bu koşullu beklenen değer bazen lineer bazen de lineer değildir. Bu durumlara göre, regresyon denklemleri lineer ve lineer olmayan regresyon olarak iki gruba ayrılır.

Örnek 1.2.1 a) X ve Y nin ortak olasılık yoğunluk fonksiyonu

( 1) /

2 , 0, 0

( , )

0 , . .

x x y

e x y

f x y

d y

  

 



şeklinde verilmiş ise Y nin X üzerine regresyonu,

/

0 0

( | ) ( | ) 1

x y

E Y X x y f y x dy y x e dy x

    

şeklinde lineer olmayan bir denklemdir. Burada f y x( | )

,

X x

verildiğinde

Y

nin koşullu olasılık yoğunluk fonksiyonudur.

b) X ve Y rasgele değişkenleri çok terimli binom dağılımına (multinomial) sahip olsun. Burada, X ve Y nin ortak olasılık fonksiyonu,

n y x n y

n

x0,1,2,..., ; 0,1,2,..., ;   için

1 2 1 2

( , ) (1 )

, ,

y

x n x y

f x y n

x y n x y      

 

     

şeklinde olup,

!

, , ! !( )!

n n

x y n x y  x y n x y

   

 

 

 

dir. Ayrıca,

X ~ Binom( , ) n 

1 olmak üzere, X x verildiğinde Y nin koşullu olasılık fonksiyonu da,

 

2 1

 

2

1

( , ) ( )!

( | ) / 1 1 / 1

( ) !( )!

y n x y

f x y n x

f y x

f x y n x y      

    

 

şeklindedir. Buradan X x verildiğinde Y nin koşullu olasılık dağılımı,

 

2 1

| ~ , / 1

Y X x Binom n x  

olarak elde edilir. Y nin X üzerine regresyonu bu koşullu dağılımın beklenen değeri olduğundan regresyon denklemi

  n 

2

/(1  

1

)

ve

2

/(1

1

)

     

olmak üzere,

(6)

x n x

x X Y

E  

  

 

 

1 2 1

2

1 ) 1

| (

olarak bulunur.

c) X ve Y rasgele değişkenleri iki boyutlu normal dağılıma sahip olsun. Yani,

( X , Y ) ~ N   ,  

şeklinde olsun. Burada,

= 

 

y x

2

ve x x y2

x y y

   

   

 

 

 

olup, iki boyutlu normal dağılımın özelliklerinden koşullu dağılımlar da normaldir. Koşullu dağılım Y|X x ~N

 

y|x,

y|x

dir. Burada, koşullu beklenen değer ve varyans

) )(

/

|x y ( y x x

y

   

x

   ve

y|x

 

2y

( 1  

2

)

dir. Buradan Y nin X üzerine regresyonu,

x x

x X Y

E

x

x y

y

  

 

    

 ) ( )

| (

şeklinde basit doğrusal regresyon denklemidir. Burada

/

y y x x

       

ve

   

y

/

x

dir

Bilindiği gibi, regresyonda önemli olan bilinmeyen parametre içeren f fonksiyonunun tahminidir. Bu bazen doğrusal bazen de doğrusal olmayan bir fonksiyondur. Genellikle doğrusal durum ile karşılaşılır. Onun için aşağıda doğrusal regresyondan biraz ayrıntılı bahsedilecektir.

,

xi t (t1, 2,3,.., n

ve

i1, 2,3,..,p

)

açıklayıcı değişkenleri,

Y

t bağımlı değişkeni göstermek üzere,

t t p p t

t

t x x x e

Y 

0

1 1,

2 2, ...

,  , t1, 2,..., n

şeklinde verilen eşitlik

E ( e

t

)  0

,

Var ( e

t

)  

2 ve

t  s

için

0 ) , ( e

t

e

s

Cov

koşullarını sağlıyor ise denkleme lineer (doğrusal) regresyon denklemi denir. p1 için denklem basit doğrusal regresyon denklemi adını alır. İstatistiki sonuç çıkarım açısından hata terimlerinin normal dağılımlı olduğu varsayılır. Veri analizi yapılmadan önce bu

(7)

varsayımların geçerliliği sınanmalı ve varsayımların bozulduğu durumlarda dönüşüm yaparak varsayımların geçerliliği sağlatılmalıdır. Amaç model parametrelerinin (i,i0,1,2,...,p ve 2) tahmin edilmesi ve eldeki verilere en uygun modelin belirlenmesidir.

Varsayımların geçerliliğini sınamak için literatürde değişik teknikler mevcuttur. Örneğin, hata terimleri kendi aralarında otokorelasyonlu olabilir (örneğin, et et1t, | | 1  şeklinde bir ilişki olabilir). Yani, ts

için

( , ) 0

t s

Cov e e 

olabilir. Hata terimlerinin otokorelasyonlu olup olmadığını sınamak için Durbin-Watson testi kullanılabilir.

ˆ

i ler

i parametrelerinin en küçük kareler tahmin edicilerini (ileride açıklayacağız) göstermek üzere, kestirimler

Y ˆ

t

  ˆ

0

  ˆ

1 1,

x

t

  ...  ˆ

p p t

x

, ve artıklar da

e ˆ

t

 Y

t

 Y ˆ

t şeklinde hesaplanır. Buradan, Durbin-Watson test istatistiğinin değeri (birinci dereceden otokorelasyon için),

 

 

 

n

t

t t n

t

t

e e

e d

2

2 1 1

1

2

( ˆ ˆ )

ˆ

formülü ile hesaplanır. Hata terimleri normal dağılımlı ve

t s 

için

0

) , ( e

t

e

s

Cov

ise d nin payındaki toplamın beklenen değeri yaklaşık

)

2

1 (

2 n  

dir. Paydadaki toplamın beklenen değeri ise

n 

2 dir. Dolayısı ile hata terimleri arasında bir korelasyon ilişkisi yoksa, d nin beklenen değeri yaklaşık olarak 2 olmalıdır. d nin alabileceği en küçük değer ise sıfırdır. d için tablolar düzenlenmiştir. Bu tablo değerleri kullanılarak hata terimlerinin otokorelasyonlu olup olmadığı araştırılabilir.

Hataların normal dağılıma sahip olduğunu sınamak için de değişik teknikler vardır. Artıkların histogramı, kutu çizitleri (box-plot) ve normal olasılık grafiği bunlardan bazılarıdır. Normal olasılık grafiği için önce regresyondan elde edilen artıklar küçükten büyüğe doğru sıralanır.

Sıralanmış artıklar eˆ(t) olmak üzere, normal dağılım varsayımı altında, ˆ( )

( t )

E e yaklaşık olarak Z((t0.375) /(n0.25)) dir (Neter, Wasserman ve

(8)

Kutner, 1985 s.118-119). Bu değerler normal dağılım tablosundan bulunarak

)

ˆ(t

e değerlerinin Z((t0.375) /(n0.25)) tablo değerlerine karşı grafiği çizilir. Bu grafikte bir doğrusallık gözleniyorsa, hata terimlerinin normal dağılıma uygun olduğu sezgisel olarak söylenebilir.

Şimdi, regresyon denklemindeki parametrelerin nasıl tahmin edileceğini görelim. Bunun için iki açıklayıcı değişkenli (p2) regresyon modelini,

n t

e x x

Yt

0

1 1,t

2 2,tt , 1,2,...,

şeklinde yazalım. Burada,

Y

t ler bağımlı (bağımlılık, Y lerin

x

i açıklayıcı değişkenlere bağlılığı anlamında olup, bağımsız rasgele değişkenlerdir) rasgele değişkenler, x1,t ve x2,t bilinen (sabit tutulan, rasgele olmayan) açıklayıcı değişkenler,

e

t ler beklenen değeri 0 varyansı

2 olan bağımsız rasgele değişkenler olup

0

, 

1

, 

2 ve

2 ler de model parametreleridir.

Amaç, parametrelerin en iyi şekilde tahmin edilmesidir. Buna göre model,

1 11 21 1

2 12 22 2

0 1 2

1 2

1 1

. . .

. .

. . .

. .

. . .

. .

1

n n

n n

Y x x e

Y x x e

x x

Y e

     

     

       

         

       

         

     

     

 

     

   

olarak yazıldığında, Y X

e şeklinde lineer modele dönüşür. Buradan

nın en küçük kareler tahmin edicisi

ˆ(X'X)1X'Y dir. Basit doğrusal regresyonda (bir tane açıklayıcı değişkenin olması halinde) bu denklem sisteminin çözümü

ˆ

0

ˆ

1

n n

Y x

   

ve 2

1

( )

n

x x i n

i

S x x

  

ve

1

( )( )

n

x y i n i n

i

S x x Y Y

   

olmak üzere,

ˆ1Sx y/Sx x dir.

(9)

Bu tahmin edicinin bazı özelliklerini kısaca özetleyelim. I,

n n 

boyutlu birim matrisi göstermek üzere, E( )Y  X

ve

Var ( ) Y  

2

I

olduğu açıktır. Buradan aşağıdaki sonuçlar yazılabilir.

i)

ˆ gözlemlerin lineer birleşimidir. Ayrıca,

ˆ nın her bir bileşeni de

Y

i lerin lineer birleşimidir (

 ˆ

i

 a Y

1 1

 a Y

2 2

  ... a Y

n n).

ii)

ˆ nın beklenen değeri,

1 -1

1

( )ˆ (( ' ) ' ) ( ' ) ' ( ) ( ' ) '

E E E

 

 

 

X X X Y X X X Y

X X X X

olduğundan 

nın

en küçük kareler

tahmin edicisi (

ˆ)

için yansızdır.

iii)

ˆ minimum varyanslıdır (en küçük varyanslı olması, herbir lineer birleşiminin varyansının herhangi bir lineer yansız tahmin edicinin lineer birleşiminin varyansından küçük olması anlamındadır).

ˆ nın varyansı

1 1 1 2 1

( )ˆ (( ' ) ' ) ( ) 'Var( ) ( ) ( )

Var 

Var

X X X Y  X X X' Y X X X'

X X' dir.

Bu üç özellikten,

ˆ nın en küçük varyanslı lineer yansız tahmin edici (Best Linear Unbiased Estimator, BLUE) olduğu söylenebilir.

iv) Hata terimlerin normal dağıldığını varsayalım. Yani,

e

t lerin olasılık yoğunluk fonksiyonu, x

için

2 2

( ) 1 exp( / 2 )

f x 2 x 

 

 

şeklinde olsun. Buradan, çok değişkenli normal dağılımın özelliklerinden

ˆ da normal dağılır. Yani,

ˆ ~ ( , (N

σ2 X X' ) )1 olup yine çok değişkenli normal dağılımın özelliklerinden,

ˆ nın her bir bileşeni de normaldir. Yani,

2 1

ˆ ~ ( , ( N ) )

i

 

i

X X '

ii dir. Burada, i0,1, 2 için

( X X ' )

( 1),( 1) i1 i sayısı (X X' )1 matrisinin( 1)i satır ( 1)i sütun elemanıdır.

v) Diğer taraftan,

2 parametresinin en küçük kareler tahmin edicisi de

(10)

2 2 1

1 ˆ

ˆ ( )

( 1)

n

n i i

i

n p Y Y

 

 

şeklindedir.

 ˆ

n2,

2 için yansız, normallik varsayımı ile en çok olabilirlik tahmin edicisidir. Burada, p açıklayıcı değişkenlerin sayısını,

i de kestirimlerdir. Bu kestirimler, Yˆi

ˆ0

ˆ1 1xi

ˆ2 2x i  ...

ˆp pix şeklinde hesaplanır.

vi) Yukarıdaki özellikler kullanılarak modelin uygunluğunu (veya parametrelerin anlamlı olup olmadığını) sınamak için hipotez testleri yapılır.

Örneğin,

H

0

: 

i

 0

hipotezini

H

a

: 

i

 0

lternatifine karşı test etmek için *

ˆ / ( ˆ )

i

i

s

t   

istatistiğinin değeri tablo değeri ile karşılaştırılır. Eğer ))

1 ( , 2 / 1 (

|

|t* t 

n p ise,

H

0

: 

i

 0

yokluk hipotezi red edilir.

Burada,

birinci tip hata olasılığını (testin anlam düzeyini),

2 1

( 1),( 1)

ˆ ˆ

( )i ( )i i

s

X X' standart hatayı, t(1

/2,n(p1)) de tablo değerini göstermektedir.

vii) Güven aralıkarı da

 ˆ

i

 s (  ˆ

i

) t ( 1   / 2 , n  ( p  1 ))

şeklinde hesaplanır.

viii) Regresyonda ANOVA tablosu önemlidir. ANOVA tablosu için,

2 2 2 2

1 1 1 1

ˆ ˆ ˆ

( ) , ( ) , ( )

n n n n

i n i n i i i

i i i i

SST Y Y SSR Y Y SSE Y Y e

 

 

 

değerleri ile MSR SSR p / , MSE SSE n p /(   ortalama kareler toplamları ( 1)) hesaplandıktan sonra ANOVA tablosu aşağıdaki gibi oluşturulur.

Değişim Kaynağı

Serbestlik Derecesi

Kareler Toplamı

Ortalama

Kareler Toplamı F

Regresyon p SSR MSRSSR/ p MSR /MSE

Artıklar n p( 1) SSE MSESSE/(n(p1))

Toplam n1 SST

Diğer taraftan, uygulamada çok karşılaştığımız açıklayıcı değişkenlerin bağımlı değişkeni açıklama oranı olarak da yorumlayabileceğimiz

R

2

(11)

istatistiğinin değeri, R2 SSR/SST oranı ile hesaplanır. İyi bir model için bu istatistiğin değerinin yüksek olması beklenir.

Örnek 1.2.2. Bir fabrikada çalışan işci sayısı (X ) ile fabrikanın yıllık ihracat miktarları (Y, ton olarak)

X 40 80 120 160 200

Y 440 450 690 820 930

olarak gözlenmiştir. İşci sayısının ihjracata etkisini araştırmak isteyelim.

Bu verilere basit doğrusal regresyon modelinin uygun olduğunu varsayalım ve modeli t1, 2,3, 4,5

için

Y

t

 

0

 

1

x

t

 e

t

şeklinde yazalım. Parametre tahminleri

ˆ 261

0

, ˆ 3.375

1

olarak hesaplanmıştır.

Kestirim denklemi,

Y ˆ

t

 261 3.375  x

t olup artıklar

e ˆ

t

 Y

t

 Y ˆ

t den Yˆ 396 531 666 801 936

44 -81 24 19 -6 olarak hesaplanmıştır. ANOVA tablosu için bazı özet bilgiler de

2 1

( ) 191720

n

i n

i

y y

 

, 2

1

(ˆ ) 182250

n

i n

i

y y

 

ve 2

1

( ˆ ) 9470

n

i i

i

y y

 

olarak hesaplanmış ve ANOVA tablosu Değişim

Kaynağı Serbestlik

Derecesi Kareler

Toplamı Ortalama Kareler

Toplamı F

Regresyon 1 182250 182250 57.73

Artıklar 3 9470 3156.7

Toplam 4 191720

şeklinde oluşturulmuştur.R2SSR SST/ 0.9506 olup işci sayısının ihracat miktarını açıklama oranı yaklaşık 95% dir. Diğer taraftan,

1

ˆ 0

n i i

e

  ve

1 1

n n ˆ

i i

i i

Y Y

  olduğu açıktır.

(12)

Hataların normal dağılıma uygunluğunu sınamak için normal olasılık grafiği kullanılan tekniklerden biridir. Bunun için artıklar küçükten büyüğe doğru sıralanır. Sıralanmış artık değerler ile z-değerleri aşağıda verilmiştir (z-değerleri için normal dağılım tablosuna bakınız). Sıralanmış artık değerlerin z-değerlerine karşı grafiğinden, tam olmasa bile doğrusal bir ilişki göze çarpmaktadır. Bu doğrusallık hata terimlerinin normal dağılıma uygunluğunu (sezgisel olarak) göstermektedir.

ˆ( )t

e -81 -6 19 24 44

Z

( t 0.375) /( n 0.25)

-1.18 -0.5 0 0.5 1.18 Normal olasılık grafiği aşağıdadır.

Veri sayısının azlığı da dikkate alındığında hata terimlerinin normal dağılıma uygun olduğu söylenebilir. Kolmogorov–Simirnov istatistiğinin değeri kullanılarak da normallik sınaması yapılabilir.

Varsayımlardan biri de hata terimlerinin ilişkisiz olmasıdır. Bu varsayımın geçerliliğini sınamak için Durbin-Watson istatistiği kullanılabilir. Hata terimleri arasında birinci dereceden otokorelasyonu sınamak için (yüksek dereceden otokorelasyonlara da bakılabilir) Durbin-Watson istatistiğinin değeri,

1 2 2

5 5

2 2

1 2 1

( 81 44) ... ( 6 19)

ˆ ( ˆ ˆ ) 2.883

t t t

9470

t t

d e e e

     

   

             

olarak hesaplanmıştır. Bu istatistik ile ilgili tablo değerleri oluşturulmuştur.

Bu değer tablo değeri ile karşılaştırılarak hata terimlerinin otokorelasyonlu olup olmadığına karar verilir d nin değeri 0 ile 4 arasında olmalıdır. d 2 ise negatif otokorelasyon vardır (Brocklebank ve Dickey, 1986, s. 8).

1 parametresinin en küçük kareler tahmin değeri ˆ 3.375

1

olarak

hesaplanmıştı. Şimdi

H

0

: 

1

 3

hipotezini

H

a

: 

1

 3

karşı test etmek isteyelim. Bunun için

ˆ1 in standart hatası,

444 . 0 19729 . 0 6667 . 3156 ) 0000625 .

0 ( )

' ( ˆ )

( 1  X X 221 MSE  

s

(13)

olup

t 

istatistiğinin değeri,

 

*

( ˆ

1

3) / ( ) ˆ

1

3.375 3 /(0.444) 0.8445

t    s    

dir. Bu değer,

0.05 için t(3,0.05)2.353 olup

t 

tablo değerinden küçük olduğu için

H

0 yokluk hipotezi red edilemez.

Ayrıca,

1 için 95% lik güven aralığı

1 1

ˆ ( ) (3,0.025) ˆ 3.375 (0.444)(3.182)

3.375 1.4985 (1.8765, 4.8735)

s t

    

  

bağıntısından yaklaşık olarak (1.87,4.87) şeklinde hesaplanmıştır.

Fabrika sahibi iş yerinde 250 işci çalıştırmak istediğinde yıllık ihracat miktarının ne olacağını merak edebilir. Yani, yıllık ihracat miktarı için 95%

lik güven aralığına ihtiyaç duyabilir. Çalışan işci sayısı 250 ise kestirim değeri (denklemde x250 yazılarak) Yˆ250 261 3.375(250) 1104.75  dir. Buradan,

x

h

(1,250)' ve

ˆ2 3156.7 olmak üzere, kestirimin standart varyansı

s Y

2

( ) ˆ

h

  ˆ

2

(1  x ' ( ' )

h

X X

1

x

h

)

3965.6 ve

ˆ

Y nin

h

standart hatası da s Y ( ) ˆ

h =

3965.6 olarak hesaplanmış olur.

Ayrıca, 05

.

0

için t(3,0.975)3.182 olup

Y ˆ

250 için 95% lik güven aralığı,

)

975 . 0 , 3 ( ˆ ) ˆ

250

s ( Y

250

t

Y 

formülünde değerler yerine konulduğunda

) 12 . 1305 , 38 . 904

( olarak hesaplanır. Yani, yukarıdaki verilere göre fabrika sahibi işyerinde 250 işci çalıştırdığında 95% ihtimal ile 904 ton ile 1305 ton arasında ihracaat yapması beklenir

Regresyon analizinde, hata terimlerinin bağımsız ve sabit varyanslı olması önemli varsayımlardan biridir. Gerek regresyon analizinde gerekse zaman serilerinde hata terimlerinin varyanslarının zaman içinde değişmesi (değişen varyanslılık) çok karşılaşılan durumdur. Y  X

e şeklindeki bir regresyon modeli için Var( )e 

2I varsayımı yapılmıştı. Kovaryans matrisi Var( )e 

2 I yerine Var( )e 

2V şeklinde olabilir. Analizlere geçmeden Var( )e 

2I koşulu sağlanacak şekilde bir dönüşümden sonra istatistiki sonuç çıkarımlar yapılmalıdır. Bunun için V singüler olmayan bir matris olmak üzere, bu koşulu sağlamak için,

(14)

Y V

Y*1/2 , X* V1/2X ve e* V1/2e

dönüşümleri yapılır. Buna göre yeni model,

Y

*

 X

*

  e

* şekline dönüşür. Dönüştürülmüş model için,

* 1/ 2 1/ 2 1/ 2 2

( )e  (V e)V ( )e V

I

Var Var Var

varsayımı sağlanmış olur. Bu modele göre

nın EKK tahmin edicisi Y

V X X V X Y X X

X* * 1 * * 1 1 1

* ( ' ) ' ( ' ) '

ˆ 

olup, bu tahmin edici

nın genelleştirilmiş EKK tahmin edicisidir. Burada hata terimleri üzerindeki varsayımlar değişmesine rağmen X tasarım matrisi üzerindeki varsayımlar hala korunmaktadır.

Basit doğrusal regresyon modeli

Y

i

 

0

 

1

x

i

 e i

i

,  1, 2,..., n

şeklinde verilmiş olsun. Parametrelerin EKK tahmin edicilerinin

1 1 2

1 1

ˆ

n

(

i n

)

n

(

i n

)(

i n

)

i i

x x x x Y Y

   

             

ve

ˆ

0

ˆ

1

n n

Y x

   

şeklinde olduğunu biliyoruz. Ayrıca,

1

( ) 0

n

i n

i

x x

 

ve

1 1 1 1

( )( ) ( ) ( ) ( )

n n n n

i n i n i n i n i n i n i

i i i i

x x Y Y x x Y Y x x x x Y

       

   

olduğundan parametrelerin en küçük kareler tahmin edicileri

1 1 2

1 1

ˆ

n

(

i n

)

n

(

i n

)

i

i i

x x x x Y

   

            

ve ˆ0 ˆ1

n n

Y x

  

şeklinde de yazılabilir. Buradan  

2

1

( ) / n

i i n i n

i

k x x x x

 

denirse,

1 1

0 , 1

n n

i i i

i i

k k x

  ve

2

 

2

1 1

n 1/ n

i i n

i i

k x x

 

olup tahmin ediciler

1

1

ˆ n

i i i

k Y

ve ˆ

0

ˆ

1

n n

Y x

   

olarak da yazılabilir.

e

i hata terimleri

E e ( ) 0

i

ve

Var e ( )

i

 

2 olacak şekilde bağımsız raasgele değişkenler olmak üzere regresyon modeli

Y

i

 

0

 

1

x

i

 e

i şeklinde verildiğinde,

(15)

0 1

( )

i i i

E Y     x  e

ve

Var Y ( )

i

 

2

dir. Buna göre,

1 0 1 1

1 1 1 1

( ) ˆ

n i i n i

( )

i n i n i i

i i i i

E  E k Y k E Y  k  k x 

 

      

     

ve

 

2

2 2 2 2

1 1 1 1 1

( ) ˆ

n i i n i

( )

i n i

/

n i n

i i i i

Var  Var k Y k Var Y  k  x x

 

      

     

dir. Ayrıca,

1

2

1 1 1

, ˆ , n n ( , ) n 0

n n i i i n i i

i i i

Cov Y Cov Y k Y k Cov Y Y k

n

 

 

 



olduğundan,

 

0 1 1 0 1 1 0

ˆ ˆ ˆ

( ) (

n n

) ( )

n n

( )

n n

E   E Y   x  E Y  x E     x   x   

ve

   

0 1 2 1 1

2 2

2 2 2 2

2 1

1

ˆ ˆ ˆ ˆ

( ) ( ) ( ) ( ) 2 ( , )

1 /

n n n n n n

n n

n i n

n i

i n

i

Var Var Y x Var Y x Var x Cov Y

x x x x

n x x n

   

 

    

 

      

 

 

dir. Şimdi, hata terimleri bağımsız normal dağılıma sahip olsun. Yani,

~ (0,

2

)

e

i

NI 

olsun. 1

1

ˆ n

i i i

k Y

 olduğundan  ˆ

0

da

0 1

1 1 1 1

1 1

ˆ ˆ n n n n

n n i n i i n i i i i

i i i i

Y x Y x k Y x k Y d Y

n n

 

 

        

 

   

şeklinde yazılabilir.

Y

i ler bağımsız normal dağılıma sahip rasgele değişkenler olup,

 ˆ

0

ve  ˆ

1

de Y

i lerin lineer birleşimi olduğundan her iki tahmin edici de normal dağılıma sahip rasgele değişkenlerdir. Yani,

0 0 0

ˆ ~ ( , N Var ( )) ˆ

   ve  ˆ

1

~ ( , N 

1

Var ( ))  ˆ

1

dir. Parametrelerin EKK tahmin edicileri yazıldıktan sonra kestirimler

0 1

ˆ ˆ

ˆ

h h

Y     x şeklinde hesaplanır. Kestirimler hakkında istatistiki

sonuç çıkarımlar için dağılımlarının bulunması gerekir. ˆ Y nin

h

(16)

normalliği, ˆ Y nın

h

Y lerin lineer birleşimi olmasından açıktır. Diğer

i

taraftan E Y ( ) ˆ

h

 E Y ( )

h

ve

0 1 1 1

1 2 1

1

ˆ ˆ ˆ ˆ

( ) ˆ ( ) ( )

ˆ ˆ

( ( )) ( ) ( ) ( )

2( ) ( , ) ˆ

h h n n h

n h n n h n

h n n

Var Y Var x Var Y x x

Var Y x x Var Y x x Var

x x Cov Y

   

 

    

     

 

 

2 2

2

2 1

( h n)

n

i n

i

x x

n x x

 

  

olup, ˆ Y

h

~ ( ( ), N E Y Var Y

h

( )) ˆ

h

ve ( Y ˆ

h

 E Y ( )) / ( ) ~

h

s Y ˆ

h

t

n2

dir. Buna göre, ( ) E Y için

h 1

 güven katsayılı güven aralığı da,

ˆ

h n 2

(1 / 2) ( ) ˆ

h

Y  t

  s Y şeklinde yazılır.

Şimdi, X  verildiğinde yeni bir x

h Y

değeri için güven aralığı yazmak isteyelim. Yeni

Y

, diğer Y lerden bağımsızdır. Bu durumda,

i

Y için bir kestirim

h Yˆh yeni,

ˆ0

ˆ1xh yeni,

şeklinde olup varyansı,

ˆ, ˆ ˆ

( h yeni) ( h ) ( )h ( )

Var Y Var Y Y Var Y Var Y

dir. Ayrıca,

 

2

2 2

, 1

h yeni) [1 (1/ ) ( h n) / n i n ]

i

S Y MSE n x x x x

   

olup, X  olması halinde yeni x

h Y

için

1

 güven katsayılı güven aralığı

Yˆh yeni, s Y(ˆh yeni, )tn2(1

/ 2)

şeklindedir.

Örnek 1.2.3. Aşağıdaki verilere basit doğrusal regresyon modelinin uygun olduğunu varsayalım. Tabloda Y nin

x

üzerine regresyonundan elde edilen kestirim ve artık değerler ile bazı özet bilgiler de bulunmaktadır.

Verilere ait bazı özet bilgiler aşağıda verilmiştir.

10 1

i 55

i

x

, 10 10

1 1

ˆ 208

i i

i i

y y

 

, 10 10 10

1 1 1

ˆi ˆi i ˆ ˆi i 0

i i i

e e x e y

  

,

(17)

 

2

1 n 42.5

i n

i

x x

 

ve

1

( ) 85

n

i n i

i

x x y

 

x

i

Y

i

( x

h

 x

n

)

2

ˆ

Y

i

e ˆ

i

( x

h

 x Y

n

)

i

2 15 12.25 13.8 1.2 -52.5

3 17 6.25 15.8 1.2 -42.5

5 19 0.25 19.8 -0.8 -9.5

6 20 0.25 21.8 -1.8 10.0

4 18 2.25 17.8 0.2 -27.0

5 18 0.25 19.8 -1.8 -9.0

6 22 0.25 21.8 0.2 11.0

7 23 2.25 23.8 -0.8 34.5

8 26 6.25 25.8 0.2 65.0

9 30 12.25 27.8 2.2 105.0

55 208 42.5 208 0 85.0

Ayrıca,

1 1 2

1 1

ˆ

n

(

i n

)

n

(

i n

)

i

85 /(42.5) 2

i i

x x x x y

   

              

ve

0 1

ˆ y

n

ˆ x

n

20.8 2(5.5) 9.8

      

olup kestirim denklemi

Y ˆ

i

 9.8 2  x

i şeklinde bulunmuştur. SAS’da data a; input x y; cards;

2 15 3 17

……

9 30

;

proc reg; model y=x; run;

kodları çalıştırılarak ANOVA tablosu aşağıdaki şekilde oluşturulmuştur.

Buradan MSE1.95 olup

x

h

 6

olmak üzere

E Y ( )

h için güven aralığı için

Y ˆ

h

 19.8

,

t

8

(0.025) 2.306 

ve

 

 

2 1

2 2

1 2

ˆ 1

( ) ( )

1.95 0.1 (0.5) /(42.5) 0.206

n

h h n i n

i

s Y MSE x x x x

n

   

 

       

  

(18)

değerleri hesaplanmıştır. Buradan

E Y( )h

için %95 lik güven aralığı

19.8 (2.306) 0.206

veya

(18.753, 20.847)dir.

Sum of Mean

Source DF Squares Square F Value Pr > F Model 1 170.00000 170.00000 87.18 <.0001 Error 8 15.60000 1.95000

Corrected Total 9 185.60000

**************************************************************

Parameter Estimates Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

Intercept 1 9.80000 1.25815 7.79 <.0001 x 1 2.00000 0.21420 9.34 <.0001

6

x için yeni bir gözlemin kestirimi yine

Y ˆ

h

 19.8

dir. Bu önceden kestirim için güven aralığı için standart varyans,

 

2

2 2

, 1

ˆ 1

( ) 1 ( ) /

10

1.95(1 0.1 (0.25) / 42.5) 2.156

n

h yeni h n i n

i

s Y MSE x x x x

 

        

   

olup,

Yˆh yeni,

için %95 lik güven aralığı

19.8 (2.306) 2.156

dir.

Yani, aranan güven aralığı

(16.41, 23.19)

dır.

1.3. Zaman Serileri

Bir zaman serisinin, periyodik zaman aralıklarında yapılmış gözlemlerin bir dizisi olduğunu söylemiştik. Yani, zaman serisi rasgele değişkenlerin bir kolleksiyonudur. Buna göre, T bir indis olmak üzere, zaman serisi

 X

t

: t  T 

şeklinde ifade edilebilir. T indis kümesi genellikle  doğal sayılar kümesi seçilmesine rağmen,  tam sayılar kümesi de alınabilir.

T , reel sayılar kümesi veya T [0,1] gibi sürekli aralıklar da indis kümesi olarak alınabilir. T İndis kümesi sayılamayan kümeler olarak seçildiğinde, {Xt:t T} zaman serisine sürekli zamanlı stokastik süreç (continuous time stochastic process) denir. T indis kümesi  doğal sayılar kümesi veya  tamsayılar kümesi gibi kesikli (sayılabilir) kümeler ise {Xt:t T} rasgele değişkenlerinin kolleksiyonuna bir zaman dizisi (veya zaman serisi) denir. Uygulamada zaman serisi denildiği zaman, T indis

(19)

kümesi doğal sayılar kümesi anlaşılır. Aksi ifade edilmedikçe T indis kümesi doğal sayılar kümesi olacaktır.

Yukarıda söylendiği gibi, bir zaman serisi rasgele değişkenlerin bir kolleksiyonudur. O halde, zaman serisinin matematiksel tanımı için önce rasgele değişkenin ve dolayısı ile olasılık uzayının tanımına ihtiyaç vardır.

Bu tanımlar, ayrıntıya girmeden aşağıda özetlenmiştir.

Tanım 1.3.1  boş olmayan bir küme,  nın bazı alt kümelerinin oluşturduğu bir sınıf da  olsun.  sınıfı aşağıdaki özellikleri sağlıyorsa

ya  üzerinde bir sigma cebir, ( , )  ikilisine de ölçülebilir bir uzay denir.  nun her bir elemanına da bir olay adı verilir. Bu özellikler:

i)  

ii) Her A için

A

c

 

(Ac,A nın tümleyenini göstermektedir) iii)

A

n

  , n  1, 2,3,....

için

1 n n

A

 

dir

Tanım 1.3.2 ( , )  ölçülebilir bir uzay ve  üzerinde tanımlı : [0,]

( ) P

A P A

P küme fonksiyonu aşağıdaki özellikleri sağlarsa P ye bir olasılık ölçüsü denir. P(A) sayısına A olayının olasılığı, ( , , )  P üçlüsüne de olasılık uzayı adı verilir. Bu özellikler:

i) P A( ) 0 , bütün  A ii) P()1

iii)

A

n ler  da ayrık (

A

k

 A

j

  , k  j

) olayların bir dizisi ise

 

 

1 1

) (

n

n n

n

P A

A P 

dir

Bu kısa hatırlatmalardan sonra rasgele değişken ve zaman serisinin tanımını yazabiliriz.

(20)

Tanım 1.3.3 ( , , )  P bir olasılık uzayı olsun.  örnek uzayından  reel sayılar kümesine tanımlı

:

( ) X

w X w

 

X fonksiyonu,

  aiçin w X w : ( ) a

özelliğini sağlıyorsa X fonksiyonuna bir rasgele değişken denir. Benzer şekilde

1

:

( ) ( ( ),... ( ))

k

w w X w X w

k

 

  

 X

X

fonksiyonu her

i

ve her a

i

için  w X w :

i

( )  a

i

   koşulunu sağlıyorsa

X

’e

k

boyutlu rasgele vektör denir

Tanım 1.3.4 ( , , )  P bir olasılık uzayı, T de bir indis kümesi (genellikle doğal sayılar kümesi) olsun. Bir zaman serisi T çarpım uzayından reel sayılara giden bir fonksiyondur. Yani bir zaman serisi,

(.,.) :

( , ) ( , )

X T

w t X w t

 

şeklinde tanımlanan bir fonksiyondur

Zaman serisi bazen

X

t

(w )

, bazen de sadece

X

t ile gösterilir. Tanıma göre zaman serisi, her sabit

t

için bir rasgele değişkendir. Sabit bir

w

için bir zaman serisi

t

nin reel değerli bir fonksiyonudur. Bu reel değerli fonksiyona zaman serisinin bir realizasyonu (veya bir yörüngesi) adı verilir.

Bu yörünge gazetelerde, dergilerde ve kitaplarda görülen zaman serisi grafikleridir. Yani, gerçek hayatta görülen zaman serisi grafikleri aslında zaman serisinin bir yörüngesidir.

Örnek 1.3.1 Bir zarın atılması deneyini göz önüne alalım. Bu deneyde örnek uzay,

   1 , 2 , 3 , 4 , 5 , 6 

olur (buradaki sayılar zarın üzerindeki nokta sayısına göre zarın şekillerini göstermektedir). Sigma cebir olarak kuvvet kümesini (

( ) ) alalım. Ayrıca A için P(A)n(A)/6 olarak tanımlanırsa, (,, P) üçlüsü bir olasılık uzayı olur (n A( ), A nın elemanlarının sayısıdır). Zarın üzerindeki noktaların sayısı X , bir rasgele

Şekil

Updating...

Referanslar

Benzer konular :
Outline : olarak bulunur