BÖLÜM 8
EN İYİ YANSIZ TAHMİN EDİCİLER
Tahmin probleminde önemli bir yer tutan yansız tahmin ediciler bir önceki bölümde kısaca incelendi. Tahmin ediciler incelenirken, yansızlık özelliği ile beraber başka özellikleri de sağlaması beklenir. Yansız tahmin edicilerin tek olmadığını, herhangi bir parametre için yansız tahmin edicinin bulunamayabileceğini de biliyoruz. İyi bir tahmin edicinin yansızlığı ile beraber küçük varyanslı olması da beklenir. Ayrıca, en iyi yansız tahmin edici denildiği zaman bütün yansız tahmin ediciler arasında en küçük varyanslı ,yansız tahmin edici akla gelir. Bu tür yansız tahmin ediciler bulunamayabilir. Bu bölümde, bu tür tahmin edicilerin bulunma yöntemleri üzerinde durulacaktır. Şimdi, yansız tahmin edicileri biraz daha ayrıntılı inceleyelim.
8.1. U-İstatistikleri
Bu kısım, Serfling (1980) den esinlenerek aktarılmaya çalışılmıştır. U istatistikleri yansız (Unbiased) tahmin edicilerdir. Dağılım fonksiyonu ( ; ) F x , olasılık veya olasılık yoğunluk fonksiyonu da ( ; ) f x olan kitleden bir örneklem X X 1 , 2 , , X n olsun. Burada, dağılımın parametresi nın ( ) F gibi bir fonksiyonu ele alınacak ve nın en az bir yansız tahmin edicisinin bulunduğu varsayılacaktır. Aslında, ele alacağımız fonksiyon,
1 1 1 1
( ) F E h X F ( ( , , X n )) E h X F ( ( )) ... ( , , h x x n ) ( )... ( ) f x f x dx dx n ... n
dir.
Tanım 8.1.1 E h X F ( ( )) ... ( , , ) ( )... ( ) h x 1 x n f x 1 f x dx dx n 1 ... n
ifadesinde verilen
1 2
( , , , ) n
h x x x fonksiyonuna, ( ) F için bir çekirdek fonksiyonu denir
Tanımdaki h x x ( , , , ) 1 2 x n fonksiyonu simetrik olarak seçilebilir. (Serfling 1980, sayfa 172). nın tahmini için X X 1 , 2 , , X n örneklemine bağlı U istatistiği c ( , ,..., ) i i 1 2 i m olmak üzere,
1 2
1 1 2
( , , , ) ( , , , m )
n n i i i
c
U U X X X n h X X X
m
şeklinde yazılır. Bir parametrenin U istatistiği için çekirdek fonksiyonunun belirlenmesi önemlidir. Aşağıda, değişik örnekler üzerinde bu açıklanmaya çalışılmıştır.
Örnek 8.1.1 X X 1 , 2 , , X n dağılım fonksiyonu ( ; ) F x , olasılık veya olasılık yoğunluk fonksiyonu da ( ; ) f x olan kitleden bir örneklem olsun.
a) ( ) F E X
F( ) için çekirdek fonksiyonu ( ) h x olarak seçilebilir. Bu x çekirdek fonksiyonuna göre U istatistiği,
1
1 1
( ) 1 1
n n
n i i n
i i
U n h X X X
n
şeklindedir. Burada, ( E U n ) E X ( n ) ve Var U ( n ) Var X ( n ) 2 / n olduğu açıktır.
b) ( ) [ F E F ( )] X 2 2 parametresi için çekirdek fonksiyonunu h x x ( , )
1 2 x x
1 2olarak seçelim. Bu durumda U istatistiği,
1
1 1
( , ) 2
2 ( 1)
n i j i j
i j n i j n
U n h X X X X
n n
şeklinde yazılır.
c) ( ) F Var X F ( ) 2 ise çekirdek fonksiyonu h x x ( , ) (
1 2 x
1 x
2) / 2
2olarak
seçilebilir. Buna göre U istatistiği de,
1
2 2
1 1 1
2 2
1
2 2
1 1 1 1
2 2
1
2 1 1
( , ) ( ) ( )
2 ( 1) 2 ( 1)
1 ( 2 )
( 1)
1
2 ( 1) 2 ( 1) ( 1)
1 1
2( 1) 2( 1)
n i j i j i j
i j n i j n i j n
i j i j
i j n
n n n n
i j i i
i j i i
n
i j
i j
U n h X X X X X X
n n n n
X X X X
n n
n n
X X X X
n n n n n n
X X
n n
2 2 2 2
1 1 1
1 1
( 1) ( 1) ( 1)
n n n
i i n
i i
X X n X
n n n n n
2 2 2 2 2 2
1 1 1
1 1 1
( )
( 1) ( 1) ( 1) ( 1)
n n n
i n i n i n n
i i i
X n X X n X X X S
n n n n
olur. Bu durumda, E S ( n 2 ) 2 olup Var S ( n 2 ) değerini ileride inceleyeceğiz (Bkz. Örnek (8.1.2)).
d) ( ) F F t ( ) 0 P X ( t 0 ) olsun. Buradan çekirdek fonksiyonu h x ( ) I x t ( 0 ) olarak seçildiğinde U istatistiği,
0 0
1
1 n ( ) ( )
n i n
i
U I X t F t
n
olur.
e) ( ) F E F ( X k ) parametresi için çekirdek fonksiyonu ( ) h x x k olup buna karşılık gelen U istatistiği de,
1
1 n k
n i
i
U X
n
dir.
f) ( ) F E X (| 1 X 2 |) parametresi için çekirdek fonksiyonu h x x ( , ) | 1 2 x 1 x 2 | olarak seçilir ve buna karşılık gelen U istatistiği de,
1
1 1
( , ) 2 | |
2 ( 1)
n i j i j
i j n i j n
U n h X X X X
n n
olur. Bu istatistik, literatürde Gini’nin ortalama fark (Gini’s mean difference) istatistiği
olarak bilinir
1 , 2 , , n
X X X ile Y Y 1 , , , 2 Y m dağılım fonksiyonları sırası ile F ve G olan bir birinden bağımsız iki örneklem olsun. ( P X Y ) olasılığı için U istatistiğini yazmak isteyelim. Burada, ( , ) F G P X Y ( ) için çekirdek fonksiyonu ( , ) h x y I x ( y ) olarak seçilebilir. Bu çekirdek fonksiyonuna karşılık gelen U istatistiği,
1 1
, 1 1 1 1
( ) 1 ( )
1 1
n m n m
n m i j i j
i j i j
n m
U I X Y I X Y
n m
dir. Bu istatistik de literatürde, Wilcoxon 2-örneklem istatistiği (Wilcoxon 2-sample statistic) olarak bilinir.
Herhangi bir parametre için birden çok yansız istatistik ( U istatistiği) yazılabilir. Bu U istatistikleri arasında bir karşılaştırma için bunların varyanslarına ihtiyaç duyulur.
U istatistiklerinin momentleri için E h X X F ( ( 2 1 , 2 , , X n )) olacak şekilde bir
1 2
( , , , ) n
h x x x çekirdek fonksiyonunu ele alalım. Ayrıca,
1 2 1 2 1 2
( , , , ) ( ( , , , , , , , ))
c c F c c c m
h x x x E h x x x X X X , 1 c m 1 ve
h h ve h
c h
c , 1 c m fonksiyonlarını tanımlayalım. Burada,
1 2
( ) F E h X X F ( ( , , , X m ))
ve h x x c ( , , , ) 1 2 x c E h F ( c 1 1 ( , , , , x x 2 x X c c 1 )) olup 1 c m için E h X X
F( (
1,
2, , X
c)) 0 dır. Buradan,
0 ve 1 c m 0 için,
1 2 2 1 2
( ( , , , )) ( ( , , , ))
c Var h X X F c X c E h X X F X c
dir. Buna göre, U istatistiğinin varyansı (Serfling, 1980, sayfa 183),
1
1 m
F n c
c
n m n m
Var U
m c m c
formülü ile hesaplanır.
Örnek 8.1.2 X X 1 , 2 , , X n beklenen değeri , varyansı 2 olan kitleden bir
örneklem olsun. k E F ( X ) k de . k merkezi momenti göstersin. Var X F ( ) için
U istatistiğinin S olduğu n 2 h x x ( , 1 2 ) ( x 1 x 2 ) / 2 2 çekirdek fonksiyonu ile Örnek (8.1.1c) de gösterildi. Şimdi, S istatistiğinin varyansını hesaplayalım. U istatistiğini n 2 yazmak için kullandığımız çekirdek fonksiyonu h x x ( , 1 2 ) ( x 1 x 2 ) / 2 2 olup
2 2 2 2
1 2 1 2 1
( , ) ( , ) ; ( ) ( 2 ) / 2
h x x h x x h x x x
2 2 2 2 2
1 ( ) ( 2 ) / 2 [( ) ] / 2
h x x x x fonksiyonları yazılır. Buradan, E h beklenen değeri F ( ) 2
2 4 4
1 2 1 2
( ) [( ) / 4] 0.25 [( ) ( )]
F F F
E h E X X E X X
4 4 4 4
1 1 4
0
1 4 1
( 1) ( ) ( ) (2 6 )
4 4
j j j
F F
j
E X E X
j
olarak bulunur. Ayrıca, i 1, 2 için i değerleri
2 4 4 2 2 4
2 E h F ( ) 0.5( 4 ) , 1 E h F ( ) 1 Var F (( X 1 ) ) 0.25( 4 )
olarak hesaplanmıştır. Buradan S nin varyansı, n 2
2 1
1 2
1
1 2 1 2
4 4 4
2 2 2 2
2
1 2 1 2 2 2
( 1)
2 2
2 2
2 2( 2)
1 0
( 1) ( 1)
2 2( 2) 1
( ) (
( 1) 4 2
m
F n F n c
c
n m n m n n
Var U Var S
m c m c n n
n n
n n n n n
n n n
4 4 4
4 4
4 4 4
4 4 4 4
) ( 2 1) ( 2) 1
1 ( 1)
( 1) 2
( 1) ( 3) ( 3) 2
( 1) ( 1) ( 1) ( 1) ( 1)
n n
n n n
n n n n
n n n n n n n n n n n n n
olarak hesaplanmış olur.
( , 2 )
N dağılımından alınan X X 1 , 2 , , X n örneklemi için 4 E X ( ) 4 3 4 olup S nin varyansı, n 2
n 2 4 4 ( 2 4 1) 3 4 4 ( 2 4 1) 2 4 ( 2 4 1)
Var S
n n n n n n n n n
4 4 4
1 1 1 1 2
2 2
( 1) ( 1) 1
n
n n n n n n
olarak bulunur. N ( , 2 ) dağılımlı X X 1 , 2 , , X n örneklemi için ( n 1) S n 2 / 2 ~ n 2 1 olup Var S ( n 2 ) 2 4 / ( n olduğu daha önce gösterilmişti 1)
8.2. Hata Kareler Ortalaması
Daha önce, tahmin edicilerin özellikleri incelenirken küçük varyanslı tahmin edicilerin tercih edilebileceği söylenmişti. Bununla beraber, tahmin edicilerin diğer istatistiki özellikleri de (yansızlık gibi) sağlaması beklenir. Hata kareler ortalamasının küçük olması, hem tahmin edicinin yanının hem de varyansının küçük olmasını gerektirir. Yanlılıktan biraz ödün verilerek, bazen küçük hata kareler ortalamasına sahip yanlı tahmin ediciler tercih edilebilir.
Tanım 8.2.1 W herhangi bir parametresi için bir tahmin edicisi olsun. W nun hata kareler ortalaması (Mean Squared Error, MSE , genellikle nın bir fonksiyonu)
( ) ( ) 2
MSE W E W dir
W herhangi bir tahmin edici ve Bias W
( ) E W
( ) de W nun yanlılığnı göstersin (Tanım (7.7.2)). Buna göre, W nun hata kareler ortalaması,
2 2
2 2
2 2
( ) ( ) ( ( ) ( ) )
( ( )) ( ( ) ) 2( ( ) ) ( ( ))
( ) ( ) 2( ( ) ) ( ( ))
( ) ( )
MSE W E W E W E W E W
E W E W E W E W E W E W
Var W Bias W E W E W E W
Var W Bias W
şeklinde olup bir tahmin edicinin hata kareler ortalaması, varyansı ile yanlılığının karesinin toplamına eşittir. Burada,
( E W
( ) ) E W E W
(
( )) ( E W
( ) )[ E W E W
(
( ))] 0
dır. Yansız tahmin edicilerin varyansı hata kareler ortalamasıdır. Var W ( ) ve Bias W 2 ( )
terimlerinin her ikisi de pozitif olup MSE W ( ) nin en küçük olması için hem Var W ( ) nin
hem de Bias W 2 ( ) yanlılığının en küçük olmasını gerektirir.
Örnek 8.2.1 N ( , 2 ) dağılımından bir örneklem X X 1 , 2 , , X n olsun. S n 2 örneklem varyansı 2 için yansız ve varyansı Var
2( S n 2 ) 2 4 / ( n 1) dir. S yansız n 2 olduğundan,
2 ( n 2 ) 2 ( n 2 ) 2 4 / ( 1) MSE S Var S n
dır. Diğer taraftan, 2 nin en çok olabilirlik tahmin edicisi
2 2 2
1
1 1
ˆ n n ( i n ) n
i
X X n S
n n
olup (Örnek 7.9.2.1a),
2 2 2 2
( ˆ n ) (( 1) / ) ( n ) (( 1) / )
E n n E S n n
dir. Yani ˆ n 2 en çok olabilirlik tahmin edicisi 2 için yanlıdır. ˆ n 2 nin yanlılığı ise
2
( ˆ n 2 )
2( ˆ n 2 ) 2 2 / Bias E n
olup en çok olabilirlik tahmin edicisinin varyansı ve hata kareler ortalaması sırası ile,
2 2 4 4
2 2 2
2 2
1 1 ( 1) 2 2( 1)
ˆ
( ) ( )
( 1)
n n n n n n n
Var Var S Var S
n n n n n
2 2 2
4 2 2
2 2 2 2
2
2( 1)
ˆ ˆ ˆ
( n ) ( n ) ( n ) n
MSE Var Bias
n n
4 4
2 2
(2 1) [2( 1) 1] n
n n n
olarak hesaplanmıştır. Kolayca görüleceği gibi,
4 4
2 2
2
2( 1) 2
( ˆ ) ( )
n n 1 n
Var Var S
n n
ve
2 2
4 4
2 2
2
(2 1) 2
( ˆ ) ( )
n n 1 n
MSE MSE S
n n
dir. Yani, hata kareler ortalaması kriterine göre, ˆ n 2 en çok olabilirlik tahmin edicisi S n 2 yansız tahmin ediciye göre daha iyidir
1 , 2 , , n
X X X beklenen değeri , varyansı
2olan normal dağılımdan bir örneklem
olmak üzere,
2nin tahmin edicilerinin
2 1
: n ( ) ,
a a i n
i
T T a X X a
G
şeklindeki sınıfını göz önüne alalım. Bu sınıf içinde, hata kareler ortalamasını en küçük yapan tahmin ediciyi bulmak isteyelim. Bunun için, herhangi bir a için T a G alalım.
2 ( ) a
E T beklenen değeri,
2 2 2
2
2 2
1 1
2 2
( ) ( 1) 1 ( )
1
( 1) ( 1)
n n
a i n i n
i i
n
E T E a X X a n E X X
n a n E S a n
şeklinde hesaplanmıştır. T nın yanlılığı ise a Bias 2 ( ) T a a n ( 1) 2 olup varyansı da
2 2 2 2 2 2 2
1 1
( ) ( 1) 1 ( )
1
n n
a i n i n
i i
Var T Var a X X a n Var X X
n
2 ( 1) 2
2n 2 2 ( 1) 2 2 4 / ( 1) 2 ( 2 1) 4
a n Var S a n n a n
dir. Buradan, T nın hata kareler ortalaması, a
2 2 2 2 2 4 2 4
4 2
( ) ( ) ( ) 2 ( 1) [ ( 1) 1]
[ ( 1) ( 1) 2 ( 1) 1]
a a a
MSE T Var T Bias T a n a n
a n n a n
olarak bulunur. Bu hata kareler ortalamasını en küçük yapan a değerini bulmak için, ifadenin a ya göre birinci türevi sıfıra eşitlenir. Birinci türev,
2 a 4 2 ( 1)( 1) 2 ( 1) 1 ( 1) 1
d d
MSE T a n n a n a n
da da
olup türevin sıfıra eşitlenmesi ile a 1/( n bulunur. Bu değer ikinci türevde yerine 1) konursa, hata kareler ortalamasını minimum yapan değerin a 1/( n olduğu görülür. 1) Yani, yukarıda verilen sınıf içinde hata kareler ortalamasını en küçük yapan tahmin edici (
ˆ MSE 2
diyelim)
2 2
1
ˆ 1 ( )
1
n
MSE i n
i
X X
n
dir. Bu tahmin edicinin beklenen değeri, yanlılığı, varyansı ve hata kareler ortalaması,
2 2
2 2
2 ( 1) 2 2
ˆ ˆ
( ) , ( ) ,
1 1
MSE n MSE
E Bias
n n
2 2
4 4
2 2
2
2 ( 1) 2
ˆ ˆ
( ) , ( )
( 1) ( 1)
MSE n MSE
Var MSE
n n
şeklinde olup
2nin tahmini için üç tahmin ediciye ilişkin sonuçlar aşağıdadır.
Tahmin edici Beklenen değer Yanlılık Varyans MSE
n 2
S
20 2
4/( n 1) 2
4/( n 1)
ˆ n 2
( n 1)
2/ n
2/ n 2( n 1)
4/ n
2(2 n 1)
4/ n
2ˆ MSE 2
( n 1)
2/( n 1) 2
2/( n 1) 2( n 1)
4/( n 1)
22
4/( n 1)
Burada, S yansız olmasına rağmen, diğer iki tahmin edici ile karşılaştırıldığında, n 2
2 ( ˆ MSE 2 ) 2 ( ˆ n 2 ) 2 ( n 2 ) Var Var Var S ve
2 ( ˆ MSE 2 ) 2 ( ˆ n 2 ) 2 ( n 2 ) MSE MSE MSE S
olduğu görülür. Buna göre, ˆ MSE 2 yanlı olmasına rağmen, hem yansız tahmin edicisiye göre hem de en çok olabilirlik tahmin edicisine göre daha etkindir.
Örnek 8.2.2 X X 1 , 2 , , X n parametresi olan düzgün dağılımdan bir örneklem olsun. X lerin olasılık yoğunluk fonksiyonu,
; 1/ , 0
0 , . . f x x
d y
olup nın iki yansız tahmin edicisini T 1 2 X n ve T 2 ( n 1) X ( ) n / n daha önce göz önüne almıştık. Bu tahmin edicilerin varyansları da
1 2
( ) / (3 )
Var T n ve Var T ( ) 2 2 / ( ( n n 2))
olarak hesaplanmıştı (Örnek (7.6.1)). Var T ( ) 2 Var T ( ) 1 olduğundan T tahmin edicisi, 2 T 1
tahmin edicisine göre daha etkindir. Şimdi, a olmak üzere, T a a X ( ) n şeklindeki
tahmin edicileri göz önüne alalım. T nın beklenen değeri ile varyansı, a
( ) a 1 E T na
n
,
2 2
( ) 2
( 1) ( 2)
a n a
Var T
n n
şeklinde olup yanlılığı ile hata kareler ortalaması
( ) ( ) 1
a a na 1
Bias T E T
n
2 2
2 2
2
2 2 2 2 2
2
( ) ( ) ( ) 1
( 1) ( 2) 1
( 1) 2 2
1 1
1 2 1
( 1) ( 2)
a a a n a n a
MSE T Var T Bias T
n n n
n n n n n
a a a a
n n n
n n
olarak hesaplanmıştır. Bu hata kareler ortalamasını en küçük yapan a değerini bulmak için, ( ) a
MSE T nın a ya göre birinci türevi sıfıra eşitlendiğinde a nın değeri
( ( )) 2 2 2
2 1 0
d MSE T a n n
d a n a n
eşitliğinden a ( n 2) / ( n olarak bulunur (ikinci türev bu noktada pozitiftir). Yani, 1) nın hata kareler ortalamasını en küçük yapan tahmin edicisi,
2 ( )
ˆ MSE 1 n
n X
n
dir. Bu tahmin edicinin hata kareler ortalaması ise,
2 2
2
2
2 2 2
( ˆ ) 1
2 1 1 1 ( 1)
MSE n n n n
MSE n n n n n
dır. Bu tahmin edici yanlı olmasına rağmen, hata kareler ortalaması yansız bir tahmin edici olan T 2 ( n 1) X ( ) n / n nin hata kareler ortalamasından daha küçüktür. Burada, ˆ MSE nin yanlı olduğu unutulmamalıdır. Var T ( ) 2 2 / ( ( n n 2)) olup T yansız olduğundan bu 2 varyans hata kareler ortalamasına eşittir. Ayrıca, 1/( n 1) 2 1/ ( n n 2) olduğundan
2 2
2 2
( ˆ ) ( )
( 2) ( 1)
MSE MSE MSE T
n n n
eşitsizliği yazılır. Burada, T tahmin edicisi yansız olup, varyansı 2 T nin varyansından 2
küçük olacak şekilde başka bir yansız tahmin edici bulunamaz. Bunu ileriki kısımlarda
ayrıntılarıyla tartışacağız. Bu örnekteki T tahmin edicisi bütün yansız tahmin ediciler 2 arasında en küçük varyansa sahiptir
8.3. Lineer Yansız Tahmin Ediciler
1 2 , , , n
Y Y Y bağımsız 2 varyanslı rasgele değişkenler, Y ( , , , ) Y Y 1 2 Y n
olmak
üzere, elemanları rasgele olmayan n p boyutlu bir X matrisi için ( ) E Y X b
olsun. I , n n boyutlu birim matrisi göstermek üzere Y
nin varyansı Var Y ( ) 2 I
dir.
1 2 , , , n
Y Y Y parametreleri i 1, 2,3,..., p için i olan kitleden bir örneklem olsun.
Parametre vektörünü de b ( , ,..., 1 2 p )
ile gösterelim. Burada e
, ( ) 0 E e
ve ( ) 2
Var e I
özelliklerini sağlayan bir rasgele vektör olup, Y X b e
şeklinde bir lineer model göz önüne alınmaktadır. Bu kısımda, b
parametre vektörünün bir lineer birleşimi olan b
nin tahmini üzerinde durulacaktır.
A singüler olmayan bir matris ise A x c
şeklindeki lineer denklem sisteminin çözümü tektir ve x A c 1
dir. Ancak, A matrisi singüler ise çözüm olmayabilir. Çözüm varsa da tek değildir.
Tanım 8.3.1 A x c
lineer denklem sisteminin bir çözümü varsa, tutarlıdır denir A x c
denklem sistemi tutarlı ise, x 0
gibi en az bir çözüm vardır ve A x 0 c
dir.
Herhangi bir p q boyutlu A matrisi için q p boyutlu bir G matrisi vardır ve AGA A dir. Bu G matrisine A matrisinin g tersi (genelleştirilmiş ters) denir ve genellikle A ile gösterilir.
Teorem 8.3.1 A x c
tutarlı olsun. AG A A olacak şekildeki bir G matrisi için
G c denklem sisteminin bir çözümüdür.
İspat: A x c
denklem sistemi tutarlı ise, A x 0 c
olacak şekilde x 0
gibi en az bir çözüm vardır. G c
denklemin bir çözümü ise AG c c
eşitliğini sağlamalıdır. Buna göre, c yerine A x 0
ve AG A yerine de A yazılırsa,
0 0 0
AG c AG A x AGAx Ax c
elde edilir. Yani, G c
denklem sisteminin bir çözümüdür Teorem 8.3.2 A x c
tutarlı olsun. Bu durumda, A x c
denklem sistemi için x
bir çözüm olabilmesi için gerek ve yeter koşul bazı z
ler için x
nin
( )
x A c I A A z
şeklinde yazılabilmesidir.
İspat: x A c ( I A A z )
olsun. A x c
tutarlı olduğundan A c
sistemin bir çözümü olup AA c c
dir. Buradan,
( ( ) ) ( )
Ax x A A c I A A z AA c A AA A z c
yazılır. Ayrıca, A g-ters olduğundan AA A A dır. Böylece, x
denklem sisteminin bir çözümüdür. Diğer taraftan, x
denklem sisteminin bir çözümü ise Ax c
dir. Buradan, A c
nin eklenip çıkartılması ile ikinci terimde de c
yerine A x
yazılırsa
( )
x A c x A c A c I A A x
elde edilir. Bu da ispatı tamamlar
Teorem 8.3.3 X herhangi bir matris, A ve B de uygun boyutlu matrisler olsun. Buna göre X X A X X B X A X B önermesi doğrudur (Teorem her iki tarafın da transpozu alındığında A X X B X X B A X B X olarak da ifade edilebilir).
İspat: X A X B ise her iki taraf X ile çarpılırsa X X A X X B elde edilir. Şimdi
önermenin diğer tarafını gösterelim. X X A X X B ise aşağıdaki bir dizi işlemden sonra
2
1 1
0 0
0 0 0 0, bütün ,
0 0
p p
ij ij
i j
X X A X X B X X A X X B A B X X A X X B
XA XB XA XB C Cİz C C c c i j
C XA XB XA XB
elde edilir. Yani, X X A X X B ise X A X B dir Y X b e
modelini ele alalım. ˆ b
, b
parametre vektörünün tahmin edicisi olmak üzere Y Xb ˆ
eşitliğinde her iki taraf X ile çarpılırsa X Xb X Y ˆ
şeklindeki normal denklemler elde edilir. X X matrisi singüler değilse bu denklem sisteminin çözümü
ˆ ( ) 1
b X X X Y
dir. X X matrisi singüüler ise X X matrisinin g-tersine ihtiyaç vardır. X X matrisinin bir
g-tersi ( X X ) ise ( X X X X )( ) ( X X ) ( X X ) eşitliği sağlanır. Teorem(8.3.3) de
( )( )
A X X X X ve B I yazılırsa ( X X X X )( ) X X olur. Buradan, her Y
için ( X X X X )( ) X Y X Y
eşitliği elde edilir. Buna göre, ( X X ) X Y
, X X b X Y ˆ
denklem sisteminin bir çözümüdür. Yani, ˆ ( b X X ) X Y
tahmin edicisi X X b X Y ˆ
şeklinde tanımlanan normal denklemlerin çözümüdür. Yani, normal denklemler tutarlıdır.
Herhangi bir A matrisinin g-tersi G ise G matrisi de A matrisinin g-tersi olduğu tanımdan açıktır. Buna göre, X X simetrik olduğundan ( X X ) matrisi X X in bir g-tersi ise [( X X ) ] de X X matrisinin bir g-tersidir. Yani, X X matrisi için ( X X ) ve [( X X ) ] gibi iki tane g-tersi yazılabilir.
Şimdi, P X X X X ( ) X izdüşüm matrisini tanımlayalım. Bu matris aşağıdaki özellikleri sağlar.
i) P matrisi ( X X X ) g-ters matrisinin seçimine göre değişmezdir. Yani, G ve 1 G 2
matrisleri X X nin g-tersleri ise X G X 1 X G X 2 dir. Teorem (8.3.3) den,
1 1 2
1 2 1 2
( ) ( )
A B
A B
X X G X X X X G X X X X X X G X X X X A X X B XG X X XG X X XG X XG X
elde edilir.
ii) P matrisi,
XP X [ ( X X X ) X ] X X X [( ) ] X P X olduğundan simetriktir.
iii) P X X X ve X P X X olduğu da,
X
X
A B P
X X X X X X X X
X X X X X X X X I X X X X X X P X X
ifadesinden açıktır. Diğer taraftan X P
X X olduğu da P X
X X X ( P X
X) X P
Xönermesinden görülmektedir.
iv) Ayrıca P matrisi, X
X 2 X X
X
P P X X X X X X X X P
olduğundan idemptotentdir (eşgüçlü). Ayrıca, P I P
X(
X) 0 olduğu açıktır.
Y X b e
modelini tekrar ele alalım. ( ) E Y X b
ve Var Y ( ) Var e ( ) 2 I
olup
parametreleri b ( , ,..., 1 2 p )
olan kitleden n birimlik bir örneklem Y Y 1 2 , , , Y n olsun. b
parametre vektörünün herhangi bir lineer birleşimi olan b
nin tahmini problemini ele alalım. Her b
için ( ( )) E T Y b
oluyorsa, ( ) T Y
tahmin edicisi b
için yansızdır.
Tanım 8.3.2 (Lineer Tahminlenme) ( ) T Y
şeklindeki tahmin edici, bazı c ve a i ler ( 1,2,3,..., i n ) için ( ) T Y c a Y
şeklinde yazılabiliyorsa, ( ) T Y
ye lineer bir tahmin edici denir. Ayrıca, b
için lineer yansız bir tahmin edici bulunabiliyorsa, b
ye lineer tahminlenebilir denir
Tanıma göre, ( ) T Y c a Y
ve ( E c a Y ) b
olacak şekilde ( ) T Y c a Y
gibi
bir tahmin edici bulunabiliyorsa, b
lineer tahminlenebilir (kısaca tahminlenebilir) denir.
Teorem 8.3.4 E Y ( ) X b
, Var Y ( )
2I
olmak üzere, b
nin tahminlenebilir olması için gerek ve yeter koşul a X
olacak şekilde bir a
vektörünün bulunmasıdır.
İspat: a X
olacak şekilde bir a
vektörü varsa, ( E a Y ) a E Y ( ) a X b b
olduğundan, b
için lineer yansız bir tahmin edici vardır. Yani, b
tahminlenebilirdir.
b
tahminlenebilirse tanımdan ( ) T Y c a Y
şeklinde lineer yansız bir tahmin edici vardır. Yani, bütün b p
ler için ( ( )) E T Y E c a Y ( ) c a X b b
dir. b
yerine 0 , (1, 0, 0,...0) , (0,1, 0,...0) ,…, (0, 0, 0,...1) gibi birim matrisin kolanları seçildiğinde
a X
elde edilir Y X b e
modelini tekrar göz önüne alalım. ( ) 0 E e
ve Var e ( )
2I
olmak üzere
b
tahminlenebilir ise, en iyi (en küçük varyanslı) lineer yansız tahmin ediciyi bulmak isteyebiliriz. Önce, X X b X Y ˆ
normal denklemlerin tutarlı olduğunu (en az bir çözümün bulunduğunu) biliyoruz. Normal denklemlerin çözümü bütün z
ler için b ˆ X X
X Y [ I ( X X ) (
X X z )]
şeklindedir (Teorem (8.3.2)). b
tahminlenebilir ise, a X
olacak şekilde bir a
vektörü vardır ve b
nin en küçük kareler tahmin edicisi uygun bir z
için
ˆ [( ) ( ( ) ( )) ] ( ) ( )
Xb X X X Y I X X X X z X X X Y a X X X X Y a P Y
şeklindedir.
Teorem 8.3.4 (Gauss-Markov Teoremi) Y X b e
modelini göz önüne alalım ve ( ) 0
E e
ve Var e ( )
2I
olsun. Burada, X bilinen ( rasgele olmayan n p boyutlu) bir matris, b
de p boyutlu, elemenları parametreler olan (rasgele olmayan) bir vektördür. 1
b
tahminlenebilir ise ˆb
, b
nin bütün lineer yansız tahmin edicileri arasında en küçük varyanslı (En İyi Linner Yansız Tahmin Edici, Best Lineer Unbiased Estimator, BLUE) tahmin edicisidir.
İspat: b
nin herhangi bir lineer yansız tahmin edicisi c a Y
olsun. c a Y
nin
varyansı,
ˆ ˆ
( ) ( ) ( )
ˆ ˆ ˆ ˆ
( ) ( ) 2 ( , )
Var c a Y Var a Y Var b a Y b
Var b Var a Y b Cov b a Y b
dir. Buna göre, Cov ( b a Y ˆ , b ˆ ) 0
ise Var c a Y ( ) Var ( b ˆ )
olur. Şimdi, kovaryansın sıfır olduğunu gösterelim. b
tahminlenebilir olduğundan a X
olup
2 2
ˆ ˆ
( , ) ( , ( ) ) ( )( )
( ) ( ) 0
X X X X
X X X X
Cov b a Y b Cov a P Y a I P Y a P Var Y I P a a P I I P a a P I P a
dır. Var c a Y ( ) Var ( b ˆ ) Var a Y ( b ˆ ) Var ( b ˆ )
olup Var a Y ( b ˆ ) 0
ise
eşitlik sağlanır. Yani, varyans sıfır ise ˆ
2( ) 0 ( ( ) ) 0 ( ) ( ) 0
( ) 0 ˆ
X X X
X X X
Var a Y b Var a I P Y a I P I I P a
a I P a a P a Y a P Y a Y b
ifadesinden eşitlik elde edilir. Yani, b
tahminlenebilir ise, ˆb
en iyi lineer yansız tahmin edicidir
Y X b e
lineer modeli için, ( ) E Y X b
ve Var Y ( )
2I
olsun. Buradan, b
tahminlenebilir ise ˆb
, en iyi lineer yansız tahmin edicidir. Ancak, istatistiki sonuç çıkarımlar için
2nin de en küçük kareler tahmin edicisine de ihtiyaç vardır. X b
için X b ˆ
BLUE olup, bu değere Y
nin en küçük kareler kestirimi denir ve ˆ Y
ile gösterilir.
Aşağıdaki özellik,
2nin tahmin edicisini elde etmede oldukça kolaylık sağlamaktadır.
Herhangi bir Z
rasgele vektörü için ( ) E Z
ve Var Z ( )
olsun. A simetrik bir matris olmak üzere, Z AZ
karesel formunun beklenen değeri ( E Z AZ ) Iz A ( ) A
dir (Graybill (1976), sayfa 139). Ayrıca bu beklenen değer,
( ) [ ( )] [ ( )] [ ( )] [ ( )]
[ ( )] [ ] ( ) ( ) ( )
E Z AZ E Iz Z AZ E Iz A ZZ Iz E A ZZ Iz AE ZZ
Iz A Iz A A Iz A Iz A Iz A A
şeklinde hesaplanabilir. Burada ( ) Iz A , A matrisinin izini göstermektedir. Bir matrisin izi
köşegen elemanlarının toplamı olup ( ) Iz A veya ( ) tr A ile gösterilir. Buradan kestirim ve
artık vektörleri sırası ile,
ˆ
ˆ ( )
XY X b X X X X Y
P Y
, e Y Y Y P Y ˆ ˆ
X ( I P Y
X)
şeklinde yazılabilir. ( I P
X) simetrik ve idempotent olduğundan, ˆ ˆ e e Y I P Y (
X)
dir.
Ayrıca, ( ) E Y X b
ve Var Y ( )
2I
olduğundan ˆ ˆ e e
karesel formunun beklenen değeri
2
2 2
( ˆ ˆ ) ( ( ) ) (( ) ) ( )
( ) ( ( ))
X X X
X
E e e E Y I P Y tr I P I b X I P X b tr I P n rank X
olup
2nin en küçük kareler tahmin edicisi (yansızdır)
2 2
1
ˆ ˆ 1
ˆ ˆ
( ) ( )
n
n i
i
e e e
n rank X n rank X
olarak yazılabilir. Bu tahmin edicinin dağılımı serbestlik derecesi n rank X ( ) olan ki- karedir (herhangi bir lineer modeller kitabında bulunabilir). Bu kısım hakkında ayrıntılı bilgi için herhangi bir lineer model kitabına bakılabilir. Burada amaç tahmin problemi olduğu için “en iyi lineer yansız tahmin ediciler” incelenmeye çalışıldı.
Y X b e
lineer modeli için, ( ) E Y X b
ve Var Y ( )
2I
olsun. Burada, normal denklemler X X b X y
şeklindedir. Yukarıda, P matrisinin tek olduğunu (yani, X X
X matrisinin farklı g-terslerine göre değişmediğini) gördük. X X matrisinin herhangi bir g- tersi ( X X ) olmak üzere, normal denklemlerin çözümünün ˆ ( b X X ) X y
şeklinde
olduğunu biliyoruz. Burada, normal denklemlerin çözümü X X matrisinin seçilen g-tersine farklı olacaktır. Ancak, X X matrisinin hangi g-tersini kullanırsak kullanalım ˆy X b ˆ
kestirimleri hep aynı kalır. Burada, y ˆ X b ˆ X X X ( ) X y P y X
olup, P olduğundan
Xdolayı ˆy
kestirimleri de tektir. Bu iddiayı aşağıdaki sayısal örnek üzerinde görelim.
Örnek 8.3.1 Aşağıdaki verilerin
0 1 1, 2 2, 3 3, , 1,2,3,...,10
i i i i i
Y x x x e i şeklinde bir modele uygun olduğunu varsayalım.
Y 12 6 3 9 13 18 20 15 25 21
X 1 1 2 2 3 4 5 5 4 8 6
X 2 3 0 -1 1 2 3 3 2 4 3
X 3 -1 4 5 5 6 7 7 6 12 9
Burada, e ler bağımsız aynı dağılımlı rasgele değişkenler olup ( ) 0 i E e i ve ( ) i 2
Var e dir. Bu modeli,
1 2 3 4 5 6 7 8 9 10
12 6 3 9 13 18 20 15 25 21 y
y y y Y y
y y y y y
,
1 1 3 1
1 2 0 4
1 2 1 5
1 3 1 5
1 4 2 6
1 5 3 7
1 5 3 7
1 4 2 6
1 8 4 12
1 6 3 9
X
,
0 1 2 3
b
ve
1 2 3 4 5 6 7 8 9 10
e e e e e e
e e e e e
olmak üzere Y X b e
şeklinde bir lineer model gibi yazabiliriz. Burada normal denklemler X X b X y
0 1 2 3
10 40 20 60 142
40 200 100 300 685
20 100 62 138 375
60 300 138 462 995
X X b X y
şeklinde olup X X matrisinin determinantı 0 (dördüncü kolon, ikinci ve üçüncü kolonların lineer birleşimidir, x 4 2 x 1 x 2
). Bu nedenle, X X matrisinin üç farklı g- tersi
1
2400 480 0 0
480 19420 9800 9600 ( ) 1
0 9800 5200 4800 4800
0 9600 4800 4800 X X
,
22400 480 0 0
480 220 200 0 ( ) 1
0 200 400 0
4800
0 0 0 0
X X
3