• Sonuç bulunamadı

1. GİRİŞ

1.1. Temel Kavramlar

Regresyon analizi değişkenler arası ilişkiyi inceleyen ve modelleyen istatistiksel bir tekniktir. İlişki bir veya birden fazla açıklayıcı değişken ve yanıt değişkenin bir denklemi olarak ifade edilir.

Yanıt değişken y, açıklayıcı değişken , , … , ile gösterilsin. y ile , , … , arasındaki gerçek ilişkiye = , , … , + regresyon modeli ile yaklaşırız. Burada , , … , , y ile , , … , arasındaki ilişkiyi tanımlayan fonksiyon ve , modelin veriye uyumundan kaynaklanan hata terimidir. Regresyon modelleri; verinin tanımlanması, parametre tahmini, ön tahmin, kontrol amaçlı kullanılabilir.

Bir regresyon denklemi bir tek açıklayıcı değişken içeriyorsa basit regresyon, birden fazla açıklayıcı değişken içeriyorsa çoklu regresyon olarak adlandırılır. Çoklu doğrusal(lineer) regresyon modeli;

= + (1.1)

formunda olup ve n; gözlem sayısı, k; açıklayıcı değişken sayısı, = + 1 olmak üzere; y, × 1 tipinde yanıt değişkenin vektörü, , × tipinde açıklayıcı değişkenlerin matrisi, ; × 1 tipinde bilinmeyen parametrelerin vektörü ve , × 1 tipinde rastgele hataların vektörüdür.

En Küçük Kareler Yöntemi (EKK): (1.1) ile verilen çoklu lineer regresyon modelinin parametrelerinin EKK yöntemi ile tahmin edilmesindeki amaç gözlenen ( , ) noktalarını en iyi temsil edecek regresyon doğrusunun bulunmasıdır. Bu nedenle EKK yönteminde; (1.1) çoklu doğrusal modelindeki hata terimlerinin kareleri toplamını minumum yapacak parametre tahminleri yapılır. Yani, çoklu lineer regresyon modeli;

= +

ve parametresinin EKK kestiricisi olmak üzere;

( ) = ∑ = = ( − ) ( − )

şeklinde verilen ( ) fonksiyonunu minumum yapan;

=( ) (1.2)

ifadesi elde edilir. Gözlenen değerlerine karşılık gelen uydurulmuş değerlerin vektörü (fitted)

= = ( ) =

= ( ) matrisi şapka matrisi olarak adlandırılır. Gözlenen değerleri ve karşılık gelen uydurulmuş değerleri ve gözlenen değerlerinin ortalaması olmak üzere;

= − , = 1,2, … , farkına rezidü(artık) ,

= ∑ ( − ) = ∑ , ifadesine rezidü kareler toplamı,

= ∑ ( − ) , ifadesine regresyon kareler toplamı,

= ∑ ( − ) , ifadesine genel kareler toplamı,

= = , ifadesine hata kareler ortalaması denir.

EKK kestiricisi nın önemli istatistiksel özellikleri aşağıda verilmiştir.

1) Yansız bir tahmin edicidir ( = ).

2) En iyi lineer yansız tahmin edicidir (Gauss-Markov Teoremi) (Yani diğer yansız tahmin ediciler arasında minimum varyansa sahiptir).

EKK sonuçları ve bunlara dayalı istatistiksel analiz bir takım varsayımları gerektirir. Bu varsayımlar şu şekildedir;

• y , yanıt değişkeni , açıklayıcı değişkenin lineer fonksiyonu olmalı,

• Hata terimi, sıfır ortalamalı ve varyanslı normal dağılıma sahip olmalı, ( ) = 0 , ( ) = , ~ (0, )

• Hata terimleri birbiriyle ilişkisiz olmalı , = 0 , ≠

• = [ , , … , ] olmak üzere; , , … , açıklayıcı değişkenleri rastgele değişken olmamalı,

• , , … , açıklayıcı değişkenleri lineer bağımsız olmalıdır,

Verilen varsayımların sağlanmaması durumunda EKK yöntemi ile tahmin edilen regresyon parametrelerinin güvenirliğinin bozulacağı bilinmektedir.

Dolayısıyla eldeki verilere uygun regresyon modelinin kurulması ve model uygunluğunun araştırılması regresyon analizinin temel konularından biridir.

Regresyon analizi bir dizi analitik tekniklerin kullanımı olup, bu analiz yinelemeli bir süreç olarak değerlendirilir. Bu yinelemeli süreç bir şema ile verilebilir (Chatterjee ve Hadi, 1988).

Şekil 1.1. Yinelemeli Regresyon Yönteminin Akış Diyagramı İle Gösterimi Başlama

Akış diyagramı incelendiğinde; problemin matematiksel olarak ifade edilmesi aşamasında başlangıç olarak uygun değişken kümesinin belirlenmesi gerekmektedir.

Çünkü lineer regresyonda ilişkili değişkenlerin aynı anda modelde yer alması durumunda, daha önce verilen matrisine ilişkin varsayımlardan birisi sağlanmamış olur ki bu sağlıklı tahmin ediciler elde edilmesini engeller. Bu nedenden dolayı model kurulmadan önce değişkenler arasındaki ilişki incelenmelidir. Bunun ardından eğer değişkenler arasında ciddi bir lineer ilişki söz konusu ise, EKK kestiricisi yerine başka tahmin yöntemleri kullanılmalıdır. Eğer değişkenler arasında ciddi bir lineer ilişki söz konusu değilse, EKK kestiricisi kullanılarak model oluşturulup, uygunluğu test edilmelidir.

1.2. Çoklu İç İlişki (Multicolinearity)

(1.1) ifadesindeki çoklu lineer regresyon modelinde, genellikle açıklayıcı değişkenlerin bağımsız olduğu varsayılır. Fakat uygulamada, lineer ilişki olabilir. Bu durumda açıklayıcı değişkenler arasında lineer bağımsızlık varsayımı geçerli olmaz.

Bu da çoklu iç ilişki problemine neden olur.

, matrisinin j-inci kolon vektörü( = [ , , … , ]) olsun.

= 0 (1.3)

olacak şekilde ∃ ≠ 0 , = 1,2, … , sabitleri varsa , , … , vektörleri lineer bağımlıdır. Eğer açıklayıcı değişkenler arasında bir lineer ilişki yoksa, açıklayıcı değişkenler ortogonaldır denir. X'X = I iken X matrisi ortogonal açıklayıcı değişkenleri içerir.

in kolonlarının bir kümesi için (1.3) sağlanıyorsa "tam çoklu iç ilişki vardır" (Silvey, 1969). Bu durumda matrisinin rankı p den küçük olur ve matrisi tersinir olmayacaktır. Buna kötü koşulluluk problemi denir. Fakat (1.3) in kolonlarının bazı alt kümeleri için yaklaşık olarak doğru ise "yaklaşık çoklu iç ilişki"

vardır.

1.2.1. Çoklu İç İlişkinin Nedenleri

Çoklu iç ilişkinin birçok nedeni olabilir (Judge ve ark., (1985), Montgomery ve Peck (1992)) . Bunlardan bazıları şu şekildedi:

1) Uygulanan veri toplama metodu: Araştırmacının (1.3) ile tanımlı bir bölgenin alt uzayından örneklem almış olması çoklu iç ilişkiye neden olur.

2) Modeldeki ve kitledeki zorunluluklar: Kitledeki zorunluluklar daha çok açıklayıcı değişkenlerin kimyasal veya üretim süreçlerinde ortaya çıkar. Örneğin, bir kimyasal reaksiyonun gerçeklenmesi için belli içeriklerin sabit oranlarda olması gibi.

3) Modelin belirlenmesi: X açıklayıcı değişkenlerinin değişim aralığı küçük iken bir regresyon modeline polinom terimi eklenmesi çoklu iç ilişki problemine neden olur.

4) Modelin aşırı tanımlanması: Gözlemlerden çok açıklayıcı değişkenlerin olduğu modellere aşırı tanımlanmış model denir ( > ). Daha çok tıbbi araştırmalarda ve ekonometrik modellerde ortaya çıkar. Bu gibi durumlarda açıklayıcı değişkenlerden bazılarını atmak gerekir. Değişken çıkarılması, hem analizi kolaylaştırmak hem de var olan iç ilişkiyi indirgemek için kullanılabilecek bir diğer yöntemdir.

1.2.2. Çoklu İç İlişkinin EKK Üzerindeki Etkileri

=

şeklinde ifade edilir. Burada , açıklayıcı değişkeninin, geriye kalan − 1 açıklayıcı değişken üzerine regres edilmesiyle elde edilen çoklu belirleyicilik katsayısıdır. Dolayısıyla ve diğer açıklayıcı değişkenler arasında bir lineer ilişki varsa bu durum yine varyans artırıcı bir etki yapacaktır. Varyansın büyük olması ise sonuçların örneklemden örnekleme değişebilirliği anlamına gelecektir. Bu durumda da kestiricinin güvenirliğini azaltacaktır.

2) ile parametresi arasındaki uzaklığı artırır;

matrisinin özdeğerleri ≥ ≥ ⋯ ≥ ≥ 0 olmak üzere çoklu iç ilişki problemi matrisinin öz değerlerinin küçük olmasına neden olacaktır. Dolayısıyla

= − − ⇒ ( ) = ( ) = ∑ (1.4)

ile verilen ( ) yi yani gerçek parametre ile EKK kestiricisi arasındaki uzaklığın beklenen değerini arttıracaktır.

3) nın boyunun (normunun) büyümesine neden olur;

(1.4) ile verilen ( ) nin büyük olması durumda kestirilmiş parametrenin normunun beklenen değeri;

= ′ + ( )

şeklinde ifade edilir. Böylece nın normu gerçek parametreden daha büyük olacaktır. Kötü koşulluluk arttıkça kestirilmiş parametrelerin normu daha da büyüyecektir.

Sonuç olarak çoklu iç ilişki problemi, EKK yöntemi model parametrelerinin kötü kestirimlerinin elde edilmesine neden olacaktır.

1.2.3. Çoklu İç İlişkinin Belirlenmesi

Çoklu iç ilişkinin belirlenmesi için çeşitli yöntemler vardır. Bunlardan bazıları aşığıda verilmiştir.

• Korelasyon Matrisinin İncelenmesi:

matrisinin köşegen üzerinde bulunmayan incelenmesi çoklu iç ilişkinin belirlenmesini sağlar. ve açıklayıcı değişkenleri lineer bağımlı ise bire yakın olur. Basit korelasyon katsayısı nin incelenmesi sadece ikili açıklayıcı değişkenler arasındaki lineer bağımlılığı incelemede yararlıdır. Fakat ikiden fazla açıklayıcı değişkenler arasında lineer bağımlılık varsa uygun ölçü olmayabilir.

Dolayısıyla açıklayıcı değişkenler arasında ikili lineer ilişkiden daha karışık bir durum söz konusu ise korelasyon matrisi çoklu iç ilişkinin belirlenmesinde yeterli bir ölçü olmayacaktır.

• Varyans Şişirme Faktörü(VIF):

( ) matrisinin j. köşegen elamanına j.varyans şişirme faktörü denir.

, nin diğer − 1 açıklayıcı değişken üzerine olan modelinden çoklu belirleyicilik katsayısı olmak üzere;

= = 1 −

olarak ifade edilir. diğer açıklayıcı değişkenlerin bir alt kümesi ile yaklaşık olarak lineer bağımlı ise bire yaklaşır ve büyür. Herhangi bir değeri 10 dan büyükse çoklu iç ilişki problemi vardır denir.

• matrisinin karakteristik köklerinin (özdeğerlerinin) analizi:

matrisinin özdeğerleri ≥ ≥ ⋯ ≥ ≥ 0 olmak üzere bir ya da daha fazla özdeğerin küçük (sıfıra yakın) olması veride çoklu iç ilişki olduğunu gösterir (Vinod ve Ullah, 1981). ve matrisinin minumum ve maksimum özdeğerleri olmak üzere;

=

olarak tanımlanan koşul sayısı çoklu iç ilişki problemini belirlemede kullanılır.

< 100 ⇒ çoklu iç ilişki yoktur

100 < < 1000 ⇒ orta şiddetli çoklu iç ilişki vardır ≥ 1000 ⇒ şiddetli çoklu iç ilişki vardır

.

Koşul sayısı sık kullanılan ölçülerden biri olmakla birlikte, kolon ölçeklemesine duyarlıdır. Bu olumsuzluğu ortadan kaldırabilmek için koşul indeksi tanımlanmıştır.

Ayrıca regresyon katsayılarının işaretlerinin ve büyüklüklerinin beklenenden farklı olması, açıklayıcı değişkenlerin eklenmesi veya çıkarılması ile regresyon katsayılarının kestirimlerinde büyük değişikliklere neden olması çoklu iç ilişkinin olduğunu gösterir.

Bütün ölçüler içinde en yaygın kullanımı olanlar; , koşul sayısı ve koşul indeksleridir. Bu ölçüler ancak matrisinin tüm satırlarının eşit etkili olması durumunda sağlıklı sonuçlar verebilir. Üzerinde çalışılan veri kümesinde öyle

gözlem(ler) olabilir ki; bahsedilen bu ölçülere veride çoklu iç ilişki olmadığı halde varmış ya da çoklu iç ilişki olduğu halde yokmuş gibi sonuçlar verebilir. İşte bu tip gözlemlere çoklu iç ilişkide etkili gözlem(ler) denir. Analizde bu tip gözlemlerin varlığının araştırılması sağlıklı sonuçlar elde edebilmek için oldukça önemlidir.

1.2.4. Çoklu İç İlişki İçin Çözüm Yöntemleri kaldırmak için ek verinin toplanmasını önermişlerdir. Fakat ekonomik kısıtlamalardan veya sürecinin örnekleme için yeterince uzun bir işleyişe sahip olmamasından dolayı ek veri toplamak her zaman mümkün olmayabilir.

• Modelin Yeniden Belirlenmesi:

Çoklu iç ilişkinin nedeni model seçiminden kaynaklanabilir, örneğin ilişkili açıklayıcı değişkenlerin kullanılması gibi. Bu gibi durumlarda ya açıklayıcı değişkenler yeniden tanımlanır ya da ilişkili açıklayıcı değişkenlerden biri çıkarılır.

Fakat açıklayıcı değişkenlerden birinin çıkartılması modelin etkinliğini azaltabilir.

Çünkü çoklu iç ilişki olsa bile değişkenler birbirini tam temsil etmeyebilirler (Lipovetsky ve Conklin, 2001). Açıklayıcı değişkenlerin her biri uyumda ve bağımlı değişkenin yapısını açıklamada özel bir role sahip olabilir.

• Alternatif Kestirim Yöntemlerinin Kullanılması:

Regresyon analizinde, regresyon katsayılarının tahmini ile ilgileniyorsak EKK en klasik yöntemdir. EKK, yansız bir kestirici ve en iyi lineer yansız kestirici özelliği belli varsayımlar gerektiriyordu. Bunlardan en önemlisi açıklayıcı değişkenlerin lineer bağımsız oluşuydu, bunun sağlanmaması durumunda çoklu iç ilişki problemiyle karşılaşırız. Çoklu iç ilişki olması durumunda EKK hala yansızdır fakat varyansı çok büyüktür. Bu problemi ortadan kaldırmak için önerilen tahmin metotları

yanlı kestiricilerin ortaya çıkmasına ve bunların incelenmesine neden olmuştur.

Üçüncü bölümde bazı yanlı kestiriciler ve onların özellikleri ele alınacaktır.

1.3. Sapan Değer (Outlier)

Regresyon analizinde önemli bir varsayım da seçilen modelin verideki tüm gözlemler için uygun olmasıdır. Fakat uygulamada bir veya birden çok gözlem, verinin çoğunluğunun oluşturduğu modelden farklılık gösterir. En küçük kareler kestiricisi farklı davranan gözlemlere karşı çok hassas olduğundan, tüm gözlemlerin regresyon sonuçları üzerinde eşit etkili olması varsayımının geçerli olup olmadığının araştırılması önemlidir. Bu varsayımlardan “ tüm gözlemler güvenilir ve regresyon sonuçlarının belirlenmesinde yaklaşık olarak eşit etkiye sahiptir” varsayımının sağlanmaması durumunda bu probleme neden olan gözlemlerin belirlenmesi;

modelin uygunluğu, güvenirliği ve kararlılığı için gereklidir. Verilerde bir veya birden fazla gözlemlerin çıkarılması uydurulmuş modelde (kestirilmiş regresyon katsayıları, uydurulmuş değerler, t-testi, …) önemli değişikliklere neden oluyorsa bu tip gözlemlere etkili gözlemler (influential observations) denir. En genel manada verilerin homojen çoğunluğu tarafından önerilen modele uyumsuzluk gösteren gözlem veya gözlemlere sapan değer (outlier) denir.

Sapan değerler regresyon analizi sonuçları üzerinde yaptıkları etkilere bağlı olarak; bağımlı değişken yönünde (y- yönünde) sapan değerler, bağımsız değişkenler yönünde (X-yönünde ) sapan değerler, hem bağımlı hem de bağımsız değişkenler yönünde sapan değerler (XY-yönünde) ve etkili gözlemler (influential observations) , olmak üzere dört grupta incelenir.

1. Lineer regresyonda, regresyon doğrusunun uzağında olan bir başka ifade ile rezidüsü büyük olan gözlemlere yönünde sapan değerler denir. Regresyonda, y-ekseni yönünde sapan değerlere aykırı değer denir.

2. X-uzayında veri kümesinden uzakta bulunan noktalar, X-yönünde sapan değerler (high leverage points) denir. X- yönündeki sapan değerler ikiye ayrılırlar.

• Kötü (Bad leverage) kaldıraç noktası: Regresyon doğrusunun eğimini çok fazla değiştiren X- yönündeki sapan değerlere kötü kaldıraç noktası denir.

• İyi (good leverage) kaldıraç noktası: Regresyon katsayılarının doğruluğunu arttıran X- yönündeki noktalara iyi kaldıraç noktası denir.

3. Hem X- uzayındaki hem de y- uzayındaki veri kümesinden uzakta bulunan noktalara hem bağımlı hem de bağımsız değişkenler yönünde sapan değerler denir.

4. Veri kümesindeki diğer gözlemlerle karşılaştırıldığında tek tek ya da hep beraber kestirilmiş regresyon denklemine etki eden gözlemlere etkili gözlemler (influential observations) denir. Bir başka ifade ile, çözümlemeden bir veya birden fazla gözlem çıkartıldığında hesaplanan çeşitli değerleri (katsayıları, standart hataları, t-değeri vb) önemli ölçüde değiştiren gözlemlere etkili gözlemler denir

Yukarıdaki sapan değer tanımlarını daha iyi açıklayabilmek için aşağıdaki örneği inceleyelim:

Şekil 1.2. Sapan Değer Türleri Arasındaki Farklılıkları Gösteren Grafiksel Gösterim

Şekil 1.2. deki 3,4 ve 5 numaralı gözlemler X- yönünde sapan değerlerdir. Bunlardan 3 numaralı gözlem iyi kaldıraç noktası, 4 ve 5 numaralı gözlemler kötü kaldıraç noktalarıdır. 1 ve 2 numaralı gözlemler y- yönünde sapan değerlerdir. Ayrıca 4 ve 5 numaralı gözlemler hem X- yönünde hem de y yönünde sapan değerlerdir. Şekil 1.1 de aykırı değer olan 1 ve 2 numaralı gözlemler karşılaştırıldığında 1 numaralı gözlemin yarattığı etki oldukça büyüktür; 2 numaralı gözlemin ise etkili gözlem

olduğu tartışılır. X- yönünde sapan değer olan 3,4 ve 5 numaralı gözlemlerde 4 ve 5 numaralı gözlem çok etkilidir. Çünkü bu gözlemlerin hem X değerleri hem de y değerleri regresyondaki ilişkiyle uyuşmamaktadır. 3 numaralı gözlem ise y değerinin regresyondaki ilişki ile uyumlu olması dolayısıyla etkili bir gözlem değildir.

y-yönündeki, X-yönündeki ve etkili gözlemler arasındaki ilişki aşağıdaki gibidir (Chatterjee ve Hadi, 1988):

1. Etkili gözlemler genellikle aykırı değer ya da yüksek leverage gözlemlerdir 2. y-yönündeki sapan değerler etkili gözlem olmayabilir.

3. Yüksek leverage gözlemler etkili gözlem olmayabilir.

1.3.1. Maskeleme (Masking) ve Süpürme( Swamping) Problemi

Maskeleme problemi, veride sapan değer olmasına karşın bu gözlemlerin belirlenememesidir. Bu genellikle bir sapan değerin, verideki diğer sapan değerler tarafından gizlenmesiyle ortaya çıkar. Bazı gözlemler ise sorunsuz olmalarına karşın, sapan değer olarak belirlenebilir (Swamping problemi). Bu ise genellikle verideki gerçek sapan değerlerin uydurulmuş regresyon doğrusunu kendilerine doğru çekmeleri ve böylece gerçek gözlemlerin uydurulmuş doğrudan uzaklaşmaları nedeniyle ortaya çıkar. Eğer veride sadece bir sapan değer varsa bu problemle karşılaşılmaz fakat birden fazla sapan değer olması durumunda oldukça sık karşılaşılabilecek bir problemdir.

2. EKK KESTİRİCİSİ İÇİN TANILAMA ÖLÇÜLERİ

Regresyon analizinde verilerde sapan değer veya sapan değerler olması durumunda kestirilen yöntemin varsayımlarında görülen sapmalar EKK kestiricilerinin istediğimiz özelliklere sahip olmamasına neden olacaktır. Veriler sapan değer içerdiğinde önümüze iki seçenek çıkacaktır. Birincisi klasik tanılama (diagnostics) yöntemleriyle sapan değerlerin bulunması, çıkarılması ve kalan gözlemler üzerinde klasik yöntemlerle kestirim yapılması, diğeri ise sağlam (roboust) yöntemleri kullanarak analiz sonuçları üzerinde büyük etki sahibi olan sapan değerlerin etkilerinin azaltılmaya çalışılmasıdır. Biz bu bölümde klasik tanılama yöntemlerini ele alacağız.

2.1. Bir Gözlemin Regresyon Doğrusu Üzerindeki Etkisi

2.1.1. X- Yönünde Sapan Değerleri Belirleyen Ölçüler

2.1.1.1. Şapka Matrisi

X-uzayındaki veri kümesinden uzakta bulunan noktalar X-yönünde sapan değerler olarak adlandırmıştık. = ( ′ ) ifadesiyle tanımlanan H şapka matrisinin köşegen elemanları olan ℎ = ( ′ ) ifadesini kullanarak X uzayının uzağındaki noktalar belirlenir. Bu ölçü için eşik değeri vermeden önce şapka matrisinin özelliklerini inceleyelim.

X, × tipinde açıklayıcı değişkenler matrisi ve = ( ′ ) ′ şapka matrisi olmak üzere;

1) H simetrik ve idempotent bir matristir ( = ve = ).

2) Trace(H)=rank(H)=p

3) 0≤ ℎ ≤ 1 = 1,2, … , 4) +

̀≤1 = 1,2, … ,

5) = ( , ) ve ; n× ve ; n× ( − ) tipinde tam kolon ranklı matrisler olsun. Bu durumda X için şapka matrisi = ( ′ ) olmak üzere;

H= +(I- ) [ (I − H ) ] (I − )

şeklinde hesaplanır. Sonuç olarak büyük leverage (ℎ ) degerine sahip noktalar X uzayı uzağındaki noktalardır ve bu nedenle ℎ bu gözlemleri belirlemek için kullanabilecegimiz bir ölçüdür.

Bu ölçü için eşik değer ; ℎ > olan gözlemler yüksek leverage noktalar olarak düşünülebilir. Daha kaba olarak ifade edilirse ℎ > 1 eşitliğini sağlayan noktaların X uzayının uzağında olduğu söylenebilir.

2.1.1.2. Ağırlıklı Uzaklık Kareler Toplamı (Weighted Sum of Squares Distance)

Daniel ve Wood (1980); X uzayında uzaktaki noktaları tespit etmek için bir başka ölçüt olan ağırlıklı uzaklık kareler toplamını (AUKT) kullanmayı öngörmüşlerdir. ; parametre, ; rezidü vektörü, =

olmak üzere;

AUK =∑ ̅ = 1,2, … ,

biçiminde hesaplanan değerler artan sıraya göre dizilip değerler arasında ani bir sıçrama olup olmadığı kontrol edilir. Böyle bir durum söz konusu ise bir ya da birden fazla yüksek sapan değerin varlığından söz edilir. Eğer, AUK değerleri küçükten büyüğe doğru düzgün bir şekilde artıyorsa X- uzayında çok uzakta olan bir nokta bulunmuyor demektir. Bu nedenle, özellikle AUK değerleri yüksek olan gözlemler dikkatle incelenmelidir.

2.1.1.3. Mahalanobis Uzaklığı

Sapan değerleri tespit etmede kullanılan klasik bir ölçüde Mahalanobis Uzaklığı’dır. Bu uzaklık, lerin oluşturduğu çok değişkenli bir veri kümesinde bir gözlemin veri kümesinin merkezine olan uzaklığını belirtir., gözlem vektörü,

= (1 ) =(1 )

biçiminde tanımlanırsa, sırasıyla nin ortalama vektörü ve kovaryans matrisi aşağıdaki gibidir.

̅= ∑ (2.1)

= ∑ ( − ̅) ( − ̅) (2.2)

(2.1) ve (2.2) den i-inci gözlemin Mahalanobis Uzaklığı,

= ( − ̅) ( − ̅) = 1,2, … , (2.3)

biçiminde hesaplanır. Bununla birlikte, veri kümesi normal dağılımdan geliyorsa i-inci gözlemin bir sapan değer olup olmadığını belirlemek için değerleri serbestlik dereceli ve 0.95 güvenirlikteki ki-kare değeriyle karşılaştırılabilir.

2.1.2 y-Yönünde Sapan Değerleri (Aykırı Değer) Belirleyen Ölçüler

Lineer regresyonda, regresyon doğrusunun uzağında olan bir başka ifade ile rezidüsü büyük olan gözlemleri y-yönünde sapan değerler olarak adlandırmıştık.

y-yönünde sapan değerlerin belirlenebilmesi için temel olarak kullanılan ölçü rezidülerdir.

2.1.2.1. Rezidüler

Regresyon sonuçlarının standart analizi temel varsayımlara dayalıdır. Doğru analizin yapılması için bu varsayımların geçerliliğinin kontrol edilmesi gerekir. Bu varsayımlardan birisi de = - = 1,2, … , olarak tanımlanan rezidülerdir.

Rezidüler, regresyonda sapan değerlerin belirlenmesinde önemli rol oynar. Rezidü vektörleri (e) ,hata vektörleri (ε) cinsinden;

= ( − )

ile ifade edilir. Bu eşitlikte e nin için uygun bir nicelik olabilmesi için nin köşegen üzerinde olmayan noktalarının küçük olması gerekir. Hata terimleri , birbirleri ile ilişkisiz ve aynı varyansa sahip olmalarına rağmen rezidü terimleri lerin bagımsızlık ( köşegen olmadıkça), aynı varyansa sahip olma ( nin köşegen elemanları eşit olmadığı sürece ) özellikleri yoktur. Sonuç olarak rezidülerin lerin yerini alabilmesi için in satırlarının homojen bu nedenle nin köşegen elemanları yaklaşık olarak eşit ve köşegen haricinde bulunanlar da yeteri kadar küçük olmalıdır.

Rezidüler dört grupta incelenir:

1) Standartlaştırılmış Rezidüler: Rezidünün varyansı yaklaşık olarak ile tahmin edildiğinden standartlaştırılmış rezidü;

= = 1,2, … , (2.4)

olarak elde edilir. Standartlaştırılmış rezidüler sıfır ortalamalı ve yaklaşık olarak birim varyansa sahiptir.

2) Studentized Rezidü: , şapka matrisinin -inci köşegen elemanı ve , şapka matrisinin ij-inci elemanı olmak üzere;

Var( )= (1-ℎ ) = 1,2, … , Cov( , )= - ℎ = 1,2, … ,

0≤ℎ ≤ 1 olduğundan rezidünün varyans tahmini için nin kullanımı aşırı tahmine (overestimate) neden olacaktır. Bu nedenle yerine studentized rezidüler,

= ( ) = 1,2, … ,

önerilir. Büyük ℎ ve büyük rezidüye sahip herhangi bir gözlem EKK kestirimi üzerinde etkili olacağından studentized rezidü önerilir. Problemsiz gözlemlerde değerleri [−3, +3] aralığında yer alır (Montgomery ve Peck, 1992).

3) PRESS Rezidü: Standartlaştırılmış ve studentized rezidüler dışında sapan değerleri belirlemede bir diğer etkili ölçüm PRESS rezidü yani ön tahmin hata kareler toplamıdır. i-inci press rezidüyü hesaplamak için i-inci gözlem hariç diğer tüm n-1 gözlemlerden ( ) hesaplanır. Buna karşılık gelen ön tahmin hatası

( ) = − ( ) = 1,2, … ,

biçiminde hesaplanır. Bu rezidü , i-inci PRESS rezidü olarak adlandırılır. Bu işlem her bir gözlem için = 1,2, … , tekrarlanarak ( ), ( ), … , ( ) elde edilir. Bununla birlikte PRESS rezidüler;

( ) =

= 1,2, … ,

yardımıylada hesaplanabilir. Bir rezidü ile PRESS rezidü arasındaki olası büyük fark, bu gözlem olmaksızın modelin zayıfladığını gösterir (Montgomery ve Peck, 1992).

yardımıylada hesaplanabilir. Bir rezidü ile PRESS rezidü arasındaki olası büyük fark, bu gözlem olmaksızın modelin zayıfladığını gösterir (Montgomery ve Peck, 1992).

Benzer Belgeler