• Sonuç bulunamadı

4. MODELLEME YÖNTEMLERİ 85

4.2 Çok Değişkenli Regresyon Yöntemi 87

Bir regresyon modelinde bağımlı değişkendeki değişiklik bağımlı ve bağımsız değişkenler arasındaki doğrusal ilişkiyle açıklanır. Örneklem büyüklüğü istatistiksel analizin gücünü belirler. Genel kural örneklem büyüklüğünde 5:1 oranının altına düşmemektir. Her bir bağımsız değişken için en az beş gözlem yapılmalıdır. Öte yandan bazı kaynaklar, her bir değişken için en az 15 ya da 20 gözlem yapılmış olmasını tavsiye eder (Hair ve diğ., 2005).

Çok değişkenli regresyon analizi yöntemi tek bir bağımlı değişkenle birden fazla bağımsız değişken arasındaki ilişkileri analiz etmede kullanılır. Burada kullanılan her bağımsız değişken regresyon bağımsız veri kümelerinde en iyi tahmin modelini üretecek şekilde ağırlıklandırılır. Bu ağırlık, bağımsız değişkenlerin tahmin değerleri üzerindeki göreceli katkılarını ve yapılan tahminlerde bu değişkenlerin etkisini gösterir. Yöntem, bağımlı ve bağımsız değişkenler arasındaki ilişkiyi Formül 4.1a ve Formül 4.1b’de verilen denklemlerle açıklar (Ramsey ve Schafer, 2002; Hair ve diğ., 2005).

y = α + β1x1 + β2x2 + β3x3 + ….+ βkxk + εi ya da (4.1a)

y = ŷi + εi (4.1b)

Formül 4.1a’daki α değeri regresyon modelinin sabit terimi iken βi, model

katsayılarının en küçük kareler tahmin edicileridir. "εi" değeri regresyon doğrusunun

hata terimleri ya da kalıntılarıdır. β1, β2 ,…..,β3 katsayıları, bütün öbür değişkenlerin

değerleri aynı kalırken, bağımsız değişkenlerden birinin 1 birim artması sonucu bağımlı değişkende beklenen artışı gösterir. Kısmi regresyon katsayısı olarak adlandırılan bu katsayılar, bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerinin ayrı birer ölçüsüdür (Newbold, 2000).

Bir regresyon denkleminin doğruluğu yedi aşamada sınanır: Normallik, doğrusallık, model uyumu, bağımsızlık, hataların dağılımı, hataların ardışık bağımlılığı ve varyansların sabitliği. Bir regresyon modelinde bağımlı değişken, normal ya da normale yakın bir dağılım sergilemelidir.

Doğrusallık, bağımlı ve bağımsız değişkenler arasındaki ilişkiyi gösterir. Bağımlı ve bağımsız değişkenler arasındaki ilişkinin doğrusallığı, bağımlı değişkendeki bir

değişimin bağımsız değişkenler tarafından açıklanabilen miktarıdır (Hair ve diğ., 2005; Ramsey ve Schafer, 2002).

Model uyumu, oluşturulan modelin ve üretilen katsayıların anlamlı olup olmadığını inceler. Regresyon analizinde yer alan R değeri, bağımlı değişken ile bağımsız değişkenlerin doğrusal kombinasyonu arasındaki pozitif doğrusal ilişkiyi tanımlar. Bağımsız değişkenlerin bağımlı değişkenin davranışını açıklamadaki ölçüsü belirlilik katsayısı (R kare) ile hesaplanır. R kare değeri, bağımlı değişkenin bağımsız değişkenler tarafından açıklanan değişimidir. Geliştirilen modellerde bu değerler bire yakın olmalıdır. Belirlilik katsayısının hesaplanmasıyla ilgili tüm denklemler Formül 4.2, Formül 4.3, Formül 4.4, Formül 4.5 ve Formül 4.6’da verilmiştir. Burada ỹ değeri, bağımlı değişkenin örneklem ortalamasıdır (Newbold, 2000).

Bütün Kareler Toplamı (BKT):

BKT = ỹ (4.2)

Regresyon Kareleri Toplamı (RKT):

RKT = ∑ ŷ ỹ (4.3)

Hata Kareleri Toplamı (HRT):

HKT =

(4.4)

Bütün Kareler Toplamı (BKT):

BKT = RKT + HKT (4.5)

Regresyon Belirlilik Katsayısı (R2):

R2 = 1– (4.6)

Formül 4.6’daki kareler toplamları uygun serbestlik derecesine bölündüğünde düzeltilmiş belirlilik katsayısı elde edilir. Formül 4.7, düzeltilmiş belirlilik katsayısını verir. Burada k bağımsız değişken sayısı, n ise gözlem noktaları sayısıdır (Newbold, 2000).

Düzeltilmiş R2=1

/

/ (4.7)

Kurulan regresyon modelinde katsayıların anlamlılığı aşağıdaki önsav ile sınanır (Newbold, 2000).

H0: β1 = β2 = ….= β1= 0

Ha: En az bir βi ≠ 0

Oluşturulan modelin ne kadar anlamlı olduğu Anova istatistik yöntemiyle sınanır. Burada F testi ile modelin anlamlılığı test edilir. Diğer bir deyişle, α anlamlılık düzeyinde modelin anlamlılığı F oranı (Fk,n-k-1) ile hesaplanır. Buna göre F oranı

Formül 4.8’de verilmiştir. Bu denklemde F oranı >Fk,n-k-1,α ise sıfır önsavı reddedilir.

Buna göre kurulan model anlamlıdır (Newbold, 2000; Hair ve diğ., 2005).

F oranı= /

/ (4.8)

Katsayıların anlamlılığı, Beta katsayılarının anlamlılığıyla belirlenir. Kısmi β değerleri ile bir regresyon denklemine ilave edilen değişkenin tahmin değerlerine olan katkısı tanımlanır (Ramsey ve Schafer, 2002; Hair ve diğ., 2005).

Bağımsızlık, bağımsız değişkenler arasındaki çoklu doğrusal bağlantıları inceler. Çoklu doğrusal bağlantı analizleri iki ya da ikiden fazla bağımsız değişken arasındaki ilişkiyi tanımlar. Bir bağımsız değişken ile diğer bağımsız değişkenler arasında kuvvetli bir ilişki varsa çoklu doğrusallık sorunu ortaya çıkar. Çoklu doğrusallık sorunu tolerans ve Varyans Şişirme Faktörleriyle (VIF-Variance Inflation Factors) hesaplanır. Tolerans değeri, bir bağımsız değişkenin diğer bağımsız değişkenler tarafından açıklanma miktarıdır. Buna göre, seçilen bir bağımsız değişken önce bağımlı bir değişken yapılır ve daha sonra diğer bağımsız değişkenlerin bu değişkeni açıklama oranı hesaplanır. Tolerans değeri Formül 4.9 ile hesaplanır. Diğer bağımsız değişkenlerin bu değişkeni açıklama oranı (Ri2) birden çıkarılarak tolerans değeri

elde edilir. Tolerans değeri sıfıra yaklaştıkça bağımsız değişkenler arasındaki doğrusallık artar. Formül 4.10, VIF değerinin tolerans değeriyle doğrudan ilişkili olduğunu gösterir (Hair ve diğ., 2005; O’Brien, 2007).

TOLi =1-Ri2 (4.9)

VIFi = (4.10)

VIF değerinin belli bir değerin üzerinde olması, bağımsız değişkenler arasında yüksek düzeyde doğrusal bir ilişki olduğunu gösterir. Briand ve diğ. (1999) ve Vaccaro ve diğ. (2012) yürüttükleri analizlerde VIF değerinin üst sınırını 10 olarak kabul etmiştir. Öte yandan daha hassas ölçümlerde bu sınır aşağıya inebilmektedir. Öyle ki, Acedo ve Florin (2007) VIF değerinin üst sınırının 5 ve O’Brien (2007) ise 4 olabileceği söyler.

Regresyon modellerinde çoklu doğrusal bağlantı sorunu özdeğerler (eigenvalue) ve Koşul Durumlarıyla (CI-Condition Index) da belirlenir. Özdeğer tablosundaki değerler sıfıra yakın olmamalıdır. Yine koşul durumlarının 15’ten büyük olması doğrusallık problemini işaret eder. Bu değerlerin 30’dan büyük olması istenmeyen bir durumdur (Liu ve diğ., 2003).

Regresyon denkleminde tahmin hatalarının tamamen rassal dağılması, normal bir dağılım sergilemesi ve birbiriyle ilişkili olmaması beklenir (Ramsey ve Schafer, 2002; Hair ve diğ., 2005).

Bir regresyon modeli oluşturulduktan sonra hataların ardışık bağımlı olup olmadığına bakılır. Ardışık bağımlılık sorununda en yaygın kullanılan yöntem Durbin Watson (DW) test istatistiğidir. Formül 4.11, tahmin edilen regresyon kalıntıları üzerinden DW değerini hesaplar. Formülde en küçük kareler yöntemi uygulanır (Newbold, 2000).

d =

(4.11)

H0: Regresyon modelindeki hatalarda ardışık bağımlılık yoktur.

Ha: Regresyon modelindeki hatalarda ardışık bağımlılık vardır.

Hesaplanan DW değeri, dL ve dU değerlerine göre değerlendirilir. Bulunan DW

değeri, dL’den küçükse sıfır önsavı reddedilir; hatalar arasında ardışık bağımlılık

vardır, önsavı kabul edilir. Hesaplanan DW değeri, dU’dan büyükse sıfır önsavı kabul

olmadığını gösterir. Öte yandan DW değeri, dL ve dU değerleri arasında kalıyorsa

sınama sonuçsuzdur. dL ve dU değerleri, α anlamlılık düzeyine, k bağımsız değişken

sayısına ve n gözlem noktaları sayısına göre bulunur (Newbold, 2000). Buna göre, α=0.5, k=6 ve n=64 iken dL = 1.432 ve dU= 1.767’dir. Buradaki k bağımsız değişken

sayısı sabit değeri de kapsar.

Hata terimlerinin varyanslarının aynı olmadığı durumlar değişen varyans problemini gösterir. Değişen varyans probleminde hata terimleri sürekli artma ya da azalma eğilimindedir (Newbold, 2000; Ramsey ve Schafer, 2002; Hair ve diğ., 2005). Problem, hata terimlerinin dağılımı incelenerek ya da Bruesch-Pegan-Godfrey gibi istatistik testleri uygulanarak ortaya çıkarılır.

Tüm bu sınamalara ilave olarak, oluşturulan regresyon modelinde kaldıraç noktaları tespit edilmelidir. Kaldıraç noktaları ile bir ya da birden fazla bağımsız değişkende tamamen farklı davranış sergileyen ve regresyon tahminlerini etkileyen gözlemler belirlenir (Hair ve diğ., 2005). Kaldıraç noktaları Cook mesafesi (Cook’s distance) ile birlikte değerlendirilir. Cook mesafesi, belli bir gözlemi silerek bu gözlemin model üzerindeki etkisini belirler (Cook, 1977).