• Sonuç bulunamadı

6.1. Örnekleme ve Örnekleme Dağılımı

N/A
N/A
Protected

Academic year: 2022

Share "6.1. Örnekleme ve Örnekleme Dağılımı"

Copied!
93
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

ANALİTİK İSTATİSTİK

Karşı karşıya kaldığımız hedef kitle hakkında genellikle tam bilgi sahibi olamayız.

Nadiren ilgilendiğimiz konu hakkında hedef kitlenin tamamı hakkında bilgi sahibi olabiliriz.

Hükümet sayım (nüfus sayımı, tarım sayımı vb.) yoluyla bize bu bilgileri ulaştırır. Ancak her zaman bu kadar şanslı olmayız. Hedef kitlenin tamamı hakkında bilgi sahibi olmak bazen çok pahalı, zaman alıcı ve güç iken, bazen ise imkânsız olmaktadır. Bu gibi durumlarda hedef kitle içinden çekilen ve bu kitleyi temsil ettiğine inandığımız bazı örneklerden elde ettiğimiz bilgilere dayanarak hedef kitle hakkında bilgi sahibi olmaya çalışırız.

Örneklerden elde ettiğimiz işlenmemiş veriler öncelikle tanımlayıcı istatistik yöntemler (merkezi eğilim ölçüleri, dağılım ölçüleri, pozisyon ölçüleri, frekans dağılımı, ilişki ölçüleri) kullanılarak daha kolay anlaşılır hale getirilmelidir. Daha sonra analitik (yorumlayıcı) istatistik teknikler kullanılarak örnekten elde edilen bilgilere dayanarak ana kitle hakkında sonuçlar çıkartılmalıdır.

6.1. Örnekleme ve Örnekleme Dağılımı

Bir konu ile ilgili hedef kitleyi oluşturan bütün bireylerin tek tek incelenerek onlardan ölçme tartma, gözlem ve soruşturma yoluyla bilgi alınmasına “tam sayım” adı verilmektedir.

Hedef kitle hakkında en geniş bilgi tam sayım yoluyla elde edilmektedir. Birkaç birimden oluşan küçük bir kitleyi örnekleme yoluyla incelemektense, hedef kitlenin tamamını incelemek yoluna gidilmektedir. Çok sayıda birim içeren hedef kitlelerde veriler mevcut

6.

(2)

olmasına rağmen kısa sürede analiz edilmesi gerektiğinde veya hedef kitle ile ilgili bilgiler elde bulunmadığında hızlı bir şekilde istenilen bilgilere ulaşmak istenildiğinde genellikle tam sayım yerine örneklemeye başvurulmaktadır. Bir veya birkaç özelliği dikkate alarak hedef kitleden sınırlı sayıda birimlerin çekilmesine “örnekleme” denilmektedir. Örnekleme, seçilen birimlerden yararlanarak küme hakkında bilgi sahibi olmak amacıyla yapılmaktadır.

Örneklemede hedef kitlenin sadece bir bölümü incelenerek hedef kitle ile ilgili karar vermeye çalışılmaktadır. Eğer hedef kitle homojen ise ve hedef kitle değişim içinde yani canlı ise örnekleme yöntemi kullanılmalıdır.

Ancak hedef kitle küçük olduğunda ve yasal zorunluluklar sebebiyle örnekleme yerine tam sayım daha uygun olmaktadır. Nüfus sayımları, vergi cetvelleri, seçmen kütükleri veya tapu kayıtları gibi kayıtlar yasal sebeplerle veya yapıları gereği örnekleme ile değil de tam sayımla incelenirler. Aynı zamanda örneklemede kullanılacak çerçeveyi tespit etmek için de tam sayım yapmak gerekebilir. Diğer taraftan tam sayımın mümkün olmadığı veya gerekli olmadığı durumlarda örnekleme yapmak zorunlu hale gelebilmektedir. Örneğin sütte yağ oranını tespit etmek için bir süt ineğinden bir sağımda alınan 10 litre sütün tamamı değil de çok az bir bölümü laboratuarda analiz etmek yeterlidir. Kan tahlili içinde aynı durum söz konusudur. Vücuttaki tüm kanı incelemek yerine birkaç damla kanı analiz etmek tüm vücuttaki kan hakkında yeterli bilgi verecektir. Bazen hedef kitlenin tamamını incelemek kitle içinde yer alan birimlerin zarar görmesine sebep olmaktadır. Bu gibi durumlarda da örnekleme yapmak kaçınılmazdır. Örneğin elektrik ampulünün veya traktör lastiğinin ömrü ancak deneyin onların ömrü boyunca sürdürülmesi ile anlaşılır. Bu sebeple sınırlı sayıda seçilen ampul veya lastik ile deneme yapılacaktır.

Örnekleme günlük hayatımızla da iç içedir. Genellikle kararlarımızı örneklemeden yararlanarak alırız. Tencereden alınan bir iki pirinç tanesi pilavın pişip pişmediğini gösterir.

Bir yudum çay bir çaydanlık çayın kalitesini anlamaya yeterli olur.

Örnekleme yöntemini kullanmanın (i) tam sayıma oranla daha ucuza mal olması, (ii) daha detaylı bilgi elde edilebilmesi ve (iii) kısa zamanda bilgi toplamayı sağlaması gibi yararlarının yanında hata payı içermesi gibi olumsuz bir yönü de bulunmaktadır.

Örnekleme bir çok aşama içeren ve planlı bir çalışma gerektiren bir süreçtir. Öncelikle örnekleme yapılacak hedef kitlenin çerçevesi belirlenmelidir. Daha sonra ortalamadan izin verilen hata payı (mutlak veya nispi) ve hangi güven derecesinde çalışılacağı belirlenmelidir.

Söz konusu bilgiler elde edildikten sonra uygun örnekleme yöntemi kullanılarak hedef kitleyi temsil edecek örnek sayısı belirlenecektir.

(3)

6.1.1. Örnekleme yöntemleri

Hedef kitleden örnekler tesadüfi veya tesadüfi olmayan yöntemlerle çekilebilmektedir.

Eğer hedef kitlede yer alan bütün bireylerin örneğe seçilme şansı eşitse yani her bir bireyin örneğe seçilme şansı önceden biliniyorsa bu tür örneklemeye “tesadüfi örnekleme” adı verilmektedir. Oysa tesadüfi olmayan örneklemede bireylerin örneğe seçilme şansı eşit değildir, hatta hedef kitle içinde yer alan bazı bireylerin örneğe seçilme şansı hiç yoktur.

Şimdi tesadüfi ve tesadüfi olmayan örnekleme yöntemlerinin ayrı ayrı inceleyelim.

1.Tesadüfi olmayan örnekleme: Tesadüfi olmayan örnekleme yöntemleri, tesadüfi örneklemeye oranla daha az bilimseldir. Ayrıca bu örneklemede istatsitiki hataların ölçülmesi mümkün değildir. Hedef kitle içerisinde yer alan bireylerin örneğe seçilme şansı eşit olmayan bu örnekleme yöntemi (i) kolay örnekleme (convenience sampling) ve (ii) gayeli örnekleme (judgement sampling) olmak üzere iki farklı şekilde uygulanabilmektedir. Kolay örneklemede, hedef kitle içindeki en kolay ulaşılabilir bireyler örnek olarak seçilmektedir.

Örneğin bir marketten alış veriş yapan tüketicilerle ilgili bilgiye ihtiyaç duyulduğunda, markete bir saat içinde gelen herkesten bilgi almak kolay örneklemeye iyi bir örnek teşkil etmektedir. Eğer hedef kitleyi temsil edecek örneklerin seçiminde belirli bir amaç güdülmüşse veya hedef kitle ile ilgili ön bilgiler kullanılmış ise buna “gayeli örnekleme”

denilmektedir. Bu yöntemle seçilen örnekler hedef kitleyi temsil eden örnekler olabilir ancak bunun şansının düşük olduğu unutulmamalıdır. Bir bölgedeki tüm köyleri incelemek üzere yapılan bir araştırmada, yolu iyi olan köylerin seçilmesi; bir köydeki çiftçilerden sadece gönüllü olanlardan bilgi toplamak gayeli örneklemedir.

Tesadüfi olmayan örnekleme yöntemi ile çok güvenilir ve doğru sonuçlar elde etmek güçtür. Bu örneklemede başarı hedef kitle homojen olmasına ve araştırıcının hedef kitleyi iyi tanımasına bağlıdır. Bu tür örneklemede elde edilen bilgilerin hedef kitleyi ne derece temsil ettiğini, hata ve güvenilirlik derecesini ifade etmeye imkân yoktur. Bu sebeple bu örnekleme yöntemi günümüzde pek yaygın kullanılmamaktadır. Bu yöntem sadece anket formlarının ön testini yapmak veya çerçeveyi belirlemek amacıyla kullanılmamaktadır.

2. Tesadüfi örnekleme: Hedef kitle içinde yer alan bütün bireylerin örneğe seçilme şansı eşittir. Bu örnekleme yönteminde hedef kitleye ilişkin tahminlerin doğruluk derecesi ve hata payı hesaplanabilmektedir. Tesadüfi örneklemede örneğe girecek elemanların seçiminde kullanılan ilk yöntem kura yöntemidir. Örneğin 50 kişilik bir sınıftan tesadüfi olarak 5 kişi seçileceğini düşünelim. Bu 50 kişinin ismi ayrı ayrı kağıtlara yazılır ve bir torbaya doldurulur.

(4)

Daha sonra 5 isim bu torbadan çekilerek kura yöntemi ile tesadüfi olarak örnek çekilmiş olur.

Tesadüfi sayılar tablosunu kullanmak örneğe girecek elemanların tespitinde kullanılan ikinci yöntemdir. Tesadüfi sayılar tablosu yardımıyla 400 kişiden tesadüfi olarak 30 kişi seçtiğimizi düşünelim. Bunun için öncelikle 400 kişinin adı alfabetik sırada dizilir. Daha sonra 5 haneli olarak hazırlanmış “tesadüfi sayılar tablosundan” yararlanmak için bir başlangıç noktası belirlenir. Başlangıç noktasının belirlemenin en kolay yolu, gözlerimizi kapatıp parmağımızı tesadüfi olarak bir noktaya koymaktır. Bu başlangıç noktasından istenilen yere doğru ilerlemek mümkündür. Böylece başlangıç noktasından sonra gelen her 5 haneli rakamın 3 hanesi okunarak tesadüfi bir kişi tespit edilir. Bu numaraya karşılık gelen isim seçilecek ismi oluşturmaktadır. Tesadüfi örnekleme (i) basit tesadüfi örnekleme, (ii) tabakalı tesadüfi örnekleme, (iii) cluster örnekleme ve (iv) analitik örnekleme olmak üzere 4 farklı şekilde uygulanabilmektedir.

6.1.2. Örnekleme dağılımı

Ana kitleden çekilen örneklerden hesaplanan istatistiklerin gösterdiği dağılıma

“örnekleme dağılımı” adı verilmektedir. Örnekleme dağılımını, ana kitleden çekilen örneklerin ortalamalarının gösterdiği dağılım ve oranların örnekleme dağılımı olmak üzere iki ana sınıfa ayırmak mümkündür.

1. Ortalamaya ait örnekleme dağılımı

Hedef kitleye ait parametreler sabit bir değerdirler. Hedef kitlenin ortalaması olan

daima sabittir. Ancak örnek için aynı şeyi söylemek mümkün değildir. Aynı ana kitleden çekilmiş aynı büyüklüğe sahip örneklerden hesaplanan ortalamalar x birbirinden farklıdır.

Sonuç olarak aynı hedef kitleden çekilmiş örneklerden hesaplanan ortalamalar tesadüfi bir değişken konumundadırlar. Örneklere ait ortalamalar tesadüfi değişken olduklarından bunların gösterdiği bir olasılık dağılımı vardır ve bu “ortalamaya ait örnekleme dağılımı”

olarak bilinmektedir. Örneğin haftalık maaşları aşağıda verilen 5 kişinin oluşturduğu hedef kitleden üçer kişilik örnekler çektiğimizi düşünelim.

A=17, B=24, C=35, D=35, E=43

Buradan farklı olarak çekilebilecek toplam örnek sayısını bulmak için, toplam kombinasyon sayısını belirlemek gerekmektedir.

(5)

 

10

)!

3 5 (

! 3

!

5 5

3

 

Söz konusu hedef kitleden çekilebilecek en büyük örnek sayısı 10 olarak bulunmuştur. Bu örnek kombinasyonları ve bunlara ait ortalamalar aşağıda verilmiştir.

Örnek Örneğe giren bireyler

x

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

17, 24, 35 17, 24, 35 17, 24, 43 17, 35, 35 17, 35, 43 17, 35, 43 24, 35, 35 24, 35, 43 24, 35, 43 35, 35, 43

25.33 25.33 28.00 29.00 31.67 31.67 31.33 34.00 34.00 37.67

Örneklerin ortalamaları ve bunlara ait olasılıklar da nispi frekans yaklaşımına göre aşağıdaki gibidir.

x f

) (

x P 25.33

28.00 29.00 31.67 31.33 34.00 37.67

2 1 1 1 2 2 1

0.20 0.10 0.10 0.10 0.20 0.20 0.10

10 1.00

(6)

Ortalamaya ait örnekleme dağılımının ortalaması, hedef kitlenin ortalamasına eşittir.

Eğer örnekten hesaplanan ortalama ana kitle ortalamasına tam eşit ise buna “sapmasız tahmin” adı verilmektedir.

x

Ortalamaya ait örnekleme dağılımının standart sapması ise, ana kitlenin standart sapmasından farklıdır. Örnekleme dağılımının standart sapması, ana kitlenin standart sapmasının örnek hacminin kare köküne oranına eşittir.

n

x

 

Ancak örnekleme dağılımının standart sapmasının bu formülle hesaplanabilmesi için örnek hacminin ana kitleye oranının 0.05 veya bundan küçük olması( 0.05)

N

n gerekmektedir. Eğer

bu oran 0.05’ten büyük olursa bu formüle sonlu düzeltme faktörünün ) ( 1

N

n

N ilave edilmesi gerekmektedir. Bu durumda formül şu hale dönüşmektedir.

1

 

N

n N n

x

 

Örnekleme dağılımının standart sapması daima ana kitlenin standart sapmasından küçüktür ( )

x

. Bu standart sapma formülünün incelenmesinden rahatlıkla anlaşılmaktadır. Zira örnek hacmi 1’den büyük olduğu sürece,

n

 oranı içinde yer alan

n 1’den büyük olacaktır ve sonuçta örnekleme dağılımının standart sapması, ana kitleden küçük olacaktır. Diğer taraftan örnek hacmi büyüdükçe örnekleme dağılımının standart sapması küçülmektedir. Eğer bu koşul sağlanıyorsa bu örnekten yapılan tahmin “tutarlı tahmin” olmaktadır.

Örnek:

5000 işçisi bulunan bir firmada çalışan bir işçi saatte ortalama 13.50 milyon TL gelir elde etmektedir. Bu ortalama değere ait standart sapma ise 2.90 milyon TL’dir.

(7)

a) Bu firmadan seçilen 30 kişinin saatlik ortalama gelirine ait standart sapma ne kadardır?

b) Bu firmadan seçilen 75 kişinin saatlik ortalama gelirine ait standart sapma ne kadardır?

c) Bu firmadan seçilen 200 kişinin saatlik ortalama gelirine ait standart sapma ne kadardır?

Çözüm:

Örnekleme dağılımının ortalaması ana kitlenin ortalamasına eşit olduğundan 50

.

13

x

’dir ve standart sapma  2.90’dır.

a)

006 . 5000 0

30 30

N n n

05 .

0 N

n olduğundan 5000 kişiden seçilen 30 kişinin saatlik ortalama gelirine ilişkin standart

sapma 0.53

30 90 .

2 

n

x

  olarak bulunur.

b)

015 . 5000 0

75 75

N n n

05 .

0 N

n olduğundan 5000 kişiden seçilen 75 kişinin saatlik ortalama gelirine ilişkin standart

sapma 0.33

75 90 .

2 

n

x

  olarak bulunur.

c)

04 . 5000 0

200 200

N n n

(8)

05 .

0 N

n olduğundan 5000 kişiden seçilen 200 kişinin saatlik ortalama gelirine ilişkin

standart sapma 0.21

200 90 .

2 

n

x

  olarak bulunur.

2. Orana ait örnekleme dağılımı

Genellikle hedef kitleden çekilen örneklerin ortalamalarının gösterdiği dağılım yaygın olarak kullanılmakla birlikte, zaman zaman istenen belirli bir olayın ana kitle veya örnekteki oranı da önem kazanmaktadır. İstenen özelliğin hedef kitleden çekilen örnekler içindeki oranlarının gösterdiği dağılıma “orana ait örnekleme dağılımı” adı verilmektedir. İstenen olayın örnek içindeki oranı ( p) aynen örnek ortalamasında olduğu gibi tesadüfi değişken konumundadır.İstenen özelliğin ana kitle içindeki oranı p , örnek içindeki oranı ise

psimgeleriyle gösterilmektedir ve aşağıdaki formüller yardımıyla hesaplanmaktadır.

N p  x ve

n p  x

Formüllerde N ana kitledeki element sayısını, n örnekteki element sayısını ve x istenen özellik sayısını ifade etmektedir. Örneğin Samsun ili şehir merkezinde yaşayan 300.000 ailenin180.000 tanesi ev sahibidir. Bu durumda x ev sahibi olan kişilerin sayısını (180000), N ise şehir merkezinde yaşayan toplam kişi sayısını göstermektedir. İstenen özelliğin ana kitle içindeki oranı p Nx 1800003000000.60’dır. Şimdi bu ana kitleden çekilmiş 240 kişilik bir örnek içinde yer alan 158 kişi ev sahibi ise istenen özelliğin örnek içindeki oranıpx n158 2400.66’dır.

Orana ait örnekleme dağılımının ortalaması, istenen olayın hedef kitle içindeki oranına eşittir. Eğer örnek oranı, ana kitle oranına tam olarak eşit ise buna “sapmasız tahmin” adı verilmektedir.

p

p

Orana ait örnekleme dağılımının standart sapması ise, ana kitlenin standart sapmasından farklıdır. Örnekleme dağılımının standart sapması, ana kitlenin standart sapmasının örnek hacmine oranının kare köküne eşittir.

(9)

n pq

p

Formülde p istenen olayın ana kitle içindeki oranına, q ise 1-p’ye eşittir. Ancak örnekleme dağılımının standart sapmasının bu formülle hesaplanabilmesi için örnek hacminin ana kitleye oranının 0.05 veya bundan küçük olması( 0.05)

N

n gerekmektedir. Eğer bu oran 0.05’ten

büyük olursa bu formüle sonlu düzeltme faktörünün ) ( 1

N

n

N ilave edilmesi gerekmektedir.

Bu durumda formül şu hale dönüşmektedir.

1

 

N

n N n pq

p

Örnek hacmi büyüdükçe orana ait örnekleme dağılımının standart sapması küçülmektedir. Eğer bu koşul sağlanıyorsa bu örnekten yapılan tahmin “tutarlı tahmin”

olmaktadır.

Örnek:

Bir firmada çalışan 5 işçinin istatistik konusunda bilgi sahibi olup olmadığı ile ilgili bilgiler aşağıda verilmiştir.

İsim İstatistik bilip bilmediği Murat

Mustafa Ali Tülin Coşkun

Biliyor Bilmiyor Bilmiyor Biliyor Biliyor

Bu durumda istatistik bilenlerin ana kitle içindeki oranı p3/5=0.60’dır. Şimdi bu 5 işçiden 3’er kişilik gruplar seçelim. Bu 5 işçiden toplam 10 farklı örnek seçmek mümkündür. 10 farklı örnek ve bunların oranı aşağıda verilmiştir.

(10)

Örnek p Murat, Mustafa, Ali

Murat, Mustafa, Tülin Murat, Mustafa, Coşkun

Murat, Ali, Tülin Murat, Ali, Coşkun Murat, Tülin, Coşkun

Mustafa, Ali, Tülin Mustafa, Ali, Coşkun Mustafa, Tülin, Coşkun

Ali, Tülin, Coşkun

1/3=0.33 2/3=0.67 2/3=0.67 2/3=0.67 2/3=0.67 3/3=1.00 1/3=0.33 1/3=0.33 2/3=0.67 2/3=0.67

Bu kombinasyonlardan yararlanarak oluşturulan frekans tablosu ve oranlara ilişkin olasılıklar aşağıdaki gibidir.

p f

) (

p P 0.33

0.67 1.00

3 6 1

0.30 0.60 0.10

10 1.00

Şimdi, bu firmada çalışan 5 kişiden seçilmiş üçer kişilik örneklerin oranlarının gösterdiği dağılımın ortalama ve standart sapmasını hesaplayalım. Orana ait örnekleme dağılımının ortalaması, istenen olayın hedef kitle içindeki oranına eşit olduğundan, ortalama

6 .

0

p

p

 olarak bulunur. Standart sapma ise 0.05) 5

( 3 olduğu için aşağıdaki formül yardımıyla 0.20 olarak hesaplanmıştır.

20 . 1 0 5

3 5 3

) 4 . 0 )(

6 . 0 (

1 

 

 

N

n N n pq

p

(11)

6.1.3. Örnekleme ve örnekleme dışı hatalar

Aynı ana kitleden seçilen örnekler farklı elementleri içerdiklerinden farklı sonuçlar vermektedirler. Aynı zamanda örnekten hesaplanan ortalamalar ve oranlar, ana kitle ortalamasından ve oranından farklı olabilmektedirler. Örnekten hesaplanan ortalama ile ana kitle ortalaması arasındaki fark veya örnek oranı ile ana kitle oranı arasındaki fark “örnekleme hatası” olarak bilinmektedir.

Örnekleme hatasıx (Ortalama için) Örneklemehatasıpp (Oran için)

Örnekleme dışı hata ise, verilerin toplanması, kayıt altına alınması ve tablolaştırma işlemleri esnasında meydana gelen hataları kapsamaktadır. Örnekleme dışı hataların oluşmasının en önemli sebebi, örneklerin tesadüfi olarak seçilmemesidir. Aynı şekilde anket formunda yer alan soruların denek tarafından yanlış anlaşılması sonucu yanlış cevaplar verilmesi veya deneklerin bazı hassas sorulara bilerek yanlış cevap vermesi de örnekleme dışı hataya yol açmaktadır. Araştırıcıların anketlerde bulunan bilgilerin bilgisayara yanlış aktarılması da diğer bir örnekleme dışı hata kaynağıdır.

Örnek:

Bir firmada çalışan 5 kişinin milyon TL olarak haftalık maaşlarının 17, 24, 35, 35, 43 olduğunu düşünelim. Bu ana kitlenin ortalaması (17+24+35+35+43)/5=30.8’dir.

Bu 5 kişiden tesadüfi olarak 3 kişinin seçildiğini ve bunların milyon TL olarak haftalık maaşlarının 17, 35 ve 43 olması durumunda ortalama haftalık gelir 31.67 milyon TL olacaktır.

67 . 31 3 / ) 43 35 17

(   

x

Örnekleme hatasıx 31.6730.80.87 milyonTL

Şimdi seçilmiş örnekteki maaşlardan ikincisi 35 milyon TL yerine yanlışlıkla 37 milyon TL olarak yazıldığını düşünelim. Bu durumda ortalama (17+37+43)/3=32.33 milyon TL olacaktı. Buna bağlı olarak örnekleme hatası ise 1.53 milyon TL’ye yükselecektir.

Örneklemehatası32.33308.81.53

(12)

Her ne kadar buradaki hata örnekleme hatasını yansıtıyor gibi görünse de, gerçek örnekleme hatasının 0.87 milyon TL olduğu bilinmektedir. Bu durumda iki örnekleme hatası arasındaki fark bize örnekleme dışı hatayı verecektir.

Örnekleme dışı hata =1.53 – 0.87 = 0.66 milyon TL

Örnekleme dışı hata Örnekleme hatası

32.33 31.67 30.80

Örnekleme hatası ana kitle içinde bulunan elementlerin örneğe seçilmesinin şansa bağlı olmasından kaynaklanan bir hatadır. Oysa örnekleme dışı hatalar ise insanların yaptığı hatalardan kaynaklanmaktadır. Örnekleme dışı hata hem tam sayıda hem de örneklemede karşılaşılırken, örnekleme hatası sadece örnekleme de karşılaşılan bir hatadır. Örnekleme dışı hatayı anketleri hazırlarken dikkatli olmak kaydıyla ve verileri aktarırken titiz bir çalışma ile minimize etmek mümkündür.

6.1.4. Normal dağılım gösteren bir ana kitleden örnekleme

Eğer örnekleme ortalaması  ve standart sapması olan normal dağılım gösteren bir ana kitleden yapılmışsa; (i) örnekleme dağılımının ortalaması x,ana kitlenin ortalamasına eşittir, (ii) örnekleme dağılımının standart sapması

n

S   ’ dır ve (iii) her bir örnek hacmi için (n) örnekleme dağılımının şekli normaldir.

Genellikle ortalamaya ait örnekleme dağılımında bu özellikler kullanılabiliyorken, orana ait ana kitle normal dağılım göstermediğinden orana ait örnekleme dağılımında böyle bir durum söz konusu değildir.

6.1.5. Normal dağılım göstermeyen bir ana kitleden örnekleme

Gerçek dünyada ana kitlelerin önemli bir bölümü normal dağılım göstermemektedir.

Bu gibi durumlarda örnekleme dağılımının şekli hakkında “merkezi limit teoremi” geçerli olmaktadır. Merkezi limit teoremine göre ana kitlenin dağılımı normal olmadığı halde yeterli örnek hacmi kullanıldığında örneklerden hesaplanan ortalamaların gösterdiği dağılım normal dağılıma yaklaşmaktadır ve bu dağılımın ortalaması ana kitle ortalamasına eşit olmakta,

(13)

standart sapması ise ortalamaya ait örnekleme dağılımı için

Sn

 olmaktadır. Genellikle normal olmayan ana kitleden çekilen örneklerin ortalamalarının dağılımının normale yaklaşması için örnek hacminin 30’dan büyük olması gerekmektedir.

Örnek:

Türkiye’de şehirde ortalama kiranın 200 milyon TL/ay ve buna ait standart sapmanın 75 milyon TL/ay’dır. Türkiye’nin şehirlerinde kiraların dağılımının sağa çarpık olduğu bilinmektedir. Bu ana kitleden çekilen n=100’lük örneğin ortalama ve standart sapmasını hesaplayınız ve dağılımın şeklini gösteriniz?

Çözüm:

Kiraların dağılımı normal olmamasına rağmen n>30 olduğundan, bu soruda merkezi limit teoremini uygulamak gerekmektedir. Örnekleme dağılımı normale yaklaştığından ortalama ve standart sapma aşağıdaki gibi hesaplanır.

200

x milyon TL

5 . 7 10075 

n

S

Orana ait örnekleme dağılımı için np5 ve nq5 olduğunda merkezi limit teoremini kullanmak mümkündür. Bu durumda örneğe ait oran istenen olayın hedef kitle içindeki oranına eşittir ( p

p

).Orana ait örnekleme dağılımının standart sapması ise, ana kitlenin standart sapmasından farklıdır. Örnekleme dağılımının standart sapması, ana kitlenin standart sapmasının örnek hacmine oranının kare köküne eşittir.

n pq

p

Formülde p istenen olayın ana kitle içindeki oranına, q ise 1-p’ye eşittir. Ancak örnekleme dağılımının standart sapmasının bu formülle hesaplanabilmesi için örnek hacminin ana kitleye oranının 0.05 veya bundan küçük olması( 0.05)

N

n gerekmektedir.

(14)

Örnek:

Bir firmada çalışan elemanların %18’i işyerindeki performanslarının gerek mali olarak gerekse de kişisel olarak ödüllendirildiğini belirtmişlerdir. Bu yargının ana kitlenin tamamı için doğru olduğunu düşünelim. Firmada çalışan tesadüfi olarak seçilmiş 100 kişinin de aynı görüşü paylaştığına göre orana ait örnekleme dağılımının ortalama ve standart sapmasını hesaplayalım.

Çözüm:

18 .

0

p ve q1 p10.180.82 Orana ait örnekleme dağılımının ortalaması p0.18

p

 ’dir. Standart sapma ise

5

np olduğundan 0.038 olarak bulunur.

038 . 100 0

) 82 . 0 )(

18 . 0

( 

n

pq

p

6.2. Tahmin ve Özellikleri

Her hangi bir kitleden çekilmiş örnekten hesaplanan istatistiklere dayanarak ana kitle parametresinin değerinin belirlenmesine “tahmin” adı verilmektedir. Tahmin ana kitle değerlerini örneğe dayanarak belirlemede kullanılan sayısal bir yöntemdir. Tahmin yapmak bir süreç gerektirmektedir ve 4 basamağı bulunmaktadır.

1. Örneği seçmek

2. Örneğe giren bireylerden bilgileri toplamak 3. Örneğe ait istatistikleri hesaplamak

4. Ana kitle parametresinin değerini belirlemek

Bazen ana kitlenin ortalaması tahmin edilirken, bazen de ana kitle oranı tahmin edilmektedir. Örneğin bir otomobil firmasında yetkili kişi belirli bir model otomobilin ortalama yakıt tüketimini, işe yeni başlamış bir işçinin işi öğrenme süresini veya piyasaya yeni sürecekleri otomobilden müşterilerinin yüzde kaçının memnun olacağını merak edebilir.

Bunları ortaya koymanın yolu tahmin yapmaktır. Ana kitle ortalaması veya ana kitle oranı, nokta tahmini veya aralıklı tahmin olmak üzere iki farklı şekilde tahmin edilebilir. Eğer ana kitleden seçilen örnekten hesaplanan istatistik tek bir noktaya ait ise bu “nokta tahmin”dir.

Yani ana kitle ortalaması veya oranı tek bir nokta olarak tahmin edilmektedir. Nokta

(15)

tahminleri genellikle tahmine ilişkin en yüksek hata payını ifade eden hata sınırları ile birlikte verilmektedir.

Hata sınırı = x ± z

x

 veya x ± z

x

S (Ortalama için) Hata sınırı = p ± z

x

 veya p ± z

x

S (Oran için)

Hata sınırı belirlenirken öncelikle örneğe ait standart sapma hesaplanır ve bu değer ilgili güven derecesini yansıtan “z” değeri ile çarpılır. “z” değeri, ilgili güven derecesi için standart normal dağılım tablosundan bulunmaktadır.

Aralıklı tahminde ise, ana kitle parametresini tek bir noktada tahmin etmek yerine, nokta tahmini etrafında ana kitle parametresinin içinde yer aldığı bir aralık oluşturulur ve ana kitle parametresi için olasılıklı yorum yapılır. Aralıklı tahmin yapabilmek için örnekten hesaplanan ortalama veya orandan bir sayı çıkartılarak alt sınır ve ortalama veya orana bir sayı ilave edilerek üst sınır bulunmaktadır. Bu durumda, ortalama veya orandan çıkartılacak veya eklenecek sayının nasıl belirleneceği problemi ortaya çıkmaktadır. Bu sorunun cevabı içinde iki önemli unsur yer almaktadır; (i) örneğe ait standart sapma ve (ii) aralığa ilişkin güven derecesi. Yani ortalama veya orana örnekten hesaplanan standart sapma ile istenen güven derecesini yansıtan “z” veya “t” değerinin çarpımı sonucu bulunan değer ilave edilmeli veya çıkartılmalıdır. Ortalama veya orana ait standart sapma ne kadar büyük olursa eklenecek veya çıkartılacak sayı o kadar büyük olacaktır. Aralık tahmininde genellikle olasılıklı yorum kullanılmaktadır. Bu olasılık “güven derecesi” nden kaynaklanmaktadır. Bu sebeple istenen güven derecesinde oluşturulan aralığa “güven aralığı” denilmektedir. İstenen güven derecesinde oluşturulan her bir aralık güven aralığıdır. Güven derecesi (1)100 ile gösterilmektedir. Güven derecesi olasılık olarak ifade edilecekse (1)olarak ifade edilmektedir ve buna “güven katsayısı” adı verilmektedir. Burada yer alan , “önem düzeyi”

olarak bilinmektedir. Önem düzeyi daha sonra incelenecek olan hipotez testleri konusunda detaylı olarak incelenecektir. Aralıklı tahmin yapılırken, bütün güven derecelerini seçmek mümkünse de genellikle %90, %95 veya %99 güven dereceleri kullanılmaktadır.

Aralıklı tahmin yapılırken istatistikçilerden bazıları güven derecesini yansıtmak üzere ana kitleye ait standart sapmanın bilinip bilinmediği kriterini esas almaktadırlar. Bu grup istatistikçilere göre, ana kitleye ait standart sapma biliniyorsa “z” değerlerinin, bilinmiyorsa

(16)

“t”* değerinin kullanılması gerekmektedir. “t” dağılımı ileriki bölümlerde daha ayrıntılı bir şekilde anlatılacaktır. Diğer gruptaki istatistikçiler ise, güven derecesini yansıtmak üzere örnek hacmi kriterini kullanmaktadırlar. Bu grup istatistikçiler, örnek hacmi büyük olduğunda

“z” değerlerinin, küçük olduğunda “t” değerlerinin kullanılması gerektiğini savunmaktadırlar.

Örnek hacmi 30’dan büyük olduğunda, örnek hacmi büyük, küçük olduğunda ise örnek hacmi küçüktür. Genellikle ana kitleye ait standart sapma bilinmediğinden biz örnek hacmi kriterini kullanacağız. Buna göre aralıklı tahminde kullanılan formüller aşağıda verilmiştir.

x

zS

x n30 (Ortalama için)

x

tS

x n30 (Ortalama için)

p± z

x

S np5 ve nq5 (Oran için)

Güven aralığı formüllerinde yer alan

x

zS ve

x

tS ifadeleri tahmine ait en büyük hata olarak bilinmektedir ve E harfi ile gösterilmektedir. Örnek olarak %95 güven derecesinde ana kitle ortalaması için “güven aralığı” oluşturduğumuzu düşünelim. %95 güven aralığının anlamı;

ortalamaya ait normal dağılım eğrisinde ana kitle ortalamasının her iki tarafında yer alan

xdeğerleri arasında kalan alanın 0.95 olmasıdır. İstenen güven derecesini yansıtacak “z”

değeri bulunurken verilen güven katsayısı (0.95) normal dağılım simetrik olduğundan 2’ye bölünmektedir. Bu değer 0.95/2=0.4750’dir ve standart normal dağılım tablosundan bakıldığında z=1.96’ya tekabül etmektedir.

0.4750 0.4750

-1.96 0 1.96

* “t” dağılımı standart normal dağılımdan daha yayvan olan özel bir dağılımdır. Bu dağılımın tek parametresi serbestlik derecesidir. Bu dağılımın ortalaması sıfır, standart sapması SD/(SD2)’dir. Örnek hacmi 30’u geçtiğinde (n>30), bu dağılım standart normal dağılıma dönüşür.

(17)

100 ) 1

(   güven düzeyinde, iki “z” değeri arasında (zxz) kalan alan )

1

(  ’ya eşittir. Standart normal dağılım altında kalan alan 1’e eşit olduğundan, eğrinin iki ucunda (kuyruğunda) kalan alan ’ya eşittir. Örneğimiz için bu 10.950.05’dir.

Eğrinin iki ucu (kuyruğu) olduğundan her bir uca düşen alan 2

 =0.0025’e eşittir.

1

2

 2

0

Örnek

Türkiye’de imalat sanayiinde çalışan bir işçinin ortalama kazancının 466.42 milyon TL/ay olduğu tespit edilmiştir. Bu ana kitleden tesadüfen seçilmiş 1000 işçinin aylık kazançlarına ilişkin standart sapma 70 milyon TL/ay olarak hesaplanmıştır. İmalat sanayiinde işçilerin ortalama aylık gelirlerine ait %95 güven derecesinde nokta tahminini ve %99 güven derecesinde güven aralığını tahmin ediniz?

Çözüm:

70 42 . 466 1000

x

S x n

Nokta tahmin ve hata sınırı

x± z

x

S 466.42(1.96)(70/ 1000) 466.424.339 Aralıklı tahmin

Güven katsayısı:0.99/2=0.4950 z = 2.58

x± z

x

S = 466.42 ± (2.58)(2.2136) = 466.42 ± 5.71 460.71<x<472.13

(18)

Türkiye’de imalat sanayiinde çalışan işçilerin ortalama geliri %99 olasılıkla 460.71 milyon TL ile 472.13 milyon TL arasındadır.

Örnek:

Süper marketler zinciri olan bir firma yeni bir mağaza açmak için alan aramaktadır.

Firma market açacağı alanın çevresinde yaşayan ailelerin ortalama gelirlerinin en azından yılda 5 milyar TL olmasını istemektedir. Bu firmanın araştırma bölümü bu alandan 25 aile ile görüşüp ortalama yıllık gelirlerinin 4.5 milyar TL olduğunu ve buna ait standart sapmanın 450 milyon TL olduğunu tespit etmişlerdir. Ailelerin yıllık ortalama gelirleri için %95 güven derecesinde güven aralığını oluşturun? Milyar TL bu aralığa girmekte midir? Bu sonuca göre firma bu alanda market açmalı mıdır?

Çözüm:

25 n 5 .

4

x milyar TL/yıl 45

.

0

S milyar TL/yıl

09 . 0 25 / 45 .

0 

x

S

n<30 olduğundan burada güven derecesini yansıtmak için “t” değeri kullanılmalıdır.

Serbestlik derecesi (SD) = n-1=25-1=24’dür. “t” dağılımının her iki ucundaki güven derecesini bulmak için güven derecesi 2’ye bölünür 0.95/2=0.4750. Buna karşılık gelen “t”

değeri 2.064’dür.

186 . 0 5 . 4 ) 09 . 0 )(

064 . 2 ( 5 .

4   

x

tS x

686 . 4 314

.

4  x

Dolayısıyla 5 milyar TL %95 ihtimalle bu aralığa düşmemektedir. Bu sebeple bu alanda market açılmamalıdır.

(19)

Örnek:

Herhangi bir gıda firması piyasaya yeni bir bisküvi çeşidi sürecektir. Firma ürünü piyasaya sürmeden önce müşterilerin ne oranda bu bisküviden hoşlanacağını merak etmektedir. Firmanın araştırma bölümü tesadüfi olarak seçilmiş 500 kişiye yeni bisküviyi tattırıyor ve tadını nasıl bulduklarını öğreniyor. İncelene 500 kişiden 290 kişi yeni bisküviyi beğendiğini söylüyor.

a) Ana kitle oranı için nokta tahmini yapınız ve %95 güven derecesinde buna ait hata sınırını belirleyiniz.

b) %99 güven düzeyinde, insanların yüzde kaçının bu bisküviden hoşlanacağını bulunuz?

Çözüm:

a)

500 n

42 . 0 58 . 0 1

58 . 0 500 / 290

q p

0221 . 500 0

) 42 . 0 )(

58 . 0

( 

n

q S p

p

Hata sınırı = 0.58 ± (1.96)(0.0221)= 0.58 ± 0.043

b)

0.99/2= 0.4950 z 2.58 057 . 0 58 . 0 ) 0221 . 0 )(

58 . 2 ( 58 .

0   

p

zS p

637 . 0 523

.

0  x

%95 güven aralığında insanların %52.2’si ile %63.7’si yeni bisküviden hoşlanacaklar.

6.2.1. Tahminin özellikleri

Hata payı düşük olan tahmin en iyi tahmindir. Diğer bir ifade ile parametre ile örnek istatistiği arasındaki farkın en az olması istenmektedir. Tahminlerin iyi veya kötü olduğuna karar vermede (i) sapmasızlık, (ii) tutarlılık ve (iii) etkinlik olmak üzere üç temel kriter kullanılmaktadır. Ana kitle parametresi ile örnekten hesaplanan istatistik arasındaki fark, tahmine ait sapmayı göstermektedir ve bu sapmanın mümkün olduğu kadar küçük olması istenmektedir. O halde iyi bir tahmin mümkün olan en küçük sapmaya sahip olmalıdır.

(20)

Örnekten elde edilen tahminlerin, mümkün olduğunca ana kitle parametresine yığılma göstermesi gerekmektedir. Başka bir ifade ile, tahminlerin varyansı yani standart sapması olabildiğince küçük olmalıdır.

Tahminin üçüncü özelliği ise tutarlılıktır. Eğer örnek hacmi arttıkça, örnekten hesaplanan tahmin değerleri ana kitle parametreleri etrafında giderek yığılma gösteriyorsa, bu tahminin tutarlı olduğunu göstermektedir.

b

b b

b Sapmasız tahmin Sapmalı tahmin

b

b b

b Etkin tahmin Etkin olmayan tahmin

n1

n2

b Tutarlı tahmin (n1>n2)

(21)

6.3. Tahmin İçin En Uygun Örnek Hacminin Belirlenmesi

Örnekleme yapabilmek için izin verilen hata payının ve güven derecesinin bilinmesi gerektiği daha önce belirtilmişti. Şu ana kadar örneklerin ana kitleden nasıl çekileceği konusu incelenmişti, ancak ana kitleyi temsil edecek örnek büyüklüğünün nasıl belirlendiği açıklanmamıştı. Şimdi ana kitleyi temsil edecek örnek büyüklüğünün nasıl belirleneceği ana kitleye ait ortalama ve oranın tahmini için ayrı ayrı incelenecektir.

6.3.1. Ortalamanın tahmininde örnek hacminin belirlenmesi Daha önce tahmine ait en büyük hatanın 

x

z

E  olduğu ve örnekleme dağılımına ait standart sapmanın

n

x

   formülü ile hesaplandığı belirtilmişti. Bu durumda en büyük hata

payına ait formül z n

E

 . şekline dönüşmektedir. Ortalamanın tahmini için öncelikle izin verilen hata payının ve istenen güven derecesinin önceden ilgili kişi tarafından belirlenmesi koşuluyla en uygun örnek büyüklüğü aşağıdaki formül yardımıyla belirlenmektedir.

2 2 2

E nz

Formülde n gerekli örnek büyüklüğünü, ana kitleye ait standart sapmayı, z istenen güven derecesini yansıtan standart normal dağılım tablosundaki değeri ve E ortalamadan izin verilen en büyük hata miktarını ifade etmektedir.

Eğer ana kitleye ait standart sapma bilinmiyorsa, ana kitleden çekilen çok küçük bir örnek için hesaplanan standart sapma değeri (S) formülde kullanılabilmektedir.

Örnek:

Türkiye’de %99 güven derecesinde ortalama aile büyüklüğünün tahmin edilmeye çalışıldığını varsayalım.Ortalama aile büyüklüğüne ait standart sapmanın 0.6 olduğu bilindiğine göre, ortalamadan izin verilen en büyük hata %1 ise en uygun örnek büyüklüğü nedir?

Çözüm:

01 . 0

01 . 0

E x

%99 güven derecesi için z = 2.58 olduğuna göre,

(22)

23964 04

. 23963 )

01 . 0 (

) 6 . 0 ( ) 58 . 2 (

2 2 2 2

2 2

E

n z

örnek hacmi 23964 olarak bulunur. Yani Türkiye’de ortalama aile büyüklüğünü %99 güven derecesinde ve izin verilen en büyük hata %1 olacak şekilde tespit etmek için 23964 kişi ile anket yapılmak zorundadır.

6.3.2. Oranın tahmininde örnek hacminin belirlenmesi

Daha önce oranın tahminine ait en büyük hatanın 

p

z

E  olduğu ve orana ait

örnekleme dağılımına ait standart sapmanın

n pq

p

formülü ile hesaplandığı belirtilmişti.

Bu durumda en büyük hata payına ait formül

n z pq

E  . şekline dönüşmektedir. Oranın tahmini için öncelikle izin verilen hata payının ve istenen güven derecesinin önceden ilgili kişi tarafından belirlenmesi koşuluyla en uygun örnek büyüklüğü aşağıdaki formül yardımıyla belirlenmektedir.

2 2

E pq n  z

Formülde n gerekli örnek büyüklüğünü, p ana kitle içinde istenen durumun oranını, q ana kitle içinde istenmeyen durumun oranını, z istenen güven derecesini yansıtan standart normal dağılım tablosundaki değeri ve E orandan izin verilen en büyük hata miktarını ifade etmektedir.

Eğer ana kitleye ait p bilinmiyorsa, bu durumda ya p q0.5olarak kabul edilip hesaplama yapılamalı, ya da küçük bir örnek çekilerek p ve

q hesaplanmalı ve formülde kullanılmalıdır.

Örnek:

Saat üreten bir firma, saat yapımında kullanılan bir parçayı yapan yeni bir makine kurmuştur. Firma bu makinenin hatalı parça üretme oranını tahmin etmek istemektedir. Firma yöneticisi bu tahmini yaparken orandan izin verdiği en büyük hata payı %2’dir ve bunu %95 güven derecesinde gerçekleştirmek istemektedir. En uygun örnek hacmi nedir?

(23)

Çözüm:

02 . 0

02 . 0

E p

%95 güven derecesi için z = 1.96 olduğuna göre, p0.5 ve q0.5 kabul edilirse

) 2401 02 . 0 (

) 50 . 0 )(

50 . 0 ( ) 96 . 1 (

2 2 2

2

E

pq n z

örnek hacmi 2401 olarak bulunur. Yani firma %95 güven derecesinde ve izin verilen en büyük hata %2 olacak şekilde arızalı parça oranını tespit etmek için 2401 parça almak zorundadır.

6.4. Hipotez Testi ve Test Dağılımları

Hipotez testi, örnekten elde ettiğimiz bilgilere dayanarak, ana kitle parametresinin doğru olup olmadığını ortaya koymak amacıyla kullanılmaktadır. Hipotez testine neden gerek duyulur? Bu sorunun cevabını bir örnekle açıklamaya çalışalım. Örneğin meşrubat üreten bir firmanın meşrubat şişelerinin ortalama 120 ml’dir. Firmanın ürettiği meşrubatlardan 100 şişelik bir örnek aldığımızı ve bunun ortalamasının 119 ml olduğunu düşünelim. Buna dayanarak firmanın halkı yanılttığını söyleyebilir miyiz? Elbette böyle bir yargıyı hemen veremeyiz. Çünkü ana kitle ortalaması ile örnek ortalaması arasındaki fark tesadüften ve örnekleme hatasından kaynaklanabilir. Bu sebeple hipotez testi yapmadan, yani ana kitle ortalaması ile örnek ortalaması arasındaki farkın tesadüften kaynaklanıp, kaynaklanmadığı ortaya konulmadan kesin hükümler vermek bizi yanlışlara sevk edecektir.

İstatistik açıdan hipotez testi aşağıda belirtilen ve birbirine bağlı olan 5 farklı basamakta gerçekleştirilmektedir.

1. Başlangıç ve alternatif hipotezin oluşturulması

2. Hipotez testinde kullanılacak test dağılımının seçilmesi 3. Kabul ve red bölgelerinin belirlenmesi

4. Test istatistiğinin hesaplanması 5. Karar verilmesi

(24)

6.4.1. Hipotezlerin oluşturulması

Hipotez testi yapılırken bir tanesi “başlangıç hipotezi”, diğeri ise “alternatif hipotez”

olmak üzere iki hipotez kullanılmaktadır. Bu hipotezleri anlamak için istatistik dışında bir örnek kullanalım. Şimdi bir kişinin cinayet suçuyla tutuklandığını ve mahkemeye çıkarıldığını düşünelim. Mahkeme mevcut kanıtlara dayanarak aşağıda belirtilen iki sonuçtan birine ulaşacaktır.

1. Bu kişi suçsuzdur.

2. Bu kişi suçludur.

Mahkeme sonuçlanıncaya kadar bu kişinin suçsuz olduğu kabul edilir. Savcılar bu kişinin cinayeti işlediğini, yani bu kişinin suçlu olduğunu ispatlamaya çalışırlar. İstatistikte

“bu kişi suçsuzdur” ifadesi başlangıç hipotezi ve “bu kişi suçludur” ifadesi ise alternatif hipotezdir. Başlangıç hipotezi H , alternatif hipotez ise 0 H1ile gösterilmektedir. Başlangıç hipotezi daima ana kitleye ait ilk ifadenin doğru olduğunu kabul etmektedir. Alternatif hipotez ise, bu ifadenin yanlışlığını gösterir. Özetle, istatistikte daima bir şeyin doğru olduğunu ispatlamak yerine, onun yanlış olduğunu ispatlamak esastır. Şimdi bu bilgiler ışığında hipotezlerimizi yazalım:

Başlangıç hipotezi H0: Bu kişi suçsuzdur Alternatif hipotez H1: Bu kişi suçludur

Şimdi birde istatistikle ilgili bir örnekle konuyu daha iyi anlamaya çalışalım. Hipotez testi konusunun başlangıcında verilen meşrubat örneğinde, firma bir meşrubat şişesinin ortalama  120 ml olduğunu savunuyordu. Oysa örnekten bir şişe için hesaplanan ortalama

119

x ml’dir. Bu durumda hipotezler aşağıdaki gibi olacaktır:

120

0: 

H (Firmanın ifadesi doğru) 120

1:

H (Firmanın ifadesi yanlış)

6.4.2. Test dağılımları

İstatistik açıdan hipotez testi yapılırken, kullanılacak test dağılımının belirlenmesi ikinci basamağı meydana getirmektedir. Test istatistiği seçilirken hipotez testinin ne amaçla yapıldığının ve eldeki verilerin özelliğinin ne olduğunun bilinmesi gerekmektedir.

(25)

İstatistikte genellikle aşağıda belirtilen üç farklı olayın veya sonucun ihtimali belirlenmeye çalışılmaktadır;

1) Ana kitleden çekilen örneklerin belirli bir özellik açısından ana kitleyi temsil edip etmediği,

2) Belirli bir değişken açısından gruplar arasında fark olup olmadığı yani, iki örnek ortalamasının veya ortalamalar arasındaki farkın farklılığı tesadüften mi kaynaklandığı yoksa gerçek mi,

3) İki değişken arasında istatistik açıdan önemli bir ilişki olup olmadığı.

Hangi istatistik test kullanılacağına karar verilirken öncelikle hipotez testinin ne amaçla yapıldığına karar verilmelidir. İlgilenilen değişken için gruplar arasında fark olup olmadığı ile mi ilgileniliyor, yoksa değişkenler arasında ilişkinin varlığımı belirlenmeye çalışılıyor. İlişki testleri iki değişken arasında ilişki olup olmadığını incelerken, farklılık testleri ilgilenilen değişken bakımından gruplar arasında fark olup olmadığını incelemektedir.

İkinci olarak veri setinde bulunan verilerin düzenlenmiş olup olmaması kullanılacak testin seçimi açısından büyük önem taşımaktadır. Sınıflandırılmış verilerde, daha çok her bir gruba giren frekanslar ilgi odağı olmaktadır. Sınıflandırılmamış verilerde ise merkezi eğilim veya merkezi yayılma ölçüleri ile tanımlanan veriler üzerinde çalışılmaktadır. Test seçiminde dikkat edilmesi gereken üçüncü husus, verilerin dağılımına ilişkin bir varsayımın yapılıp yapılmadığı ile alakalıdır. Parametrik testler verilerin dağılımına parametrik olmayan testlerden daha bağlıdır. Parametrik testlerin kullanılabilmesi için, değişken ölçüm düzeyinin oran veya aralık olması, verilerin normal dağılım göstermesi veya normal dağılıma yakın bir dağılıma sahip olması ve homojen varyans olması gerekmektedir (Boneu, 1960; Wilcox, 1987). Oysa parametrik olmayan testlerde verilerin dağılımı daha az önem taşımaktadır ve bu sebeple dağılımdan bağımsız testler olarak ta bilinmektedirler. Amacımıza ulaşabilmek için parametrik mi yoksa parametrik olmayan testler kullanılacağına karar verirken, sahip olunan verilerin ölçüm düzeyi büyük önem taşımaktadır. Genellikle sınıf ve sıra verilerde parametrik olmayan testler kullanılıyorken, aralık ve oran verilerde parametrik testler kullanılmaktadır.

Ancak zaman zaman oran/aralık veriler ile sıra/sınıf veriler birbiri ile karşılaştırılmaktadır. Bu durumda her iki test grubunu da kullanmak mümkün olabilmektedir. Lord (1953) parametrik testlerin sıra verilere de uygulanabileceğini savunmuştur. Dördüncü olarak, iki veya daha fazla grup karşılaştırılıyorken, bu grupların birbirinden bağımsız gözlemleri mi içerdiği, yoksa karşılaştırılan grupların verileri arasında ilişkimi olduğu bilinmelidir. Zira bu durum test

(26)

seçimini doğrudan doğruya etkilemektedir. Test seçiminde dikkat edilecek son husus, karşılaştırılan grup sayısı ile alakalıdır. Grup sayısı arttığında kullanılan testler ile, az olduğunda kullanılan testler birbirinden farklılık göstermektedir.

Veri setinde bulunan gözlemlerin dağılımının beklenen teorik bir dağılıma uyup uymadığının test edilmesinde “uygunluk (Goodness of fit) testi” kullanılmaktadır. Ayrıca her hangi bir veri setinde bulunan gözlemlerin dağılımının normal olup olmadığının belirlenmesinde eğrilik ve diklik katsayılarından yararlanılmaktadır. Öncelikle ilgili katsayılar hesaplanmakta, daha sonra istatistik hipotez testi ile dağılımın normal olup olmadığı test edilmektedir.

İki veya daha fazla grubu birbiri ile karşılaştırmada kullanılan testler ise Çizelge 6.3’te özetlenmiştir.

Çizelge 6.3. Gruplar Arasında Farklılık Olup Olmadığının Belirlenmesinde Kullanılan Testler

Veri özelliği Test tipi Veri tipi Grup

sayısı Test adı

Sınıflandırılmış Parametrik olmayan İlişkisiz

İlişkili

1 1 2 2+

2 3+

Binomial Ki kare testi

Fisher tam olasılık testi Ki kare testi

McNemar Testi Cochran Q testi Sınıflandırılmamış Parametrik olmayan İlişkisiz

İlişkili

1 2 2 2+

3+

2 2 3+

Kolmogorov-Simirnov tek örnek testi

Kolmogorov-Simirnov çift örnek testi

Mann-Whitney U testi Medyan testi

Kruskal-Wallis H testi İşaret testi (sign test)

Wilcoxon işaretli mertebeler testi Friedman two way anova

Parametrik İlişkisiz

İlişkili

İlişkili/ilişkisiz 1 2 2+

2 3+

2+

t testi t testi

Tek ve Çift Yönlü varyans analizi T testi

Basit faktöryel varyans analizi Tek yönlü kovaryans analizi

İki yönlü basit faktöryel ilişkisiz varyans analizi

Değişkenler arasında istatistik açıdan önemli bir ilişkinin olup olmadığı konusu da istatistikte sık incelenen konuların başında gelmektedir. Değişkenler arasında ilişki olup olmadığının belirlenmesinde kullanılan testler Çizelge 6.4’te verilmiştir.

(27)

Çizelge 6.4. Değişkenler Arasında İlişki Olup Olmadığının Belirlenmesinde Kullanılan Testler

Veri özelliği Test tipi Test adı

Sınıflandırılmış Parametrik olmayan

Phi katsayısı

Pearson olağanlık katsayısı (contingency coefficient) Cramer V

Goodman ve Kruskal lamda ()ölçüsü Goodman ve Kruskal tau değeri ()

Sınıflandırılmamış

Parametrik olmayan

Kendall tau () a değeri Kendall tau () b değeri Kendall tau () c değeri

Goodman ve Kruskal gama () ölçüsü (tek yönlü simetrik ilişki ölçümü) Somer d değeri (asimetrik ilişki ölçümü)

Spearman sıra korelasyon katsayısı Mantel-Haenszel ki kare

Kendall kısmi sıra korelasyon katsayısı Kısmi gama () ölçüsü

Parametrik Pearson moment korelasyonu Pearson kısmi korelasyonu Eta değeri

Standartlaştırılmamış regresyon katsayısı Standartlaştırılmış regresyon katsayısı Part korelasyon

Hipotez testinde test dağılımları olarak (i) z dağılımı, (ii) t dağılımı, (iii) Ki kare )

(2 dağılımı ve (iv) F dağılımı olmak üzere 4 farklı dağılım kullanılmaktadır. Şimdi bu dağılımları ayrı ayrı inceleyelim.

1. z dağılımı:

Daha önceki bölümlerde standart normal dağılım olarak incelediğimiz bu dağılım, normal dağılımın özel bir halidir. Standart normal dağılımın ortalaması ()sıfır ve standart sapması () 1’dir. Bu dağılımda değerler, sürekli tesadüfi değişkenin değerinin temsil eden

“z” değerleridir. “z” değeri aynı zamanda “standart birim” veya “standart skor” olarak da isimlendirilmektedir. “z” değerleri, tesadüfi değişkenlerin ortalamadan standart sapma olarak uzaklıkları ifade etmektedir. Örneğin z=2 ise, bu değer ortalamanın 2 standart sapma sağındaki değeri ifade etmektedir. “z” değerleri 0 ile 3.90 arasında değişen değerler almaktadır. Standart normal dağılımdan yararlanarak iki değer arasında kalan alanı bulmak

(28)

için hazırlanmış olan “z” tablosundan yararlanılmaktadır. “z” tablosunda satırlar virgülden sonra bir duyarlılığa sahip “z” değerlerini sütunlar ise virgülden sonraki duyarlılıkları ifade etmektedir. Bu tablo kullanılırken ilgili z değerinin karşısında bulunan değer 0 ile ilgilenilen

“z” değeri arasında kalan alanı vermektedir.

Eğer ana kitleye ait standart sapma biliniyorsa veya örnek hacmi yeterince büyükse (n>30), test dağılımı olarak “z dağılımı” kullanılmalıdır.

2. t dağılımı

Sürekli bir olasılık dağılımı olan t dağılımı, standart normal dağılımın özel bir halidir.

t dağılımı standart normal dağılımdan daha yayvan olan özel bir dağılımdır. Bu dağılımın tek parametresi serbestlik derecesidir. Bu dağılımın ortalaması sıfır, standart sapması

) 2 /(SD

SD ’dir. Örnek hacmi 30’u geçtiğinde (n>30), bu dağılım standart normal dağılıma dönüşmektedir. t dağılımın ait eğrinin şekli serbestlik derecesine bağlıdır. Bu dağılımın serbestli derecesi örnek hacminin 1 eksiğine eşittir (SD n1). t dağılımında kullanılacak olan test istatistiği bulunurken serbestlik derecesi ve güven katsayıları için hazırlanmış t tablosundan yararlanılmaktadır. t tablosu tek taraflı hazırlanabileceği gibi, çift taraflı olarak da hazırlanabilmektedir. Tablo tek taraflı hazırlandığında, t dağılımı simetrik olduğundan bulunan t değeri negatif taraf için negatif, pozitif taraf için pozitif olup birbirine eşittir.

Hipotez testlerinde ana kitleye ait standart sapma bilinmediğinde, örnek hacmi küçük olduğunda (n<30) ve ana kitleden çekilen örnekler normal veya normale yakın dağıldıklarında t dağılımı kullanılmaktadır.

3. Ki kare ( ) dağılımı 2

Ki kare dağılımı simetrik olmayıp sağa çarpık olan sürekli bir olasılık dağılımıdır.

Serbestlik derecesi (n-1) arttıkça çarpıklık azalmaktadır. Her bir serbestlik derecesi için ayrı bir  dağılımı söz konusudur. Serbestlik derecesi 30’dan büyük olan 2  dağılımları simetrik 2 hale gelmekte ve normal dağılıma dönüşmektedirler. Aşağıda farklı serbestlik dereceleri için ki kare  dağılımının şekli gösterilmiştir. 2

 dağılımı ikiden fazla grup olan deneme sonuçlarına ait hipotezlerin test 2

edilmesinde, çapraz tablolar oluşturularak bağımsızlık testlerinin yapılmasında, homojenlik

(29)

testinin gerçekleştirilmesinde ve ana kitleye ait varyans veya standart sapmaların karşılaştırılmasında kullanılmaktadır.

SD=1

SD=4 SD=20

Farklı Serbestlik Derecelerinde  Dağılımları 2

 dağılımı özellikle ikiden fazla sonuca sahip denemelerde hipotez testini 2

gerçekleştirmek için kullanılmaktadır. Bu denemelerin 4 temel özelliği bulunmaktadır.

Bunlardan birincisi n sayıda denemenin yapılıyor olmasıdır. İkinci olarak her bir denemenin 2’den fazla sonucu bulunmaktadır. Denemelerin bağımsız olması ise üçüncü temel özelliği oluşturmaktadır. Son olarak olasılılar deneme boyunca sabit olmaktadır. Bu tür denemeler

“multinomial deneme” adı verilmektedir. Tesadüfen seçilmiş kişilere “amerikan otomobili”

“japon otomobili” nden daha iyi midir şeklinde sorulsa, kişilerin bu soruya vereceği cevap evet, hayır veya karasızım olacaktır. Bu örnekte soru yöneltilen her bir kişi deneme sayısını ifade etmektedir ve kişilerden alınan cevapları ikiden fazla sonucu kapsamaktadır. Ayrıca her bir kişinin verdiği cevapta birbirinden bağımsızdır. Dolayısıyla bu multinomial denemeye iyi bir örnek teşkil etmektedir. Bu gibi durumlarda  dağılımı hipotez testi için 2 kullanılmaktadır. Burada gözlenen frekansların beklenen teorik bir dağılıma uyup uymadığı test edilmektedir (Goodness of fit test).  dağılımı aynı zamanda bağımsızlık testi ve 2 homojenlik testi içinde kullanılmaktadır.

4. F dağılımı:

İki farklı örnekten veya ana kitleden hesaplanan varyansın karşılaştırılmasında F dağılımı kullanılmaktadır. F dağılımı v ve 1 v2 olmak üzere iki tam sayılı parametresi olan sürekli bir olasılık dağılımıdır. v payın serbestlik derecesini, 1 v2 ise paydanın serbestlik derecesini ifade etmektedir. F dağılımı simetrik olmayan, sağa çarpık bir dağılımdır. Her bir

(30)

serbestlik derecesi çifti için farklı bir dağılım olduğundan çok sayıda F dağılımı vardır. Örnek hacimleri birbirinden farklı iki örnekten hesaplanan varyansların karşılaştırılmasında 2

2 2 1

S F  S

eşitliği kullanılmaktadır. Bu oranın normal koşullarda 1 olması beklenmektedir. Ancak bu oran genellikle birden farklıdır ve dolayısıyla çok sayıda F değeri mevcuttur. Bu F değerlerinin gösterdiği dağılım ise F dağılımıdır.

F Dağılımı F

F dağılım tablosundan yararlanırken iki farklı serbestlik derecesi olduğu unutulmamalıdır. İlgili serbestlik derecelerine ait F değeri F(v1, v2) şeklinde gösterilmektedir.

F tablosunda sütunlar paya ait (v ), satırlar ise paydaya aittir (1 v2). Bu durumda eğer F(7, 15) için F tablosundan F değeri bulunacaksa tabloya aşağıdaki gibi bakılır:

SD ... 7

15 ... (F)

İstatistikte kullanılan testleri, kullandıkları test dağılımlarına göre de sınıflandırmak mümkündür. Kullandıkları test dağılımlarına göre istatistik testler Çizelge 6.5’te verilmiştir.

(31)

Çizelge 6.5. Kullandıkları Test Dağılımlarına Göre İstatistik Testler

Test dağılımı Test adı

Binomial

Ki kare

F

t

z

Binomiyal (n<26, p=0.5) İşaret testi (<26 fark) Ki kare testi

Pearson olağanlık katsayısı Friedman 2 yönlü varyans analizi

Tek yönlü kolmogorov-simirnov testi (n1+n2<60) Kruskal-Wallis testi

McNemar testi Medyan testi Phi katsayısı

Varyans ve kovaryans analizi

2 ve daha fazla grupta eş varyans analizi Çoklu korelasyon

Çoklu regresyon

Regresyon katsayılarının testi 2 gruplu ortalama karşılaştırmaları Pearson korelasyon katsayısı Spearman Rho

Kendall tau c

Eğrilik katsayısının testi Diklik katsayısının testi Mann-Whitney U (n1+n2<20) İşaret testi (>25 fark)

Wilcoxon testi (>25 fark)

6.4.3. Kabul ve red bölgeleri

Hipotez testi gerçekleştirilirken üçüncü işlem başlangıç hipotezi için kabul ve red bölgelerinin belirlemektir. Kabul ve red bölgelerinin belirlenmesi için “kritik değer” veya

“kritik nokta” nın (C) tespit edilmesi gerekmektedir. Kritik nokta öyle bir noktadır ki, bu noktanın bir tarafında başlangıç hipotezi kabul edilmekte, diğer tarafında ise red edilmektedir.

İstatistikte başlangıç hipotezinin red edilmesi ile alternatif hipotezin kabul edilmesi aynı şeyi ifade etmektedir. Eğer hipotez testi iki taraflı yapılıyorsa iki kritik nokta, tek taraflı yapılıyorsa tek bir kritik nokta bulunmaktadır. Aşağıda kritik nokta, kabul ve red bölgeleri şekil üzerinde gösterilmiştir.

(32)

Kabul bölgesi

Red bölgesi Red bölgesi

C1  C2

Kritik nokta Kritik nokta

ÇİFT TARAFLI Kabul bölgesi

Red bölgesi

 C1

Kritik nokta TEK TARAFLI (Pozitif) Kabul bölgesi

Red bölgesi

C1

Kritik nokta

TEK TARAFLI (Negatif)

Referanslar

Benzer Belgeler

 Tabloda görüleceği üzere, üç omik verinin entegrasyonu yaklaşımını kullanması nedeniyle çalışmamızla paralellikler arz eden ilk yayın olan Lagerstedt ve

Combines system and signal models, parameter estimation, computational alternatives for recursive parameter estimation, self-tuning PID control strategies, minimum variance

Eleman örnekleme: Evrendeki elemanların, tek tek eşit seçilme şansına sahip oldukları durumda yapılan örneklemedir.. Oransız (basit tesadüfi, yansız-yalın örnekleme)

Sonlu sayıda örneklemeden elde edilmiş olan bu gibi bir rastgele değişken değerlerinin, dağılımı daha önceden belli bir olasılık seviyesine göre verilmiş

Şekil 9.1.5 Örnek (9.1.2) deki hipotez testi propblemi için testin red bölgesi ve red bölgesinin alanı (   0.05 ).. Yani,   0.05 anlam düzeyinde birinci grup ikinci

 Evrenden elde edilen verilerden hesaplanan ve evreni betimlemek için kullanılan.. değerlere evren değer yada

Bir-eksiltmeli ÇG yöntemi toplam n adet model tahmini içerirken k -kat ÇG yalnızca k adet tahmin i¸slemine gerek duyar.. Ancak hesaplamasal kolaylık bir yana, k -kat ÇG’nin

Deney grubunda eğitim sonunda KKMM yapan kişi sayısı eğitim öncesinden daha yüksektir (H1 tek yönlü).