ANT 339
İSTATİSTİĞE GİRİŞ IX. HAFTA
PROF. DR. BAŞAK KOCA ÖZER
frekans
• Araştırmacı tarafından gözlenerek/kaydedilerek
toplanan işlenmemiş, anlamlı hale getirilmemiş sayılar yığınına “ham veri” adı verilir.
• Ham verilerin düzenlenmesinde kullanılan en basit yol frekans tablosu hazırlamaktır.
• Tablo, bütün halindeki verilerden kolaylıkla anlam çıkarabilir.
• Tablo
• Veriler büyükten-küçüğe / küçükten-büyüğe sıralanır
• Frekans sütunu doldurulur.
frekans
• sıklık dağılımı
• incelenen verinin aynı özelliklere sahip birimleri
kümeler halinde bir araya getirme işlemine sınıflama denir.
• bir sınıfa düşen veri sayısı o sınıfın frekansıdır.
• verilerin düzenlendiği çizelgelere frekans çizelgeleri,
oluşturdukları çizgisel biçime de frekans dağılımları
denir.
FREKANS DAĞILIMLARI
• Data seti toplandıktan sonra analiz için anlaşılabilir şekilde düzenlenir ve frekans dağılımları ile
grafiklerden yararlanılır.
• Grafik; veriyi şekil ya da dağılım açısından görülür halde sunumu
• Frekans dağılımı; verinin kategoriler halinde, gözlem sayılarının listelenerek gruplandırılması
• Ayrıca frekans dağılımları kümülatif frekans sütunu
gibi ek bilgiler içerebilir
FREKANS DAĞILIMLARI
• Frekans dağılımlarının oluşturulması
• 1- tamam tanımlayıcı neden
• 2- büyük data setlerinin elde hesaplandığı durumlar
nicel değişkenlerin frekans dağılımı
Kırsal alan çalışması Şehir alan çalışması
Dil f % cf cf% f % cf cf%
İspanyol
ca 17 19.5
4 17 19.5
4 65 50 65 50
İngilizce 65 74.7
1 82 94.2
5 65 50 130 100
Tercih
yok 5 5.75 87 100 - - - -
n=8
7 100
% n=13
0 100
Costa Rica Amerika yerlileri üzerinde bir çalışmada şehir/kırsal alanda yaşayan % bireylerin tercih ettikleri dil araştırılmış.
İlk basamak: veri kategorilere ayrılmalı
İkinci basamak: her bir kategoriye düşen frekans belirlenmeli (f), bu
sütunun toplamı “n”i vermeli. Şehir/kırsal n sayıları farklı olduğundan % farklı bir sütunda verilmeli. (f/n)*100
Üçüncü basamak: son iki sütun oluşturulur. Kümülatif frekans (cf) ve
kümülatif yüzde (cf%). (17+65=82; 82+5=87) ve [(17/87)*100=19.54%]
ve [(82/87)*100=94.25%]
nicel değişkenlerin frekans dağılımı örnek
Hemoglobin fenotipi f % cf cf%
AA 108
AS 22
SS 1
SC 2
AC 3
SF 1
Yukarıda hemoglobin fenotiplerinin gözlenen frekansları verilmiştir. Tam
frekans dağılımını oluşturunuz.
nicel değişkenlerin frekans dağılımı örnek
Hemoglobin
fenotipi f % cf cf%
AA 108 78.8
3 108 78.8
3
AS 22 16.0
6 130 94.8
9
SS 1 0.73 131 95.6
2
SC 2 1.46 133 97.0
8
AC 3 2.19 136 99.2
7
SF 1 0.73 137 100
%
nümerik süreksiz değişkenlerin frekans dağılımı
Doğum sayısı Kadın sayısı
0 62
1 31
2 26
3 37
4 30
5 32
6 18
7 37
8 19
9 20
10 20
11 17
Süreksiz nümerik
değişkenlerin frekans dağılımı, nicel
değişkenlerdeki
yöntemle oluşturulur.
Ancak büyük veri ile
çalışılırken kategoriler 0- 2, 3-4, 5-7 ve 7+ vb.
sınıflandırılır.
Solda Shipibo
yerlilerindeki (Peruian
Amazon) (15+ yaştaki
kadınlar) doğurganlıkla
ilgili veri sunulmuştur.
nümerik süreksiz değişkenlerin frekans dağılımı
Doğum
sayısı f % cf cf%
0 62 17.7 62 17.7
1 31 8.9 93 26.6
2 26 7.4 119 34.0
3 37 10.6 156 44.6
4 30 8.6 186 53.2
5 32 9.2 218 62.4
6 18 5.2 236 67.6
7 37 10.6 273 78.2
8 19 5.4 292 83.6
9 20 5.7 312 89.3
10 20 5.7 332 95.0
11 17 5.0 349 100.0
n=349
nümerik süreksiz değişkenlerin frekans dağılımı
• nicel vasıflara göre yapılan gruplamada gruplara
“sınıf”
• gruba girebilecek en küçük değere “ sınıf alt sınırı”
• en büyük değere de “sınıf üst sınırı”,
• bunlar arasındaki farka “sınıf aralığı”
• sınıf sınırlarının aritmetik ortalamasına “sınıf ortalaması” adı verilir
• “sınıf orta noktası” h er iki limitin farkının 2ye bölümünün
alt sınırla toplamı
nümerik süreksiz değişkenlerin frekans dağılımı
Doğum
sayısı Kadın sayısı
0 62
1 31
2 26
3 37
4 30
5 32
6 18
7 37
8 19
9 20
10 20
11 17
Örnek:
ilk aralık limiti: 0-2 arası
(2-0)/2=1; 1+0=1
İkinci aralık 3-5 arası
(5-3)/2=1; 1+3=4
Sınıf aralığı
Orta nokta
f % cf cf
%
0-2 1
3-5 4
nümerik süreksiz değişkenlerin frekans dağılımı
Doğum sayısı Kadın sayısı
0 62
1 31
2 26
3 37
4 30
5 32
6 18
7 37
8 19
9 20
10 20
11 17
Sınıf
Aralığı Orta
nokta f % cf cf%
0-2 1 119 34.1 119 34.1
3-5 4 99 28.4 218 62.5
6-8 7 74 21.2 292 83.7
9-11 10 57 16.3 n=349 100.0 n=349 100%
Gruplama
• Bir özelliğin birbirine yakın olan verilerini bir araya getirmedir.
• Ör. meslek istatistikleri
• serbest çalışan doktor, avukat, diş hekimi, tüccar gibi meslekler “serbest meslekler” grubuna alınmaktadır.
Gruplama ile toplanan veriler hakkında daha geniş ve açık bilgiler alınabileceği gibi, her gruba düşen frekans sayısı da büyür.
• Nicel vasıflara göre yapılan gruplamada gruplara “sınıf”, gruba
girebilecek en küçük değere “ sınıf alt sınırı”, en büyük değere
de “sınıf üst sınırı”, bunlar arasındaki farka “sınıf aralığı” ve
sınıf sınırlarının aritmetik ortalamasına “sınıf ortalaması” adı
verilir.
Tablo 2. Bir bölgedeki şehir nüfuslarına göre gruplandırılarak 30 şehrin frekans dağılımları
Nüfus grupları(*1000 kişi) şehir sayısı(frekans)
3000 - 4000 den az 6
4000 - 5000 den az 6
5000 - 6000 den az 4
6000 - 7000 den az 6
7000 - 8000 den az 2
8000 - 9000 den az 4
9000 ve üzeri 2
Yukarıdaki örnekte 3000-4000 den az sınıfının alt sınırı ”3000”, üst sınırı “4000” , sınıf aralığı “ 4000-3000=1000” ve ortalaması
“(3000+4000)/2=3500” olarak bulunur. “9000 ve üzeri” sınıfı ise açık sınıf aralığı olarak tanımlanır.
Seriler
• Zaman ve mekan serileri
• Mekan serisi örneği-bazı illerin deniz seviyesinden
yüksekliği
• Zaman serisi
• Yıllara göre Türkiye nüfusu
Yıl Nüfus(milyon)
1950 20,9
1955 24,1
1960 27,8
1965 31,4
1970 35,6
Basit-frekans ve sınıflandırılmış serilere örnek
Tablo. Bir doğumevinde doğan bebeklerin doğum sırasına
göre doğum ağırlıkları
• Yukarıdaki tablo bir liste niteliğindedir.
• Listeden yararlanılarak 3.2 kg’nin üzerindeki
bebek sayısına bakıldığında, 17, 19, 21, 28, 29 ve 31. sıradaki bebeklerin doğum ağırlıklarının
yüksek olduğu anlaşılmaktadır. Ancak frekans dağılımı yapılarak bu işlem daha kolay
gerçekleştirilebilir.
100 bebeğin doğum ağırlıklarının hafiften ağıra dizilimi
※Gözlem arttıkça istenilen bilgilere ulaşmak da zorlaşmaktadır.
Doğum ağırlıklarına göre frekans serisi
※Frekans serisi yardımıyla 2.5 kg nin üzerindeki
bebeklerin sayısının 14 olduğu kolaylıkla
anlaşılabilmektedir.
100 bebeğin doğum ağırlıkları için farklı büyüklükteki
sınıflara göre frekans dağılımları
Sürekli olmayan (kesikli) değişkene göre frekans
dağılımları
• Bileşik seri
Gözlem sonuçlarını iki veya daha fazla özelliğe göre düzenleyen seriler bileşik serilerdir. Bileşik serilerde birden çok özellik ile ilgili bilgiler
değerlendirildiğinden özellikler arasında bir
ilişkinin var olup olmadığı kolaylıkla öğrenilir.
Bir sınıfta rasgele seçilen 5 öğrencinin boy uzunlukları ve
ağırlıkları
Örnek:
7 5 4 7 4 6 6 6 5 4
6 7 2 7 5 5 6 2 2 7
X f fr=p % Cf Cp C%
Aşağıdaki veri 20 bireyin haftalık TV izleme saatlerini göstermektedir.
Gruplandırılmamış veri için frekans dağılım tablosunu oluşturunuz.
Örnek:
7 5 4 7 4 6 6 6 5 4
6 7 2 7 5 5 6 2 2 7
X f fr=p % Cf Cp C%
7 5 (5/20=).2
5 25 N=20 p=1.00 %=100
6 5 .25 25 15 .75 75
5 4 .20 20 10 .50 50
4 3 .15 15 6 .30 30
3 0 .00 0 3 .15 15
2 3 .15 15 3 .15 15
�f=20=N åp=1.00 å%=100
Aşağıdaki veri 20 bireyin haftalık TV izleme saatlerini göstermektedir.
Gruplandırılmamış veri için frekans dağılım tablosunu oluşturunuz.
Örnek:
95 88 81 79 73
92 88 81 79 72
92 86 81 77 67
91 85 80 77 62
89 84 80 74 61
Aşağıdaki veri vize sınav sonuçlarını göstermektedir (N:25).
Gruplandırılmış veri için frekans dağılım tablosunu oluşturunuz.
Sınıf aralığı -I
Sınıf aralığı - II
Orta
nokta f p % Cf Cp C%
95-99 94.5-99.5 97 1
90-94
Sınıf aralığı
-I Sınıf aralığı
- II Orta
nokta f p % Cf Cp C%
95-99 94.5-99.5 97 1 .04 4 N=2
5 p=
1 %=10 0
90-94 89.5-94.5 92 3 .12 12 24 .96 96
85-89 84.5-89.5 87 5 .20 20 21 .84 84
80-84 79.5-84.5 82 6 .24 24 16 .64 64
75-79 74.5-79.5 77 4 .16 16 10 .40 40
70-74 69.5-74.5 72 3 .12 12 6 .24 24
65-69 64.5-69.5 67 1 .04 4 3 .12 12
60-64 59.5-64.5 62 2 .08 8 2 .08 8
�f=25 �p=1 �%=100