İstatistik sayısal verileri değerlendiren bir bilim dalı
TANIMLAYICI İSTATİSATİKLER
İstatistik,
Ne kadar?
Ne zaman?
Nerede?
Nasıl?
Kaç tane?
Hangi oranda?
Sorularına yanıt arar
İstatistik, çevremizde olup bitenleri sayılarla ifade etmede yardımcı olur.
Tanımlayıcı istatistikler, bir gruba ait belirli değişkenlerin değerleri hakkında bilgiyi özetleyen ölçütlerdir.
Gruplandırılıp grafik, tablo haline getirilmiş verilerden daha anlamlı sonuçlar elde edilmesi için bunların analiz edilip değerlendirilmesi ve populasyon hakkında hükme varılması gerekmektedir. Bu ihtiyacın bir kısmı Merkezi Eğilim, yayılım ve dağılım ölçüleri ile karşılanır.
1- Merkezi eğilim ölçütleri (dağılımın yer gösteren ölçütleri)
2- Yayılma ölçütleri (dağılımın yaygınlık ölçütleri) 3-Dağılımın şekil ölçütleri
Eğilim Ölçüleri 1)Aritmetik ort.
2)Geometrik ort.
3)Harmonik ort.
4)Mod 5)Medyan
Değişim Ölçüleri 1) Range
(Değişim Aralığı)
2) Ort. Mutlak sapma 3) Varyans
4) Standart Sapma 5) Değişkenlik
(Varyasyon) Katsayısı
Çarpıklık Ölçüleri 1)Pearson Asimetri Ölçüsü
2)Bowley Asimetri Ölçüsü
Tanımlayıcı İstatistikler
Basıklık Ölçüleri
MERKEZİ EĞİLİM
(YIĞILMA) ÖLÇÜLERİ
Veri setini tanımlamak üzere kullanılan ve genellikle tüm elemanları dikkate alarak veri setini özetlemek için kullanılan ifadelerdir.
• Veri setindeki tüm elemanları temsil edebilecek merkez noktasına yakın bir değerdir.
MERKEZİ YIĞILMA (EĞİLİM) ÖLÇÜLERİ
ANALİTİK ORTALAMALAR ANALİTİK OLMAYAN ORTALAMALAR
Aritmetik Ortalama Ağırlıklı Ortalama
Geometrik Ortalama Harmonik Ortalama
Medyan Mod
ANALİTİK ORTALAMALAR
Bir örneklemede tüm veri değerlerini dikkate alan merkezi eğilim ölçüleridir.
– Aritmetik ortalama – Ağırlıklı ortalama
– Geometrik ortalama – Harmonik ortalama
ARİTMETİK ORTALAMA
Gözlenen değerlerin tümü toplanarak gözlem sayısına bölündüğünde elde edilen değere aritmetik ortalama denir.
Ortalamalar (averages) başlıca iki amaca hizmet ederler:
Herhangi bir örnekten elde edilen kantitatif (sayısal) veri grubunun kısa açıklaması;
Dolaylı olarak ve belli bir doğruluk derecesinde populasyonu açıklamasıdır
1 1 2 3 ...
Aritmatik Ortalama Toplam Veri Sayısı
Veri Değeri
n
i
i n
X X X X X
X N N
X N X
Örnek: Bir öğrencinin beş dersten aldığı notların ortalamasını bulalım.
Notlar ( ) 50
75 40 60 65
290 290 58
5
i
i
X
X X
Aritmetik ortalama bütün değerlerin önemini eşit kabul ettiği için her zaman dağılımı iyi temsil etmemektedir. Bütün değerlerin aynı öneme sahip olmadığı serilerde ağırlıklı ortalama kullanılır.
ARİTMATİK ORTALAMANIN BAZI ÖZELLİKLERİ VE DEZAVANTAJLARI
• Bir serideki her bir veri değerinin aritmetik ortalamadan olan sapmalarının toplamı daima sıfırdır.
( ) 0
Örnek: 3, 8 ve 4 değerlerinin aritmatik ortalaması 5'dir.
( ) (3 5) (8 5) (4 5) 2 3 1 0 X X
X X
Aritmetik ortalamanın hesaplanışında veri setindeki tüm veri değerleri kullanılır.
Bir veri setinin yalnızca bir aritmetik ortalaması vardır.
Aritmetik ortalamanın önemli bir sakıncası, veri setindeki aşırı değerlerden kolay etkilenmesidir.
Bir veri setinde verilerden bir kaçı çok yüksek yada küçük değerler içeriyor ise, aritmetik ortalama, veri setinin merkezi eğilim ölçümünü temsil etmek için uygun olmayabilir.
Örnek: 5 öğrencinin bir sınavda almış olduğu notlar 60, 60, 60, 60, ve 100`dir. Aritmetik ortalama 68 olacaktır. Bu aritmetik ortalama veri setinin iyi bir şekilde temsil etmemektedir.
AĞIRLIKLI ORTALAMA
Aritmetik ortalamada, her bir veri değerinin Öneminin eşit olduğu varsayılmaktadır. Fakat bazı değerlerin önemi diğerlerinden farklı olabilir. Bu durumlarda ağırlıklı ortalama kullanılır.
1 1 1 2 2 3 3
1 2 3
1
...
...
Ağırlıklı Ortalama
Her bir veri değerinin tartısını yani önemini ifade etmektedir.
n
i i
i n n
n
n i
i
W X X W X W X W X W
Xw W W W W
W
Xw W
Örnek: Bir öğrenci İşletme dersinden 75, Muhasebe dersinden 50 , Hukuk dersinden 60 , İngilizce dersinden 67 almış olsun. Ders kredilerinin de İşletme 4 , Muhasebe 4 , Hukuk 3 , İngilizce 1 olduğunu varsayalım. Bu öğrencinin ders ortalamasını hesaplayalım:
75 4
50 4
60 3
67 1
300 200 180 67 74762, 25
4 4 3 1 12 12
Xw
GEOMETRİK ORTALAMA
Geometrik ortalama biyoloji, iktisat ve işletme alanlarında yaygın olarak kullanılan bir ortalama türüdür. Özellikle geometrik diziliş gösteren (bir bakteri hücresinin çoğalması, büyütken koninin uzaması, embryonun gelişmesi vs.) adet pozitif değişkenin ortalamasıdır. Geometrik diziliş zaman akışı içerisinde belirgin oranda artışı gösteren diziliştir.
Geometrik ortalama özellikle;
değişim oranlarının (yüzde, oran, vb.) ortalamasının hesaplanmasında
bir zaman aralığı içerisindeki bir üretimin yada satışın artış miktarının ortalamasının belirlenmesinde yaygın olarak kullanılmaktadır.
1 2 n
n 1 2 n
n tane x , x ...,x değerinin çarpımının n. kökü geometrik ortalama olarak tanımlanır.
G.O = x .x ...x
Örnek: Bir işletmenin dört farklı ürünün satışından elde ettiği kar yüzdeleri 3, 2, 4, ve 6 ‘dır. Bu işletmenin ortalama karı nedir?
4
G.O = 3*2*4*6
4 144 %3, 46
Not:
- Eğer veri değerlerinden biri 0 yada negatif değerlikli
ise Geometrik ortalama hesaplanamaz.
Geometrik dizilişten hareketle belirlenmiş bir formül ;
S=B . (1+ r)
nS: son sayıs
B:başlangıçtaki sayı n: zaman
r:artış hızı
HARMONİK ORTALAMA
Bazı özel durumlarda başvurulan bir ortalama olup hız, fiyat, verimlilik gibi oransal olarak belirtilebilen bazı değişken
değerleri ortalamalarının hesabında kullanılır. n tane pozitif veya negatif değerlerin terslerinin ortalamasının tersidir.
1 2 3
1 1 1 1 1
....
n i
N N
H
x x x x x
Not:
- Veri değerlerinde sıfır bulunması yada veri değerlerinin farklı işaret taşımaları durumunda harmonik ortalama kullanılmaz.
- Değişkenlerden birinin sabit, diğerinin ise değişken olduğu durumlarda başvurulan bir ortalamadır.
Örnek: İki şehir arasındaki mesafenin 150 km olduğunu varsayalım. Gidişte 75 km hızla, dönüşte ise 50 km hızla mesafeyi aldığımızda ortalama hızımız ne olur?
150 km’lik mesafeyi gidişte 150/75=2 saatte, dönüşte ise; 150/50=3 saatte alırız. Burada mesafe unsuru sabit fakat zaman unsuru ise sabit olmadığından harmonik ortalama kullanılmıştır.
2 60 km 1 1
75 50 75 50
X= 62,5 km
2
H
ANALİTİK OLMAYAN ORTALAMALAR
Bir örnekteki bütün veri değerlerini dikkate almayan merkezi eğilim ölçüleridir
- Medyan
- Mod
MEDYAN (ORTANCA)
Veri değerleri büyükten küçüğe yada küçükten büyüğe
sıralandıktan sonra, tam ortadaki, yani veri dizisini 2 eşit frekansa ayıran değerdir.
( 1) 2
( ) 1
2 2
X
X X
M=
n
n n
n tek ise n çift ise
Örnek: 2,3,2,4,4,6,6,5,8,8,9 sayıları için ortanca Önce veriler, küçükten büyüğe doğru sıralanır.
2 2 3 4 4 5 6 6 8 8 9 X
1X
2X
3X
4X
5X
6X
7X
8X
9X
10X
11n=11 tek sayıdır. O halde ortanca Yani sıralanmış verilerde 6.
sıradaki ( 5) değerdir . 11 1 6 ( )
2
X X
Örnek: 1,2,3,3,5,5,5,6,7,7,7,8,9,9 biçiminde sıralanmış veriler için ortancayı bulalım.
n:14 çift sayıdır. O halde;
7 8
M=(x x ) / 2 (5 6) / 2 5,5
Ortanca verilerin tam ortasına düştüğünden histogram ve frekans poligonunda verilerin temsil ettiği alanı tam
ortasından ikiye böler.
Kullanımı:
Verilerin içinde birkaç tane çok yüksek veya çok düşük değer varsa AO doğru sonuç vermez, bu gibi hallerde ortanca kullanılrı.
Bazı durumlarda örneklerin hepsinin ölçülmesi mümkün olmaz. Örneğin 500 tavukluk bir kümeste yumurtlama gün sayısını tespit ederken 250. ve 251. sıradaki tavukların gün sayısı OD i verir.
MOD (TEPE DEĞER)
Bir seride en çok tekrarlanan değere “Mod” denir.
Örnek: 10 öğrencinin ağırlıklarından oluşan seride mod;
72 80 58 60 65 75 51 59 60 60
Mod:60 kg'dır. 60 değeri en fazla tekrarlanandır.
Görüldüğü gibi 3 tane 60 vardır. Bu tür serilere tek modlu seri de
1 2
nir.
Örnek: 3 8 15 20 12 15 12 9 17
Mo 12
Mo 15
Görüldüğü gibi bu seride 2 tane 12 ve 2 tane de 15 değeri vardır.
Bunlardan birine birinci mod, diğerine ise ikinci mod değeri denir.
Bu tür serilere ise çok modlu seri denir.
• Dağılım şekli ölçütleri : Çarpıklık –1 ve +1 arasında yer alır.
• Denekler ortalamadan daha büyük değerlerde toplanıyorsa, negatif basık ya da soldan basık,
• Küçük değerlerde toplanıyorsa pozitif basık ya da sağdan basık dağılımdan söz edilir.
Normal Dağılış Eğrisi
MERKEZİ DEĞİŞİM ÖLÇÜLERİ
Verilerin nasıl bir dağılım gösterdiği hakkında bilgi veren ölçülerdir.
1.Range (Ranj, Değişim genişliği) 2. Ortalama Sapma (Kayma, Fark) 3. Varyans (S2)
4. Standart Sapma (S) 5. Standart hata (Sx ) 6. Güven Sınırı (GS)
7. Varyasyon katsayısı (CV veya VK)
Ortalama Sapma (kayma, Fark): Ölçme sonuçlarının ortalamadan farklarının ortalamasıdır.
Range: Veri grubundaki en büyük ölçüm ile en küçük ölçüm arasındaki farktır. Ranj MDÖ arasında en az hassas olanıdır.
ÖRN: 10 20 30 30 40 50 50 60
En büyük puan 60, en küçük puan 10’dur. İkisi arasındaki fark 50’dir.
Range=60-10= 50’dir.
∑ l X – X l n
OS=
Uzaklıklar negatif olamıyacağı için mutlak değeri kullanılır.
Varyans (S2): Rakamlara arasındaki değişikliğin ölçü birimidir. Örnek varyası ise S2 ile gösterilir ve n-1 değeri, populasyon varyans ise 𝝈2 ile
gösterilir ve N değerine bölünür.
∑(X – X)² S²=---
n – 1
Standart Sapma (S) :Bir dizi ölçümün gösterdiği değişimin en güvenilir ölçüsüdür. bir puan
dağılımındaki ölçümlerin aritmetik ortalamadan(AO) ne kadar uzaklaştığını / yakınlaştığını gösteren
değerdir.
Dağılım fazlaysa standart sapma büyük, dağılım dar alanda ise küçüktür.
Standart Sapma istatistiksel analizde büyük önemi olan bir dağılma ölçüsüdür. Bu ölçü "değişkenlerin aritmetik ortalamadan sapmalarının kareli
ortalaması"dır
S2
n
Öğrenciler (X) (X) (X – X)
(X – X)²
1. öğr. 5 3 2 4
2. öğr. 1 3 -2 4
3. öğr. 3 3 0 0
4. öğr 4 3 1 1
5. öğr. 2 3 -1 1
x = 1+2+3+4+5 / 5 = 3 ∑(X – X)² 10
S²= = = 2,5 x = Aritmetik ortalama n – 1 4
n = 5 öğr sayısı
10
S= = 1.6
4
Standart Hata (Sx) : Örnek ortalamalarının populasyon ortalaması etrafındaki Dağılım ölçüsüne satandart hata denir.
İncelenen veriler birbiri ile karşılaştırılacak, gruplar arası farkların olup olmadığı belirlenecek ise ortalamaya ilaveten standat hatanın verilmesi uygundur.
𝑺𝒙 = 𝑺𝟐
𝒏
Varyasyon Katsayısı (CV veya VK ):Standart sapmanın ortalamaya oranıdır.
% 𝐶𝑉 = 𝒔
𝒙 *100
Güven Sınırı: Populasyondan çekilen örnekler üzerinde yapılan ölçümler populasyonun teorik ortalaması
etrafında dağılımı gösterir. Ancak örnek ortalamalrının populasyoonun hakiki ortalaması etrafındaki dağılımı örneklerin dağılımından daha dardır ve belirli sınırlar
içerisindedir. Populasyonun teorik ortalaması bu sınırlar içerisinde yer alır.
Bir ortalamanın belli bir olasılık derecesine ve belirli serbestlilk derecesine göre güven sınırları:
GS=x ± tα. Sx
tα : belli serbestlik derecesinde (n-1), belli olasılığa ( % 5 veya % 1 ) göre t cetvel değeri
Sx : ortalamanın standart hatası X: ortalama