• Sonuç bulunamadı

TANIMLAYICI İSTATİSATİKLER

N/A
N/A
Protected

Academic year: 2022

Share "TANIMLAYICI İSTATİSATİKLER"

Copied!
31
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

İstatistik sayısal verileri değerlendiren bir bilim dalı

TANIMLAYICI İSTATİSATİKLER

İstatistik,

 Ne kadar?

 Ne zaman?

 Nerede?

 Nasıl?

 Kaç tane?

 Hangi oranda?

Sorularına yanıt arar

İstatistik, çevremizde olup bitenleri sayılarla ifade etmede yardımcı olur.

(2)

Tanımlayıcı istatistikler, bir gruba ait belirli değişkenlerin değerleri hakkında bilgiyi özetleyen ölçütlerdir.

Gruplandırılıp grafik, tablo haline getirilmiş verilerden daha anlamlı sonuçlar elde edilmesi için bunların analiz edilip değerlendirilmesi ve populasyon hakkında hükme varılması gerekmektedir. Bu ihtiyacın bir kısmı Merkezi Eğilim, yayılım ve dağılım ölçüleri ile karşılanır.

1- Merkezi eğilim ölçütleri (dağılımın yer gösteren ölçütleri)

2- Yayılma ölçütleri (dağılımın yaygınlık ölçütleri) 3-Dağılımın şekil ölçütleri

(3)

Eğilim Ölçüleri 1)Aritmetik ort.

2)Geometrik ort.

3)Harmonik ort.

4)Mod 5)Medyan

Değişim Ölçüleri 1) Range

(Değişim Aralığı)

2) Ort. Mutlak sapma 3) Varyans

4) Standart Sapma 5) Değişkenlik

(Varyasyon) Katsayısı

Çarpıklık Ölçüleri 1)Pearson Asimetri Ölçüsü

2)Bowley Asimetri Ölçüsü

Tanımlayıcı İstatistikler

Basıklık Ölçüleri

(4)

MERKEZİ EĞİLİM

(YIĞILMA) ÖLÇÜLERİ

Veri setini tanımlamak üzere kullanılan ve genellikle tüm elemanları dikkate alarak veri setini özetlemek için kullanılan ifadelerdir.

• Veri setindeki tüm elemanları temsil edebilecek merkez noktasına yakın bir değerdir.

(5)

MERKEZİ YIĞILMA (EĞİLİM) ÖLÇÜLERİ

ANALİTİK ORTALAMALAR ANALİTİK OLMAYAN ORTALAMALAR

Aritmetik Ortalama Ağırlıklı Ortalama

Geometrik Ortalama Harmonik Ortalama

Medyan Mod

(6)

ANALİTİK ORTALAMALAR

Bir örneklemede tüm veri değerlerini dikkate alan merkezi eğilim ölçüleridir.

– Aritmetik ortalama – Ağırlıklı ortalama

– Geometrik ortalama – Harmonik ortalama

(7)

ARİTMETİK ORTALAMA

Gözlenen değerlerin tümü toplanarak gözlem sayısına bölündüğünde elde edilen değere aritmetik ortalama denir.

Ortalamalar (averages) başlıca iki amaca hizmet ederler:

Herhangi bir örnekten elde edilen kantitatif (sayısal) veri grubunun kısa açıklaması;

Dolaylı olarak ve belli bir doğruluk derecesinde populasyonu açıklamasıdır

1 1 2 3 ...

Aritmatik Ortalama Toplam Veri Sayısı

Veri Değeri

n

i

i n

X X X X X

X N N

X N X

  

 

(8)

Örnek: Bir öğrencinin beş dersten aldığı notların ortalamasını bulalım.

Notlar ( ) 50

75 40 60 65

290 290 58

5

i

i

X

X X

Aritmetik ortalama bütün değerlerin önemini eşit kabul ettiği için her zaman dağılımı iyi temsil etmemektedir. Bütün değerlerin aynı öneme sahip olmadığı serilerde ağırlıklı ortalama kullanılır.

(9)

ARİTMATİK ORTALAMANIN BAZI ÖZELLİKLERİ VE DEZAVANTAJLARI

Bir serideki her bir veri değerinin aritmetik ortalamadan olan sapmalarının toplamı daima sıfırdır.

    

( ) 0

Örnek: 3, 8 ve 4 değerlerinin aritmatik ortalaması 5'dir.

( ) (3 5) (8 5) (4 5) 2 3 1 0 X X

X X

(10)

Aritmetik ortalamanın hesaplanışında veri setindeki tüm veri değerleri kullanılır.

Bir veri setinin yalnızca bir aritmetik ortalaması vardır.

Aritmetik ortalamanın önemli bir sakıncası, veri setindeki aşırı değerlerden kolay etkilenmesidir.

Bir veri setinde verilerden bir kaçı çok yüksek yada küçük değerler içeriyor ise, aritmetik ortalama, veri setinin merkezi eğilim ölçümünü temsil etmek için uygun olmayabilir.

Örnek: 5 öğrencinin bir sınavda almış olduğu notlar 60, 60, 60, 60, ve 100`dir. Aritmetik ortalama 68 olacaktır. Bu aritmetik ortalama veri setinin iyi bir şekilde temsil etmemektedir.

(11)

AĞIRLIKLI ORTALAMA

Aritmetik ortalamada, her bir veri değerinin Öneminin eşit olduğu varsayılmaktadır. Fakat bazı değerlerin önemi diğerlerinden farklı olabilir. Bu durumlarda ağırlıklı ortalama kullanılır.

1 1 1 2 2 3 3

1 2 3

1

...

...

Ağırlıklı Ortalama

Her bir veri değerinin tartısını yani önemini ifade etmektedir.

n

i i

i n n

n

n i

i

W X X W X W X W X W

Xw W W W W

W

Xw W

(12)

Örnek: Bir öğrenci İşletme dersinden 75, Muhasebe dersinden 50 , Hukuk dersinden 60 , İngilizce dersinden 67 almış olsun. Ders kredilerinin de İşletme 4 , Muhasebe 4 , Hukuk 3 , İngilizce 1 olduğunu varsayalım. Bu öğrencinin ders ortalamasını hesaplayalım:

75 4

 

50 4

 

60 3

 

67 1

300 200 180 67 747

62, 25

4 4 3 1 12 12

Xw              

  

(13)

GEOMETRİK ORTALAMA

Geometrik ortalama biyoloji, iktisat ve işletme alanlarında yaygın olarak kullanılan bir ortalama türüdür. Özellikle geometrik diziliş gösteren (bir bakteri hücresinin çoğalması, büyütken koninin uzaması, embryonun gelişmesi vs.) adet pozitif değişkenin ortalamasıdır. Geometrik diziliş zaman akışı içerisinde belirgin oranda artışı gösteren diziliştir.

Geometrik ortalama özellikle;

değişim oranlarının (yüzde, oran, vb.) ortalamasının hesaplanmasında

bir zaman aralığı içerisindeki bir üretimin yada satışın artış miktarının ortalamasının belirlenmesinde yaygın olarak kullanılmaktadır.

1 2 n

n 1 2 n

n tane x , x ...,x değerinin çarpımının n. kökü geometrik ortalama olarak tanımlanır.

G.O = x .x ...x

(14)

Örnek: Bir işletmenin dört farklı ürünün satışından elde ettiği kar yüzdeleri 3, 2, 4, ve 6 ‘dır. Bu işletmenin ortalama karı nedir?

4

G.O = 3*2*4*6

4

 144  %3, 46

Not:

- Eğer veri değerlerinden biri 0 yada negatif değerlikli

ise Geometrik ortalama hesaplanamaz.

(15)

Geometrik dizilişten hareketle belirlenmiş bir formül ;

S=B . (1+ r)

n

S: son sayıs

B:başlangıçtaki sayı n: zaman

r:artış hızı

(16)

HARMONİK ORTALAMA

Bazı özel durumlarda başvurulan bir ortalama olup hız, fiyat, verimlilik gibi oransal olarak belirtilebilen bazı değişken

değerleri ortalamalarının hesabında kullanılır. n tane pozitif veya negatif değerlerin terslerinin ortalamasının tersidir.

1 2 3

1 1 1 1 1

....

n i

N N

H

x x x x x

 

    

Not:

- Veri değerlerinde sıfır bulunması yada veri değerlerinin farklı işaret taşımaları durumunda harmonik ortalama kullanılmaz.

- Değişkenlerden birinin sabit, diğerinin ise değişken olduğu durumlarda başvurulan bir ortalamadır.

(17)

Örnek: İki şehir arasındaki mesafenin 150 km olduğunu varsayalım. Gidişte 75 km hızla, dönüşte ise 50 km hızla mesafeyi aldığımızda ortalama hızımız ne olur?

150 km’lik mesafeyi gidişte 150/75=2 saatte, dönüşte ise; 150/50=3 saatte alırız. Burada mesafe unsuru sabit fakat zaman unsuru ise sabit olmadığından harmonik ortalama kullanılmıştır.

2 60 km 1 1

75 50 75 50

X= 62,5 km

2

H  

 

(18)

ANALİTİK OLMAYAN ORTALAMALAR

Bir örnekteki bütün veri değerlerini dikkate almayan merkezi eğilim ölçüleridir

- Medyan

- Mod

(19)

MEDYAN (ORTANCA)

Veri değerleri büyükten küçüğe yada küçükten büyüğe

sıralandıktan sonra, tam ortadaki, yani veri dizisini 2 eşit frekansa ayıran değerdir.

( 1) 2

( ) 1

2 2

X

X X

M=

n

n n

 

 

n tek ise n çift ise

(20)

Örnek: 2,3,2,4,4,6,6,5,8,8,9 sayıları için ortanca Önce veriler, küçükten büyüğe doğru sıralanır.

2 2 3 4 4 5 6 6 8 8 9 X

1

X

2

X

3

X

4

X

5

X

6

X

7

X

8

X

9

X

10

X

11

n=11 tek sayıdır. O halde ortanca Yani sıralanmış verilerde 6.

sıradaki ( 5) değerdir . 11 1 6 ( )

2

X X

Örnek: 1,2,3,3,5,5,5,6,7,7,7,8,9,9 biçiminde sıralanmış veriler için ortancayı bulalım.

n:14 çift sayıdır. O halde;

7 8

M=(x  x ) / 2   (5 6) / 2  5,5

(21)

Ortanca verilerin tam ortasına düştüğünden histogram ve frekans poligonunda verilerin temsil ettiği alanı tam

ortasından ikiye böler.

Kullanımı:

Verilerin içinde birkaç tane çok yüksek veya çok düşük değer varsa AO doğru sonuç vermez, bu gibi hallerde ortanca kullanılrı.

Bazı durumlarda örneklerin hepsinin ölçülmesi mümkün olmaz. Örneğin 500 tavukluk bir kümeste yumurtlama gün sayısını tespit ederken 250. ve 251. sıradaki tavukların gün sayısı OD i verir.

(22)

MOD (TEPE DEĞER)

Bir seride en çok tekrarlanan değere “Mod” denir.

Örnek: 10 öğrencinin ağırlıklarından oluşan seride mod;

72 80 58 60 65 75 51 59 60 60

Mod:60 kg'dır. 60 değeri en fazla tekrarlanandır.

Görüldüğü gibi 3 tane 60 vardır. Bu tür serilere tek modlu seri de

1 2

nir.

Örnek: 3 8 15 20 12 15 12 9 17

Mo 12

Mo 15

Görüldüğü gibi bu seride 2 tane 12 ve 2 tane de 15 değeri vardır.

Bunlardan birine birinci mod, diğerine ise ikinci mod değeri denir.

Bu tür serilere ise çok modlu seri denir.

(23)

• Dağılım şekli ölçütleri : Çarpıklık –1 ve +1 arasında yer alır.

• Denekler ortalamadan daha büyük değerlerde toplanıyorsa, negatif basık ya da soldan basık,

• Küçük değerlerde toplanıyorsa pozitif basık ya da sağdan basık dağılımdan söz edilir.

(24)

Normal Dağılış Eğrisi

(25)

MERKEZİ DEĞİŞİM ÖLÇÜLERİ

Verilerin nasıl bir dağılım gösterdiği hakkında bilgi veren ölçülerdir.

1.Range (Ranj, Değişim genişliği) 2. Ortalama Sapma (Kayma, Fark) 3. Varyans (S2)

4. Standart Sapma (S) 5. Standart hata (Sx ) 6. Güven Sınırı (GS)

7. Varyasyon katsayısı (CV veya VK)

(26)

Ortalama Sapma (kayma, Fark): Ölçme sonuçlarının ortalamadan farklarının ortalamasıdır.

Range: Veri grubundaki en büyük ölçüm ile en küçük ölçüm arasındaki farktır. Ranj MDÖ arasında en az hassas olanıdır.

ÖRN: 10 20 30 30 40 50 50 60

En büyük puan 60, en küçük puan 10’dur. İkisi arasındaki fark 50’dir.

Range=60-10= 50’dir.

∑ l X – X l n

OS=

Uzaklıklar negatif olamıyacağı için mutlak değeri kullanılır.

(27)

Varyans (S2): Rakamlara arasındaki değişikliğin ölçü birimidir. Örnek varyası ise S2 ile gösterilir ve n-1 değeri, populasyon varyans ise 𝝈2 ile

gösterilir ve N değerine bölünür.

∑(X – X)² S²=---

n – 1

(28)

Standart Sapma (S) :Bir dizi ölçümün gösterdiği değişimin en güvenilir ölçüsüdür. bir puan

dağılımındaki ölçümlerin aritmetik ortalamadan(AO) ne kadar uzaklaştığını / yakınlaştığını gösteren

değerdir.

Dağılım fazlaysa standart sapma büyük, dağılım dar alanda ise küçüktür.

Standart Sapma istatistiksel analizde büyük önemi olan bir dağılma ölçüsüdür. Bu ölçü "değişkenlerin aritmetik ortalamadan sapmalarının kareli

ortalaması"dır

S2

n

(29)

Öğrenciler (X) (X) (X – X)

(X – X)²

1. öğr. 5 3 2 4

2. öğr. 1 3 -2 4

3. öğr. 3 3 0 0

4. öğr 4 3 1 1

5. öğr. 2 3 -1 1

x = 1+2+3+4+5 / 5 = 3 ∑(X – X)² 10

S²= = = 2,5 x = Aritmetik ortalama n – 1 4

n = 5 öğr sayısı

10

S= = 1.6

4

(30)

Standart Hata (Sx) : Örnek ortalamalarının populasyon ortalaması etrafındaki Dağılım ölçüsüne satandart hata denir.

İncelenen veriler birbiri ile karşılaştırılacak, gruplar arası farkların olup olmadığı belirlenecek ise ortalamaya ilaveten standat hatanın verilmesi uygundur.

𝑺𝒙 = 𝑺𝟐

𝒏

Varyasyon Katsayısı (CV veya VK ):Standart sapmanın ortalamaya oranıdır.

% 𝐶𝑉 = 𝒔

𝒙 *100

(31)

Güven Sınırı: Populasyondan çekilen örnekler üzerinde yapılan ölçümler populasyonun teorik ortalaması

etrafında dağılımı gösterir. Ancak örnek ortalamalrının populasyoonun hakiki ortalaması etrafındaki dağılımı örneklerin dağılımından daha dardır ve belirli sınırlar

içerisindedir. Populasyonun teorik ortalaması bu sınırlar içerisinde yer alır.

Bir ortalamanın belli bir olasılık derecesine ve belirli serbestlilk derecesine göre güven sınırları:

GS=x ± tα. Sx

tα : belli serbestlik derecesinde (n-1), belli olasılığa ( % 5 veya % 1 ) göre t cetvel değeri

Sx : ortalamanın standart hatası X: ortalama

Referanslar

Benzer Belgeler

 Bir veri grubu içinde ortalama değerden olan farkların standart sapmanın 2, 3 katı veya daha büyük olan veriler veri grubundan çıkartılarak işlemler yinelenebilir.

Büyük verinin sunduğu bilgi hazinesinden ya- rarlanmak, algoritmaları kontrol ederek görünürlüğü artırmak, paylaşım ve sosyal medya akışını belirleyerek internette daha

Üzerinde çalıştığım proje için gerekli araçlar jeo uzamsal verilerin tutulabileceği bir veritabanı yönetim sistemi olan PostgreSQL ve onun uzantısı olan

8 Kişisel verilerimin kanun ve ilgili diğer kanun hükümlerine uygun olarak işlenmiş olmasına rağmen, işlenmesini gerektiren sebeplerin ortadan kalktığını

gösteren veri setinde çok küçük ve çok büyük gözlemleri dikkate almadığı için ortanca değer aritmetik ortalamadan daha iyi bir merkezi eğilim ölçüsüdür1.

En sık kullanılan dağılım ölçüleri ise, değişim genişliği, çeyrek sapma, varyans, standart sapma, standart hata ve değişim katsayısıdır..

Yukarıdaki veri seti için bu adımlar izlenerek elde edilen kutu-grafiği aşağıdaki gibi elde edilir. Box-plotlar veri kümeleri arasındaki benzerlik ve farklılıkları görmek

 Anne Eğitim Düzeyi (AED): Anne eğitim düzeyleri, okuryazar değil için 1, okuryazar için 2, ilkokul mezunu için 3, ortaokul mezunu için 4, lise mezunu için