Bir Ölçme Aracının Nitelikleri(Güvenirlik-Geçerlik-Kullanışlılık)

(1)

Bölüm:4

Bir Ölçme Aracının Nitelikleri

(Güvenirlik-Geçerlik-Kullanışlılık)

Bu bölümün başlıkları:

4.0 Giriş

4.1 Güvenirlik 4.2 Geçerlik

4.3 Kullanışlılık

(2)

4.0 Giriş

Ölçmede Hata: Ölçme sonuçlarına istenmeyen değişkenlerin karışmasıdır. Her ölçmede hata

olur. Hatasız ölçme yapmak olanaksızdır!

ÖLÇMEDE HATA ÇEŞİTLERİ:

ÖLÇMEDE HATA ÇEŞİTLERİ:

Sabit Hata – Sistematik Hata – Tesadüfi Hata ÖLÇMEDE HATA ÇEŞİTLERİ:

ÖLÇMEDE HATA ÇEŞİTLERİ:

Sabit Hata – Sistematik Hata – Tesadüfi Hata

Hep 10 g fazla tartan terazi

Notlardan %10 eksilten öğretmen

Yorgun ve uykusuz sınava giren öğrenci /öğretmen

‘den dolayı ölçme sonuçlarına hata karışır.

(3)

Amacımız, öğrencimizde ölçtüğümüz özellikleri gerçeğe yakın, yani az

hatayla ölçmektir. Hataların, - Ölçen kişi (siz)

- Ölçülen özellik (başarı, yetenek, ...) - Ölçme aracı (Yz yoklama, ç.

seçmeli, ...)

- Ölçme yapılan ortam (Gözcü, sıcaklık, ...)

‘dan kaynaklanabildiğini biliyoruz.

(4)

Nesneler veya özelliklerle ilgili ölçmelerde, ölçen kişiye kolaylık

sağladığı veya ölçmelerin hassaslığını arttırdığı için genellikle belli ölçme araçları

kullanılır.

Uzunluk için metre, başarı için sözlü yoklama, yazılı yoklama, çoktan seçmeli, gözlem yapma,

akran gözlemleri, ... var.

(5)

Ölçümlerin az hatalı olması ve

verilecek kararla ilgili olabilmesi için ölçme işinde kullanılan araçların belli niteliklere sahip olması gerekir:

ÖLÇME ARACININ NİTELİKLERİ

Kullanışlılık

Güvenirlik Geçerlik

(6)

Geçerlik: Ölçme aracının amaca hizmet etme derecesidir. Geçerli bir ölçme aracı,

ölçmeyi amaçladığımız özelliği başka herhangi bir özellikle karıştırmadan ve

doğru olarak ölçer.

Güvenirlik: Ölçme aracının ölçtüğü şeyi tutarlı ölçmesidir. Güvenilir bir ölçme aracı,

değişik zamanlarda/değişik kişilerce

uygulandığında bireyleri aynı sıraya koyar.

Kullanışlılık: Ölçme aracının kullanışlı olmasıdır. Kullanışlı bir ölçme aracının geliştirilmesi

geliştirilmesi, çoğaltılmasıçoğaltılması, uygulanması uygulanması ve puanlanması kolay ve ekonomiktir. puanlanması

(7)

4.1 GÜVENİRLİK

Öğrencilerimizin cevap kağıtlarını farklı kişiler okuduğunda önemli bir düzeyde farklı puanlar veriyorlarsa,

bu puanlara güvenimiz azalır.

(Aynı cevaplara farklı puanlar!)

Güvenirlik, ölçme aracının ölçmek istediği şeyi ne derece duyarlı,

kararlı ve tutarlı ölçtüğüdür.

(8)

 Bir kişi ayrı zamanlarda yazı tahtası Bir kişi ayrı zamanlarda yazı tahtası enini ölçse sonuçlar aynı mı olur?

enini ölçse sonuçlar aynı mı olur?

 İki kişi metreyle aynı anda tahta İki kişi metreyle aynı anda tahta enini ölçse sonuçlar aynı mı olur?

enini ölçse sonuçlar aynı mı olur?

 Bir kişi ayrı iki metre ile tahta enini ölçse sonuçlar aynı mı olur?

Cevap: HAYIR

(9)

TANIM: (Güvenirlik) TANIM: (Güvenirlik)

Ölçme sonuçlarının Ölçme sonuçlarının tesadüfi hatalardan tesadüfi hatalardan arınıklığının ölçüsüdür

arınıklığının ölçüsüdür (M.F.Turgut)(M.F.Turgut)..

Belli bir özelliği ölçmek amacıyla yapılan Belli bir özelliği ölçmek amacıyla yapılan ölçmelerin aynı bireyler üzerinde benzer ölçmelerin aynı bireyler üzerinde benzer şartlarda tekrar edilebilirliğidir

şartlarda tekrar edilebilirliğidir (Crocker&Algina)(Crocker&Algina). .

Testin ölçmek istediği özelliği ne derece Testin ölçmek istediği özelliği ne derece

doğru ölçtüğü ile ilgilidir.doğru ölçtüğü ile ilgilidir.

Güvenirlik, uygulamada 3 anlamda kullanılıyor:

1) Duyarlılık

1) Duyarlılık (1 soru mu, 50 soru mu hassas ölçer?)

2) Kararlılık

2) Kararlılık (Farklı zamanlarda uygulanan aynı sınavın aynı sonuçlar vermesi)

3) Tutarlılık

3) Tutarlılık (Test puanlarıyla madde puanları arasındaki artan korelasyon)

(10)

Sabit Hatalar

Sistematik Hatalar

Tasadüfi Hatalar GÜVENİRLİĞİ etkiler...

Sabit ve sistematik hatalarda hatanın kaynağı belli iken, tesadüfi hatalarda hatanın kaynağı belli değildir.

(11)

Paralel testler: Aynı özelliği ölçen; aynı standart sapma ve ortalamaya sahip testlerdir.

GK=Gerçek p.v./(Gerçek p.v.+Hata v.)

(12)

GÜVENİRLİK Katsayısı İçin Yöntemler:

GÜVENİRLİK Katsayısı İçin Yöntemler:GÜVENİRLİK Katsayısı İçin Yöntemler:

GÜVENİRLİK Katsayısı İçin Yöntemler:

(A) Tek Uygulamaya Dayalı Yöntemler

(B) İki Uygulamaya

Dayalı Yöntemler

• Test-tekrar test (tek form) yöntemi

• Paralel (eşdeğer) formlar yöntemi

• Puanlayıcılar arası tutarlılık

• Madde varyansına bağlı yöntemler:

KR-20, KR-21, Cronbach 

• Testi yarılamaya dayalı yöntemler:

Spearman Brown

(13)

(A) Tek Uygulamaya Dayalı Yöntemler

(1) Madde varyansına bağlı yöntemler:

Kuder-Richardson KR-20, Cronbach 

(2) Testi yarılamaya dayalı yöntemler:

Spearman Brown

(1) Madde varyansına bağlı yöntemler:

İç Tutarlılık Katsayıları olarak da bilinirler.

Burada,

Testteki soru sayısı

Test puanlarının standart sapması

(madde güçlüğü ve güçsüzlüğü çarpımı)

Madde güvenirliği: (ayıredicilik)

(14)

pj.qj sırasıyla

0,09-0,16-0,21-0,24-0,25-0,25-0,24-0,21-0,16-0,09

olup, bunların toplamı varyansı verir: (1,90) Çözüm:

KR(20)=(10/9)(1-1,9/4)=0,58

Güvenirlik katsayısı en az 0, en en çok 1 olduğundan ve testteki soru sayısı az (10) olduğundan 0,58 yeterli kabul edilebilir bir güvenirlik derecesidir!

ÖRNEK: K=10 tane çoktan seçmeli test maddesinin güçlükleri (pj) sırasıyla

0,1-0,2-0,3-0,4-0,5-0,5-0,6-0,7-0,8-0,9

bulunmuştur. Bu puanlara ait standart sapma

ise testin KR(20) güvenirlik (iç tutarlılık) katsayısı nedir?

(15)

Madde güçlüklerinin aynı veya benzer olması durumunda,

KR(21) formülü kullanılır. Burada ise,

testin ortalamasıdır.

(16)

Cronbach Alfa () Güvenirlik Katsayısı

ile hesaplanır.

1-3, 1-5, 1-7 gibi likert tipi (çok iyi, iyi, kararsızım, kötü, çok kötü gibi) dereceli tutum ölçeklerinin iç tutarlılığı hesaplanırken kullanılır.

Psikomotor becerileri ölçen araçların puanlanmasında, kısa cevaplı testlerin güvenirliklerinin hesaplanmasında Cronbach Alfa kullanılır.

(17)

(2) Testi yarılamaya dayalı yöntemler:

Spearman Brown r’si

Tüm testin güvenirlik katsayısı Alt testlerin güvenirlik katsayısı

(18)

ÖRNEK: Testi yarılama yöntemiyle elde edilen güvenirlik katsayısı 0,80 çıkmıştır.

(a) Bu katsayı neyi ifade etmektedir?

(b) Testin tümüne ait güvenirlik katsayısı kaçtır?

Güvenirliği 0,80 olan bir teste, onun paraleli bir test daha eklendiğinde testin güvenirliği 0,89’a

çıkmaktadır!

(19)

(B) İki Uygulamaya Dayalı Yöntemler

(1) Test-Tekrar Test (Tek Form) Yöntemiyle Güvenirlik Kestirme:

Kararlılık anlamındaki güvenirlik katsayısının elde edilmesi için bir yöntemdir.

AŞAMALARI:

(1) Testin bir gruba uygulanması.

(2) Bir zaman sonra aynı testin aynı gruba uygulanması.

(3) İki uygulamadan elde edilen puanlar arasındaki PMÇ korelasyon katsayısının hesaplanması.

(4) Bu korelasyon katsayısının yorumlanması

(20)

Öğrenci 1. sonuç 2. sonuç

Ahmet 8 9

Sinem 8 8

Ali 6 7

Gönenç 9 9

Derin 7 7

Su 8 9

Mehmet 9 9

Fadile 5 6

Aliye 5 4

Asiye 9 9

Vecide 7 8

Raziye 8 8

Caize 9 9

Ayşe 4 4

Buket 3 5

Buse 3 3

Sudem 4 5

Efe 5 5

Arda 6 8

Halil 7 8

ÖRNEK: Bir Türkçe öğretmeni 1 hafta arayla öğrencilerinin kompozisyon yazma becerilerini aynı konuda bir kompozisyon yazdırarak 2 kere ölçmüş ve yandaki sonuçları bulmuştur.

Puanların güvenirliğini hesaplayıp yorumlayın.

PMÇ Korelasyonu=0,93 olup oldukça yüksek güvenirlikte olduğu söylenebilir.

(21)

(2) Paralel (Eşdeğer) Formlar Yöntemiyle (2) Paralel (Eşdeğer) Formlar Yöntemiyle

Güvenirlik Kestirme:

Eşdeğer bu testlerden bulunan korelasyon, eşdeğer formların güvenirliğini verir. Bu güvenirliğe denklik katsayısı da denir.

(Eşdeğer formlar aynı gruba aynı veya farklı zamanlarda uygulanabilir!)

Kararlılık anlamındaki güvenirlik katsayısının elde edilmesi için bir yöntemdir bu da.

AŞAMALARI:

(1) Test formlarından birinin uygulanması.

(2) Bir zaman sonra diğer testin aynı gruba uygulanması.

(3) İki uygulamadan elde edilen puanlar arasındaki PMÇ korelasyon katsayısının hesaplanması.

(4) Bu korelasyon katsayısının yorumlanması

(22)

(3) Puanlayıcılar Arası Tutarlılık

İki veya daha çok puanlayıcının verdiği İki veya daha çok puanlayıcının verdiği

puanların güvenirliği, puanlar puanların güvenirliği, puanlar arasındaki uyum (

arasındaki uyum (tutarlılıktutarlılık) ile ölçülür.) ile ölçülür.

(23)

 Testin ölçme sonuçlarının güvenirlik katsayısı, test puanlarına ilişkin

varyansın (bireysel puanlardan gözlenen değişkenliğin) ne derece hata faktörüne bağlı olduğunu yorumlamak için de

kullanılır.

ÖRNEK:

ÖRNEK: İki paralel formdan bulunan İki paralel formdan bulunan

güvenirlik katsayısı 0,80 ise bunun anlamı:

 Gözlenen puanlardaki varyansın %80’i Gözlenen puanlardaki varyansın %80’i ölçülen özellikle ilgili

ölçülen özellikle ilgili gerçek varyansagerçek varyansa, , kalan %20’si ise

kalan %20’si ise hata varyansınahata varyansına aittir. aittir.

(24)

 İki paralel testten elde edilen puanlar

için hesaplanan korelasyon katsayısının karesi ise, ilk forma ait gözlenen

puanlardaki varyansın ne kadarının ikinci forma ait gözlenen puanlardaki varyansla tahmin edilebileceğini

gösterir.

ÖRNEK: ÖRNEK: İki paralel formdan bulunan İki paralel formdan bulunan

güvenirlik katsayısı 0,80 ise bunun anlamı: güvenirlik katsayısı 0,80 ise bunun anlamı:

 İkinci forma ait gözlenen puanların İkinci forma ait gözlenen puanların

0,80x0,80=0,64’ü birinci forma ait gözlenen 0,80x0,80=0,64’ü birinci forma ait gözlenen

puanlar varyansına bağlıdır

puanlar varyansına bağlıdır (veya tersi)(veya tersi)..

(25)

Güvenirlik Tahmin Yöntemleri (ÖZET)

Uygulama

Sayısı Yöntem Güvenirlik

Türü İşlem

TEK UYGULAMA

Testi Yarılama İç tutarlılık katsayısı

Bir test formunun iki eş yarıya bölünüp uygulanması esasına dayanır. Testin iç tutarlılığının bir göstergesidir. Hız testleri için yüksek güvenirlik tahminleri verir.

KR(20)-KR(21) İç tutarlılık katsayısı

Testi yarılama yöntemine göre daha düşük güvenirlik tahminleri verir.

Cronbach Alfa İç tutarlılık katsayısı

1-3, 1-5, 1-7 gibi likert tipi dereceli tutum ölçeklerinin iç tutarlığının hesaplanmasında kullanılır. (Psikomotor becerileri ölçen

araçların puanlanmasında, kısa cvp testler)

İKİ

UYGULAMA

Test-Tekrar Test Kararlılık katsayısı

Bir test formu bir gruba belli bir aralıkla iki kere uygulanır. Uygulamalar arası süre arttıkça güvenirlik düşer.

Eşdeğer Formlar Denklik katsayısı

Paralel formların aynı öğrenci grubuna uygulanmasına dayanır.

Puanlayıcılar Arası

Tutarlılık Tutarlılık

Soruların farklı puanlayıcılar tarafından puanlanması sonucu benzer sonuçlar elde etme derecesini verir. Tutarlılığı arttırmak için ayrıntılı cevap anahtarı hazırlanır ve puanlayıcılar puanlama kurallarına uyarlar.

(26)

Ölçmenin Standart Hatası

Pratikte ölçülen kişinin sadece gözlenen puanları elde edilebilir. Bireylerin gerçek puanları ve her bir gözlenen puanla ilgili ölçme hatası bilinemez.

Eğer aynı testle birey için 2 ölçüm alsak, bunların ortalaması gerçek puanına daha yakın olur. 1000 ölçümün ortalaması, gerçek puanına daha da yakın olur.

Sonsuz

Sonsuz tane ölçüm bir normal dağılım gösterir.

Bu dağılımın ortalaması bireyin gerçek puanı olarak tanımlanırken, standart sapması da ölçmenin standart hatası olarak adlandırılır.

(27)

Gözlenmiş puanlar dağılımının standart sapması ve puanların güvenirlik katsayısı

bilinirse, ölçme hatalarının standart sapması tahmin edilebilir. Tahmin edilen değer ölçmenin standart hatasıdır.(Halil Tekin, Eğ.Ölçme ve Değ., 7.baskı)

Ölçmenin Standart Hatası (ÖSH)

(veya Standard error Se veya Standard error of measurement Sem⁾

şöyle tahmin edilir:

Testin standart sapması Testin güvenirlik katsayısı

(28)

ÖRNEK: Bir testten elde edilen puanların

dağılımının standart sapması 6 ve güvenirliği 0,75 bulunmuştur. Ahmet bu testten 50

almışsa Ahmet’in GERÇEK puanı ile ilgili ne söylenebilir?

Bir öğrencinin test puanı tek bir sayı yerine bir aralık olarak düşünülmelidir. Bu aralık ölçmenin standart hatası (ÖSH) yardımıyla çeşitli olasılıklara göre hesaplanabilir.

olur.

Buradan bir ÖSH=3, iki ÖSH=6 ve 3 ÖSH=9 bulunur.

(29)

Ahmet’in gerçek puanlarının dağılımı:

O halde Ahmet’in GERÇEK puanı,

%68 olasılıkla 50-(bir ÖSH) ile 5+(bir ÖSH) arasında,

%95 olasılıkla 50-(iki ÖSH) ile 5+(iki ÖSH) arasında,

%99 olasılıkla 50-(üç ÖSH) ile 5+(üç ÖSH) arasındadır.

Yani, Ahmet’in GERÇEK puanı,

%68 olasılıkla 47 ile 53 arasında,

%95 olasılıkla 44 ile 56 arasında,

%99 olasılıkla 41 ile 59 arasındadır.

50-S 50-2S

50-3S 50+S 50+2S 50+3S

0,3413 0,3413

0,1359 0,1359

0,0215 0,0215

%68 %95

%99,7

50

(30)

Güvenirliği Arttırmanın Yolları

Güvenirlik, ölçme işleminin hatadan arınıklığı olduğuna göre, hata kaynaklarını ortadan kaldırırsak güvenirlik de temin

edilmiş olur!

ÖĞRETMEN İLE İLGİLİ GÜVENİRLİK ARTIRMA TEDBİRLERİ:

1) Az sorulu sınav yerine çok sorulu sınav tercih edin (ölçme aracının duyarlılığı artar).

2) Öğrencileri iyi tanıyıp onların düzeylerine uygun soru yazın (en alt seviyeden en üste).

3) Sınav süresi ne az ne de çok olmalı.

4) Sorular açık ve anlaşılır olmalı.

5) Puanlamada ölçme hatalarını en aza

indirmek için cevap anahtarı hazırlanmalı.

6) Sınav kağıdında yönerge olması; baskı, imla ve yazım hatalarının olmaması; uygun punto seçimi, … önemlidir.

(31)

ÖĞRENCİ İLE İLGİLİ GÜVENİRLİK ARTIRMA TEDBİRLERİ:

1) Sınavın bir ölüm kalım meselesi olarak

algılanmaması veya hiç kaygı duyulmaması.

2) Öğrencilerin sınav sırasında yardımlaşması, kopya çekilmesi, vb nedenlerle, en az iki

soru formu oluşturmak, gözcü say. artırmak,…

1) Sınav fiziki ortamı (gürültü, sıcaklık, aydınlık…) uygun olmalı.

2) Sınavın iyi planlanması, böylece sınav

öncesinde kargaşa oluşmaması sağlanmalı.

ORTAM İLE İLGİLİ GÜVENİRLİK ARTIRMA TEDBİRLERİ:

(32)

4.2 GEÇERLİK

Bir ölçme aracının en önemli özelliğidir!

Geçerlik, bir ölçme aracının ölçmeyi amaçladığı özelliği, başka bir özellikle karıştırmadan doğru olarak ölçebilme derecesidir.

Yani, ölçme aracının geliştirildiği konuda amaca hizmet etme derecesidir.

ÖRNEK: Uzunluk ölçmeye yarayan metre,

kişilerin boylarını ölçme amacına hizmet eder, ama kişilerin ağırlıklarını ölçme amacına hizmet etmez. Yani, metre sadece uzunluk ölçmede

geçerlidir, fakat ağırlık ölçmede geçerli değildir.

(33)

Geçerlik, bir ölçme aracının ölçmek istediği değişkeni ölçüp ölçmediği, ölçüyorsa onu başka değişkenlerden ne derece arınık olarak ölçtüğüdür.

Diğer bir deyişle geçerlik; ölçme aracının bir başka özellikle karıştırmadan ölçülmek istenen özelliği tam ve doğru bir şekilde ve

ölçebilme derecesidir.

(34)

Ölçme puanlarına, ölçmek istediğiniz

özellikler dışındaki niteliklerin karışması, ölçme aracından elde edilecek ölçümlerin geçerliğini düşürür.

ÖRNEK:

İşçi-Havuz Problemleri başarısı ölçen bir testin puanlarına «dili kullanma becerisi»,

«öğrencinin kişiliği», «kültür», «cinsiyet»,

«derste anlatılmayan şeyler sorma»,

«öğrencileri gruplara ayırma», «kopya çekilmesine göz yumma», … gibi

niteliklerin karışması ölçümlerin maksada uygunluğunu yani geçerliğini çok düşürür.

(35)

Sabit Hatalar

Sistematik Hatalar

Tasadüfi Hatalar GÜVENİRLİĞİ etkiler

GEÇERLİĞİ etkiler

(36)

GEÇERLİK BELİRLEME YAKLAŞIMLARI

Doğrudan Geçerlik Türetilmiş Geçerlik

(37)

Doğrudan Geçerlik

Uzman (öğretmenler, test

geliştiriciler, alan uzmanları gibi) kişilerin, testleri ya da sınavları doğrudan inceleme ve analizine dayanır.

Türetilmiş (İstatistiksel) Geçerlik

Test ya da sınav sonuçlarının, bağımsız bir testten elde edilen sonuçlarla istatistiksel olarak karşılaştırılmasına dayanır.

(38)

Doğrudan geçerlik çalışmalarını gerçekleştirmek, istatistiksel

yaklaşıma oranla daha kolaydır.

Çünkü bağımsız bir testten elde edilmiş ölçüt puanlarına ihtiyaç yoktur.

Bununla birlikte bu yaklaşım,

doğrudan uzmanların kararlarına bağlı olduğundan, istatistiksel

yaklaşıma göre daha az objektiftir.

(39)

GEÇERLİK KESTİRME TÜRLERİ

(1) Kapsam Geçerliği (2) Ölçüt Geçerliği

(3) Yapı Geçerliği (4) Görünüş Geçerliği

(40)

(1) Kapsam Geçerliği (Content Validity)

 İncelenen konu ile ilgili

değişkenler evreninin ne ölçüde kapsandığının göstergesidir.

 Ölçme aracı, ölçme amacıyla ilgili olmayanlardan arınmış olmalıdır.

 Ölçme aracı geliştirilme sürecinin tüm aşamalarında kapsam

geçerliği sınanabilir.

(41)

Örnek:

“4 işlem matematik bilgisi”

ölçülmek istendiğinde,

öğrenciye yalnızca “toplama”

işlemini sormak onun dört

işlemin öteki öğelerini bilip

bilmediğini anlamaya yeterli

olamaz.

(42)

 Örneğin, lise 2. sınıf Kimya dersi ile ilgili olarak bir test geliştirdiğimizi varsayalım.

 Kapsam geçerliği için, dersin

kapsamında yer alan 2. sınıf tüm

konuların ve her konu ile ilgili kritik davranışların o testle yoklanması gerekmektedir.

 Sadece birkaç konunun kritik

davranışlarını yoklayan bir testten elde edilen sonuçlar, kapsam

geçerliğine sahip olamaz.

(43)

 Kritik davranışların

belirlenmesinde “Belirtke Tablosu”ndan yararlanılır.

 Belirtke tablosu, bir

boyutunda, hazırlandığı ders ya da alanla ilgili konular ya da

içerik, diğer boyutunda ise, bu içerikle öğrencilere

kazandırılacak hedef

davranışların düzeyini içeren bir tablodur.

(44)

Tablo:2 Asit ve bazlar konusunda kapsam geçerliği yüksek bir belirtke tablosu.

Tablo:1 Asit ve bazlar konusu için belirtke tablosu.

(45)

 Kapsam geçerliğinde gözden kaçırılmaması gereken önemli bir husus da testte yer alan

soruların gerçekten hedeflenen davranışları ölçüp ölçmediğinin belirlenmesidir.

 Özellikle Fen derslerinde son yıllarda bu duruma sıkça

rastlanmaktadır.

 Bir lise Kimya dersi sınavında sorulmuş şu soruyu inceleyelim:

(46)

 Soru: Yarılanma süresi 10 yıl olan

1000 gram radyoaktif bir elementten 50 yıl sonra ne kadar geride kalır?

 Soru incelendiğinde, bir öğrencinin bu soruyu Kimya bilgisini

kullanmadan, tamamen Matematik becerisi ile çözebileceği anlaşılıyor.

 Sorulan sorunun gerçekten ölçmeyi amaçladığı davranışı ölçüp ölçmediği uzmanlık isteyen bir konudur.

Kapsam geçerliğinin bu yönü de yine uzman kişiler tarafından kontrol

edilmelidir.

(47)

 Sınav sorularının ölçmek Sınav sorularının ölçmek istediği konu alanını

istediği konu alanını kapsayıp kapsamadığı kapsayıp kapsamadığı

kapsam geçerliğinii gösterir. gösterir.

 Peki sizce bu nasıl sağlanır?Peki sizce bu nasıl sağlanır?

Soruların konu alanını yeterince Soruların konu alanını yeterince

kapsayıp kapsamadığı

kapsayıp kapsamadığı konu alanı uzmanlarının görüşü

alınarak belirlenebilir.belirlenebilir.

(48)

(2) Ölçüt Geçerliği

(Criterion Validity)

 LGS, TEOG, KPSS, ALES gibi sınavların geçerlikleri yüksektir.

 Ölçüt geçerliği, bireylerin o testten elde ettiği puanlarla, aynı özelliğe

yönelik geçerliği belirlenmiş (örneğin LGS) bir testten aldıkları puanlar

arasındaki korelâsyona bakılarak hesaplanır.

 Ölçüt geçerliğinde, mutlaka karşılaş- tırılacak bir KRİTER olmalıdır.

(49)

 Buradan elde edilen korelâsyon katsayısı -1.00 ile +1.00 arasında değerler alabilir.

 Test puanları ile ölçüt test puanları

arasındaki korelâsyonun +1.00’a yakın olması geçerliğin yüksek, 0.00’a yakın olması geçerliğin düşük olduğunu ve negatif olması ise testin, ölçütün

ölçtüğünden başka ve onunla ters yönde bir özelliği ölçtüğünü gösterir.

(50)

İki ölçüt geçerliği türü vardır:

 Eş zaman geçerliği (uygunluk-concurrent validity)

 Yordama geçerliği (kestirim-Prediktive validity)

(51)

Eş zaman geçerliği (uygunluk-concurrent validity)

Ölçme aracından elde edilen puanlar ile daha önceden geliştirilmiş ve

geçerliği yüksek olduğu bilinen, aynı özelliği ölçen başka bir ölçme

aracının puanları arasındaki

korelasyon.

(52)

 Ölçüt puanları, asıl ölçme aracından elde edilen puanlarla aynı zamanda veya daha önce elde edilmiş ise, bu puanlar

arasındaki korelasyona dayalı olarak

belirlenen geçerliğe, eşzaman geçerliği denmektedir.

 Bu geçerlik türü, literatürde,

 Uyum geçerliği,

 Benzer ölçekler geçerliği,

 Uygunluk geçerliği,

 Zamandaş geçerliği

gibi farklı isimlerle de anılmaktadır.

ÖRNEK: ÖSYM sınavının (LGS) eşzaman geçerliğini belirlemede, öğrencilerin orta

öğretim başarı puanları ölçüt olarak alınabilir.

(53)

ÖRNEK:

Öğrencilerin biyoloji performansına yönelik geliştirilen bir testten elde ettikleri puanlarla, yine aynı öğrencilerin aynı zamanda biyolojiye karşı tutumlarını belirlemek amacıyla

geliştirilen bir ölçekten elde ettikleri puanlar arasındaki korelasyon katsayısı, eşzaman

geçerliğine diğer bir örnek olarak düşünülebilir.

Burada gözden kaçırılmaması gereken, ölçüt olarak kullanılan puanların geçerli ve güvenilir olmalarıdır.

(54)

Yordama geçerliği (kestirim-Predictive validity)

 Ölçüt puanları, geçerliği belirlenecek puanlardan daha sonra elde edilmiş ise, bu puanlar arasındaki korelasyon hesaplanarak belirlenen geçerliğe

yordama geçerliği denir.

 Sonradan alınacak referans sonucunun önceden tahmin edilmesidir.

Yordama: İstatistiksel teknikler kullanılarak ve bilinenlerden yararlanılarak bilinmeyen durumlar hakkında yapılan geleceğe dönük tahminlerde bulunma istemidir.

(55)

ÖRNEK: Aşağıda belirtilen değişkenler

arasındaki ilişkilerden hangisi, KPSS Eğitim Bilimleri testinin yordama geçerliği hakkında bilgi verir? (KPSS-2012)

1. Değişken 2. Değişken

A) Testten alınan toplam puanlar Lisans mezuniyet not ortalamaları

B) Testten alınan toplam puanlar Yeni atanan öğretmenlerin ilk yıl sonundaki yeterlik puanları

C) 2010 yılında uygulanan testin

madde ayırdedicilik indeksleri 2010 yılında uygulanan testin madde ayırdedicilik indeksleri

D) Testin 2010’da uygulamasından

alınan toplam puanlar Testin 2010’da uygulamasından alınan toplam puanlar

E) 2010 yılında uygulanan testin

madde güçlük indeksleri 2010 yılında uygulanan testin madde güçlük indeksleri

(56)

• Sınavın, öğrencinin gelecek öğrenimi hakkında tahmin ve yordama yapabilme özelliğidir.

• Öğrencinin bir üst öğretim

basamağını başarıyla tamamlayıp tamamlayamayacağı hakkında ışık tutması anlamını içerir.

Öğrencileri bir öğretim programına yerleştirmeden önce, seçme amacıyla yapılan sınavlardaki başarı ölçülerine

bakarak, öğretim programındaki başarılarını kestirmek sınavın yordama geçerliğini verir.

Eğer sınavla seçilen öğrenciler, seçilmeyen öğrencilere göre daha başarılı olacaksa

seçmede kullanılan aracın yordama

geçerliğinin yüksek olduğu söylenebilir.

(57)

(3) Yapı Geçerliği

(Construct Validity)

 Yeni testi karşılaştıracak bir ölçüt yoksa yapı geçerliği sınanmalıdır.

 Ölçütlerin ve soyut kavramların içeriğinin ve evrenin açıkça

bilinmediği, ölçülecek özelliğin açık-seçik tanımlanamadığı

durumlarda tercih edilir.

 Yapılar genellikle çok boyutlu

olduğundan yapı geçerliği hiçbir zaman tam olarak sağlanamaz.

(58)

 Yapı geçerliği, ölçme aracı ya da testten elde edilen sonuçların, o araçla ölçülmek istenen kuramsal yapıyı ortaya koyabilme derecesidir.

1. Bilinen gruplar yöntemi (ayırdedici geçerlik) 2. Faktör analizi (açıklayıcı ve doğrulayıcı analizler) 3. Benzer ölçek geçerliği (convergent validity)

YAPI GEÇERLİĞİ TÜRLERİ:

(59)

(4) Görünüş Geçerliği

(Face Validity)

 Görünüş (yüz) geçerliği, adından da Görünüş (yüz) geçerliği, adından da anlaşılacağı gibi, bir testin görünüşte anlaşılacağı gibi, bir testin görünüşte neyi ölçüyor göründüğü ile ilgilidir.

neyi ölçüyor göründüğü ile ilgilidir.

 Örneğin, bir Tarih dersi testine Örneğin, bir Tarih dersi testine baktığımızda,

baktığımızda, adının,adının, cevaplama cevaplama yönergelerinin

yönergelerinin ve testteki her bir ve testteki her bir sorunun Tarih

sorunun Tarih ile ilgili olduğu izlenimi ile ilgili olduğu izlenimi vermesi görünüş geçerliğidir.

vermesi görünüş geçerliğidir.

(60)

Görünüş (yüz) Geçerliği:

Aracın ölçmeyi hedeflediği şeyi ölçüp ölçemeyeceğinin uzman bakışı ile

değerlendirilmesidir.

Ölçülecek kavramların çok iyi bilinmesi gerekir.

Görünüş geçerliği olmayan ölçek veya test kullanılamaz!

Görünüş geçerliği, ölçme aracı geliştirildikten sonra sınanır.

(61)

 Yüz geçerliği öznel bir süreçtir, ancak yargıçlar- uzmanlar arası anlaşma-uyuşma derecesi yüz geçerliği düzeyi ölçütü olarak hesaplanabilir.

 Bunun için uyuşma yüzdesi hesaplanır. Bu yüzde-oran ne denli yüksekse araç o denli yüz geçerliğine sahip kabul edilir.

(62)

Geçerliği Etkileyen Faktörler

MADDE SAYISI: Testteki madde sayısı arttıkça testin konuları kapsama ve

davranışları örnekleme oranı artacaktır.

Dolayısıyla geçerlik artacaktır.

GÜVENİRLİK: Güvenirliği arttıran bütün çalışmalar, geçerliği de arttırabilir. Ancak güvenirliğin sağlanmış olması demek, geçerliğin de sağlandığı anlamına

gelmemektedir.

NOT: Geçerlik katsayısı, güvenirlik katsayısının kare kökünü aşamaz. Örneğin, güvenirliği 0.81 olan bir testin geçerliği en çok 0.90 olabilir.

(63)

PUANLAYICI YANLILIĞI: Puanlamada objektif olunmaması ya da testin amacı

dışında farklı durumların puanlamaya dahil edilmesi geçerliği etkilemektedir. Örneğin,

öğrencilerin fen başarısını ölçmeye yönelik bir testi puanlarken, yazının güzelliği, ifadelerin düzgünlüğü, sayfa düzeni gibi durumların puanlamaya katılması, …

UYGULAMA KOŞULLARI: Ortamın sınav için uygun olmaması elde edilecek sonuçların geçerliğini olumsuz şekilde etkilemektedir.

Örneğin, ortamın gürültülü, karanlık, sıcak ya da soğuk olması, kopya çekilmesi, ...

(64)

4.3 Kullanışlılık

Ölçme aracının;

•Ekonomik olması,

•Uygulama süresinin kısalığı,

•Ölçmeciden beklediği beceriler,

•Hazırlamasının ve uygulamasının kolaylığı,

•Puanlamasının pratikliği, … gibi etkenler ölçme aracının kullanışlılığını gösterir.

Ölçme aracının kullanışlılığı, diğer iki özelliğini (geçerlik ve güvenirlik) artırıcı yönde rol oynar.

(65)

Bölüm Değerlendirme Soruları

1. Bir firmaya eleman almak amacıyla

yapılan bir sınav için, “oldukça geçerli bir sınav yapıldı” diyen bir uzman, sınavın hangi özelliğini ifade etmektedir? (KPSS–2006)

A) Zor olduğunu

B) Adayların yeteneklerine uygun

olduğunu

C) Objektif olduğunu D) Kolay olduğunu

E) İşteki başarıyı yansıtacak yapıda ^olduğunu

(66)

2. Hazırladığı testin güvenirliğini artırmak isteyen bir öğretmen, öncelikle

aşağıdakilerden hangisini sağlamaya çalışmalıdır? (KPSS–2006)

A) Testteki soruların ve seçeneklerin dil bilgisi kurallarına uygun olmasını

B) Soruların açık, net ve anlaşılır olmasını C) Seçenekler ile soru kökünün ifade

bakımından birbirleriyle tutarlı olmasını D) Test kapsamında ölçülmek istenilen her özelliğe ait soru bulunmasını

E) Seçeneklerin birbirine eşit ya da yakın uzunlukta olmasını

(67)

3.

Pazarlama elemanları seçiminde

kullanılmak üzere bir test geliştirilmiş ve işe alımlarda bu test uygulanmıştır. Daha sonra, işe alınan elemanların ilk aydaki başarılı satış sayıları ile işe girişte aldıkları test puanları arasındaki uyum incelenmiştir.

Yukarıda belirtilen inceleme, uygulanan testin hangi özelliği hakkında bilgi verir? (KPSS–2007)

A) Yordama geçerliği B) Yapı geçerliği

C) Kapsam geçerliği D) İç tutarlığı

E) Puanlayıcılar arası güvenirliği

(68)

4. Bir öğretmen aynı kapsamda ve düzeyde iki ayrı sınav hazırlamış ve aynı gruba uygulamıştır. Bu sınavların

özellikleri şöyledir:

Birinci sınavda 25 soru vardır ve her soru 4 puan değerindedir.

İkinci sınavda 10 soru vardır ve her soru 10 puan değerindedir.

“Birinci sınavdan elde edilen puanların güvenirliği daha yüksektir” diyen bir kişi bu iddiasını aşağıdaki

açıklamalardan hangisiyle destekleyebilir? (KPSS–2008)

A) Bir sınavda yanıtların nasıl puanlanacağı kullanılan soru tipine göre değişir.

B) Puanlamanın nesnelliği ölçmeden kaynaklanabilecek hatayı azaltır.

C) Soruların ayırt edicilik dereceleri test puanlarının güvenirliğini etkiler.

D) Soruların güçlük dereceleri test puanlarının güvenirliğini etkiler.

E) Testteki soru sayısı arttıkça ölçme sonuçlarına karışan hata miktarı azalır.

(69)

5. Sınıfındaki öğrenciler arasında bu dersteki başarısı yüksek olanları seçmek isteyen bir

öğretmenin hangi testi kullanması en uygun olur?

A)1 B) 2 C) 3 D) 4 E) 5

6. “Bir testin güvenirliğinin yüksek olması,

geçerli bir test elde etmek için yeterli değildir”

yargısını desteklemek için hangi test örnek gösterilebilir?

A)1 B) 2 C) 3 D) 4 E) 5

7. Diğerlerinden daha kolay olduğu hâlde kabul edilebilir düzeyde güvenilir ve geçerli olan test hangisidir?

A) 1 B) 2 C) 3 D) 4 E) 5

(70)

8. Yabancı dil muafiyet sınavında kullanılan test için aşağıdakilerden hangisi bir geçerlik kanıtı olabilir?

A)Testin hatasız puanlanabilmesi

B)Testin çoktan seçmeli maddelerden oluşması C)Testten alınan puanların ranjının geniş olması

D)Yabancı dili iyi bilenlerin testten yüksek puan alması E)Testte farklı yapılarda soruların bulunması

(71)

9. Bir araştırmacı çoklu zeka alanlarını ölçmek amacıyla geliştirdiği çok boyutlu testi, dil bilimi, matematik, resim, heykel, müzik, beden eğitimi, iletişim, psikoloji bölümlerindeki öğrencilere uygulamıştır.

Uygulama sonucunda farklı bölümlerdeki öğrencilerin kendi alanıyla ilgili sorulardan yüksek, diğer alanlardaki sorulardan ise daha düşük puan aldıklarını saptamıştır.

Buna göre, ölçme aracı için aşağıdakilerden hangisi söylenebilir?

A)Amaca hizmet etme derecesi düşüktür B)Hata düzeyi düşüktür

C)Geçerliği yüksektir D)Kullanışlılığı yüksektir E)Güvenirliği düşüktür

(72)

Soru p r

1 0.35 0.25

2 0.05 0.65

3 0.15 0.15

4 0.90 0.05

5 0.70 -0.35

6 0.40 0.40

7 0.15 0.10

8 0.75 0.60

9 0.15 -0.40 10 0.95 0.25

10. Yandaki tabloda 10 soruya ait madde güçlüğü (p) ve ayırdedicilik (r) değerleri verilmiştir.

Uygulama sonucunda yukarıdaki değerleri elde eden bir öğretmen, ayırdediciliği düşük olan maddeleri düzeltilemediği için testten çıkarmak istemektedir.

Bu maddelerin çıkarılması

aşağıdakilerden hangisine neden olur?

A)Testin ölçüt geçerliğinin düşmesine B)Kalan maddelerin güçlük indeksinin düşmesine

C) Çeldiricilerin iyi çalışmasına

D) Testin iç tutarlılığının düşmesine E) Testin kapsam geçerliğinin

düşmesine

(73)

Bir Ölçme Aracının Nitelikleri(Güvenirlik-Geçerlik-Kullanışlılık)