Bölüm:4
Bir Ölçme Aracının Nitelikleri
(Güvenirlik-Geçerlik-Kullanışlılık)
Bu bölümün başlıkları:
4.0 Giriş
4.1 Güvenirlik 4.2 Geçerlik
4.3 Kullanışlılık
4.0 Giriş
Ölçmede Hata: Ölçme sonuçlarına istenmeyen değişkenlerin karışmasıdır. Her ölçmede hata
olur. Hatasız ölçme yapmak olanaksızdır!
ÖLÇMEDE HATA ÇEŞİTLERİ:
ÖLÇMEDE HATA ÇEŞİTLERİ:
Sabit Hata – Sistematik Hata – Tesadüfi Hata ÖLÇMEDE HATA ÇEŞİTLERİ:
ÖLÇMEDE HATA ÇEŞİTLERİ:
Sabit Hata – Sistematik Hata – Tesadüfi Hata
Hep 10 g fazla tartan terazi
Notlardan %10 eksilten öğretmen
Yorgun ve uykusuz sınava giren öğrenci /öğretmen
‘den dolayı ölçme sonuçlarına hata karışır.
Amacımız, öğrencimizde ölçtüğümüz özellikleri gerçeğe yakın, yani az
hatayla ölçmektir. Hataların, - Ölçen kişi (siz)
- Ölçülen özellik (başarı, yetenek, ...) - Ölçme aracı (Yz yoklama, ç.
seçmeli, ...)
- Ölçme yapılan ortam (Gözcü, sıcaklık, ...)
‘dan kaynaklanabildiğini biliyoruz.
Nesneler veya özelliklerle ilgili ölçmelerde, ölçen kişiye kolaylık
sağladığı veya ölçmelerin hassaslığını arttırdığı için genellikle belli ölçme araçları
kullanılır.
Uzunluk için metre, başarı için sözlü yoklama, yazılı yoklama, çoktan seçmeli, gözlem yapma,
akran gözlemleri, ... var.
Ölçümlerin az hatalı olması ve
verilecek kararla ilgili olabilmesi için ölçme işinde kullanılan araçların belli niteliklere sahip olması gerekir:
ÖLÇME ARACININ NİTELİKLERİ
Kullanışlılık
Güvenirlik Geçerlik
Geçerlik: Ölçme aracının amaca hizmet etme derecesidir. Geçerli bir ölçme aracı,
ölçmeyi amaçladığımız özelliği başka herhangi bir özellikle karıştırmadan ve
doğru olarak ölçer.
Güvenirlik: Ölçme aracının ölçtüğü şeyi tutarlı ölçmesidir. Güvenilir bir ölçme aracı,
değişik zamanlarda/değişik kişilerce
uygulandığında bireyleri aynı sıraya koyar.
Kullanışlılık: Ölçme aracının kullanışlı olmasıdır. Kullanışlı bir ölçme aracının geliştirilmesi
geliştirilmesi, çoğaltılmasıçoğaltılması, uygulanması uygulanması ve puanlanması kolay ve ekonomiktir. puanlanması
4.1 GÜVENİRLİK
Öğrencilerimizin cevap kağıtlarını farklı kişiler okuduğunda önemli bir düzeyde farklı puanlar veriyorlarsa,
bu puanlara güvenimiz azalır.
(Aynı cevaplara farklı puanlar!)
Güvenirlik, ölçme aracının ölçmek istediği şeyi ne derece duyarlı,
kararlı ve tutarlı ölçtüğüdür.
Bir kişi ayrı zamanlarda yazı tahtası Bir kişi ayrı zamanlarda yazı tahtası enini ölçse sonuçlar aynı mı olur?
enini ölçse sonuçlar aynı mı olur?
İki kişi metreyle aynı anda tahta İki kişi metreyle aynı anda tahta enini ölçse sonuçlar aynı mı olur?
enini ölçse sonuçlar aynı mı olur?
Bir kişi ayrı iki metre ile tahta enini ölçse sonuçlar aynı mı olur?
Cevap: HAYIR
TANIM: (Güvenirlik) TANIM: (Güvenirlik)
Ölçme sonuçlarının Ölçme sonuçlarının tesadüfi hatalardan tesadüfi hatalardan arınıklığının ölçüsüdür
arınıklığının ölçüsüdür (M.F.Turgut)(M.F.Turgut)..
Belli bir özelliği ölçmek amacıyla yapılan Belli bir özelliği ölçmek amacıyla yapılan ölçmelerin aynı bireyler üzerinde benzer ölçmelerin aynı bireyler üzerinde benzer şartlarda tekrar edilebilirliğidir
şartlarda tekrar edilebilirliğidir (Crocker&Algina)(Crocker&Algina). .
Testin ölçmek istediği özelliği ne derece Testin ölçmek istediği özelliği ne derece
doğru ölçtüğü ile ilgilidir.doğru ölçtüğü ile ilgilidir.
Güvenirlik, uygulamada 3 anlamda kullanılıyor:
1) Duyarlılık
1) Duyarlılık (1 soru mu, 50 soru mu hassas ölçer?)
2) Kararlılık
2) Kararlılık (Farklı zamanlarda uygulanan aynı sınavın aynı sonuçlar vermesi)
3) Tutarlılık
3) Tutarlılık (Test puanlarıyla madde puanları arasındaki artan korelasyon)
Sabit Hatalar
Sistematik Hatalar
Tasadüfi Hatalar GÜVENİRLİĞİ etkiler...
Sabit ve sistematik hatalarda hatanın kaynağı belli iken, tesadüfi hatalarda hatanın kaynağı belli değildir.
Paralel testler: Aynı özelliği ölçen; aynı standart sapma ve ortalamaya sahip testlerdir.
GK=Gerçek p.v./(Gerçek p.v.+Hata v.)
GÜVENİRLİK Katsayısı İçin Yöntemler:
GÜVENİRLİK Katsayısı İçin Yöntemler:GÜVENİRLİK Katsayısı İçin Yöntemler:
GÜVENİRLİK Katsayısı İçin Yöntemler:
(A) Tek Uygulamaya Dayalı Yöntemler
(B) İki Uygulamaya
Dayalı Yöntemler
• Test-tekrar test (tek form) yöntemi
• Paralel (eşdeğer) formlar yöntemi
• Puanlayıcılar arası tutarlılık
• Madde varyansına bağlı yöntemler:
KR-20, KR-21, Cronbach
• Testi yarılamaya dayalı yöntemler:
Spearman Brown
(A) Tek Uygulamaya Dayalı Yöntemler
(1) Madde varyansına bağlı yöntemler:
Kuder-Richardson KR-20, Cronbach
(2) Testi yarılamaya dayalı yöntemler:
Spearman Brown
(1) Madde varyansına bağlı yöntemler:
İç Tutarlılık Katsayıları olarak da bilinirler.
Burada,
Testteki soru sayısı
Test puanlarının standart sapması
(madde güçlüğü ve güçsüzlüğü çarpımı)
Madde güvenirliği: (ayıredicilik)
pj.qj sırasıyla
0,09-0,16-0,21-0,24-0,25-0,25-0,24-0,21-0,16-0,09
olup, bunların toplamı varyansı verir: (1,90) Çözüm:
KR(20)=(10/9)(1-1,9/4)=0,58
Güvenirlik katsayısı en az 0, en en çok 1 olduğundan ve testteki soru sayısı az (10) olduğundan 0,58 yeterli kabul edilebilir bir güvenirlik derecesidir!
ÖRNEK: K=10 tane çoktan seçmeli test maddesinin güçlükleri (pj) sırasıyla
0,1-0,2-0,3-0,4-0,5-0,5-0,6-0,7-0,8-0,9
bulunmuştur. Bu puanlara ait standart sapma
ise testin KR(20) güvenirlik (iç tutarlılık) katsayısı nedir?
Madde güçlüklerinin aynı veya benzer olması durumunda,
KR(21) formülü kullanılır. Burada ise,
testin ortalamasıdır.
Cronbach Alfa () Güvenirlik Katsayısı
ile hesaplanır.
1-3, 1-5, 1-7 gibi likert tipi (çok iyi, iyi, kararsızım, kötü, çok kötü gibi) dereceli tutum ölçeklerinin iç tutarlılığı hesaplanırken kullanılır.
Psikomotor becerileri ölçen araçların puanlanmasında, kısa cevaplı testlerin güvenirliklerinin hesaplanmasında Cronbach Alfa kullanılır.
(2) Testi yarılamaya dayalı yöntemler:
Spearman Brown r’si
Tüm testin güvenirlik katsayısı Alt testlerin güvenirlik katsayısı
ÖRNEK: Testi yarılama yöntemiyle elde edilen güvenirlik katsayısı 0,80 çıkmıştır.
(a) Bu katsayı neyi ifade etmektedir?
(b) Testin tümüne ait güvenirlik katsayısı kaçtır?
Güvenirliği 0,80 olan bir teste, onun paraleli bir test daha eklendiğinde testin güvenirliği 0,89’a
çıkmaktadır!
(B) İki Uygulamaya Dayalı Yöntemler
(1) Test-Tekrar Test (Tek Form) Yöntemiyle Güvenirlik Kestirme:
Kararlılık anlamındaki güvenirlik katsayısının elde edilmesi için bir yöntemdir.
AŞAMALARI:
(1) Testin bir gruba uygulanması.
(2) Bir zaman sonra aynı testin aynı gruba uygulanması.
(3) İki uygulamadan elde edilen puanlar arasındaki PMÇ korelasyon katsayısının hesaplanması.
(4) Bu korelasyon katsayısının yorumlanması
Öğrenci 1. sonuç 2. sonuç
Ahmet 8 9
Sinem 8 8
Ali 6 7
Gönenç 9 9
Derin 7 7
Su 8 9
Mehmet 9 9
Fadile 5 6
Aliye 5 4
Asiye 9 9
Vecide 7 8
Raziye 8 8
Caize 9 9
Ayşe 4 4
Buket 3 5
Buse 3 3
Sudem 4 5
Efe 5 5
Arda 6 8
Halil 7 8
ÖRNEK: Bir Türkçe öğretmeni 1 hafta arayla öğrencilerinin kompozisyon yazma becerilerini aynı konuda bir kompozisyon yazdırarak 2 kere ölçmüş ve yandaki sonuçları bulmuştur.
Puanların güvenirliğini hesaplayıp yorumlayın.
PMÇ Korelasyonu=0,93 olup oldukça yüksek güvenirlikte olduğu söylenebilir.
(2) Paralel (Eşdeğer) Formlar Yöntemiyle (2) Paralel (Eşdeğer) Formlar Yöntemiyle
Güvenirlik Kestirme:
Güvenirlik Kestirme:
Eşdeğer bu testlerden bulunan korelasyon, eşdeğer formların güvenirliğini verir. Bu güvenirliğe denklik katsayısı da denir.
(Eşdeğer formlar aynı gruba aynı veya farklı zamanlarda uygulanabilir!)
Kararlılık anlamındaki güvenirlik katsayısının elde edilmesi için bir yöntemdir bu da.
AŞAMALARI:
(1) Test formlarından birinin uygulanması.
(2) Bir zaman sonra diğer testin aynı gruba uygulanması.
(3) İki uygulamadan elde edilen puanlar arasındaki PMÇ korelasyon katsayısının hesaplanması.
(4) Bu korelasyon katsayısının yorumlanması
(3) Puanlayıcılar Arası Tutarlılık
İki veya daha çok puanlayıcının verdiği İki veya daha çok puanlayıcının verdiği
puanların güvenirliği, puanlar puanların güvenirliği, puanlar arasındaki uyum (
arasındaki uyum (tutarlılıktutarlılık) ile ölçülür.) ile ölçülür.
Testin ölçme sonuçlarının güvenirlik katsayısı, test puanlarına ilişkin
varyansın (bireysel puanlardan gözlenen değişkenliğin) ne derece hata faktörüne bağlı olduğunu yorumlamak için de
kullanılır.
ÖRNEK:
ÖRNEK: İki paralel formdan bulunan İki paralel formdan bulunan
güvenirlik katsayısı 0,80 ise bunun anlamı:
güvenirlik katsayısı 0,80 ise bunun anlamı:
Gözlenen puanlardaki varyansın %80’i Gözlenen puanlardaki varyansın %80’i ölçülen özellikle ilgili
ölçülen özellikle ilgili gerçek varyansagerçek varyansa, , kalan %20’si ise
kalan %20’si ise hata varyansınahata varyansına aittir. aittir.
İki paralel testten elde edilen puanlar
için hesaplanan korelasyon katsayısının karesi ise, ilk forma ait gözlenen
puanlardaki varyansın ne kadarının ikinci forma ait gözlenen puanlardaki varyansla tahmin edilebileceğini
gösterir.
ÖRNEK: ÖRNEK: İki paralel formdan bulunan İki paralel formdan bulunan
güvenirlik katsayısı 0,80 ise bunun anlamı: güvenirlik katsayısı 0,80 ise bunun anlamı:
İkinci forma ait gözlenen puanların İkinci forma ait gözlenen puanların
0,80x0,80=0,64’ü birinci forma ait gözlenen 0,80x0,80=0,64’ü birinci forma ait gözlenen
puanlar varyansına bağlıdır
puanlar varyansına bağlıdır (veya tersi)(veya tersi)..
Güvenirlik Tahmin Yöntemleri (ÖZET)
Uygulama
Sayısı Yöntem Güvenirlik
Türü İşlem
TEK UYGULAMA
Testi Yarılama İç tutarlılık katsayısı
Bir test formunun iki eş yarıya bölünüp uygulanması esasına dayanır. Testin iç tutarlılığının bir göstergesidir. Hız testleri için yüksek güvenirlik tahminleri verir.
KR(20)-KR(21) İç tutarlılık katsayısı
Testi yarılama yöntemine göre daha düşük güvenirlik tahminleri verir.
Cronbach Alfa İç tutarlılık katsayısı
1-3, 1-5, 1-7 gibi likert tipi dereceli tutum ölçeklerinin iç tutarlığının hesaplanmasında kullanılır. (Psikomotor becerileri ölçen
araçların puanlanmasında, kısa cvp testler)
İKİ
UYGULAMA
Test-Tekrar Test Kararlılık katsayısı
Bir test formu bir gruba belli bir aralıkla iki kere uygulanır. Uygulamalar arası süre arttıkça güvenirlik düşer.
Eşdeğer Formlar Denklik katsayısı
Paralel formların aynı öğrenci grubuna uygulanmasına dayanır.
Puanlayıcılar Arası
Tutarlılık Tutarlılık
Soruların farklı puanlayıcılar tarafından puanlanması sonucu benzer sonuçlar elde etme derecesini verir. Tutarlılığı arttırmak için ayrıntılı cevap anahtarı hazırlanır ve puanlayıcılar puanlama kurallarına uyarlar.
Ölçmenin Standart Hatası
Pratikte ölçülen kişinin sadece gözlenen puanları elde edilebilir. Bireylerin gerçek puanları ve her bir gözlenen puanla ilgili ölçme hatası bilinemez.
Eğer aynı testle birey için 2 ölçüm alsak, bunların ortalaması gerçek puanına daha yakın olur. 1000 ölçümün ortalaması, gerçek puanına daha da yakın olur.
Sonsuz
Sonsuz tane ölçüm bir normal dağılım gösterir.
Bu dağılımın ortalaması bireyin gerçek puanı olarak tanımlanırken, standart sapması da ölçmenin standart hatası olarak adlandırılır.
Gözlenmiş puanlar dağılımının standart sapması ve puanların güvenirlik katsayısı
bilinirse, ölçme hatalarının standart sapması tahmin edilebilir. Tahmin edilen değer ölçmenin standart hatasıdır.(Halil Tekin, Eğ.Ölçme ve Değ., 7.baskı)
Ölçmenin Standart Hatası (ÖSH)
(veya Standard error Se veya Standard error of measurement Sem)
şöyle tahmin edilir:
Testin standart sapması Testin güvenirlik katsayısı
ÖRNEK: Bir testten elde edilen puanların
dağılımının standart sapması 6 ve güvenirliği 0,75 bulunmuştur. Ahmet bu testten 50
almışsa Ahmet’in GERÇEK puanı ile ilgili ne söylenebilir?
Bir öğrencinin test puanı tek bir sayı yerine bir aralık olarak düşünülmelidir. Bu aralık ölçmenin standart hatası (ÖSH) yardımıyla çeşitli olasılıklara göre hesaplanabilir.
olur.
Buradan bir ÖSH=3, iki ÖSH=6 ve 3 ÖSH=9 bulunur.
Ahmet’in gerçek puanlarının dağılımı:
O halde Ahmet’in GERÇEK puanı,
%68 olasılıkla 50-(bir ÖSH) ile 5+(bir ÖSH) arasında,
%95 olasılıkla 50-(iki ÖSH) ile 5+(iki ÖSH) arasında,
%99 olasılıkla 50-(üç ÖSH) ile 5+(üç ÖSH) arasındadır.
Yani, Ahmet’in GERÇEK puanı,
%68 olasılıkla 47 ile 53 arasında,
%95 olasılıkla 44 ile 56 arasında,
%99 olasılıkla 41 ile 59 arasındadır.
50-S 50-2S
50-3S 50+S 50+2S 50+3S
0,3413 0,3413
0,1359 0,1359
0,0215 0,0215
%68 %95
%99,7
50
Güvenirliği Arttırmanın Yolları
Güvenirlik, ölçme işleminin hatadan arınıklığı olduğuna göre, hata kaynaklarını ortadan kaldırırsak güvenirlik de temin
edilmiş olur!
ÖĞRETMEN İLE İLGİLİ GÜVENİRLİK ARTIRMA TEDBİRLERİ:
1) Az sorulu sınav yerine çok sorulu sınav tercih edin (ölçme aracının duyarlılığı artar).
2) Öğrencileri iyi tanıyıp onların düzeylerine uygun soru yazın (en alt seviyeden en üste).
3) Sınav süresi ne az ne de çok olmalı.
4) Sorular açık ve anlaşılır olmalı.
5) Puanlamada ölçme hatalarını en aza
indirmek için cevap anahtarı hazırlanmalı.
6) Sınav kağıdında yönerge olması; baskı, imla ve yazım hatalarının olmaması; uygun punto seçimi, … önemlidir.
ÖĞRENCİ İLE İLGİLİ GÜVENİRLİK ARTIRMA TEDBİRLERİ:
1) Sınavın bir ölüm kalım meselesi olarak
algılanmaması veya hiç kaygı duyulmaması.
2) Öğrencilerin sınav sırasında yardımlaşması, kopya çekilmesi, vb nedenlerle, en az iki
soru formu oluşturmak, gözcü say. artırmak,…
1) Sınav fiziki ortamı (gürültü, sıcaklık, aydınlık…) uygun olmalı.
2) Sınavın iyi planlanması, böylece sınav
öncesinde kargaşa oluşmaması sağlanmalı.
ORTAM İLE İLGİLİ GÜVENİRLİK ARTIRMA TEDBİRLERİ:
4.2 GEÇERLİK
Bir ölçme aracının en önemli özelliğidir!
Geçerlik, bir ölçme aracının ölçmeyi amaçladığı özelliği, başka bir özellikle karıştırmadan doğru olarak ölçebilme derecesidir.
Yani, ölçme aracının geliştirildiği konuda amaca hizmet etme derecesidir.
ÖRNEK: Uzunluk ölçmeye yarayan metre,
kişilerin boylarını ölçme amacına hizmet eder, ama kişilerin ağırlıklarını ölçme amacına hizmet etmez. Yani, metre sadece uzunluk ölçmede
geçerlidir, fakat ağırlık ölçmede geçerli değildir.
Geçerlik, bir ölçme aracının ölçmek istediği değişkeni ölçüp ölçmediği, ölçüyorsa onu başka değişkenlerden ne derece arınık olarak ölçtüğüdür.
Diğer bir deyişle geçerlik; ölçme aracının bir başka özellikle karıştırmadan ölçülmek istenen özelliği tam ve doğru bir şekilde ve
ölçebilme derecesidir.
Ölçme puanlarına, ölçmek istediğiniz
özellikler dışındaki niteliklerin karışması, ölçme aracından elde edilecek ölçümlerin geçerliğini düşürür.
ÖRNEK:
İşçi-Havuz Problemleri başarısı ölçen bir testin puanlarına «dili kullanma becerisi»,
«öğrencinin kişiliği», «kültür», «cinsiyet»,
«derste anlatılmayan şeyler sorma»,
«öğrencileri gruplara ayırma», «kopya çekilmesine göz yumma», … gibi
niteliklerin karışması ölçümlerin maksada uygunluğunu yani geçerliğini çok düşürür.
Sabit Hatalar
Sistematik Hatalar
Tasadüfi Hatalar GÜVENİRLİĞİ etkiler
GEÇERLİĞİ etkiler
GEÇERLİK BELİRLEME YAKLAŞIMLARI
Doğrudan Geçerlik Türetilmiş Geçerlik
Doğrudan Geçerlik
Uzman (öğretmenler, test
geliştiriciler, alan uzmanları gibi) kişilerin, testleri ya da sınavları doğrudan inceleme ve analizine dayanır.
Türetilmiş (İstatistiksel) Geçerlik
Test ya da sınav sonuçlarının, bağımsız bir testten elde edilen sonuçlarla istatistiksel olarak karşılaştırılmasına dayanır.
Doğrudan geçerlik çalışmalarını gerçekleştirmek, istatistiksel
yaklaşıma oranla daha kolaydır.
Çünkü bağımsız bir testten elde edilmiş ölçüt puanlarına ihtiyaç yoktur.
Bununla birlikte bu yaklaşım,
doğrudan uzmanların kararlarına bağlı olduğundan, istatistiksel
yaklaşıma göre daha az objektiftir.
GEÇERLİK KESTİRME TÜRLERİ
(1) Kapsam Geçerliği (2) Ölçüt Geçerliği
(3) Yapı Geçerliği (4) Görünüş Geçerliği
(1) Kapsam Geçerliği (Content Validity)
İncelenen konu ile ilgili
değişkenler evreninin ne ölçüde kapsandığının göstergesidir.
Ölçme aracı, ölçme amacıyla ilgili olmayanlardan arınmış olmalıdır.
Ölçme aracı geliştirilme sürecinin tüm aşamalarında kapsam
geçerliği sınanabilir.
Örnek:
“4 işlem matematik bilgisi”
ölçülmek istendiğinde,
öğrenciye yalnızca “toplama”
işlemini sormak onun dört
işlemin öteki öğelerini bilip
bilmediğini anlamaya yeterli
olamaz.
Örneğin, lise 2. sınıf Kimya dersi ile ilgili olarak bir test geliştirdiğimizi varsayalım.
Kapsam geçerliği için, dersin
kapsamında yer alan 2. sınıf tüm
konuların ve her konu ile ilgili kritik davranışların o testle yoklanması gerekmektedir.
Sadece birkaç konunun kritik
davranışlarını yoklayan bir testten elde edilen sonuçlar, kapsam
geçerliğine sahip olamaz.
Kritik davranışların
belirlenmesinde “Belirtke Tablosu”ndan yararlanılır.
Belirtke tablosu, bir
boyutunda, hazırlandığı ders ya da alanla ilgili konular ya da
içerik, diğer boyutunda ise, bu içerikle öğrencilere
kazandırılacak hedef
davranışların düzeyini içeren bir tablodur.
Tablo:2 Asit ve bazlar konusunda kapsam geçerliği yüksek bir belirtke tablosu.
Tablo:1 Asit ve bazlar konusu için belirtke tablosu.
Kapsam geçerliğinde gözden kaçırılmaması gereken önemli bir husus da testte yer alan
soruların gerçekten hedeflenen davranışları ölçüp ölçmediğinin belirlenmesidir.
Özellikle Fen derslerinde son yıllarda bu duruma sıkça
rastlanmaktadır.
Bir lise Kimya dersi sınavında sorulmuş şu soruyu inceleyelim:
Soru: Yarılanma süresi 10 yıl olan
1000 gram radyoaktif bir elementten 50 yıl sonra ne kadar geride kalır?
Soru incelendiğinde, bir öğrencinin bu soruyu Kimya bilgisini
kullanmadan, tamamen Matematik becerisi ile çözebileceği anlaşılıyor.
Sorulan sorunun gerçekten ölçmeyi amaçladığı davranışı ölçüp ölçmediği uzmanlık isteyen bir konudur.
Kapsam geçerliğinin bu yönü de yine uzman kişiler tarafından kontrol
edilmelidir.
Sınav sorularının ölçmek Sınav sorularının ölçmek istediği konu alanını
istediği konu alanını kapsayıp kapsamadığı kapsayıp kapsamadığı
kapsam geçerliğinii gösterir. gösterir.
Peki sizce bu nasıl sağlanır?Peki sizce bu nasıl sağlanır?
Soruların konu alanını yeterince Soruların konu alanını yeterince
kapsayıp kapsamadığı
kapsayıp kapsamadığı konu alanı uzmanlarının görüşü
alınarak belirlenebilir.belirlenebilir.
(2) Ölçüt Geçerliği
(Criterion Validity) LGS, TEOG, KPSS, ALES gibi sınavların geçerlikleri yüksektir.
Ölçüt geçerliği, bireylerin o testten elde ettiği puanlarla, aynı özelliğe
yönelik geçerliği belirlenmiş (örneğin LGS) bir testten aldıkları puanlar
arasındaki korelâsyona bakılarak hesaplanır.
Ölçüt geçerliğinde, mutlaka karşılaş- tırılacak bir KRİTER olmalıdır.
Buradan elde edilen korelâsyon katsayısı -1.00 ile +1.00 arasında değerler alabilir.
Test puanları ile ölçüt test puanları
arasındaki korelâsyonun +1.00’a yakın olması geçerliğin yüksek, 0.00’a yakın olması geçerliğin düşük olduğunu ve negatif olması ise testin, ölçütün
ölçtüğünden başka ve onunla ters yönde bir özelliği ölçtüğünü gösterir.
İki ölçüt geçerliği türü vardır:
Eş zaman geçerliği (uygunluk-concurrent validity)
Yordama geçerliği (kestirim-Prediktive validity)
Eş zaman geçerliği (uygunluk-concurrent validity)
Ölçme aracından elde edilen puanlar ile daha önceden geliştirilmiş ve
geçerliği yüksek olduğu bilinen, aynı özelliği ölçen başka bir ölçme
aracının puanları arasındaki
korelasyon.
Ölçüt puanları, asıl ölçme aracından elde edilen puanlarla aynı zamanda veya daha önce elde edilmiş ise, bu puanlar
arasındaki korelasyona dayalı olarak
belirlenen geçerliğe, eşzaman geçerliği denmektedir.
Bu geçerlik türü, literatürde,
Uyum geçerliği,
Benzer ölçekler geçerliği,
Uygunluk geçerliği,
Zamandaş geçerliği
gibi farklı isimlerle de anılmaktadır.
ÖRNEK: ÖSYM sınavının (LGS) eşzaman geçerliğini belirlemede, öğrencilerin orta
öğretim başarı puanları ölçüt olarak alınabilir.
ÖRNEK:
Öğrencilerin biyoloji performansına yönelik geliştirilen bir testten elde ettikleri puanlarla, yine aynı öğrencilerin aynı zamanda biyolojiye karşı tutumlarını belirlemek amacıyla
geliştirilen bir ölçekten elde ettikleri puanlar arasındaki korelasyon katsayısı, eşzaman
geçerliğine diğer bir örnek olarak düşünülebilir.
Burada gözden kaçırılmaması gereken, ölçüt olarak kullanılan puanların geçerli ve güvenilir olmalarıdır.
Yordama geçerliği (kestirim-Predictive validity)
Ölçüt puanları, geçerliği belirlenecek puanlardan daha sonra elde edilmiş ise, bu puanlar arasındaki korelasyon hesaplanarak belirlenen geçerliğe
yordama geçerliği denir.
Sonradan alınacak referans sonucunun önceden tahmin edilmesidir.
Yordama: İstatistiksel teknikler kullanılarak ve bilinenlerden yararlanılarak bilinmeyen durumlar hakkında yapılan geleceğe dönük tahminlerde bulunma istemidir.
ÖRNEK: Aşağıda belirtilen değişkenler
arasındaki ilişkilerden hangisi, KPSS Eğitim Bilimleri testinin yordama geçerliği hakkında bilgi verir? (KPSS-2012)
1. Değişken 2. Değişken
A) Testten alınan toplam puanlar Lisans mezuniyet not ortalamaları
B) Testten alınan toplam puanlar Yeni atanan öğretmenlerin ilk yıl sonundaki yeterlik puanları
C) 2010 yılında uygulanan testin
madde ayırdedicilik indeksleri 2010 yılında uygulanan testin madde ayırdedicilik indeksleri
D) Testin 2010’da uygulamasından
alınan toplam puanlar Testin 2010’da uygulamasından alınan toplam puanlar
E) 2010 yılında uygulanan testin
madde güçlük indeksleri 2010 yılında uygulanan testin madde güçlük indeksleri
• Sınavın, öğrencinin gelecek öğrenimi hakkında tahmin ve yordama yapabilme özelliğidir.
• Öğrencinin bir üst öğretim
basamağını başarıyla tamamlayıp tamamlayamayacağı hakkında ışık tutması anlamını içerir.
Öğrencileri bir öğretim programına yerleştirmeden önce, seçme amacıyla yapılan sınavlardaki başarı ölçülerine
bakarak, öğretim programındaki başarılarını kestirmek sınavın yordama geçerliğini verir.
Eğer sınavla seçilen öğrenciler, seçilmeyen öğrencilere göre daha başarılı olacaksa
seçmede kullanılan aracın yordama
geçerliğinin yüksek olduğu söylenebilir.
(3) Yapı Geçerliği
(Construct Validity) Yeni testi karşılaştıracak bir ölçüt yoksa yapı geçerliği sınanmalıdır.
Ölçütlerin ve soyut kavramların içeriğinin ve evrenin açıkça
bilinmediği, ölçülecek özelliğin açık-seçik tanımlanamadığı
durumlarda tercih edilir.
Yapılar genellikle çok boyutlu
olduğundan yapı geçerliği hiçbir zaman tam olarak sağlanamaz.
Yapı geçerliği, ölçme aracı ya da testten elde edilen sonuçların, o araçla ölçülmek istenen kuramsal yapıyı ortaya koyabilme derecesidir.
1. Bilinen gruplar yöntemi (ayırdedici geçerlik) 2. Faktör analizi (açıklayıcı ve doğrulayıcı analizler) 3. Benzer ölçek geçerliği (convergent validity)
YAPI GEÇERLİĞİ TÜRLERİ:
(4) Görünüş Geçerliği
(Face Validity) Görünüş (yüz) geçerliği, adından da Görünüş (yüz) geçerliği, adından da anlaşılacağı gibi, bir testin görünüşte anlaşılacağı gibi, bir testin görünüşte neyi ölçüyor göründüğü ile ilgilidir.
neyi ölçüyor göründüğü ile ilgilidir.
Örneğin, bir Tarih dersi testine Örneğin, bir Tarih dersi testine baktığımızda,
baktığımızda, adının,adının, cevaplama cevaplama yönergelerinin
yönergelerinin ve testteki her bir ve testteki her bir sorunun Tarih
sorunun Tarih ile ilgili olduğu izlenimi ile ilgili olduğu izlenimi vermesi görünüş geçerliğidir.
vermesi görünüş geçerliğidir.
Görünüş (yüz) Geçerliği:
Görünüş (yüz) Geçerliği:
Aracın ölçmeyi hedeflediği şeyi ölçüp ölçemeyeceğinin uzman bakışı ile
değerlendirilmesidir.
Ölçülecek kavramların çok iyi bilinmesi gerekir.
Görünüş geçerliği olmayan ölçek veya test kullanılamaz!
Görünüş geçerliği, ölçme aracı geliştirildikten sonra sınanır.
Yüz geçerliği öznel bir süreçtir, ancak yargıçlar- uzmanlar arası anlaşma-uyuşma derecesi yüz geçerliği düzeyi ölçütü olarak hesaplanabilir.
Bunun için uyuşma yüzdesi hesaplanır. Bu yüzde-oran ne denli yüksekse araç o denli yüz geçerliğine sahip kabul edilir.
Geçerliği Etkileyen Faktörler
MADDE SAYISI: Testteki madde sayısı arttıkça testin konuları kapsama ve
davranışları örnekleme oranı artacaktır.
Dolayısıyla geçerlik artacaktır.
GÜVENİRLİK: Güvenirliği arttıran bütün çalışmalar, geçerliği de arttırabilir. Ancak güvenirliğin sağlanmış olması demek, geçerliğin de sağlandığı anlamına
gelmemektedir.
NOT: Geçerlik katsayısı, güvenirlik katsayısının kare kökünü aşamaz. Örneğin, güvenirliği 0.81 olan bir testin geçerliği en çok 0.90 olabilir.
PUANLAYICI YANLILIĞI: Puanlamada objektif olunmaması ya da testin amacı
dışında farklı durumların puanlamaya dahil edilmesi geçerliği etkilemektedir. Örneğin,
öğrencilerin fen başarısını ölçmeye yönelik bir testi puanlarken, yazının güzelliği, ifadelerin düzgünlüğü, sayfa düzeni gibi durumların puanlamaya katılması, …
UYGULAMA KOŞULLARI: Ortamın sınav için uygun olmaması elde edilecek sonuçların geçerliğini olumsuz şekilde etkilemektedir.
Örneğin, ortamın gürültülü, karanlık, sıcak ya da soğuk olması, kopya çekilmesi, ...
4.3 Kullanışlılık
Ölçme aracının;
•Ekonomik olması,
•Uygulama süresinin kısalığı,
•Ölçmeciden beklediği beceriler,
•Hazırlamasının ve uygulamasının kolaylığı,
•Puanlamasının pratikliği, … gibi etkenler ölçme aracının kullanışlılığını gösterir.
Ölçme aracının kullanışlılığı, diğer iki özelliğini (geçerlik ve güvenirlik) artırıcı yönde rol oynar.
Bölüm Değerlendirme Soruları
1. Bir firmaya eleman almak amacıyla
yapılan bir sınav için, “oldukça geçerli bir sınav yapıldı” diyen bir uzman, sınavın hangi özelliğini ifade etmektedir? (KPSS–2006)
A) Zor olduğunu
B) Adayların yeteneklerine uygun
olduğunu
C) Objektif olduğunu D) Kolay olduğunu
E) İşteki başarıyı yansıtacak yapıda olduğunu
2. Hazırladığı testin güvenirliğini artırmak isteyen bir öğretmen, öncelikle
aşağıdakilerden hangisini sağlamaya çalışmalıdır? (KPSS–2006)
A) Testteki soruların ve seçeneklerin dil bilgisi kurallarına uygun olmasını
B) Soruların açık, net ve anlaşılır olmasını C) Seçenekler ile soru kökünün ifade
bakımından birbirleriyle tutarlı olmasını D) Test kapsamında ölçülmek istenilen her özelliğe ait soru bulunmasını
E) Seçeneklerin birbirine eşit ya da yakın uzunlukta olmasını
3.
Pazarlama elemanları seçimindekullanılmak üzere bir test geliştirilmiş ve işe alımlarda bu test uygulanmıştır. Daha sonra, işe alınan elemanların ilk aydaki başarılı satış sayıları ile işe girişte aldıkları test puanları arasındaki uyum incelenmiştir.
Yukarıda belirtilen inceleme, uygulanan testin hangi özelliği hakkında bilgi verir? (KPSS–2007)
A) Yordama geçerliği B) Yapı geçerliği
C) Kapsam geçerliği D) İç tutarlığı
E) Puanlayıcılar arası güvenirliği
4. Bir öğretmen aynı kapsamda ve düzeyde iki ayrı sınav hazırlamış ve aynı gruba uygulamıştır. Bu sınavların
özellikleri şöyledir:
Birinci sınavda 25 soru vardır ve her soru 4 puan değerindedir.
İkinci sınavda 10 soru vardır ve her soru 10 puan değerindedir.
“Birinci sınavdan elde edilen puanların güvenirliği daha yüksektir” diyen bir kişi bu iddiasını aşağıdaki
açıklamalardan hangisiyle destekleyebilir? (KPSS–2008)
A) Bir sınavda yanıtların nasıl puanlanacağı kullanılan soru tipine göre değişir.
B) Puanlamanın nesnelliği ölçmeden kaynaklanabilecek hatayı azaltır.
C) Soruların ayırt edicilik dereceleri test puanlarının güvenirliğini etkiler.
D) Soruların güçlük dereceleri test puanlarının güvenirliğini etkiler.
E) Testteki soru sayısı arttıkça ölçme sonuçlarına karışan hata miktarı azalır.
5. Sınıfındaki öğrenciler arasında bu dersteki başarısı yüksek olanları seçmek isteyen bir
öğretmenin hangi testi kullanması en uygun olur?
A)1 B) 2 C) 3 D) 4 E) 5
6. “Bir testin güvenirliğinin yüksek olması,
geçerli bir test elde etmek için yeterli değildir”
yargısını desteklemek için hangi test örnek gösterilebilir?
A)1 B) 2 C) 3 D) 4 E) 5
7. Diğerlerinden daha kolay olduğu hâlde kabul edilebilir düzeyde güvenilir ve geçerli olan test hangisidir?
A) 1 B) 2 C) 3 D) 4 E) 5
8. Yabancı dil muafiyet sınavında kullanılan test için aşağıdakilerden hangisi bir geçerlik kanıtı olabilir?
A)Testin hatasız puanlanabilmesi
B)Testin çoktan seçmeli maddelerden oluşması C)Testten alınan puanların ranjının geniş olması
D)Yabancı dili iyi bilenlerin testten yüksek puan alması E)Testte farklı yapılarda soruların bulunması
9. Bir araştırmacı çoklu zeka alanlarını ölçmek amacıyla geliştirdiği çok boyutlu testi, dil bilimi, matematik, resim, heykel, müzik, beden eğitimi, iletişim, psikoloji bölümlerindeki öğrencilere uygulamıştır.
Uygulama sonucunda farklı bölümlerdeki öğrencilerin kendi alanıyla ilgili sorulardan yüksek, diğer alanlardaki sorulardan ise daha düşük puan aldıklarını saptamıştır.
Buna göre, ölçme aracı için aşağıdakilerden hangisi söylenebilir?
A)Amaca hizmet etme derecesi düşüktür B)Hata düzeyi düşüktür
C)Geçerliği yüksektir D)Kullanışlılığı yüksektir E)Güvenirliği düşüktür
Soru p r
1 0.35 0.25
2 0.05 0.65
3 0.15 0.15
4 0.90 0.05
5 0.70 -0.35
6 0.40 0.40
7 0.15 0.10
8 0.75 0.60
9 0.15 -0.40 10 0.95 0.25
10. Yandaki tabloda 10 soruya ait madde güçlüğü (p) ve ayırdedicilik (r) değerleri verilmiştir.
Uygulama sonucunda yukarıdaki değerleri elde eden bir öğretmen, ayırdediciliği düşük olan maddeleri düzeltilemediği için testten çıkarmak istemektedir.
Bu maddelerin çıkarılması
aşağıdakilerden hangisine neden olur?
A)Testin ölçüt geçerliğinin düşmesine B)Kalan maddelerin güçlük indeksinin düşmesine
C) Çeldiricilerin iyi çalışmasına
D) Testin iç tutarlılığının düşmesine E) Testin kapsam geçerliğinin
düşmesine