• Sonuç bulunamadı

Ankara, 2019 Yüksek Lisans Tezi Şafak Cansu DOĞRU TEST KURAMI VE RASCH MODELİNİN KARŞILAŞTIRILMASI KARMA TESTLERİN PSİKOMETRİK ÖZELLİKLERİNİ BELİRLEMEDE KLASİK Eğitimde Ölçme ve Değerlendirme Programı Eğitim Bilimleri Ana Bilim Dalı

N/A
N/A
Protected

Academic year: 2023

Share "Ankara, 2019 Yüksek Lisans Tezi Şafak Cansu DOĞRU TEST KURAMI VE RASCH MODELİNİN KARŞILAŞTIRILMASI KARMA TESTLERİN PSİKOMETRİK ÖZELLİKLERİNİ BELİRLEMEDE KLASİK Eğitimde Ölçme ve Değerlendirme Programı Eğitim Bilimleri Ana Bilim Dalı"

Copied!
115
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Eğitim Bilimleri Ana Bilim Dalı

Eğitimde Ölçme ve Değerlendirme Programı

KARMA TESTLERİN PSİKOMETRİK ÖZELLİKLERİNİ BELİRLEMEDE KLASİK TEST KURAMI VE RASCH MODELİNİN KARŞILAŞTIRILMASI

Şafak Cansu DOĞRU

Yüksek Lisans Tezi

Ankara, 2019

(2)

Liderlik, araştırma, inovasyon, kaliteli eğitim ve değişim ile

(3)

Eğitim Bilimleri Ana Bilim Dalı

Eğitimde Ölçme ve Değerlendirme Programı

KARMA TESTLERİN PSİKOMETRİK ÖZELLİKLERİNİ BELİRLEMEDE KLASİK TEST KURAMI VE RASCH MODELİNİN KARŞILAŞTIRILMASI

THE COMPARISON OF CLASSICAL TEST THEORY AND RASCH MODEL IN DETERMINING THE PSYCHOMETRIC PROPERTIES OF MIXED TESTS

Şafak Cansu DOĞRU

Yüksek Lisans Tezi

Ankara, 2019

(4)

i Kabul ve Onay

(5)

ii Öz

Bu çalışmanın amacı, karma testlerin psikometrik özelliklerini belirlemede Klasik Test Kuramı ve Rasch Modelinin kullanımının benzer ve farklı yönlerini inceleyerek, hangisinin daha detaylı istatistiksel bilgi verdiğini ortaya koymaktır. Madde ve test istatistikleri Klasik Test Kuramına göre Microsoft Excel ile Rasch modeline göre ise Winsteps yazılımı 4.3.2. versiyonu ile elde edilmiştir. Çalışmanın veri seti ABİDE (Akademik Becerilerin İzlenmesi ve Değerlendirilmesi) sınavı 2016 uygulaması A kitapçığını alan 11193 bireyin cevaplarından oluşmaktadır. Çalışma ABİDE sınavı matematik ve fen bilimleri alt testleri ile sınırlı tutulmuştur. Her bir alt test 9 tane çoktan seçmeli ve 9 tane açık uçlu olmak üzere 18 maddeden oluşmaktadır. İki kuramın madde güçlüklerini belirlemede benzer sonuçlar verdiği görülmüştür. İki kurama göre test uygulamasının güvenirlik ve geçerlikleri açısından problemli olabilecek maddeler incelenmiş, fen bilimleri alt testi için iki kuramın da aynı maddeler işaret ettiği görülmüştür. Matematik alt testinde ise Rasch modelinin KTK’ya ek olarak bir maddeyi daha problemli olarak gösterdiği görülmüştür. İki kurama göre de testlerin güvenilir olduğu görülmüş, kullanımının KTK’ya göre daha az alışılmış olmasına rağmen Rasch modelinin bireylere ve maddelere ilişkin daha detaylı bilgi verdiği; dolayısıyla geniş ölçekli test uygulamalarında istatistiksel bilgi elde edilirken KTK’ya iyi bir alternatif olabileceği düşünülmektedir.

Anahtar sözcükler: klasik test kuramı, rasch modeli, karma testler, abide sınavı, psikometrik özellikler

(6)

iii Abstract

The aim of this study is to indicate which one of the Classical Test Theory and Rasch model is providing more detailed statistical information in determining psychometric properties of mixed tests through comparing their similarities and differences. While estimating item and test parameters according to Classical Test Theory and Rasch Model, Microsoft Excel and Winsteps version 4.3.2 are used respectively. The data set of the study consists of 11193 students’ answers to the ABİDE (Monitoring and Evaluating of Academic Skills) exam. Analysis are restrained to mathematics and science subtests of ABİDE exam. Each of the subtests comprises of eighteen items including nine multiple choice and nine open ended questions. The two methods showed similar results in determining item difficulties. While examining the possible problematic items regarding reliability and validity; the two methods pointed out the same items in science subtest but Rasch model signaled one more item in mathematics subtest. Both subtests’ reliability is approved by both methods. It is shown that the less common Rasch model provides more detailed statistical information about items and persons. Therefore, it is stated that the Rasch model could be a good alternative to classical test theory while achieving statistical information on large scale assessments.

Keywords: classical test theory, rasch model, mixed tests, abide exam, psychometric properties

(7)

iv Teşekkür

Tez çalışmam boyunca sorularımı ilgi ve sabırla dinleyip bilgi ve deneyimlerini benimle paylaşan, güler yüzlü ve samimi yaklaşımı ile ilgi ve merakımı besleyen, karşılaştığım zorluklarda desteğini esirgemeyen değerli hocam ve danışmanım Prof. Dr. Nuri DOĞAN’a; akademik gelişimimde büyük katkısı olan, kendisini tanıma fırsatı bulduğum için kendimi çok şanslı saydığım değerli hocam Prof. Dr. Selahattin GELBAL’a; değerli görüş ve önerileri ile tezimin gelişmesine katkıda bulunan saygıdeğer hocam Doç. Dr. Hamide Deniz GÜLLEROĞLU’na,

Derslerine katılmaktan büyük keyif aldığım, bilgi ve tecrübelerini içtenlikle paylaşan, desteklerini hissettiğim ve öğrencileri olmaktan gurur duyduğum değerli hocalarım Prof. Dr. Hülya KELECİOĞLU, Dr. Derya ÇOBANOĞLU AKTAN, Doç.

Dr. Burcu ATAR ve Prof. Dr. Duygu ANIL’a,

Tezimin özünü oluşturan Rasch analizlerine yönelik yazılım desteğini sağlamakla kalmayıp, yazılımın kullanımı ile ilgili sorularımı da içtenlikle cevaplayan sayın Prof. John Michael LINACRE’ye,

Varlığının ve desteğinin ne kadar değerli olduğunu anlatmaya yetecek sözcükleri bulamadığım, hayatımdaki en büyük güç ve motivasyon kaynağım olan ve bu süreçte hiçbir fedakarlıktan çekinmeyen değerli eşim Mahmut Yasin DOĞRU’ya; hayatımın her döneminde sabır ve özveri ile beni destekleyen annem İfakat CİRİT, babam Ömer CİRİT ve biricik kardeşlerim Canan ile Ayşe’ye,

Mesafelere rağmen manevi desteklerini her zaman hissettiğim, bu süreçte bana çok yardımcı olan değerli dostlarım Bedriye DOLUZENGİN, Yasemin YETKİN, Sibel KURT, Nermin SARIYILMAZ’a ve kuzenim Mahmut ÖZKAN’a,

Çalışma hayatımı kolaylaştırmak için gayret göstererek akademik çalışmalarımı destekleyen Hasanoğlan Ortaokulu ve 25 Mayıs Ortaokulu’ndaki idari kadro ve öğretmen arkadaşlarıma,

Araştırma verilerimi sağlayan MEB Ölçme Değerlendirme ve Sınav Hizmetleri Genel Müdürlüğü’ne ve sayın Burcu PARLAK’a çok teşekkür ederim.

(8)

v İçindekiler

Öz ... ii

Abstract ... iii

Teşekkür... iv

Tablolar Dizini ... vii

Şekiller Dizini ... ix

Simgeler ve Kısaltmalar Dizini ... x

Bölüm 1 Giriş ... 1

Problem Durumu ... 1

Araştırmanın Amacı ve Önemi ... 4

Araştırma Problemi ... 5

Sayıltılar ... 6

Sınırlılıklar ... 6

Bölüm 2 Araştırmanın Kuramsal Temeli ve İlgili Araştırmalar... 7

Klasik Test Kuramı ... 7

MTK Modelleri ... 10

Rasch Modeli ... 14

İlgili Araştırmalar ... 23

Bölüm 3 Yöntem ... 28

Araştırmanın Evreni ve Örneklemi ... 28

Veri toplama aracı ... 29

Veri Toplama Süreci ... 30

Verilerin Analizi ... 31

Matematik Alt Testine İlişkin Betimsel İstatistikler ... 32

Fen Bilimleri Alt Testine İlişkin Betimsel İstatistikler ... 33

Bölüm 4 Bulgular ve Yorumlar ... 35

Bölüm 5 Sonuç, Tartışma ve Öneriler ... 81

(9)

vi

Öneriler ... 83

Kaynaklar ... 85

EK-A: Matematik Testinden Rastgele Seçilen 300 Bireylik Örneklemlere İlişkin Analizler ... 89

EK-B: Madde Bilgi Fonksiyonları ... 92

EK-C: Bireysel Yazışma ... 96

EK-Ç: Etik Komisyonu Onay Bildirimi ... 97

EK-D: Etik Beyanı ... 98

EK-E: Yüksek Lisans Tez Çalışması Orijinallik Raporu ... 99

EK-F: Thesis Originality Report ... 100

EK-G: Yayımlama ve Fikrî Mülkiyet Hakları Beyanı ... 101

(10)

vii Tablolar Dizini

Tablo 1 Önerilen Madde Ayırıcılık Gücü İndeksi Yorumları (Crocker, Algina, 2008

ve Ebel, 1965) ... 9

Tablo 2 Klasik Test Kuramı ve Madde Tepki Kuramı Karşılaştırması ... 10

Tablo 3 Teste göre maddelerin uyum değeri ölçüt aralıkları (Bond ve Fox, 2015) 17 Tablo 4 Uyum istatistikleri genel yorumları (Bond ve Fox, 2015) ... 18

Tablo 5 Uyumsuzluk (misfit) düzeyi tanımlamaları (Bond ve Fox, 2015) ... 19

Tablo 6 Uyum istatistiklerinin yorumları (Linacre ve Wright, 1994) ... 20

Tablo 7 Bazı cevap örüntülerinin uyum düzeyi yorumlamaları (Linacre ve Wright, 1994) ... 20

Tablo 8 Matematik alt testi betimsel istatistikleri ... 32

Tablo 9 Fen Bilimleri Testi Betimsel İstatistikleri ... 34

Tablo 10 KTK’ya göre Hesaplanan Matematik Testi Madde İstatistikleri ... 35

Tablo 11 KTK’ya göre Hesaplanan Fen Bilimleri Testi Madde İstatistikleri ... 36

Tablo 12 Matematik ve Fen Bilimleri Test İstatistikleri ... 38

Tablo 13 Matematik Alt Testi Çoktan Seçmeli Madde Parametreleri ... 41

Tablo 14 Matematik Testi Açık Uçlu Madde Parametreleri ... 42

Tablo 15 Matematik Alt Testi Madde Puanları/Kısmi Puanları Tablosu ... 45

Tablo 16 Matematik Testi Madde Analizleri Özeti ... 47

Tablo 17 Matematik Testi Birey Analizleri Özeti ... 48

Tablo 18 Fen Bilimleri Alt Testi Çoktan Seçmeli Madde Parametreleri ... 50

Tablo 19 Fen Bilimleri Alt Testi Açık Uçlu Madde Parametreleri ... 51

Tablo 20 Fen Bilimleri Testi Madde Puanları / Kısmi Puanları Tablosu ... 54

Tablo 21 Fen Bilimleri Testi Madde Parametreleri Özeti ... 56

Tablo 22 Fen Bilimleri Testi Birey Parametreleri Özeti ... 57

Tablo 23 Matematik Testine İlişkin Birey Yetenek Kestirimleri ... 58

Tablo 24 Fen Bilimleri Testine İlişkin Birey Yetenek Kestirimleri ... 59

Tablo 25 ... 60

Matematik Testine İlişkin Kestirilen Madde Güçlük (b) Parametreleri ... 60

Tablo 26 Fen Bilimleri Testine İlişkin Kestirilen Madde Güçlük (b) Parametreleri. 61 Tablo 27 Uyumsuz 50 Birey Çıkarıldığında Kestirilen Dış uyum Değerleri Karşılaştırılması ... 67

(11)

viii Tablo 28 En Uyumsuz 50 Bireyin Dahil Edilmemesi ile Değişen Uyum İstatistikleri

... 70

Tablo 29 KTK ile Kestirilen Cronbach α Değerleri (Abide Raporu, 2017) ... 70

Tablo 30 KTK ve Rasch Modeline göre Revizyon Gerektiren Maddeler ... 71

Tablo 31 Matematik ve Fen Bilimleri Testlerinin Madde Güçlük Hiyerarşileri ... 72

Tablo 32 Matematik Çoktan Seçmeli Maddelerin En Fazla Bilgi Sağladığı Yaklaşık Θ Aralıkları ... 73

Tablo 33 Matematik Açık Uçlu Maddelerin En Fazla Bilgi Sağladığı Yaklaşık Θ Aralıkları ... 74

Tablo 34 Fen Bilimleri Çoktan Seçmeli Maddelerin En Fazla Bilgi Sağladığı Yaklaşık Θ Aralıkları ... 76

Tablo 35 Fen Bilimleri Açık Uçlu Maddelerin En Fazla Bilgi Sağladığı Yaklaşık Θ Aralıkları ... 76

Tablo 36 KTK ve 2PL Ayırt Edicilik Kestirimleri ... 78

(12)

ix Şekiller Dizini

Şekil 1. (Partciev, 2004) 1-PL modelde beş maddelik bir testin madde bilgi

fonksiyonları ve test bilgi fonksiyonu ... 13

Şekil 2. Matematik testi puanlarının dağılımları ... 33

Şekil 3. Fen bilimleri testi puan dağılımları ... 34

Şekil 4. Matematik testi madde-kategori ölçüleri ... 43

Şekil 5. Matematik testi boyut haritası ... 47

Şekil 6. Fen bilimleri testi gözlenen madde kategori ölçüleri ... 53

Şekil 7. Fen bilimleri testi boyutluluk haritası ... 55

Şekil 8. Matematik testi yetenek düzeyleri dağılımı ... 58

Şekil 9. Fen bilimleri testi yetenek düzeyleri dağılımı ... 59

Şekil 10. Matematik maddelerine ilişkin Wright-map ... 62

Şekil 11. Fen bilimleri testi wright map ... 63

Şekil 12. Matematik testine ilişkin en beklenmedik cevap örüntüleri ... 64

Şekil 13. Matematik testi en beklenmedik cevaplar ... 66

Şekil 14. Fen bilimleri testine ilişkin en beklenmedik cevap örüntüleri ... 68

Şekil 15. Fen bilimleri maddelerine verilen en beklenmedik cevaplar ... 69

Şekil 16. Matematik testine ilişkin TBF ve TKE ... 73

Şekil 17. Matematik alt testinde birey-madde güçlüğü dağılımı ... 74

Şekil 18. Fen bilimleri testine ilişkin TBF ve TKE ... 75

Şekil 19. Fen bilimleri alt testinde birey-madde güçlüğü dağılımı ... 76

Şekil 20. Matematik testi ham puan ve theta histogram grafikleri ... 77

Şekil 21. Fen bilimleri testi ham puan ve theta histogram grafikleri ... 77

(13)

x Simgeler ve Kısaltmalar Dizini

1-PL: 1 Parametreli Lojistik Model 2-PL: 2 Parametreli Lojistik Model 3-PL: 3 Parametreli Lojistik Model

ABİDE: Akademik Becerilerin İzlenmesi ve Değerlendirilmesi ÇYRM: Çok Yüzeyli Rasch Modeli

ICC: Madde Karakteristik Eğrisi (Item Characteristic Curve) KTK: Klasik Test Kuramı

MNSQ: Ortalama Kareler / Kareler Ortalaması (Mean Squares) MTK: Madde Tepki Kuramı

PCA: Hataların Temel Bileşenler Analizi (Principle Components Analysis of Residuals)

PCM: Kısmi Puan Modeli (Partial Credit Model)

PTMA: Rasch Ölçümleri ile Örtük Özellik Arasındaki Gözlenen Korelasyon PTMA-E: Rasch Ölçümleri ile Örtük Özellik Arasındaki Beklenen Korelasyon RSIMT: Raven Standart İlerlemeli Matrisler Testi

TBF: Test Bilgi Fonksiyonu TKE: Test Karakteristik Eğrisi

(14)

1 Bölüm 1

Giriş

Bu bölümde problem durumu, araştırma problemi, araştırmanın amacı ve önemi, sayıltılar, sınırlılıklar ve tanımlar yer almaktadır.

Problem Durumu

Günümüzde, teknolojik gelişmelerin hızla ilerlediği ve insan ihtiyaçlarını şekillendirdiği düşünülebilir. Yaşamın pek çok alanında insan ihtiyaçları, tercihleri, duygu ve düşünceleri değişmekte ve bu değişimler ilerlemekte olan gelişim süreçlerini etkilemektedir. Toplumlar bilgi birikimlerini bu gelişmelerle zenginleştirerek, insan ihtiyaçları doğrultusunda kendini besleyen bir mekanizma yaratabilmektedir. Bilgi çağında, gelişmiş toplumlarda yapılması planlanan birçok değişim bilimsel süreç dikkate alınarak somut veriler ışığında planlanıp uygulanmaktadır. Bu durum toplumu ve geliştirilmesi hedeflenen alanları daha iyi anlamak için daha fazla bilgi gereksinimini ortaya çıkarmaktadır. Günümüzde hemen her alanda bilgi toplama ve gelişmelere yön verme açısından testler uygulanmaktadır. Kitlelerden ya da durumlardan elde edilen verilerin analizi yoluyla ulaşılan bilgi farkında olunan ya da olunmayan pek çok değişimin temelinde yattığı düşünülebilir.

Toplumlara yön veren en önemli özelliklerden biri olan eğitim sürecinin planlanması, uygulanması ve değerlendirilmesinde ölçme ve değerlendirme kritik bir öneme sahiptir. Ölçme uygulamalarından elde edilen sonuçlar sürecin gelişmesine ve iyileştirilmesine katkı sağlamaktadır. Bu amaçla yapılan test uygulamaları, kaliteli ve güvenilir sonuçlar verdiği ölçüde sürece gerçek bir katkı sağlayacaktır. Bu bağlamda, eğitimde uygulanacak testlerin özelliklerinin iyi bir şekilde ortaya konması gerekmektedir. Kaliteli testler, gerçek ve verimli bilgi sağlayarak gelişim sürecinin önemli bir işlevini yerine getirecektir.

Matematiksel kavramlar bilindiği üzere, çoğunluğu soyut olan doğası gereği öğrencilerin öğrenmekte en çok zorlandıkları kavramlar arasında yer almaktadır. Bu zorlukla birlikte, kavramlar öğrenildiği takdirde hem gündelik hayata ilişkin problemlerin çözümünde hem de başta üst düzey düşünme becerileri olmak üzere entelektüel gelişimde bireye ve topluma katkı sağlamaktadır. Matematiksel kavramların değişik bağlamlarda kullanımı ve bireyin yaratıcılığı birleştiğinde pek

(15)

2 çok teknolojik ve bilimsel gelişme ortaya çıkmaktadır. Ortaya çıkarılan teknolojik ve bilimsel gelişmelerin öğrenilmesi, aktarılması ve ilerletilmesi bireyin ve toplumun düşünme becerileri ve hayal gücünü de barındıran matematiksel beceriler ile ilişkilidir denilebilir. Matematiksel kavramların öğrenilmesi ve uygulanmasının bu kadar önemli olduğu bir bağlamda, yapılan eğitim öğretim çalışmalarının da bu konuya verdiği önem göz önünde bulundurulduğunda, bu kavramların ne kadar öğrenildiğinin belirlenmesi oldukça önemli bir konudur. Ölçme ve değerlendirme etkinlikleri, matematiksel kavramların ne düzeyde öğrenildiğini belirlemede kullanılacak bir araçtır fakat bu aracın nasıl kullanıldığı ve nasıl kullanılması gerektiği, eğitim ve öğretimin hedefleri doğrultusunda dikkatli planlama ve uygulama gerektirdiği söylenebilir. Matematik alanında uygulanan testlerin özelliklerinin yeterli düzeyde ortaya koyulması hem öğrencilerin bu alandaki gelişimi hem de uygulanan yöntemlerin işleyişi hakkında bilgi vereceğinden bu konuda yapılacak çalışmaların faydalı olacağı söylenebilir.

Ölçme ve değerlendirme teknikleri geleneksel ölçme değerlendirme ve alternatif ölçme değerlendirme olarak iki başlıkta incelendiğinde; Geleneksel ölçme değerlendirmede amaç belli özelliklere sahip olma durumuna göre öğrencileri sınıflandırmak ve sıralamak iken (Gipps, 1998), alternatif ölçme değerlendirme tekniklerinin kullanılmasında amaç öğrencinin öğrenme sürecinin neresinde olduğunu belirlemektir. Bireysel farklılıkları göz önünde bulundurmaya elverişli bu alternatif teknikler, sonuç ile süreç değerlendirmesini de vurgulamaktadır. 20.

yüzyılın başlarında matematik reformu hız kazanmış, geleneksel testlerin eğitimin önemli beklentilerilerini ölçmede yetersiz kaldığı tespit edilerek alternatif değerlendirme yöntemleri gündeme gelmeye başlamıştır (Kulm, 2013). Ülkemizde ise eğitim alanında dünyada gözlenen tüm gelişmelere rağmen öğrenci seçme ve değerlendirme sınavlarının yapısında bir değişikliğe gidilmediği, çoktan seçmeli soruların kullanımının yaygın olarak devam ettiği görülmektedir. Çoktan seçmeli soruların, uygulama ve değerlendirmede kolaylıklar sağlasa da üst düzey öğrenmeleri ölçmede yetersiz kaldığı bilinmektedir. Maddelerin bireylerin sahip olduğu bilgiyi açığa çıkarmada birer araç oldukları düşünüldüğünde, en iyi şekilde hazırlanan çoktan seçmeli maddelerin dahi üst düzey öğrenmeleri ölçmede yetersiz kaldığı söylenebilir. 21. Yüzyılın gerektirdiği üst düzey düşünme becerileri gelişmiş birey potansiyelinin olup olmadığını belirlemede tek başına bu maddelerin kullanımı

(16)

3 yetersiz kalacaktır denebilir. Bu düşünceye paralel olarak, merkezi sistemle yapılan çoktan seçmeli maddelerden oluşan öğrenci seçme ve yerleştirme sınavlarının üst düzey düşünme becerileri gerektiren bazı amaçları ölçmede yetersiz kaldığı söylenebilir.

Öğrencilerin matematiksel dili doğru şekilde kullanma ve ifade yetenek düzeylerinin belirlenmesinde, problem çözmede, istenen ürünün öğrenci tarafından ortaya çıkarılması gereken durumlarda ve öğrenme sürecinde izlenen adımların belirlenmesinde en etkili yöntemlerden biri açık uçlu maddelerle yapılan ölçme değerlendirme işlemidir (Umay, 2003). Açık uçlu sorular, her öğrenme düzeyindeki davranışları ölçmek için kullanılabileceği gibi, özellikle analiz, sentez ve değerlendirme gibi üst düzey bilişsel özelliklerin belirlenmesine olanak sağlamaktadır. Açık uçlu madde formatının kullanılması çoktan seçmeli maddelere göre daha fazla bilişsel strateji kullanmayı gerektirmektedir (O’Neil ve Brown,1998).

Bu yüzden, açık uçlu maddeler üst düzey öğrenmeleri ölçmede çoktan seçmeli sorulardan daha etkili bir alternatif oluşturduğu söylenebilir.

Yapılan çalışmalar, çoktan seçmeli maddelerin yanı sıra diğer madde tiplerinin kullanımının da yolunu açmıştır. Farklı madde tiplerinin ölçme amacına uygun olarak testlerde kullanımı, ölçme sürecinin kalitesini artırmaya yönelik avantaja dönüştürülmeye çalışılmıştır. Son yıllarda dünyada pek çok ülkede geniş ölçekli test uygulamalarında çoktan seçmeli maddelerin yanı sıra, açık uçlu ve diğer (doğru-yanlış ve açık uçlu bir arada) madde türlerinin de kullanıldığı görülmektedir.

“National Assessment of Educational Progress (NAEP), Massachusetts Comprehensive Assessment System (MCAS), Test of English as a Foreign Language (TOEFL), Programme for International Student Assessment (PISA), Advanced Placement Test (AP) gibi sınavlarda farklı madde türlerinin bir arada kullanılarak akademik başarı veya yeterlik belirleme amacıyla ölçme uygulamaları yapılmaktadır. Bu sınavlar IntelliMetric, E-rater, Intelligent Essay Assessor, Project Essay Grade gibi karma test maddelerinin puanlanmasına yönelik geliştirilmiş özel yazılımlarla puanlanmaktadır.

Görüldüğü gibi uluslararası sınavlarda da üst düzey davranışları ölçme eğilimi görülmekte, açık uçlu ve çoktan seçmeli maddeler birlikte kullanılarak bu durum hayata geçirilmeye çalışılmaktadır. Bu konuda Türkiye’de de girişimler olmakta, ABİDE (Akademik Becerilerin İzlenmesi ve Değerlendirilmesi) sınavı da bu

(17)

4 girişimlerden en günceli olarak araştırmacıların ilgisini çekmektedir. Karma testlerin kullanımının yaygınlaşması, doğal olarak bu testlerle elde edilen sonuçların güvenirlik ve geçerliğini belirlemenin önem kazanmasına yol açmaktadır. Ölçme aracının psikometrik özelliklerini belirlemek için farklı kuramlar kullanılmakta, bu kuramlar test ve madde istatistiklerinin kestiriminde farklı yaklaşım ve tekniklerin uygulanması ile benzer veya farklı bilgiler ortaya çıkarabilmektedir. Ölçme alanında kullanımı yaygınlaşan karma testlerin psikometrik özelliklerini inceleyen çalışmalar mevcut olmakla beraber, daha kapsamlı ve verimli bilgi sağlamak için bu incelemeleri karşılaştırmalı olarak ele alan araştırmalara ihtiyaç duyulmaktadır.

Eğitimde ölçme ve değerlendirme için çoktan seçmeli maddelerin yanı sıra açık uçlu maddelerin de kullanılmasının gerekliliği yaygın bir görüş olarak karşımıza çıkmakla birlikte açık uçlu maddelerle yapılan sınavların ölçme ve değerlendirme süreçlerinde güvenilirliğin sağlanması büyük önem arz eder. Test geliştirme sürecinde yararlanılan kuramların karşılaştırılmasının simulatif verilerle yapıldığı pek çok çalışma mevcuttur ancak gerçek verilerle yapılan karşılaştırmalı araştırmalara daha az rastlanmaktadır. Bu çalışmada, karma test özelliği taşıyan ABİDE sınavından elde edilen gerçek verilerin, Klasik Test Kuramı ve Rasch modeline göre analizinden elde edilen bilgilerin testin psikometrik özelliklerini belirlerken karşılaştırılması ve bu yolla karma test geliştirmede iki sağladıkları katkının belirlenmesi amaçlanmaktadır.

Araştırmanın Amacı ve Önemi

Bu araştırmada, aynı gerçek veriler için klasik test kuramı ve Rasch modeliyle kestirilen test ve madde parametreler/istatistikleri karşılaştırılarak, hangi yaklaşımın daha çok bilgi sağladığı ve daha iyi işlediğinin belirlenmesi, test ve maddelere ilişkin üretilen bilgilerin benzerlik ve farklılıklarını ortaya konması amaçlanmaktadır. Bu amaçla; Klasik test kuramına dayalı elde edilen istatistiklerin gerçek verilerde kullanılabilirliğini saptamak, Rasch modeli ile elde edilen parametrelerin gerçek verilerde kullanılabilirliğini saptamak, bu iki yaklaşım ile elde edilen sonuçları karşılaştırmak araştırmanın temelini oluşturmaktadır.

KTK ve Rasch modelinden hangisinin kullanılmasının daha çok bilgi sağladığı ve kullanılabilir olduğunun belirlenmesi ile uygulayıcıların pratikte tercih edebilecekleri yaklaşımı seçmeleri konusunda bu araştırmanın bilimsel bir kaynak

(18)

5 olması beklenebilir. Böylelikle bu iki yaklaşımın gerçek verilerle test edilmesi yoluyla uygulanabilirliklerinin, üstünlük ve sınırlılıklarının belirlenmesi ve tutarlılıklarının ortaya çıkarılması sonucunda kuramların uygulanmasına ve tartışmalara katkı sağlaması düşünülmektedir.

Rasch modelinin akademik çalışmaların yanı sıra sınıf ortamındaki ölçme uygulamalarında da kullanımının yaygınlaştığı, bu tarz uygulamaların internet ortamında paylaşılarak, daha küçük kapsamlı öğrenme ortamlarında da kullanılabildiği görülmektedir. Ancak bu uygulamalara Türkiye’de yaygın olarak rastlanmamaktadır. Dolayısıyla, bu araştırmanın sınıfta yapılan öğrenmelere dönüt sağlamak amacıyla öğretmenlere de yararlı bilgi sağlaması amaçlanmaktadır. Bu araştırmanın sonuçlarının KTK kullanımına daha kapsamlı bir alternatif olarak Rasch modelinin kullanımının; test geliştiricilere, test uygulayıcılara, psikometristlere, MEB ölçme ve değerlendirme daire başkanlığında çalışan uzmanlara, MEB sınav hizmetlerinde çalışan uzmanlara ve ÖSYM’de çalışan uzmanlara yararlı sonuçlar vermesi beklenmektedir.

Araştırma Problemi

ABİDE verilerinin KTK ve Rasch modeline göre analiz edilmesiyle elde edilen sonuçlar nasıldır?

Alt problemler. Bu çalışmada ile aşağıdaki alt problemlere yanıt aranacaktır;

1. KTK’ya göre ABİDE sınavı matematik ve fen bilimleri alt testlerinin madde ve test istatistikleri nasıldır?

2. ABİDE matematik ve fen bilimleri alt testlerinin Rasch modeline göre birey ve madde parametreleri nasıldır?

a. ABİDE sınavı matematik ve fen alt testlerinin model veri uyumu nasıldır?

b. ABİDE sınavı matematik ve fen alt testlerinin kestirilen birey yetenek düzeyleri nasıldır?

c. ABİDE sınavının matematik ve fen alt testlerinin güçlük parametreleri ve uyum istatistikleri nasıldır?

d. ABİDE sınavı matematik ve fen alt testlerinin madde haritalama sonuçları nasıldır?

(19)

6 e. ABİDE sınavı matematik ve fen alt testlerinin beklenmedik cevap

örüntüleri nasıldır?

3. ABİDE sınavı matematik ve fen bilimleri alt testlerinin KTK ve Rasch modeline göre analizi ile elde edilen sonuçların benzer ve farklı yönleri nelerdir?

4. ABİDE sınavı matematik ve fen bilimleri alt testlerinin KTK ve Rasch modeline göre analizinin karma testlerin psikometrik özelliklerini belirlemede avantaj ve dezavantajları nelerdir?

Sayıltılar

Bu veri setindeki maddeleri puanlayıcıların birbirinden bağımsız olarak puanladıkları varsayılmıştır.

Sınırlılıklar

Araştırmada kullanılan veriler ABİDE projesi 2016 8. Sınıf uygulaması, Matematik ve Fen alt testleri ile sınırlıdır.

ABİDE sınavını puanlayan farklı puanlayıcılara ait veriler alınmamış, analizler her madde için verilen nihai puanlarla sınırlıdır.

Araştırmada ABİDE sınavına dair bir dış ölçüt bulunmadığı için bu çalışmada KTK’ya göre geçerlik hesaplanmamıştır.

(20)

7 Bölüm 2

Araştırmanın Kuramsal Temeli ve İlgili Araştırmalar Klasik Test Kuramı

Eğitimde ve psikolojide gerçekleştirilen ölçmeler, gözlenen özelliklerin gerçek değerlerini belirleme amacıyla yapılır. Ancak, söz konusu özellikler psikolojik yapılar olduğu ve doğrudan gözlemlenemediği için ölçmelere bir miktar hata karışır. Ölçme kuramları yardımıyla gözlenen puanlardaki gerçek değerler kestirilmeye çalışılır.

Söz konusu kuramlardan biri olan ve 1960’lı yıllara kadar yaygın olarak kullanılan Klasik test kuramının temelleri 1905 yılında İngiliz psikolog Charles Spearman tarafından atılmıştır. Spearman’ın hata içeren test sonuçları ile gerçek değer arasındaki ilişkiyi açıklama çabası KTK’nin temellerini atmıştır (Baykul, 2015).

Ölçülmek istenen özelliğe ait gerçek değer olan “gerçek puan”; ölçmeler yoluyla elde edilen “gözlenen puan” ve bazı varsayımlar kullanılarak kestirilir. Bu nedenle klasik test kuramı “gerçek puan teorisi” (True Score Theory) olarak da anılır (Crocker ve Algina, 2008). Psikolojik özelliklerin ölçümünün doğrudan yapılamaması, amacına uygun geliştirilen ölçme araçları ile yapılan her ölçmeye bir miktar hata karışmasını beraberinde getirmektedir. Klasik test kuramında, gerçek puan ile gözlenen puan arasındaki bu fark hata puanı olarak adlandırılmaktadır. Klasik test kuramının temel varsayımları;

1. Gözlenen puan, gerçek puan ile hata puanının toplamıdır.

𝑋=𝑇+𝐸 (𝑋 : Gözlenen puan, 𝑇: Gerçek puan, 𝐸: Hata puanı) 2. Gerçek puan sayılabilir sonsuz çoklukta tekrarlanmış ölçmelerin gözlenen

puanlarının beklenen değerine (ortalamasına) eşittir.

3. Bir ölçme evreni üzerinde, hata puanları, gerçek puanlardan bağımsızdır.

Bir başka deyişle, gerçek puan ve hata puanları arasında ilişki yoktur.

4. Her ölçmedeki hata puanları, birbirinden bağımsızdır. Yani, herhangi iki dizi ölçme sonucuna ait hata puanları arasında ilişki yoktur. (Crocker ve Algina, 2008)

Klasik test kuramında ölçme aracının belli bir gruba uygulanması ile elde edilen özellikler, kestirilen madde ve test parametreleri yoluyla incelenir (Cronbach, 1970). Testte yer alan her bir madde için hesaplanabilen madde güçlük indeksi (p),

(21)

8 varyansı, çarpıklık ve basıklık katsayıları, ayırıcılık gücü indeksi (rjpbis) ve güvenirlik indeksi(rj) madde parametreleri ya da madde istatistikleri olarak ele alınırken test puanları ortalaması, standart sapması ve varyansı, testin ortalama güçlüğü, çarpıklık ve basıklık katsayıları, ölçmenin standart hatası, güvenirlik ve geçerlik katsayıları test parametreleri ya da test istatistikleri olarak adlandırılabilir (Crocker ve Algina, 2008). Bu çalışmada madde istatistiklerinden madde güçlük indeksi, madde ayırıcılık gücü indeksi ve madde güvenirliği; test istatistiklerinden ise test puanları ortalaması, testin ortalama güçlüğü ve güvenirlik katsayıları incelenecektir.

Madde güçlük indeksi (pj) testteki 0-1 şeklinde puanlanan bir maddeyi doğru cevaplayanların sayısının toplam cevaplayıcı sayısına oranı veya yüzdesi olarak yorumlanabilen ve madde puanları dağılımını betimleyen bir istatistiktir (Baykul, 2015). Bu indeks 0 ile 1 aralığında değerler alabilmektedir ve madde kolaylaştıkça doğru cevaplayanların sayısı artacağından kesrin payı büyüyecek dolayısıyla kestirilen güçlük indeksi de büyüyecektir. Tam tersi, madde zorlaştıkça doğru cevaplayanların sayısı azalacak ve kesrin payı küçülerek kestirilen madde güçlük indeksi de azalacaktır. 0,00-0,20 arası maddeler çok zor; 0,21-0,40 arası zor; 0,41- 0,60 arası orta güçlükte; 0,61-0,80 arası kolay ve 0,81-1,00 arası çok kolay madde olarak yorumlanır (Baykul, 2015).

Madde ayırıcılık gücü indeksi (rjx), testte yer alan bir maddenin, ölçülmek istenen özelliğe sahip olan bireyleri olmayan bireylerden ayrıştırabilirliğinin bir ölçüsüdür. Ayırıcılık gücü indeksi, madde puanları ile test puanları arasındaki korelasyon olarak tanımlanır (Baykul, 2015). Madde yeteri kadar ayırıcı ise, test puanı yüksek olan bireylerin maddeyi doğru cevaplamaları, düşük olan bireylerin ise yanlış olarak cevaplamaları ya da cevapsız bırakmaları beklenir. Bu sebeple, madde ayırıcılık gücü için test puanları bir iç ölçüttür ve hesaplanmasında nokta çift serili (point biserial) (p), çift serili (biserial), dörtlü (phi) ve tetrakorik korelasyon katsayılarından yararlanılır. Crocker, Algina (2008) ve Ebel’in (1965) önerdiği madde ayırıcılık gücü indeksi çıkarımları Tablo 1’de gösterilmektedir.

(22)

9 Tablo 1

Önerilen Madde Ayırıcılık Gücü İndeksi Yorumları (Crocker, Algina, 2008 ve Ebel, 1965)

rjx değerleri Yorumu

rjx ≥ 0,40 Madde oldukça iyi işliyor

0,30 ≤ rjx ≤0,39 Çok az revizyon yapılabilir ya da yapılmayabilir 0,20 ≤ rjx ≤0,29 Madde sınırda, revizyon gereklidir

rjx ≤ 0,19 Madde tamamen revize edilmeli ya da tamamen testten çıkarılmalı

Madde güvenirlik katsayısı (rj), madde ayırıcılık gücü indeksi ile madde standart sapmasının çarpımı ile elde edilen bir kat sayıdır. Ebel ve Frisbie (1991)’ye göre bireylerin yetenek düzeyleri farkını en iyi açıklayan maddeler, madde güvenirliğine en fazla katkı sağlayan maddelerdir. rj = rjx . Sj eşitliği ile madde güvenirlik katsayısı elde edilir.

Klasik test kuramı, yaygın olarak kullanılmakla birlikte birtakım sınırlılıkları bulunmaktadır. Madde ve test parametrelerinin uygulandığı örnekleme bağımlı olarak kestirilmesi bu sınırlılıklardan biridir. Örneğin, madde güçlüğü başarı düzeyi yüksek bir gruba uygulandığında yüksek bir değer alabiliyorken, başarı düzeyi ortalamanın altında olan bir gruba uygulandığında daha düşük olarak kestirilebilir.

Bununla birlikte, madde ayırıcılık gücü indeksi grup heterojenliğinin korelasyon katsayısı üzerindeki etkisi (Lord ve Novick, 1968) nedeniyle, örneklemin heterojen olması durumunda homojen olması durumuna göre daha yüksek kestirilebilmektedir. Bahsedilen iki durum birlikte düşünüldüğünde, bir maddeye ait madde güçlüğü ve ayırt ediciliği ile ilgili yorum yapılacağı zaman ölçmelerin farklı her grup için tekrarlanması gerekliliği ortaya çıkacaktır. Bunların yanı sıra, Likert tipi ölçeklerden elde edilen toplam puanların analiz edilmesi sezgisel ve matematiksel olarak uygun görülmemektedir (Bond ve Fox, 2015). Bunun sebeplerinden biri madde puanlarının toplanmasının tüm maddelerin aynı anlama geldiğini varsaymasıdır. Örneğin, bir maddeye verilen “kesinlikle katılıyorum” cevabı başka bir maddeye verilen “kesinlikle katılıyorum” cevabı ile aynı bilgi ya da kavrayış düzeyine işaret etmiyor olabilir. Ya da bir maddeye “kesinlikle katılıyorum” cevabını veren bir birey (5 için kodlama yapan), “kesinlikle katılmıyorum” cevabını veren bireyin (1 için kodlama yapan) 5 katı kadar daha bilgili olmayabilir. Likert tipi ölçekler sıralama ölçeği olmasına rağmen, eşit aralıklı ölçeklerdeki gibi madde puanlarının toplanması “kesinlikle katılıyorum, katılıyorum, kararsızım, katılmıyorum, kesinlikle katılmıyorum” yanıtlarının her birinin bir sonrakine eşit uzaklıkta olduğunu varsaymaktadır. Bu nedenle, likert tipi ölçeklerde farklı maddelere ait puanların

(23)

10 toplanması bu puanlarla analiz yapılması uygun görülmemektedir (Bond ve Fox, 2015). Ham puanları eşit aralıklı ölçeklere dönüştürecek bir istatistiksel araç gerekmektedir.

Klasik test kuramının bu sınırlılıklarının üstesinden gelmek amacıyla farklı test kuramları geliştirilmeye çalışılmaktadır ve bunlardan en çok kabul göreni Madde Tepki Kuramı olarak pek çok araştırmacı tarafından ele alınmaktadır. Klasik test ve madde tepki kuramlarının karşılaştırılmasının bir özeti Tablo 2’de gösterilmektedir.

Tablo 2

Klasik Test Kuramı ve Madde Tepki Kuramı Karşılaştırması

Klasik Test Kuramı Madde Tepki Kuramı

Kesinlik ölçüleri (ölçmenin standart hatası ve güvenirlik) tüm puanlar için aynıdır

Kesinlik ölçüleri puanlara ve maddelere göre değişkendir. Her puan seviyesi ve cevap örüntüsü için ayrı ayrı kestirilir

Test uzunluğu güvenirliği artırır Daha kısa ve amacına uygun testler eşit derecede güvenilir olabilir

Test özellikleri örnekleme bağımlıdır Test özellikleri örneklemden bağımsızdır Karma formattaki testler toplam test puanında

dengesizliklere neden olur Karma test formatı kolaylıkla ele alınabilir Cevaplayıcıları kıyaslamak için paralel test

formlarına gerek vardır

Farklı ölçmeler ortak bir metrik üzerine yerleştirilebilir. Madde ve ölçek analizlerinde grafiksel araçlar kullanılabilir.

Toplam puanlar sıralama ölçeğindedir Toplam puanlar eşit aralıklı ölçektedir Kayıp veri sorun yaratır Kayıp veri beklenen bir durumdur

(Reeve, 2009)

Madde Tepki Kuramı’nda 1-PL, 2-PL ve 3-PL modeller kullanılmakla birlikte, modellerinden biri olduğu düşünülen fakat MTK modellerinden farklılıkları ile de ön plana çıkan Rash modeli bu çalışmanın odak noktalarından biridir.

MTK Modelleri

Klasik test kuramının bahsedilen sınırlılıklarına çözüm yolları sunmak amacıyla 20. yüz yılın sonlarına doğru olasılıksal ilişkilere dayanan Madde tepki kuramı ortaya çıkmıştır. Bu kurama göre bireylerin yeteneklerini gösteren ve doğrudan gözlenemeyen bir psikolojik yapı vardır ve bireylerin maddelere verdiği yanıtlar arasındaki örüntüler ve bağlantılar yoluyla bireylerin yetenek düzeyleri belirlenmeye çalışılmaktadır (Crocker ve Algina, 2015). Bir ölçme aracı tarafından ölçülen yetenek ya da özellik ile bir maddeye verilen cevap arasındaki ilişki MTK modelleri ile göstermekte ve ölçülmesi amaçlanan yapı akademik yeterlik ya da yetenek olabileceği gibi bir tutum ya da inanış da olabilmektedir (DeMars, 2010).

Bireylerin gözlenebilen ve gözlenemeyen özellikleri “normal ogive” ve “lojistik

(24)

11 fonksiyonlar” yoluyla ifade edilmekte ve iki temel varsayıma dayanmaktadır (Crocker ve Algina, 2015). Bunların ilki, bireyin bir test maddesinde göstermiş olduğu performansın gizli özelikler ya da yetenekler denilen özelliklerle kestirilmesidir.

Diğeri ise, bireyin bir maddeyi cevaplamadaki performansı ve bu performansın altında yatan gizli özellikler arasındaki ilişki madde karakteristik eğrisi (ICC) adı verilen ve monoton artan bir eğri yardımı ile gösterilmesidir (Crocker ve Algina, 2015).

Madde tepki kuramında da klasik test kuramındaki gibi indeksler yer almaktadır. Bunlar a, b ve c sembolleri ile gösterilmekte ve parametre olarak adlandırılmaktadır (DeMars,2010). Ölçülen özelliğe bağlı olarak, örtük özelliğe sahip olan birey ile sahip olmayanı ayırmaya yönelik bilgi veren a parametresi, madde ayırt ediciliğinin bir ölçüsüdür. Madde güçlüğü ise maddeyi cevaplayan bireylerin

%50’sinin maddeye doğru yanıt verme yeterliğini tanımlayan b parametresi ile gösterilmektedir. Düşey asimptot, tahmin ya da şans parametresi olarak adlandırılan c parametresi ise çok düşük yetenek düzeylerindeki bireylerin maddeye doğru yanıt verme olasılığını göstermektedir (DeMars,2010). Madde tepki kuramında parametre sayılarına göre farklı modeller yer almaktadır ve temel amaç bu parametreler yardımıyla maddelerden alınan yanıtları açıklamaktır.

Madde tepki kuramında, maddenin ölçülmek istenen örtük özelliğe dair ne kadar bilgi taşıdığı madde bilgi fonksiyonu ile tanımlanmaktadır (Hambleton ve Sweminathan, 1985). Bu kuramın amaçlarından birinin bireyin yetenek düzeyini kestirme olduğu düşünüldüğünde, madde bilgisinin yüksek olması bu kestirme işinin ne kadar az hata ile yapıldığının bir göstergesidir. Bu bağlamda, madde bilgisi ölçmeye karışan ölçme hatası ile ters yönlü ilişkilidir denilebilir (Reid, Kolakowsky- Hayner, Lewis & Amstrong, 2007). MTK’da her bir maddenin teste katkısının miktarı, testteki diğer maddelerin bilgisi olmadan belirlenebilir bu açıdan madde bilgi fonksiyonlarının birbirlerinden bağımsız olduğu söylenebilir. Bu durum klasik test kuramında mümkün değildir. Örneğin, güvenirlik veya nokta-çift serili korelasyon testteki maddelerin geri kalanından bağımsız olarak belirlenemez. Bir i maddesi için belli bir yetenek düzeyinde (θ değerinde) bilgi miktarı için farklı MTK modellerinde kullanılan eşitlikler aşağıdaki gibidir:

(25)

12

(Eşitlik 1)

(Eşitlik 2)

(Eşitlik 3)

(Eşitlik 4) Bir i maddesi için maksimum bilgi farklı MTK modellerinde aşağıdaki yetenek düzeylerinde (θ değerinde) elde edilir:

(Eşitlik 5)

(Eşitlik 6)

(Eşitlik 7) Bir testteki tüm maddelere ait madde bilgi fonksiyonlarının toplamına eşit olan test bilgi fonksiyonu, bir testin ölçülmek istenen örtük özelliğe ilişkin ne kadar bilgi sağladığını açıklamaktadır (Hambleton ve Sweminathan, 1985; Reid ve diğerleri, 2007). Test bilgi fonksiyonu aynı zamanda bir testin birey ve madde özelliklerine ilişkin ne derecede iyi kestirimlerde bulunduğu hakkında tüm yetenek düzeylerini bir arada sunarak bilgi sağlamaktadır. Bir diğer özelliği ise testte ölçmeye karışan hatanın en az olmasının beklendiği yetenek düzeyi olan en yüksek bilgi sunduğu yetenek (θ) düzeyini görmeye olanak sağlamasıdır. Madde tepki kuramında testteki madde sayısı arttıkça, daha yüksek test bilgi fonksiyonu elde edilebilmektedir (DeMars, 2010). Test bilgi fonksiyonlarının şekilleri testin kullanım amacına göre değişebilmektedir. Şekil 1’de, beş maddeden oluşan bir testin 1-PL modelde madde

(26)

13 ve test bilgi fonksiyonları gösterilmektedir. Mavi çizgiler her bir maddenin bilgi eğrisi, kırmızı çizgi ise bu maddelerin her birinin bir araya gelerek oluşturduğu test bilgi eğrisidir.

Şekil 1. (Partciev, 2004) 1-PL modelde beş maddelik bir testin madde bilgi fonksiyonları ve test bilgi fonksiyonu

Madde tepki kuramının uygulanabilmesi ve kestirilen parametrelerin doğru olarak yorumlanabilmesi için bazı varsayımların karşılanması gerekmektedir. Bu varsayımlar tek boyutluluk (çok boyutlu MTK modellerinde bu varsayım geçersizdir), yerel bağımsızlık ve uyumdur. Tek boyutluluk modelde her bir birey için tek bir yetenek değeri olduğu anlamına gelmektedir, maddeye verilen tepkiyi etkileyen herhangi bir faktör sadece o maddeye özgü tesadüfi hata ya da öngörülemeyen boyut olarak ele alınır; geri kalan maddeler bu durumdan etkilenmez (DeMars, 2010). Tek boyutluluk, pratikte sağlanması zor bir varsayımdır. Bu nedenle alt testler içeren testler hazırlanırken her bir alt boyut tek boyutluluk açısından ayrı ayrı incelenebilir (Crocker ve Algina, 2008).

Yerel bağımsızlık varsayımı, bir maddeye verilecek yanıtın diğer bir maddeye verilen yanıttan bağımsız olması durumu olarak tanımlanmaktadır. Crocker ve Algina (2008)’ya göre bu varsayım maddelerin ikili korelasyonlarına bakılarak test edilebilir. Lord (1980)’a göre ise tek boyutluluk varsayımının karşılanması durumunda belirli bir yetenek düzeyindeki bireylerin cevapları arasındaki korelasyon sıfır olacak, tek boyutluluğun sağlanması ile yerel bağımsızlık da sağlanmış olacaktır. Hambleton ve Swaminathan’a (1985) göre ise yerel bağımsızlık faktör analizi ile test edilebilir.

(27)

14 Değişmezlik varsayımına göre madde tepki kuramında veri seti ile seçilen model arasında yeterli derecede bir uyum sağlanırsa, değişmez madde parametreleri ve yetenek kestirimleri elde dilebilir. Bu varsayımın karşılanabilmesi için model veri uyumu ve parametrelerin uygun şekilde kestirimi şarttır (Hambleton, 1994).

Rasch Modeli

Rasch modeli, Danimarkalı bir matematikçi olan George Rasch tarafından 1960 yılında geliştirilen ve madde tepki kuramından evrilen bir tekniktir.

Araştırmacılar tarafından madde tepki kuramının 1 parametreli lojistik modeli olarak adlandırılabildiği gibi, alanyazında madde tepki kuramından ayrı bir model olarak ele alınmasını kuvvetli olarak savunan araştırmalar da yer almaktadır. İki yaklaşımın farklılıkları ele alınacak olursa, öncelikle madde tepki kuramı yetenek düzeylerini belirlemede olasılıksal bir dağılım kullanırken Rasch modeli lojistik bir teknik kullanmaktadır. Ayrıca, Rasch modelinde ayırt edicilik ve şans parametreleri sabit tutulurken, madde tepki kuramında bu parametreler değişebilmektedir. Son olarak, psikometrik özelliklerin belirlenebilmesi için madde tepki kuramında veri setine göre bir denklem oluşturulurken, Rasch modelinde veri setinin modele uyumluluğu gerekmektedir (DeMars, 2010).

Rasch’a göre birey bir maddeyi cevapladığında, o maddeyi doğru olarak cevaplama olasılığını gösteren matematiksel bir ilişki söz konusudur. Başkalarından daha yüksek bir yetenek düzeyine sahip bir bireyin, aynı yapıyı ölçen herhangi başka bir maddeyi doğru cevaplama olasılığının da diğerlerinden daha fazla olması gerektiğini; ayrıca, benzer olarak biri diğerinden daha zor olan iki madde olması durumunda, herhangi bir birey için kolay olan maddenin doğru cevaplanma olasılığının daha yüksek olduğunu ileri sürmüştür (Bond ve Fox, 2015). Rasch modelinin sayıltıları şu şekildedir (Berberoğlu ve Özçelik, 1989):

1. Ölçülen özellik örneklemde normal dağılım gösterir

2. Aynı yeterlik düzeyindeki maddelerin cevaplandırılma olasılıkları birbirinden bağımsızdır (Local independence)

3. Testi oluşturan tüm maddeler tek boyutlu bir yeterliği ölçmektedir (Unidimensionality).

(28)

15 4. Testteki tüm maddelerin ayırıcılık gücü 1’e eşittir (a = 1)

5. Testteki tüm maddelerde şans ile doğru cevabı bulma olasılığı sıfırdır (c =0) Tek boyutluluk varsayımı araştırılırken, Linacre (2012) tek boyutlu Rasch modelleri ile kestirilen Rasch parametrelerinin tek boyutlu olmaya zorlandığını belirtmektedir. Verilerin boyutsuz yönleri, yani ölçülmek istenen yapıya katkı sağlamayan kısımları, Rasch parametreleri ile açıklanamayan kısım olan artıklar olarak ele alınmaktadır (Rasch residuals) ve kestirimler yapılırken bu kısımlar ihmal edilmektedir. Rasch artıkları, Rasch modeli ile kestirilen rastlantısallık (randomness), tek boyutlu Rasch değişkeni dışında kalan boyutların bileşenleri ve boyut dışı etkenler (rastgele tahmin gibi) olmak üzere üç kısımdan oluşmaktadır (Linacre, 2018). Empirik verilerde genellikle Rasch ile öngörülen rastlantısallık ve boyut dışı etkenler diğer boyutların bileşenlerinden daha baskın olmaktadır. Böylece madde ve birey için kestirilen uyum istatistikleri McDonalds’ın (1985) belirttiği gibi çok boyutluluktan etkilenmemektedir. Bu durumda, amaçlanan boyut dışındaki boyutların bileşenlerin miktarını belirleyen PCA (Principle components analysis of residuals) gibi yöntemler kullanılabilmektedir. PCA ile belirlenen ve ölçülmek istenen özelliğe ilişkin olan öz değerler, Rasch modelinin öngördüğü büyüklüğe çok yaklaşırsa, bu durumda verinin tek boyutlu olduğu söylenebilmektedir. Bunun aksine öz değerler ne kadar küçük olursa veri seti o kadar tek boyutluluktan uzak olacaktır.

Winsteps yazılımı verinin boyutunu incelerken Rasch ölçümleri ile açıklanan varyansı ve artıklardan oluşturulan beş ayrı zıt yapıyı raporlamaktadır. Artıklardan oluşması muhtemel zıt yapılar “contrast” olarak raporlanmaktadır. Rasch modeli için gerekli ve yeterli tek boyutluluktan söz edilebilmesi için Winsteps yazılımı ile kestirilen ve Rasch modeli ile açıklanamayan varyansa ilişkin birinci zıt yapıdaki (1st contrast) özdeğerin 2’den küçük olması pek çok araştırmacı tarafından tek boyutluluğun sağlandığının bir göstergesi olarak kabul edilmektedir. Azrilah, Mohd ve Azami (2013)’ye göre Rasch ölçümleri ile açıklanan varyans yüzdesinin en az

%40 olması ve birinci zıt yapıdaki varyans yüzdesinin %15’ten az olması durumunda verinin tek boyutluluğundan söz edilebilmektedir.

Model veri uyumunu sağlayan verilerin Rasch modeli varsayımlarının hepsini karşıladığı varsayılmaktadır. Winsteps yazılımı “item polarity” seçeneği ile tek boyutluluk ve maddelerin testin boyutu ile uyumlu olup olmadığı incelenebilmektedir.

Winsteps tablolarında her madde ve her birey için ayrı raporlanan PTMA (point-

(29)

16 measure-correlation) kestirimleri ile madde ve bireylerin ölçülmek istenen yapı ile ilişkini araştırılabilmektedir (Bond ve Fox, 2015). Rasch modeli bireylerin yetenek düzeyleri arttıkça, doğru cevap verme olasılıklarının da artacağını varsaymakta ve Linacre’ye göre (2011) bu varsayımın her bir madde için ne kadar doğru olduğunu PTMA değerleri göstermektedir. Maddeler için hesaplanan PTMA değerlerinin pozitif ve yüksek olması, testle ölçülmek istenen yapı ve verilerin uyumlu olduğunu;

bireylerin yetenek düzeyinin artışıyla maddeleri doğru cevaplama olasılıklarının artışının birlikte gerçekleştiğini göstermektedir. Raporlanan bir diğer kestirim olan PTMA-E (Point-Measure-Correlation-Expected) değerleri ise model ile verinin tam uyumlu olduğu durumda olması beklenen korelasyon değerini göstermektedir.

PTMA-E değerlerine bakarak öğrencilerin bir maddeye Rasch modelinin beklediği şekilde cevap vermeleri durumunda korelasyonun hangi değeri alacağı söylenebilmektedir. Linacre (2011)’e göre gözlenen (PTMA) ve beklenen (PTMA-E) korelasyon değerleri aynı olduğunda, bu veri ile modelin tam uyumlu olduğunu gösterir. Gözlenen değer beklenenden daha büyükse, bu maddenin performansı düşük ve yüksek olan bireyleri fazla ayrıştırdığı (over-discriminating); küçükse az ayrıştırdığı (under-discriminating) anlamına gelmektedir (Linacre, 2011). Ayrıca, beklenen değer sıfıra yakınsa bu maddenin fazla kolay ya da fazla zor olduğu ve birey dağılımında amaca hizmet etmediğini gösterir (Linacre, 2012).

Rasch herhangi bir veri setinin model gereksinimlerini ne derecede sağladığına karar vermek için ki-kare uyum istatistiklerinin kullanımını önermektedir.

Veri analizi programlarında bu istatistikler iç uyum (infit) ve dış uyum (outfit) olarak raporlanmaktadır (Wright, 1984). İç uyum ve dış uyum, ki kare istatistiğinin serbestlik derecesine bölünmesi ile elde edilen ortalama kareler istatistikleri olup, bunların beklenen değerleri 1’dir (Linacre, 2011). Dış uyum (outlier sensitive mean square statistic-uç değerlere duyarlı ortalama kareler istatistiği) zor bir maddeye beklenmedik şekilde verilen doğru cevap ya da dikkatsizlikten dolayı kolay bir maddeye beklenmedik şekilde verilen yanlış cevap gibi uç değerlerden etkilenen bir istatistiktir. Bu beklenmedik durumlar oluştuğunda dış uyum değerleri beklenen değeri olan 1’den daha yüksek hesaplanmaktadır. İç uyum ise bilgi ağırlıklı bir istatistiktir. Bu değerde her gözlem içerdiği istatistiksel bilgiye göre ağırlıklandırılmıştır ve bireylerin beklenmedik puan örüntülerine karşı hassastır.

(Winsteps Help, Fit Diagnosis, sürüm 4.3.2). Wilkerson ve Lang’a göre (2007) iç

(30)

17 uyum aynı çeldiricinin tekrarlı olarak seçilmesi veya aynı doğru cevap örüntüsünün tekrarlı olarak gözlemlenmesi gibi organize görünen cevap örüntülerine daha hassas bir parametredir. İç uyum ve dış uyum değerlerinin 1’den büyük olması durumuna yetersiz uyum (underfit) denir ve cevapların Rasch modeli ile tahmin edilebilirliğinin çok az olması anlamına gelir. Bu değerlerin 1’den küçük olması ise cevapların çok fazla tahmin edilebilir olması anlamına gelir ve aşırı uyum (overfit) denir. Linacre’ye göre (2011), iç uyum ve dış uyum değerlerinin 1 civarında olması bir müzik gibidir, bu değerlerin 1’in altına düşmesi durumunda müziğin sesi biraz kısılır ancak müzik devam eder. Sesin azaldığı maddeler verimli değildir ve ölçme işleminin geçerliliği azalır ancak tamamen yok olmaz. Uyum istatistikleri 1’den daha yüksek değerler almaya başlayınca müzikle birlikte birtakım gürültüler de duyulur.

Değerler 2’yi geçtiğinde ise artık müzikten çok gürültü duyulmaktadır. Bu durumda ölçme işleminin geçerliliği kaybolur dolayısı ile 1’in altındaki değerlerden çok 2’nin üstündeki değerler ölçme açısından problem yaratacaktır. Yalnızca bir tane şanslı tahmin bile uyum istatistiklerinin 2 üstünde bir değer almasına sebep olabilmektedir.

Bu şanslı tahmin elendikten sonra uyum değerleri olması gereken aralıkta değer alacaktır.

Tablo 3

Teste göre maddelerin uyum değeri ölçüt aralıkları (Bond ve Fox, 2015)

Test özelliği Uyum istatistiği değer aralığı

Çoktan seçmeli maddelerden oluşan (Katılanlar için önemli

sonuçları olan sınavlar) 0.8 – 1,2

Çoktan seçmeli maddelerden oluşan (özel olmayan sınavlar) 0,7 – 1,3

Sıralama ölçeğinde (Anket) 0,6 – 1,4

Klinik gözlem amacıyla yapılan 0,5 – 1,7

Karar çalışmaları amacıyla yapılan 0,4 – 1,2

Testin bazı özelliklerine göre kabul edilen uyum istatistiği aralıkları Tablo 3’te sunulmuştur. Uyum istatistikleri daima pozitif değer alırlar ve model-veri uyumunu, veride hangi miktarda uyumsuzluk olduğunu sınamaya yardımcı olurlar. Uyum istatistiği değeri 1 olduğunda bu mükemmel model veri uyumunu gösterir. Ancak, örneğin iç uyum değeri 1,18 gibi 1’den büyük bir değer alırsa bu durum gözlenen veride modelin öngördüğünden %18 daha fazla varyans olduğu şeklinde yorumlanır. Ya da bir dış uyum değerinin 0,68 gibi 1’den küçük değer alması cevap örüntülerinin modelin öngördüğünden %32 daha az varyansa sahip olduğu şeklinde yorumlanabilir (Bond ve Fox, 2015).

(31)

18 Winsteps yazılımında bireylerin cevap örüntüleri en kolay maddeden en zor maddeye doğru sıralanarak bitişik gösterilmektedir. Örneğin 8 maddelik bir test için örüntülerden biri 11010122 gibi olabilir. Bu örnekle öğrenci en kolay maddeden 1, en zor maddeden 2 puan almış demektir. Bond ve Fox’a göre (2015) Rasch modelinin olasılıksal bir model olduğu düşünüldüğünde, Guttmann cevap örüntüsü denilen örüntü, 11110000 yani tüm kolay maddeler doğru tüm zor maddeler yanlış cevaplandıysa, gerçekçi olmayarak ve beklenmedik şekilde mükemmeldir. Çok az farklılaşma vardır ve uyum istatistiği değerleri istenenden oldukça düşük değerler alacaktır. Rasch modele göre, daha gerçekçi ve beklenen cevap örüntüleri 1110101000 şeklinde olacaktır ve uyum değerleri 1’e daha yakın veya biraz üzerinde olacaktır.

İç uyum ve dış uyum değerleri aynı zamanda beklenen değerleri 0 olacak şekilde standartlaştırılarak (normale yakın t dağılımı) da gösterilebilmektedir. Bu istatistiklerin normalleştirilmiş versiyonları standartlaştırılmış iç uyum (ZSTD inuyum) ve standartlaştırılmış dış uyum (ZSTD outuyum) olarak raporlanmaktadır (Wright ve Masters, 1982). Model ve data uyumlu olduğunda Z değerlerinin ortalamasının 0’a ve standart sapmasının 1’e yakın olması beklenmektedir. Yapılan çalışmalarda +2’den büyük ve -2’den küçük Z değerleri model ile beklenenden daha az uyumlu kabul edilmektedir. Z değerleri pozitif ve negatif değerler alabilmekle beraber negatif Z değerleri beklenenden daha az farklılaşma (tüm kolay sorular doğru, tüm zor sorular yanlış cevaplanmış ve buna benzer durumlar), pozitif değerler ise beklenenden daha fazla farklılaşmayı (fazla gelişigüzel cevap örüntüleri gibi) işaret edebilmektedir (Bond ve Fox, 2015).

Tablo 4

Uyum istatistikleri genel yorumları (Bond ve Fox, 2015)

İç ve dış

uyum Z Cevap örüntüsü Farklılaşma Yorum Uyumsuzluk türü

> 1,3 > 2,0 Fazla gelişigüzel Çok fazla Tahmin edilemez Underfit(uyumaltı)

< 0,75 < 2,0 Fazla belirgin Çok az Guttman Overfit(uyumüstü) Z: Standartlaştırılmış iç uyum ve dış uyum değerleri

Uyum istatistiklerinin genel yorumları Tablo 4’te ve uyumsuzluk (misfit) düzeyi tanımlamalarını Tablo 5’te gösterilmektedir. Bu tablolarda sunulan değer aralıkları referans alınarak Winsteps yazılımının raporladığı tablolardaki iç uyum ve dış uyum değerleri ile bu değerlerin standartlaştırılması ile elde edilen Z değerleri yorumlanabilmektedir.

(32)

19 Tablo 5

Uyumsuzluk (misfit) düzeyi tanımlamaları (Bond ve Fox, 2015)

Aşırı düşük uyum istatistiği Beklenen uyum istatistiği Fazla yüksek uyum istatistiği Z < -2,0

MnSq < 0,7

-2,0 < Z < +2,0 0,7 < MnSq < 1,3

Z>+2,0 MnSq>+1,3

11111100000 1110101000 0100100010

Modelle beklenenden daha az

farklılaşma Modelle beklenen Modelle beklenenden fazla

farklılaşma

Aşırı uyum (Overfit) İyi uyum Yetersiz uyum (Underfit)

Belirgin Olasılıksal Kararsız, düzensiz

Gerçek olamayacak kadar iyi (madde bağımlılığından kaynaklanabilir)

Ölçme için uygun

Beklenmeyen bir durum (zayıf madde, madde ile ilgili özel bilgi gereksinimi ya da şanslı tahminden kaynaklanabilir) MnSq: Ortalama kareler, uyum içi ve uyum dışı değerleri

Z: Standartlaştırılmış iç uyum ve dış uyum değerleri

Uyumsuzluk kavramı algısı, uygulamada her türlü cevap örüntüsünün mümkün olduğu ancak bazılarının diğerlerinden daha muhtemel olduğu düşüncesini barındırmaktadır (Bond ve Fox, 2015). Uyum istatistiklerinin yorumu Rasch modeli ile ilgili olduğu kadar ölçme ile ilgili diğer bağlamlarda da tecrübe sahibi olmayı gerektirmektedir. Wright ve arkadaşlarına göre (1994), MnSq değerlerinin hangi zamanlarda çok yüksek ya da çok düşük oluşuyla ilgili hızlı ve kesin kurallar yoktur.

Madde tiplerini karıştırmak (mixed type) ya da amaç dışı ölçmeler (off-target testing) gibi testin kendine özgü durumlar farklı ortalama kare dağılımları meydana getirebilir. Yine de pratikte kullanılmak için uygun uyum istatistiği aralıkları vardır.

Bond ve Fox (2015)’a göre uyum istatistikleri yalnızca elde edilen değerlerin kabul edilebilir bir aralıkta olduğunu göstermek ya da hangi maddelerin testten çıkarılacağına karar vermek için değil, aynı zamanda problemli maddeler ve birey performanslarının da tespiti için kullanılmalıdır.

Tablo 6’da ortalama kareler (MnSq) uyum istatistiklerinin parametre düzeyinde yorumları ve Tablo 7’de bazı cevap örüntülerinin sebep olduğu iç uyum ve dış uyum değerleri sunulmuştur. Linacre (2018)’e göre ortalama kareler istatistikleri olan iç ve dış uyum değerleri incelenirken dış uyumdan önce iç uyum ve düşük değerlerden önce yüksek değerler incelenmelidir.

(33)

20 Tablo 6

Uyum istatistiklerinin yorumları (Linacre ve Wright, 1994)

İç uyum / dış uyum değeri Yorum

> 2,0 Ölçme sistemini bozar

1,5 – 2,0 Ölçme yapısı için verimli değildir ancak bozucu da değildir

0,5 – 1,5 Verimlidir

< 0,5 Daha az verimlidir, bozucu değildir.

Tablo 6’da verilen aralıklar iç ve dış uyum değerleri ile ilgili karar verirken kullanılmaktadır. Tablo 7’de ise iç uyum ve dış uyum değerlerinin hangi muhtemel cevap örüntülerinden kaynaklanabileceği ve bu cevap örüntülerinin nasıl yorumlanabileceği verilmektedir. Tablodaki cevap örüntüsü sütununda bireylerin her bir maddeden aldıkları puanlar en kolay maddeden alınan puan en solda ve en zor maddeden alınan puan en sağda olacak şekilde maddelerin güçlük hiyerarşisine göre verilmektedir. Rasch modeli ile beklenen cevap örüntüsü Rasch’ın temel varsayımı doğrultusunda en kolay maddelerin doğru, en zor maddelerin yanlış cevaplanmasıdır. Bunun dışındaki bazı cevap örüntüleri ve bu cevap örüntülerinin olması durumunda kestirilebilecek uyum değerleri ile yorumlamaları Tablo 7’de incelenebilir.

Tablo 7

Bazı cevap örüntülerinin uyum düzeyi yorumlamaları (Linacre ve Wright, 1994)

Cevap örüntüsü Örüntü türü Tanı

uyu m

dış uyu m

Uyum türü 111…0110110100…

000

Rasch modeli için ideal cevap

örüntüsü sayılabilir Modele uygun

1,1 1,0 İyi uyum 111…1111100000…

000

Guttman ya da deterministik Determinist ik

0,5 0,1 Aşırı uyum 011…1111110000…

000

En kolay maddede yapılan

dikkatsizliği gösterebilir. Dikkatsizlik 1,0 3,8 Yeter siz uyum 000…0000011111…

111

İnanılması güç bir örüntü, kodlama

hatası olabilir. Yanlış

kodlama

4,3 12,6 Yeter siz uyum 111…1111000000…

001

En zor maddedeki beklenmedik

başarı, şanslı tahmin olabilir. Şanslı tahmin

1,0 3,8 Karm a 111…1000011110…

000

Fazla mümkün olmayan bu örüntüde art arda doğrular ve yanlışlar göze çarpar. Hakkında bilgi sahibi olunan ve art arda yer alan sorular doğru, bilgi sahibi olunmayan sorular yanlış cevaplanır.

Özel bilgi 1,3 0,9 Karm a

Rasch modeli ile birey güvenirliği (person reliability) ve madde güvenirliği (item reliability) olmak üzere iki güvenirlik kestirimi elde edilebilmektedir. Linacre’ye göre (2010) hem KTK hem de rasch modelinde güvenirlik test puanlarının ya da kestirimlerinin hatasızlığının ya da kalitesinin değil, tekrar edilebilirliğinin bir

(34)

21 göstergesidir. Elde edilen güvenirlik katsayıları testin kendisini değil mevcut uygulamasının özelliklerini yansıtmaktadır. Winsteps uygulamasında iki tür güvenirlik indeksi kestirilir; bunlardan biri birey güvenirliğidir ki KTK’daki test güvenirliği ile aynı şekilde yorumlanabilir, diğeri de madde güvenirliğidir ve KTK’da buna benzer bir kestirim yapılmamaktadır. Winsteps programı, birey ve madde güvenirliklerinin yanı sıra Cronbach α değerlerini de raporlamaktadır. Tüm maddelerin çoktan seçmeli olduğu durumlarda KR-20 değerini de kestirmektedir.

Güvenirlik kestirimleriyle birlikte birey ve maddeler için ayrışma(separation) değerleri de kestirilmektedir. Ayrışma da güvenirlik gibi, madde ve birey parametrelerinin tekrar edilebilirliğinin bir göstergesidir. Birey ayrışması, örneklemdeki bireyleri sınıflandırmak için kullanılır. Birey güvenirliğinin 0,8’den düşük olduğu durumlarda ayrışma katsayısı 2’den düşük bir değer alırsa bu durum test maddelerinin düşük ve yüksek performans gösteren bireyleri ayırt etmekte yeterince hassas olmadığı, daha fazla maddeye ihtiyaç olduğu şeklinde yorumlanabilir. Madde ayrışması ise, maddelerin hiyerarşisini doğrulamak için kullanılır. Madde güvenirliğinin 0,9’dan düşük olduğu durumlarda madde ayrışması 3’ten küçük bir değer alıyorsa bu madde hiyerarşisini doğrulamaya yetecek kadar geniş bir örneklemin olmadığı anlamına gelmektedir (Linacre, 2018). Ayrışma standart hata ile ters yönde ilişkilidir ve hata azaldıkça ayrışma katsayısı büyümektedir. Ayrışma<1,00 ve güvenirlik <0,50 olan durumlarda, kestirimler arası farklılaşma çoğunlukla ölçme hatalarından kaynaklanmaktadır ve yeterli bir güvenirlik kestirimi vermemektedir dolayısıyla ayrışma için alt sınır 1, güvenirlik için alt sınır 0,50 olarak alınmıştır (Fisher, 1992).

Güvenirlik ve ayrışma katsayıları, testin kalitesi ile ilgili bilgi vermemektedir.

Yüksek birey güvenirliği demek, yetenek düzeyi yüksek olan bireylerin başarı olasılığının gerçekten de yetenek düzeyi düşük olan bireylerden daha yüksek olacağı anlamına gelir. Madde güvenirliği ise mevcut örneklemden elde edilen madde güçlüğü sıralamasının ne derecede tekrar edilebileceğinin bir ölçüsüdür (Linacre, 2011). Birey güvenirliği örneklemdeki bireylerin yetenek düzeyi aralığından etkilenmektedir, yani birey güvenirliğinin artması için örnekleme yetenek düzeyi ranjını genişletecek bireylerin katılması gerekmektedir. Winsteps yazılımında birey ve madde güvenirlikleri gerçek ve model olmak üzere iki şekilde kestirilir. Gerçek güvenirlik (real) örneklemden kestirilen değerdir ve güvenirlik için alt sınırdır. Model

(35)

22 güvenirliği ise mükemmel şartlarda uyum olduğu durumda Rasch modelinin ön gördüğü kestirimdir ve güvenirlik için üst sınırıdır. Linacre (2018)’ye göre asla hesaplanamayacak olan esas güvenirlik gerçek ve model arasında bir değerdir.

Model veri uyumunu bozan etmenler ortadan kaldırılırsa, gerçek güvenirlik model güvenirliğine yaklaşacaktır.

Rasch modelinin iki önemli özelliği ölçme aracı geliştirirken kullanımında birtakım avantajlar sağlamaktadır. Bunlardan ilki, birey ve madde parametrelerini gerçek bir eşit aralıklı ölçek oluşturma yoluyla kestirerek, sıralama gözlemlerini doğrusal bir ölçmeye dönüştürebilmesidir. Diğer önemli özelliği ise, madde ve birey parametrelerinin birbirinden bağımsızlığıdır. Örneğin, bir bireyin kestirilen yeteneği aynı yapıyı ölçen ölçme aracının zorluk düzeyine göre değişmemesi ve bir maddenin güçlük düzeyinin bu maddeyi cevaplayan bireylerin yetenek düzeyine göre farklılık göstermemesidir (parametre değişmezliği) (Wei, Liu & Jia, 2014).

Lojistik regresyonun bir formu olan ve Rasch tarafından açıklanan matematiksel ilişkinin denklemi:

Bu denklemde Bn yetenek düzeyine sahip bir n bireyi için Di güçlük düzeyindeki, doğru yanıtlar için x = 1 ve yanlış yanıtlar için x = 0 şeklinde puanlanan, bir i maddesini doğru olarak cevaplama olasılığı tanımlanmaktadır. Denklem tekrar yazılacak olursa:

Denklemden de görüldüğü gibi, bireyin bir maddeyi doğru cevaplama olasılığı bireyin yetenek düzeyi ile madde güçlüğünün farkının lojistik fonksiyonu ile belirlenebilmektedir. Bu fark arttıkça, bireyin maddeyi doğru cevaplama olasılığı da artacaktır. Yalnızca iki kategorili puanlanan maddeler için kullanılan bu modelden farklı modeller de geliştirilmiştir.

Kısmi puan modeli (PCM; Wright ve Masters, 1982) Masters tarafından 1982 yılında birden fazla aşama gerektiren ve çözümleme sürecinde farklı aşamaların

Referanslar

Benzer Belgeler

Söz konusu karşılaştırmaya göre, anne babası boşanmış çocuklar anne babası birlikte olanlara kıyasla daha fazla sosyal, davranışsal, akademik ve içe atım

Mevcut çalışma PISA 2015 fen bilimleri alt ölçeğinde yer alan maddelerin çok kategorili veriler için geliştirilmiş farklı yöntemler (GMH, OLR ve poly-SIBTEST)

Sözel olmayan zekayı ölçen testlerden biri olan sözel olmayan kapsamlı zeka testi (Comprehensive Test of Nonverbal Intelligence – CTONI) sözel olan diğer

Madde 8’in faktör yükleri serbest bırakılarak yapılan analiz sonucunda ise ki-kare fark testine ilişkin p değeri .05’ten küçük çıkmış (p = 0.01) ve

4 Tablo 2 Omurgalı ve Omurgasız Hayvanlar……….14 Tablo 3 Üç Aşamalı Testteki Maddelerin CVR Değerleri………22 Tablo 4 Üç Aşamalı Testin Madde Seçeneklerinin

Tablo 17 Öğretmenlerin Yetkinlik Puanlarının Eğitim Kademesi Gruplarına Göre Farklılığına İlişkin Mann Whitney U Değerleri...84 Tablo 18 Öğretmenlerin Bilişsel

Bu araştırma, sınıf öğretmenlerinin öğrenmeyi öğrenme becerisine ilişkin görüş ve yeterliklerini belirlemek amacıyla yapılmıştır. Öğretmenlerin öğrenmeyi öğrenme

maddeyi doğru cevaplama olasılıkları özel liseden ve Anadolu lisesinden mezun olan adaylara göre daha yüksek bulunmuĢtur. Sizce bu durumun nedeni