ANKARA ÜNİVERSİTESİ EĞİTİM BİLİMLERİ ENSTİTÜSÜ

(1)

EĞİTİM BİLİMLERİ ENSTİTÜSÜ

ÖLÇME VE DEĞERLENDİRME ANABİLİM DALI ÖLÇME VE DEĞERLENDİRME PROGRAMI

İKİ VE ÇOK KATEGORİLİ PUANLANAN MADDELERDE DEĞİŞEN MADDE FONKSİYONLARININ KARŞILAŞTIRILMASI

DOKTORA TEZİ

Emine Burcu TUNÇ

Ankara, Haziran, 2016

(2)

EĞİTİM BİLİMLERİ ENSTİTÜSÜ

ÖLÇME VE DEĞERLENDİRME ANABİLİM DALI ÖLÇME VE DEĞERLENDİRME PROGRAMI

İKİ VE ÇOK KATEGORİLİ PUANLANAN MADDELERDE DEĞİŞEN MADDE FONKSİYONLARININ KARŞILAŞTIRILMASI

DOKTORA TEZİ

Emine Burcu TUNÇ

Danışman: Yrd. Doç. Dr. Ömer KUTLU

Ankara, Haziran, 2016

(3)

(4)

(5)

ÖZET

İKİ VE ÇOK KATEGORİLİ PUANLANAN MADDELERDE DEĞİŞEN MADDE FONKSİYONLARININ KARŞILAŞTIRILMASI

Tunç, Emine Burcu

Doktora, Ölçme ve Değerlendirme Anabilim Dalı Tez Danışmanı: Yrd. Doç. Dr. Ömer Kutlu

Haziran, 2016, xii + 108 Sayfa

Bu araştırmanın genel amacı, iki kategorili ve çok kategorili puanlanan maddelerde Değişen Madde Fonksiyonlarının (DMF) karşılaştırılmasıdır. Bu amaç doğrultusunda simülasyon çalışması gerçekleştirilmiş, I. Tip hata ve istatistiksel güç oranları üzerinde çalışılmıştır. 20 madde için hem iki kategorili (1-0) hem çok kategorili (4-3-2-1-0) puanlama yapılmış ve böylelikle iki ayrı veri seti oluşturulmuştur. İki kategorili puanlama için, çok kategorili puanlamada beşinci adım olan 4’e 1 puan verilmiş, 3-2-1-0’a ise 0 puan verilmiştir.

Simülasyon kapsamında örneklem büyüklüğü (600, 1200, 2400), örneklem büyüklüğü oranı (1:1, 1:2), DMF içeren madde yüzdesi (%10, %30, %50) ve DMF büyüklüğü (0.25, 0.50, 1.00, 1.50) manipüle edilen koşullar olarak ele alınırken, DMF biçimi (Tek Biçimli DMF) ve toplam madde sayısı (20) sabit koşullar olarak ele alınmıştır. Böylelikle 72 koşul kapsamında gerçekleştirilen araştırma için 100 tekrar gerçekleştirilmiştir. Verilerin türetilmesinde, iki kategorili veriler için Rasch, çok kategorili veriler için ise Kısmi Puan Modeli kullanılmıştır. WinGen programında madde parametreleri hesaplanmış, R programında “eRm” paketi yardımıyla veriler türetilmiştir. İki kategorili veriler için Mantel-Haenszel ve LORDIF; çok kategorili veriler için ise LORDIF ve ANOVA DMF belirleme analizleri kullanılmıştır.

Araştırmanın temel amacı olan iki kategorili ve çok kategorili puanlama modelleri kapsamında DMF karşılaştırıldığında, genel olarak çok kategorili puanlama yapılması durumunda I. Tip hata oranlarının daha düşük, istatistiksel güç oranlarının ise daha yüksek olduğu belirlenmiştir. Bu doğrultuda DMF sonuçlarında puanlama

(6)

modellerinin etkisi olduğu ve kısmi puan dikkate alındığında DMF sonuçlarının değişebileceği ortaya konulmuştur.

Elde edilen bulgular doğrultusunda genel olarak örneklem büyüklüğü 600’den 2400’e doğru arttıkça I. Tip hata oranlarının arttığı ancak I. Tip hata oranlarında, örneklem büyüklüğüne göre manidar bir farklılık olmadığı (p>.05) belirtilmiştir.

Örneklem büyüklüğü 600’den 2400’e doğru arttıkça, istatistiksel güç oranlarının da arttığı ve örneklem büyüklüğüne göre ANOVA DMF belirleme analizi hariç manidar bir farklılık olmadığı (p>.05) ve ANOVA DMF için ise 600 ve 2400 örneklem büyüklükleri için manidar fark olduğu (p<.05) bulunmuştur. Örneklem büyüklüğü oranlarına göre I.

Tip hata ve istatistiksel güç oranlarında manidar bir farklılık olmadığı (p>.05) belirlenmiş, 1:1 örneklem büyüklüğü oranında hem I. Tip hata hem de istatistiksel güç oranlarının daha yüksek olduğu saptanmıştır.

DMF’li madde oranı %10’dan %50’ye doğru arttıkça I. Tip hata oranlarının arttığı ve istatistiksel güç oranlarının azaldığı ve I. Tip hata ve istatistiksel güç oranlarının, DMF’li madde oranlarına göre manidar bir farklılık gösterdiği (p<.05) ortaya konulmuştur. En düşük I. Tip hata ve en yüksek istatistiksel güç oranlarının %10 DMF’li madde oranlarında olduğu saptanmıştır. DMF büyüklüğü 0.25’ten 1.50’ye doğru arttıkça I. Tip hata ve istatistiksel güç oranlarının arttığı ve I. Tip hata ve istatistiksel güç oranlarının, DMF büyüklüğüne göre manidar bir farklılık gösterdiği (p<.05) belirlenmiştir. En düşük I. Tip hata ve en yüksek istatistiksel güç oranlarının 0.25 DMF büyüklüğünde olduğu belirtilmiştir.

Anahtar kelimeler: Değişen Madde Fonksiyonu, Puanlama modelleri, Rasch, Kısmi Puan Modeli, LORDIF, Mantel-Haenszel, ANOVA, I. Tip hata, İstatistiksel güç

(7)

SUMMARY

A COMPARISON OF DIFFERENTIAL ITEM FUNCTIONING IN TWO AND MULTI-CATEGORY SCORING ITEMS

Tunc, Emine Burcu

Doctor of Philosophy, Program for Measurement and Evaluation Advisor: Asst. Prof. Dr. Ömer Kutlu

June, 2016, xii + 108 Pages

The aim of this study is to compare Differential Item Functioning for two- category scored and multi-category scored items. For this purpose, simulation studies were performed; Type I error and statistical power ratios were studied. For 20 items, both two category (1-0) and multi category (4-3-2-1-0) scoring was done and thus two data sets were created. Two category scoring was done by scoring 4, which was the fifth step of multi category scoring as 1 and scoring the other steps 3-2-1-0 as 0.

Whereas sample size (600, 1200, 2400), sample size ratio (1:1, 1:2), percentage of items containing DIF (%10, %30, %50), and DIF magnitude (0.25, 0.50, 1.00, 1.50) were taken as manipulated conditions; DIF format (Uniform DIF) and total item number (20) were considered as stable conditions as part of simulation process. Hereby 100 replication were carried out for research conducted under 72 conditions. In the process of data derivation, Rasch was used for two-category data, Partial Credit Model was used for multiple-category data. Item parameters were calculated with WinGen program and data was derived with “eRm” package of R program. Mantel-Haenszel and LORDIF analysis were used for two category data; LORDIF and ANOVA DIF analysis were used for multiple category data.

When DIF was compared within the scope of two category and multiple category scoring models which is the main purpose of this study, it was seen that when multiple category scoring was done, ratio of Type I error was lower but statistical power

(8)

ratio was higher. In this context it was observed that scoring models effect DIF results and DIF results may vary considering partial credit scores.

According to the findings, when sample size was increased from 600 to 2400, Type I error ratio increased, but Type I error was not significantly different based on sample size (p>.05). It was determined that when sample size was increased from 600 to 2400, statistical power rates were also increased, but statistical power ratio was not significantly different based on sample size (p>.05) except ANOVA DIF analyses. For ANOVA DIF analyses, there was a significant difference (p<.05) for sample size 600 and 2400. It was determined that there was not a significant difference (p>.05) in Type I error and statistical power ratio based on sample size ratio. It was also seen that the ratio of Type I error and statistical power was higher in 1:1 sample size ratio.

When DIF item rates were increased from 10% to 50%, Type I error ratio was increased and statistical power ratio was decreased, and Type I error and statistical power ratio were significantly different compared with DIF item ratio (p<.05). The lowest of Type I error ratio and the highest statistical power ratio was found to be in the 10% ratio DIF items. It was seen that when DIF magnitudes were increased from 0.25 to 1.50, Type I error and statistical power ratio were increased and Type I error and statistical power ratio were significantly different (p<.05) based on DIF magnitude. The lowest of the Type I error ratio and the highest statistical power ratio was reported to be at 0.25 DIF magnitude.

Key words: Differential Item Functioning, Scoring Models, Rasch, Partial Credit Model, LORDIF, Mantel-Haenszel, ANOVA, Type I Error, Statistical power.

(9)

ÖNSÖZ

Ulusal ve uluslararası düzeyde elde edilen sınav sonuçları, hem bireysel hem de toplumsal olarak çok önemli olup; sosyal ve politik uygulama kararları için de rol oynayıcıdır. Bu nedenle sınav sonuçlarının güvenilir ve geçerli olması son derece önemlidir. Geçerliği etkileyen faktörlerden biri madde yanlılığıdır ve eğitimde testlerin çok sık kullanılmasından ötürü madde yanlılığı, ölçme kuramcılarının, uygulayıcılarının ve eğitimde politika geliştiricilerin temel konuları arasında yer almaktadır. Bu çalışmada da madde yanlılığının bir ayağı olan Değişen Madde Fonksiyonu (DMF), iki kategorili ve çok kategorili maddeler için karşılaştırılmış ve bu doğrultuda alanyazına DMF ile ilgili farklı bir bakış açısı kazandırılmaya çalışılmıştır.

Lisans süreciyle başlayan, doktora eğitimi ve tez süreciyle devam eden bu yolda ilgisini ve desteğini esirgemeyen, bilimsel disiplinini ve bilgi birikimini her zaman örnek aldığım değerli danışman hocam Yrd. Doç. Dr. Ömer Kutlu’ya,

Bu araştırmanın gerçekleştirilmesi süreci boyunca emeği olan değerli hocalarım Prof. Dr. Ezel Tavşancıl ve Prof. Dr. Hülya Kelecioğlu’na,

Başta Prof. Dr. Nizamettin Koç olmak üzere Ankara Üniversitesi Ölçme ve Değerlendirme Bölümündeki değerli hocalarıma,

Her daim dostluklarını ve akademik desteklerini yanımda hissettiğim arkadaşlarım Selma Höçük, Cansu Ayan ve Derya Eryiğit’e,

Marmara Üniversitesi Eğitim Bilimleri Bölümündeki çalışma arkadaşlarıma, Doktora öğrenimim boyunca yurt içi doktora burs olanağı sağlayan TÜBİTAK’a,

Karşılıksız sevgi ve desteklerini esirgemeyen sevgili anneciğim, babacığım, sevgili eşim Zülfü’ye ve hayatımın her alanında yol göstericim olan ablam Selcen’e

sonsuz teşekkürlerimi sunuyorum.

(10)

İÇİNDEKİLER

TEZ BİLDİRİMİ ... iii

ÖZET ... iv

SUMMARY ... vi

ÖNSÖZ ... viii

İÇİNDEKİLER ... ix

ÇİZELGELER DİZİNİ ... xi

ŞEKİLLER DİZİNİ ... xii

1. BÖLÜM ... 1

GİRİŞ ... 1

1.1. Problem Durumu ... 1

1.2. Amaç ... 30

1.3. Önem ... 31

1.4. Sınırlılıklar ... 32

1.5. Kısaltmalar ... 33

2. BÖLÜM ... 34

YÖNTEM ... 34

2.1. Araştırmanın Modeli ... 34

2.2. Simülasyon Deseni ... 34

2.2.1. Sabit Koşullar ... 34

2.2.2. Manipüle Edilen Koşullar ... 35

2.3. Verilerin Türetilmesi ... 37

2.4. Verilerin Çözümlenmesi ... 39

2.4.1. Mantel-Haenszel... 40

2.4.2. ANOVA ... 43

2.4.3. LORDIF ... 44

3. BÖLÜM ... 48

BULGULAR VE YORUMLAR ... 48

3.1. 600 Örneklem Büyüklüğü için, Farklılaşan Örneklem Büyüklüğü Oranı, DMF’li Madde Oranı ve DMF Büyüklüğü Koşullarında, İki Kategorili ve Çok Kategorili Puanlama Modelleri Kapsamında I. Tip Hata Oranları ... 48

ONAY SAYFASI... ii

(11)

3.2. 600 Örneklem Büyüklüğü için, Farklılaşan Örneklem Büyüklüğü Oranı, DMF’li Madde Oranı ve DMF Büyüklüğü Koşullarında, İki Kategorili ve Çok Kategorili

Puanlama Modelleri Kapsamında İstatistiksel Güç Oranları ... 53

3.3. 1200 Örneklem Büyüklüğü için, Farklılaşan Örneklem Büyüklüğü Oranı, DMF’li Madde Oranı ve DMF Büyüklüğü Koşullarında, İki Kategorili ve Çok Kategorili Puanlama Modelleri Kapsamında I. Tip Hata Oranları ... 56

3.4. 1200 Örneklem Büyüklüğü için, Farklılaşan Örneklem Büyüklüğü Oranı, DMF’li Madde Oranı ve DMF Büyüklüğü Koşullarında, İki Kategorili ve Çok Kategorili Puanlama Modelleri Kapsamında İstatistiksel Güç Oranları ... 60

3.5. 2400 Örneklem Büyüklüğü İçin, Farklılaşan Örneklem Büyüklüğü Oranı, DMF’li Madde Oranı ve DMF Büyüklüğü Koşullarında, İki Kategorili ve Çok Kategorili Puanlama Modelleri Kapsamında I. Tip Hata Oranları ... 63

3.6. 2400 Örneklem Büyüklüğü için, Farklılaşan Örneklem Büyüklüğü Oranı, DMF’li Madde Oranı ve DMF Büyüklüğü Koşullarında, İki Kategorili ve Çok Kategorili Puanlama Modelleri Kapsamında İstatistiksel Güç Oranları ... 66

4. BÖLÜM ... 82

SONUÇLAR VE ÖNERİLER ... 82

4.1. Sonuçlar ... 82

4.2. Öneriler ... 86

KAYNAKLAR ... 89

EKLER ... 101

EK 1. ... 101

EK 2. ... 103

ÖZGEÇMİŞ ... 108

(12)

ÇİZELGELER DİZİNİ

Çizelge 2.1. Simülasyon Deseni ... 37 Çizelge 2.2. Madde Adım Güçlüğü Parametreleri ... 38 Çizelge 2.3. Çok Kategorili-İki Kategorili Puanlama için Yanıt Örüntüsü Örneği .. 39 Çizelge 2.4. Eşleştirilen Değişkenin k Düzeyinde Bir Maddeye Ait Kontincensi

Tablosu ... 42 Çizelge 2.5. MH DMF İstatistiğinin Yorumlanması ... 43 Çizelge 2.6. R²Değerlerinin Yorumlanmasıyla İlgili İki Farklı Sınıflama ... 47 Çizelge 3.1. İki Kategorili Puanlama Modeli Kullanıldığında 600 Örneklem

Büyüklüğü İçin İlgili Koşullarda MH ve LORDIF Analizine Göre I. Tip Hata Oranları ... 49 Çizelge 3.2. Çok Kategorili Puanlama Modeli Kullanıldığında 600 Örneklem

Büyüklüğü İçin İlgili Koşullarda ANOVA ve LORDIF Analizine

Göre I. Tip Hata Oranları ... 51 Çizelge 3.3. İki Kategorili Puanlama Modeli Kullanıldığında 600 Örneklem

Büyüklüğü İçin İlgili Koşullarda MH ve LORDIF Analizine Göre İstatistiksel Güç Oranları ... 53 Çizelge 3.4. Çok Kategorili Puanlama Modeli Kullanıldığında 600 Örneklem

Göre İstatistiksel Güç Oranları ... 54 Çizelge 3.5. İki Kategorili Puanlama Modeli Kullanıldığında 1200 Örneklem

Büyüklüğü İçin İlgili Koşullarda MH ve LORDIF Analizine Göre I. Tip Hata Oranları ... 56 Çizelge 3.6. Çok Kategorili Puanlama Modeli Kullanıldığında 1200 Örneklem

Göre I. Tip Hata Oranları ... 58 Çizelge 3.7. İki Kategorili Puanlama Modeli Kullanıldığında 1200 Örneklem

Büyüklüğü İçin İlgili Koşullarda MH ve LORDIF Analizine Göre İstatistiksel Güç Oranları ... 60 Çizelge 3.8. Çok Kategorili Puanlama Modeli Kullanıldığında 1200 Örneklem

Göre İstatistiksel Güç Oranları ... 61 Çizelge 3.9. İki Kategorili Puanlama Modeline 2400 Örneklem Büyüklüğü İçin

İlgili Koşullarda MH ve LORDIF Analizine Göre I. Tip Hata

Oranları... 63 Çizelge 3.10. Çok Kategorili Puanlama Modeli Kullanıldığında 2400 Örneklem

Göre I. Tip Hata Oranları ... 64

(13)

Çizelge 3.11. İki Kategorili Puanlama Modeli Kullanıldığında 2400 Örneklem Büyüklüğü İçin İlgili Koşullarda MH ve LORDIF Analizine Göre

İstatistiksel Güç Oranları ... 66

Çizelge 3.12. Çok Kategorili Puanlama Modeli Kullanıldığında 2400 Örneklem Büyüklüğü İçin İlgili Koşullarda ANOVA ve LORDIF Analizine Göre İstatistiksel Güç Oranları ... 67

Çizelge 3.13. I. Tip Hata Oranlarının Örneklem Büyüklüğüne Göre Kruskal Wallis Testi Sonucu ... 70

Çizelge 3.14. İstatistiksel Güç Oranlarının Örneklem Büyüklüğüne Göre Kruskal Wallis Testi Sonucu ... 71

Çizelge 3.15. I. Tip Hata Oranlarının Örneklem Büyüklüğü Oranlarına Göre Mann-Whitney U Testi Sonucu ... 73

Çizelge 3.16. İstatistiksel Güç Oranlarının Örneklem Büyüklüğü Oranlarına Göre Mann-Whitney U Testi Sonucu ... 73

Çizelge 3.17. I. Tip Hata Oranlarının DMF’li Madde Oranlarına Göre Kruskal Wallis Testi Sonucu ... 74

Çizelge 3.18. İstatiksel Güç Oranlarının DMF’li Madde Oranlarına Göre Kruskal Wallis Testi Sonucu ... 75

Çizelge 3.19. I. Tip Hata Oranlarının DMF Büyüklüğüne Göre Kruskal Wallis Testi Sonucu ... 77

Çizelge 3.20. İstatistiksel Güç Oranlarının DMF Büyüklüğüne Göre Kruskal Wallis Testi Sonucu ... 78

ŞEKİLLER DİZİNİ Şekil 1.1. TB DMF ... 7

Şekil 1.2. TBO sıralı DMF ... 8

Şekil 1.3. TBO sıralı olmayan DMF ... 8

Şekil 1.4. KPM kapsamında bir madde örneği ... 20

(14)

1 GİRİŞ

Bu bölümde problem durumu, araştırmanın amacı, önemi ve sınırlılıkları ele alınmıştır.

1.1. Problem Durumu

İnsanların sahip olduğu davranışlar içinde örtük özellik gösteren davranışlar önemli bir yer tutmaktadır. Psikometri bilimi yaklaşık yüz elli yıllık geçmişiyle zekâ, ilgi, tutum, algı, başarı gibi örtük özellik gösteren bu psikolojik yapıları, geliştirdiği testler aracılığıyla ölçmeye ve insanların sahip olduğu bu örtük davranışlar hakkında kararlar vermeye çalışmaktadır. Ancak testlerde yer alan maddeler bazı durumlarda testin ölçmek istediği amaçtan uzaklaşmakta ve geçerlik sorunları ortaya çıkmaktadır.

Bu durumlardan biri madde yanlılığıdır. Bu bölümde ilk olarak araştırmanın amacı doğrultusunda madde yanlılığı ve onunla ilgili kavramlara yer verilmiştir.

Madde yanlılığı, test maddesine, aynı yetenek düzeyinde olan fakat farklı alt gruplardan gelen bireylerin doğru yanıt verme olasılıklarının aynı olmaması durumu olarak tanımlanmaktadır (Osterlind, 1990). Madde yanlılığı test sürecinin yapay bir eseri olup; sosyal, politik ve etnik uygulama kararları için çok önemlidir (Zumbo ve Gelin, 2005). Eğitimde testlerin çok sık kullanılmasından ötürü madde yanlılığı, ölçme kuramcılarının, uygulayıcılarının ve eğitimde politika geliştiricilerin temel konuları arasında yer almaktadır (Millsap ve Everson, 1993).

Madde yanlılığı belirleme çabası, yeni ölçekler geliştirmek, var olan ölçekleri yeni durumlara, bireylere, yeni bir dile ya da kültüre uyarlamak için, kısacası daha geçerli test puanları elde etmek için çok önemlidir (Zumbo, 2007). Madde yanlılığı Eğitsel ve Psikolojik Testler için Standartlar (EPTS) tarafından, yapıyla ilişkili olmayan öğelerin, tanımlanan grupların yanıtlayıcıları için sistematik olarak daha düşük ya da

(15)

daha yüksek sonuçları yaratması olarak ifade edilmiş ve eğitsel testlerde yapıyla ilişkili olmayan öğeler, genellikle cinsiyet, ırk, etnik, sosyoekonomik düzey ve din olarak ele alınmıştır (Wood, 2011).

Madde yanlılığı ile ilgili ilk çalışmalar 1960’lı yıllarda, Amerika’da medeni haklar kanunuyla birlikte gündeme gelmiştir. Test geliştiriciler, test maddelerinin azınlık grup için (Siyahlar ve Hispanikler), çoğunluk gruba göre (Beyazlar) farklılaşıp farklılaşmadığını araştırmışlardır. Angoff (1993) bu durumu şöyle ifade etmiştir: “Bu çalışmalar kültürel farklılıkları anlamak için yeni teknikler geliştirmek ve Siyah ve Hispanik öğrencilerle, Beyaz öğrencilerin bilişsel beceri testlerindeki performansları arasındaki büyük farklılığın nedenlerini incelemek amacı ile tasarlanmıştır.” (Ellis ve Raju, 2003).

Test yanlılığı ve madde yanlılığı da ayrı kavramlardır. Yansız bir test, tüm gruplara ve bireylere, bilgi ve becerilerini gösterebilmeleri için eşit olanaklar ve geçerli karşılaştırmalar sunar (Roever, 2005). Test yanlılığı, test üzerindeki performans, testin amacından farklı olarak farklı bilgi kaynakları gerektirdiği zaman meydana gelir ve bu durum bir grup için test puanlarının daha az geçerli olmasına neden olur (Camilli ve Shepart, 1994).

Test yanlılığı için, testteki maddeler tek tek değerlendirilmez, bunun yerine gruplar, toplam test puan ortalamaları açısından karşılaştırılır (Hong ve Roznowski, 2001). Bunun yanı sıra eğer test yanlı maddeler içermiyorsa testin yanlı olmadığı ifade edilebilir. Ek olarak, eğer bazı maddeler bir grup aleyhine farklılaşıyorsa ve yine bazı maddeler de yine bu grup lehine farklılaşıyorsa, maddelerin yanlılıklarının etkileri birbirini yok eder. Böylece test düzeyinde yansızlığın olmadığı ifade edilebilir. Ancak dikkat edilmesi gereken test düzeyinde yanlılığın yok edildiğidir, madde düzeyinde yanlılık hâlâ devam etmektedir (Ellis ve Raju, 2003). Herkes lehine ya da aleyhine olan bir maddenin de yanlı olamayacağı belirtilmelidir. Eğer bir grup değil de tüm gruplar var olan durumdan etkileniyorsa bu duruma da yanlılık denilemez (Perrone, 2006;

Roever, 2005).

Bir başarı testinde, kızlar bir maddede erkeklere göre doğru yanıt vermeye daha az yatkın olabilir. Bunun nedeni de maddenin öncelikli olarak spor terimleriyle ilgili bir

(16)

bilgi içermesi ve bu bilginin kız öğrenciler için tanıdık olmaması olabilir. Spor terimleriyle ilgili bu bilgiye sahip olmak testin amacına aykırı olduğundan, bu madde yanlı olarak belirlenir (Gelin ve Zumbo, 2003). Bunun yanı sıra, bir uzunluk ölçme aracının uzunluktan başka bir şeyi yanlı ölçtüğü iddia edilemez. Bu araç, cinsiyet ve etnik kökenlerine göre farklı gruplarda olan insanlar için, eğer aynı boya sahiplerse aynı sonuçları verir. Bu şekilde aracın açıkça yanlı olmadığı ifade edilebilir. Fakat aracın yanlı olmaması, grupların ortalamasının eşit olmasına yol açmaz. Ortalamaya göre kadınlar erkeklerden ya da Hispanikler ve Asyalılar, Amerikalılardan daha kısa olabilir (Ellis ve Raju, 2003).

Genel bir anlatımla, bir test maddesi haksızca bir grubu diğerlerinden ayırıyorsa o maddenin yanlı olduğu ifade edilebilir. Burada yapılması gereken “var olan farklılık ölçülen yetenekle mi ilgili yoksa gerçekten bir sıkıntıya mı işaret?” sorusuna yanıt vermektir (Clauser ve Mazor, 1998). Başka bir anlatımla eğer bir grup, ilgili madde üzerinde düşük performans gösteriyorsa ve bu düşük performans madde üzerindeki bazı haksızlıklardan dolayı ise, bu maddenin bu grup için yanlı olduğu ifade edilebilir. Bu durum ters etki olarak da adlandırılır. Düşük performans maddedeki yanlılıktan mı yoksa ilgili grubun gerçek başarısızlığından mı kaynaklı? (Penfield ve Lam 2000). Bu noktada, madde etkisi ve Değişen Madde Fonksiyonu (DMF) terimlerine ayrıntılı olarak değinmek gerekmektedir.

Madde etkisi, farklı gruplardaki bireylerin maddeyi farklı yanıtlama olasılıklarına sahip olması, ancak bu olasılığın ölçülmesi istenen gerçek farktan kaynaklanmasıdır (Camilli ve Shepard, 1994; Clauser ve Mazor, 1998; Zumbo, 1999).

Eğer test yanıtlayıcıları bilgileri açısından farklılaşıyorsa, madde yanıtlarının da farklılaşması beklenir. Dolayısıyla bu durumdan kaynaklanan farklılık yanlılık değil madde etkisidir (Perrone, 2006). Testle ölçülen davranışlar açısından bireyler arasında farklılıklar olduğu için, etki de alışılagelmiş bir durumdur. Ancak amaç yanlılıktan kaynaklanan farklılıkların açıklanmasıdır (Ong, Williams ve Lamprianou, 2011).

DMF ise ölçülmesi istenen değişken açısından bireylerin yeteneklerine göre eşleştirilmesi ve daha sonra farklı gruplardaki bu bireylerin maddeyi farklı yanıtlama olasılıklarına sahip olduklarının, istatistiksel olarak belirlenmesidir (Camilli ve Shepard, 1994; Clauser ve Mazor, 1998; Zumbo, 1999). DMF, Educational Test Service –ETS-

(17)

tarafından 1986’da geliştirilmiş ve psikometrik yanlılık analizlerinde bir standart haline gelmiştir (Roever, 2005). DMF, madde yanlılığı ve madde etkisini belirlemek için bir ön adımdır. Maddenin yanlı ya da madde etkisine sahip olup olmadığını belirlemek içinse uzman görüşleri alınmalıdır (Zumbo ve Gelin, 2005).

DMF’nin tarihsel sürecine bakıldığında, ilk dönemlerde sadece madde yanlılığı teriminin kullanıldığı, odak ve referans grup yerine azınlık ya da çoğunluk grup kavramlarının yer aldığı ve iki kategorili puanlanan maddeler için geçerli olduğu görülmektedir. Sonraki yıllarda madde yanlılığı terimi yerine DMF kavramı kullanılmaya başlanmıştır. Daha sonra DMF madde yanlılığı ve madde etkisini birbirinden ayıran bir terim olmuştur (Zumbo, 2007).

Bazı araştırmacılar DMF ve yanlılık arasındaki farklılığı şöyle ifade etmektedir:

İki türlü DMF mevcuttur; istatistiksel ve subtantif (gerçek bir temeli olan) DMF.

İstatistiksel DMF, DMF’nin istatistiksel tanımlamalarını gerektirir. Subtantif DMF ise ölçülmek istenmeyen ancak madde performansı üzerinde etkisi olan yapıların ortaya çıkarılmasıyla ilgilidir. Yanlılık için ilk olarak istatistiksel DMF kontrol edilir ve daha sonra subtantif DMF üzerinde çalışılır (Penfield ve Lam, 2000). Aynı zamanda madde yanlılığı teriminin psikometrik anlamının yanı sıra negatif bir yan anlamı da vardır ve

“adil olmayan, haksız” düşünceleriyle iç içedir. Bu nedenle bu anlamlara sahip olan yanlılık ve psikometrik yanlılığı birbirinden ayırt etmek gerekmektedir (Ellis ve Raju, 2003).

Psikometrik yanlılık olan DMF, eşleştirilen gizil değişken için, madde düzeyinde gruplar arası performans farklılığı olarak tanımlanmaktadır. Yetenek testleri için DMF, madde düzeyinde gruplar arası performans için geçerlidir. Tutum ölçekleri için ise durum daha farklıdır, çünkü yanıtlayıcılar yetenekleri yerine uyma/uyuşma düzeylerine göre eşleştirilir ve tutum maddeleri için DMF bir alt grubun diğer alt gruba göre maddeye olumlu tutum gösterme olasılığının farklı olmasını ifade eder (Dodeen, 2004;

Garrett, 2009).

(18)

Millsap ve Everson (1993), DMF içermeyen bir maddeyi şu şekilde ifade etmiştir:

{bireyin maddeyi doğru yanıtlama olasılığı, bireyin yeteneğine ve grup

üyeliğine bağlıdır}

=

{bireyin maddeyi doğru yanıtlama olasılığı, bireyin yeteneğine bağlıdır}

Sol tarafta, bir maddeye doğru yanıt verme olasılığı, bireyin yeteneğine ve grup üyeliğine bağlıdır. Sağ tarafta ise maddeyi doğru yanıtlama olasılığı grup üyeliğine bağlı olmadan bireyin yetenek düzeyine bağlıdır. Bu eşitlikte doğru yanıtlama olasılığının sadece bireyin yeteneğine bağlı olduğu görülmektedir. Eğer bu eşitlik bir maddenin tüm yetenek düzeylerinde geçerli ise maddenin DMF göstermediği ifade edilebilir. Diğer taraftan eşitlik bozulursa, grup üyeliğinin doğru yanıtlama olasılığını arttırdığı ya da azalttığı görülecektir (Ellis ve Raju, 2003).

Daha teknik bir anlatımla iki kategorili maddeler için DMF içermeyen bir durum formül 1.1’deki gibi gösterilebilir (Paek ve Wilson, 2011).

P(𝑋_𝑖=1/G=0)=P(𝑋_𝑖=1/G=1) (1.1) P ilgili maddeyi doğru yanıtlama olasılığını, X ilgili maddeye verilen yanıtı (doğru yanıtlar için 1 ve yanlış yanıtlar için 0) ve G ise (G=0, G=1 iki grubu göstermektedir) grup değişkenini belirtmektedir. DMF’nin olmaması aynı yetenek düzeyinde doğru yanıt verme olasılığının, G değişkenine rağmen aynı olduğunu göstermektedir.

DMF’nin ortaya çıkma nedenlerinden biri, çok boyutlu maddelerdir. Maddenin çok boyutlu olması, maddenin eşzamanlı olarak iki ya da daha çok yapıyı ölçmesi anlamına gelir. Böyle bir durumda bireyler, karşılaştırılan değişken açısından yetenek ya da tutum olarak aynı düzeyde olmalarına rağmen, karşılaştırılan ikinci boyut açısından aynı düzeyde olmayabilirler (Garrett, 2009; Gierl, 2005). Örneğin öğrencilerin yanıtlarını açıklamalarını isteyen açık uçlu bir matematik maddesi düşünülsün. Eğer yanıtlayıcılar matematikte eşit düzeyde yetenekli olup, fikirlerini ve düşüncelerini yazma konusunda daha yeteneklilerse doğru yanıt verme olasılıkları da daha yüksek olacaktır. Burada da ikinci boyut olan yazma becerisi işin içine girmekte ve DMF, temel

(19)

amaç matematik yeteneğini ölçmek olduğundan, yapıyla ilişkisiz olan diğer yapının varlığından dolayı ortaya çıkmaktadır (Ackerman, Gierl ve Walker, 2003).

Bir matematik maddesiyle ilişkili olabilecek eleştirel düşünme becerisinin ele alındığı bir örnek incelenecek olursa; eleştirel düşünme becerisi, maddeyle ilişkili olabilecek bir faktördür ve matematik yeteneğinin yanında eleştirel düşünme becerisi de ölçülmektedir. Burada yapıyla ilişkili olmayan faktör test alma becerisi olabilir. Test alma becerisini değerlendirme maddenin amacı değildir. Madde değerlendirilip DMF’li olarak işaretlendikten sonra ve nedeninin yapıyla ilişkisiz bir durumdan dolayı ortaya çıktığı belirlendikten sonra maddenin yanlı olduğu ifade edilir. (Gierl, 2005). Bu nedenle DMF yanlılık belirlemek için gereklidir ancak yeterli değildir. DMF analizleri test geliştirme sürecinde bir adımdır ve mutlaka içerikle birlikte yorumlanmalıdır.

DMF belirleme sürecinde, yanıtlar değerlendirilmeden önce, ilgilenilen değişkene göre (örneğin matematik başarısı), karşılaştırılan gruplar (örneğin kadınlar ve erkekler) istatistiksel olarak eşleştirilir. Eşleştirmenin iç ve dış olmak üzere iki türü vardır. İç eşleştirmede ölçüt, testin kendisinin gözlenen ya da gizil puanıdır. Dış eşleştirmede ise başka bir testin gözlenen ya da gizil puanı ölçüt olarak ele alınır (Karami ve Nodoushan, 2011). Daha sonra her madde için yanıtlar DMF tekniklerine göre değerlendirilir. Eğer farklı gruplardaki yanıtlayıcılar yaklaşık olarak aynı yetenek düzeyindelerse, grup üyeliklerinden bağımsız olarak her test maddesi için aynı performansı göstermek zorundadırlar. Aksi halde DMF ortaya çıkacaktır (Zumbo ve Gelin, 2005).

DMF çalışmalarında odak ve referans olmak üzere iki grup söz konusudur. Odak grup azınlık grup olup dezavantajlı olan gruptur. Avantajlı olarak düşünülen grup ise referans gruptur. Ancak grupları bu şekilde isimlendirmenin keskin sınırları yoktur ve bu şekilde bir etiketleme aslında keyfi bir durumdur (Karami ve Nodoushan, 2011).

Bununla birlikte, yapılan çalışmalar ikiden fazla grup üzerinde de çalışılabileceğini göstermektedir (Ellis ve Raju, 2003).

DMF Tek Biçimli (TB) ve Tek Biçimli Olmayan (TBO) DMF olmak üzere iki türlüdür. Şekil 1.1’de görüldüğü üzere TB DMF mevcutsa, odak ve referans grup için madde karakteristik eğrileri arasındaki fark tek biçimlidir (Finch ve French, 2007;

(20)

Jodoin ve Gierl, 2001; Walker, 2011). x ekseni yeteneği, y ekseni ise maddeyi doğru yanıtlama olasılığını göstermek üzere; bu maddenin tüm yetenek düzeylerinde bir gruba, diğer gruba göre daha zor olduğu görülmektedir (örneğin, br<bo ve ar=ao). Şekil 1.1’de br=-0.5, bo=0.5 ve ar=ao=1.25’tir. Eğer bu madde DMF göstermiyor olsaydı, olasılık grafikleri de benzer olacaktı. (Walker, 2011). Kısacası bir grubun diğerine göre bağıl üstünlüğü kesiksiz tüm yetenek alanı genişliğince tek biçimli olduğunda, TB DMF’nin var olduğu ifade edilmektedir (Penfield ve Lam, 2000).

Şekil 1.1. TB DMF

TBO DMF ise madde karakteristik eğrileri arasındaki fark sabit olmadığında meydana gelir. İki farklı tip TBO DMF söz konusudur; sıralı ve sıralı olmayan DMF (Walker, Beretvas ve Ackerman, 2001). Sıralı TBO DMF’de madde bir grup için tüm yetenek düzeylerinde daha zordur, ancak tüm yetenek düzeylerinde sabit değildir. Bu DMF türü TB DMF ile karıştırılabilir. Ancak sıralı TBO DMF’de bir madde bir grup için daha zor olduğunda ve ayırt edicilikleri de farklı olduğunda meydana gelir (br<bo ve ar≠ao). Şekil 1.2 TBO sıralı DMF için bir örnektir. Burada br=0, bo=0.75 ve ar=1 ao=1.4’tür. Bu madde odak grup için daha zor olmasının yanında daha ayırt edicidir.

Yetenek düzeyi 1’e gelene kadar, madde odak grup yanıtlayıcıları için daha zordur, ancak yetenek düzeyi 1’den sonra DMF azalmaya başlamaktadır (Walker, 2011). Başka bir anlatımla bağıl üstünlüğün büyüklüğü yetenek düzeyi ile değişmesine rağmen, bir grubun daima bağıl bir üstünlük gösterdiği çapraz olmayan bir biçim söz konusudur (Penfield ve Lam, 2000).

(21)

Şekil 1.2. TBO sıralı DMF

TBO ve sıralı olmayan DMF meydana geldiğinde ise madde, bir grup yanıtlayıcı için bazı yetenek düzeylerinde daha zordur ve bazı yetenek düzeylerinde de daha kolaydır. Başka bir anlatımla, grup üyelikleri ve yetenek düzeyleri arasında etkileşim vardır. Bu durum iki grup için hem zorluk hem de ayırt edicilik farklılaştığında meydana gelebilir. Şekil 1.3’te görüleceği üzere br=bo=0 ve ao=2, ar=1dir. Madde odak grup için daha ayırt edicidir. Düşük yetenek düzeylerinde odak grup için daha zor ancak yüksek yetenek düzeylerinde daha kolaydır (Walker, 2011). Başka bir anlatımla bir grubun düşük yetenek düzeylerinde bağıl bir üstünlük gösterdiği, fakat ikinci grubun yüksek yetenek düzeylerinde bağıl bir üstünlük gösterdiği çapraz bir biçim söz konusudur (Penfield ve Lam, 2000).

Şekil 1.3. TBO sıralı olmayan DMF

(22)

Üzerinde durulması gereken bir nokta da DMF olarak belirlenen bir maddenin hemen ölçekten çıkarılmaması gerektiğidir (Zumbo ve Gelin, 2005). İstatistiksel analizler sonucu maddeler A (önemsiz/anlamlı olmayan DMF), B (orta düzeyde DMF) ve C (yüksek düzeyde DMF) kategorilerinde etiketlenir (Zieky, 1993). ETS, 1988 bildirisinde B ve C kategorilerindeki maddelere göre A kategorisindeki maddelerin seçilmesi gerektiğini bildirmiştir. B kategorisindeki maddelerden küçük değerli olanların kullanılabileceği, C kategorisindeki maddelerin ise test içeriğinde çok önemli bir madde olmadığı sürece kullanılmaması gerektiği belirtilmiştir. Bu ilkeler günümüzde de hâlâ geçerliğini devam ettirmektedir. Burada dikkat edilmesi ve üzerinde çalışılması gereken maddeler, B kategorisindeki maddelerdir, çünkü bu maddelerde belirsizlik mevcuttur (Zwick, 2012).

DMF analizleriyle ilgili bazı sorunlar üzerinde de durmak gerekir. Bunlardan birincisi teknikler arasındaki belirsizliktir. DMF belirleme ile ilgili çok sayıda önerilen teknik vardır. Bu teknikler geleneksel madde güçlüğüne dayalı tekniklerden, MTK ve Yapısal Eşitlik Modeli gibi istatistiksel tekniklere kadar uzanmaktadır. Ancak farklı tekniklerin farklı maddeleri DMF’li olarak belirlediği ifade edilebilir. Bu nedenle tek bir tekniğin kullanılması ve sonuçların tek bir tekniğe dayandırılması uygun değildir. Eğer bir madde birden fazla teknik tarafından DMF’li olarak işaretlenmişse, bu maddenin DMF gösterdiğine dair daha fazla gerekçe elde edilmiş olur (Karami ve Nodoushan, 2011).

Diğer bir problem de DMF’nin yanlılığın bir işareti olup olmadığını belirlemek için başvurulan uzman kararlarının tamamen öznel olmasıdır. Genellikle DMF’nin kaynağıyla ilgili uzmanlar tarafından ortak bir anlaşmaya varılamamaktadır. Eğer uzmanlar bir anlaşmaya varamazlarsa, kimin kararının esas alınacağı da ayrı bir tartışma konusudur. Ortak bir karara varsalar bile, kararın doğru olduğuna ilişkin bir garanti de yoktur (Karami ve Nodoushan, 2011). Yapılan çalışmalar uzmanların DMF belirlenen maddelerde yanlılık aradıklarını göstermektedir. Oysa uzman görüşlerinin DMF analizlerinden bağımsız yapılması gerektiği ile ilgili görüşler de vardır (Ellis ve Raju, 2003). Aynı zamanda uzman görüşlerinden elde edilen kanıtların yeterli olamayabileceği ve DMF gösteren maddelerin yanlı olup olmadığına karar vermek için, yanıtlayıcıların düşünme süreçlerinin de ele alınması gerektiği belirtilmiştir. (Ercikan, Arim, Law, Domene ve Lacroix, 2010).

(23)

Yirmi yıldır DMF belirlemek için kullanılan tekniklerde, matematiksel algoritmada ve kullanılan bilgisayar programlarında büyük gelişmeler olmuştur. Ancak merak edilen sorular hâlâ yanıtlanmamıştır. Bu soruların bazıları şu şekilde belirtilmiştir: Neden bazı maddeler DMF göstermektedir? DMF’li maddeler belirlendikten sonra ne yapılması gerekir? Test geliştiriciler DMF’li maddelerin yerine başkalarını koymayı, DMF’li maddeler yerine yeni maddeler geliştirmeyi ve tüm bu süreci DMF’li madde kalmayana kadar devam ettirmeyi önermişlerdir. Fakat bu süreç hem pahalı hem de zaman alıcıdır. Örneğin çok sayıda DMF’li madde çıkmışsa, bunları yenileriyle değiştirmek kapsam geçerliğinin de değişmesine neden olabilecektir. Diğer bir öneri DMF’li maddeleri düzeltmektir. Ancak düzeltilmiş maddelerin de yeni bir gruba uygulanması ve tekrar DMF analizi yapılması gerekmektedir (Ellis ve Raju, 2003). Söz edilen tüm bu nedenlerden dolayı DMF’nin kaynaklarının belirlenmesi, maddelerin faklı grupların ölçümlerini nasıl etkilediğinin belirlenmesinde ve yanlılığı azaltmak için maddelerin atılması ya da yeniden gözden geçirilmesi kararlarının alınmasında etkili olacağından son derece önemlidir.

Daha önce de ifade edildiği gibi DMF kaynaklarını belirleyebilmek için uzman görüşleri en çok kullanılan yoldur. Ancak araştırmacılar uzmanların anlam veremedikleri DMF sonuçlarıyla yüzleştiklerini ve neden maddelerin yüksek DMF büyüklüklerine sahip olduklarını açıklayamadıklarını ifade etmektedirler (Ong, Williams ve Lamprianou, 2011). Uzmanlar DMF’nin içerikle ilişkili olup olmadığı hakkında kararlar alabilirler ancak DMF’nin altında yatan temel neden hakkında bilgi veremezler (Ercikan ve diğ., 2010). İşte bu neden sorusuna yanıt bulabilmek ve daha güvenilir DMF kestirimleri yapabilmek için, DMF kapsamında belirli koşullar altında I.

Tip hata ve istatistiksel güç çalışmaları da önem kazanmıştır.

DMF için I. Tip hata; gerçekte bir maddenin odak ve referans gruplar için farklılık göstermemesi, yani maddenin DMF içermemesi, ancak yapılan çözümlemeler sonucunda ilgili maddenin DMF’li olarak belirlenmesini; istatistiksel güç ise gerçekte bir maddenin gruplar için farklılık göstermesi yani maddenin DMF içermesi ve yapılan çözümlemeler sonucu da ilgili maddenin DMF’li olarak belirlenmesini ifade etmektedir (Bilican, 2014; Kim, 2010; Wyse ve Mapuranga, 2009). Belirli koşullar altında gerçekleştirilen I. Tip hata ve istatistiksel güç çalışmaları, sadece DMF’li madde belirlemenin ötesinde, DMF’ye neden olan koşullar hakkında fikir vermektedir. Bu

(24)

çalışmada da DMF’nin olası kaynaklarından biri olarak puanlama modelleri ele alınmış ve puanlama modellerinin DMF üzerinde etkisi olup olmadığı I. Tip hata ve istatistiksel güç kapsamında araştırılmıştır.

Puanlama modelleri genel olarak iki kategorili puanlama ve çok kategorili puanlama olarak ele alınmaktadır. Tarihsel sürece bakıldığında yanıtlayıcıların bir testte yer alan maddelere verdiği yanıtların iki kategorili puanlandığı yani doğru ya da yanlış olarak sınıflandırıldığı modeller üzerinde durulmuştur. Bu modelde yanıtlayıcıların yalnızca tek bir seçeneği değerlendirilmekte ve doğru yanıtlara 1, yanlış ve boş bırakılan yanıtlara 0 puan verilmektedir (Ben-Simon, Budescu ve Nevo, 1997; Frary, 1989; Kurz, 1999).

İki kategorili puanlamanın en önemli yönü, toplam puan hesaplandığında tüm maddelerin aynı ağırlıkta kabul edilmesidir ve toplam puan da doğru yanıtların toplanmasıyla elde edilmektedir. Yanıtlayıcılar hangi seçeneği seçtiklerinden bağımsız olarak aynı toplam puanı alabilmektedir (Diedenhofen ve Musch, 2015; Kurz, 1999;

Lau ve Wang, 1998). Geleneksel iki kategorili puanlama dolaylı olarak, bütün maddelerin başarıyı eşit olarak temsil ettiğini ve bütün seçeneklerin eşit bilgi verdiğini varsaymaktadır (Haladyna, 1990). Puanlamada kısmi bilgi ve yanlış bilgiyi ayırt etmek genellikle gözden kaçırılmaktadır. Bu durum çoktan seçmeli maddelerin birçok türünde bile böyledir. Örneğin doğru yanıtın D seçeneği olduğu bir çoktan seçmeli madde için, yalnızca D seçeneğini işaretleyen öğrenciler tam puan alabileceklerdir. Diğer seçenekleri işaretleyenler ise 0 puan alacaklardır. Ancak B seçeneğini işaretleyen öğrenciler de kısmi doğruluk içeren bilgiye sahip oldukları halde 0 puan alacaktır.

Kısacası iki kategorili puanlama için öğrenciler tam bilgiye sahip olmadığı sürece ya da ilgili alanla ilgili tam yetkinlik düzeyinde olmadığı sürece puan alamayacaklardır (Wongwiwatthananukit, Popovich ve Bennett, 2000).

Mevcut seçenekler arasından rastgele seçim yapmamış olmalarına rağmen doğru yanıtı belirleyememiş olan yanıtlayıcıların bu durumu bilgi eksikliğini göstermektedir (Lau, Lau, Hong ve Usop, 2011). Bu nedenle, yanıtlayıcıların özdeki bilgi eksikliği, bilgisi olmayan yanıtlayıcılar tarafından işaretlenmemiş bir çeldiricinin tercihini gösteriyor olabilir. Özetle iki kategorili puanlama modeli, çeldirici seçimlerini ayırt etmemekte ve bu nedenle kısmi bilgi vermemektedir (Diedenhofen ve Musch, 2015).

(25)

İki kategorili puanlamada, doğru yanıt için kesin bir nokta ve yanlış yanıt için de sıfır noktası vardır. Bu durum test puanlarını yorumlamada yetersizliğe neden olmaktadır. Çünkü maddeye verilen yanıtlar farklı bilgi düzeylerinden geliyor olabilir.

Bu bilgi düzeyleri; tam bilgi, kısmi bilgi, yanlış bilgi ve bilginin yokluğu durumudur (Garcia-Perez ve Frary, 1989). Tam bilgi durumunda, birey doğru yanıtın ve yanlış seçeneklerin farkındadır ve bu farkındalık doğrultusunda en doğru seçeneği seçer.

Kısmi bilgi durumunda, birey yanlış seçeneklerin farkındadır ancak doğru yanıtın farkında değildir (Ben-Simon, Budescu ve Nevo, 1997). Kısmi bilgide birey yanlış bilgiye sahip değildir, yalnızca eksik bilgiye sahiptir. Kısmi bilgiye sahip olan yanıtlayıcı maddeyi doğru ya da yanlış yanıtlayabilir. Eğer birey doğru yanıtın yanlış olduğunu düşünüyorsa yanlış bilgiye sahiptir. Bilginin yokluğu ise boş bırakma ya da tüm seçenekleri işaretleme durumudur (Wongwiwatthananukit, Popovich ve Bennett, 2000). İki kategorili puanlama modelinde yanıtlayıcıların bilgileri “tam bilgi” ve

“bilginin yokluğu” olarak sınıflandırılmaktadır. Öğrenciye kısmi puan verilmediğinden öğrencinin nerede öğrenmelerinin eksik olduğu da bilinmemektedir (Lau ve diğ., 2011).

İki kategorili puanlama modeline göre, şanslı ya da test bilgeliği olan öğrenciler yanlılığa neden olmaktadır. Bu nedenle öğrencilerin yetenek düzeyi kestirimlerini daha iyi yapabilmek için kısmi bilgi, yanlış bilgi ve şansla elde edilmiş bilgi ayrımlarını yapmak gerekmektedir. Kısmi puanın temel mantığı, bireyin performansının orta düzeyinde bulunması, yani doğru yanıt ve yanlış yanıt arasında yer almasıdır (Abu- Sayf, 1979). Kısmi bilgi, probleme doğru başlamak ancak ya bir hata yapmak ya da bir adımı atlayarak doğru yanıta ulaşamamak olarak da tanımlanmaktadır (Grunert, Raker, Murphy ve Holme, 2013). Yapılan çalışmalarda kısmi bilgiye sahip öğrencilerin de ödüllendirilmesi gerektiği ve test puanlarında kısmi puanlamanın önemi belirtilmiş ve kısmi bilginin daha güvenilir ve geçerli puanlar verdiği ifade edilmiştir (Wongwiwatthananukit, Popovich ve Bennett, 2000). Yanıtlayıcının kısmi bilgisi geçerliği etkilemektedir çünkü çoktan seçmeli maddeden aynı puanı almış olan öğrenciler aslında farklı kısmi bilgiye sahip olabilmektedir (Kurz, 1999).

İki kategorili puanlama modelinde, dikkatli olup risk almayanlar ve maddeyi boş bırakanlar, risk alanlara göre cezalandırılmış olmaktadır ve hatta şansla elde edilmiş puanlar da ödüllendirilmektedir. Bu problemlerin üstesinden gelmek için çok kategorili puanlama modelleri geliştirilmiştir. Bu puanlama modelleri çoktan seçmeli maddelerin

(26)

zayıflıklarını kırmak ve yanıtlayıcıların yetenek kestirimleriyle ilgili daha sağlıklı bilgiler elde etmek ve özellikle kısmi bilgiyi ortaya çıkarmak için kullanılmaktadır.

Aynı zamanda bu modellerin geçerliği ve güvenirliği arttırdığı ve de risk alma davranışını daha az sergileyen yanıtlayıcıları da cezalandırmadığının üstünde durmak gerekmektedir (Kurz, 1999). Öğrenciler de çok kategorili puanlamanın iki kategorili puanlamaya göre daha doğru sonuçlar verdiğini, çok kategorili puanlama yapıldığı zaman daha az kaygıya sahip olduklarını ve de kısmi bilgi vermenin daha insancıl olduğunu ifade etmişler ve 1-0 olan katı puanlamanın gereksiz bir strese neden olduğunu belirtmişlerdir (Cherkas ve Roitberg, 1993).

Çoktan seçmeli maddelerde bilgi yalnızca verilen yanıttan çıkarılır ve verilen yanıt yalnızca bireyin öznel yanıtı da değildir. Bu eksikliğin üstesinden gelmenin yolu, öğrencinin kısmi bilgisini ölçecek daha duyarlı ölçümler elde edebilecek modeller geliştirmektir (Ben-Simon, Budescu ve Nevo, 1997; Frary, 1989). Frary (1989) bunu

“çok kategorili / kısmi bilgi puanlama modelleri” olarak adlandırmakta ve şu şekilde sınıflamaktadır:

1. Yanıtlayıcı yargısına dayanan modeller

 Güven ağırlıklandırması modeli

 Alt grup seçme modeli 2. Doğrudan yanıtlama modelleri

 Seçenek ağırlıklandırma modeli (önsel ağırlıklandırma / deneysel ağırlıklandırma)

 Doğru yanıta ulaşana kadar yanıt verme modeli

 Çoklu doğru yanıt modeli

 Madde Tepki Kuramı’na (MTK) dayalı modeller

Yanıtlayıcı yargısına dayanan modeller kapsamında güven ağırlıklandırması modelinde, yanıtlayıcılara yanıtlarının doğruluğundan ne kadar emin oldukları sorulur ve ağırlıklar madde yanıtlarına atanır. Yanıtlayıcılar aynı yanıtı verseler dahi farklı puanlar alabilirler çünkü yanıtlarının doğruluklarıyla ilgili emin olma / güven düzeyleri farklıdır. Bu puanlama modelinin kullanıldığı çalışmalara daha çok sağlık alanında rastlanmaktadır çünkü insan yaşamı çok önemli olduğundan, öğrencinin tam bilgiye ulaşıp ulaşamadığını öğrenmek de çok önemlidir (Salehi, Sadighi ve Bagheri, 2015).

(27)

Madde biçimi ve yönergeler, sınava katılanların, yanıtlardan her birinin doğruluğundan ne kadar emin olduklarını belirtmek zorunda olacakları şekilde oluşturulmuştur (Chevalier, 1998). Alt grup seçme modelinde ise yanlış yanıtların elenmesi yerine, yanıtlayıcılardan doğru olabilecek yanıtları seçmeleri istenir. Bu modellerin temel mantığı öz değerlendirmeyi sürece katarak bireyin sahip olduğu maksimum bilgiyi elde etmeye çalışmaktır (Gözen Çıtak, 2007).

Doğrudan yanıtlama modelleri kapsamında yanıtlayıcılar en doğru olduğuna inandıkları seçeneği işaretlerler. Seçenek ağırlıklandırma modelinde kısmi bilginin ölçülebileceği varsayılır ve bu doğrultuda her seçeneğin bir doğruluk payı vardır (Kurz, 1999). Bu modelde kısmi bilgi yanlış seçeneklere ağırlık verilerek puanlanmaktadır.

Ağırlıklandırma teknikleri önsel ağırlıklandırma (uzman görüşüne ya da bir kurama dayalı ağırlıklandırma) ve deneysel ağırlıklandırma olarak ikiye ayrılmaktadır (Haladyna, 1990). İki kategorili puanlama modeli de doğru yanıta 1 ve diğer seçeneklere 0 puan verilerek yapılan önsel ağırlıklandırmanın özel bir durumudur.

Seçenek ağırlıklandırma modelinde toplam puan, tüm seçeneklerin ağırlıklarının özetine bakılarak hesaplanabilmektedir. Çok kategorili puanlama modelleri için yanıt seçeneklerinin ağırlıkları, tercihin seçimine bakılarak yansıtılan eksik bilginin miktarıyla orantılıdır. Önsel ağırlıklandırmada seçenek ağırlıkları bir uzmanlar kurulu veya tekil bir kişinin değerlendirmesi ile belirlenebilir. Örneğin her bir maddenin seçenekleri yanıtlanmaya uygunluk yönünden derecelendirilebilir veya sıralanabilir ve sonra derece ya da sıralama ile orantılı ağırlıklar (bir kurulca sağlandığı takdirde ortalama derece ya da sıra) belirlenir (Frary, 1989). Bu yaklaşımın öncüsü Nedelsky iki kategorili puanlamaya göre daha yüksek güvenirlik bildirmektedir. Ancak önsel ağırlıklandırmaya dayanan seçenek ağırlıklandırma modelinin kullanılmasından elde edilen sonuçlar farklı ve uyumsuzdur.

Araştırmalar deneysel seçenek ağırlıklandırma yaklaşımı üzerinde yoğunlaşmaktadır. Deneysel yaklaşım, uzmanların düşünceleri yerine ağırlıklara karar vererek yanıt alternatifleri için eksik puanı ödüllendirmektedir. Deneysel seçenek ağırlıklarının hesaplanması için genellikle, yanıtlayıcıların test puanlarının toplamı deneysel ölçüt olarak kullanılmıştır (Frary, 1989). Deneysel seçenek ağırlıkları, yüksek puanlar arasında popüler olan seçenek ağırlığının seçimi için daha fazla puan ve düşük

(28)

puanlar arasında popüler olan seçenek ağırlığının seçimi için daha az puan ödüllendirilmesi ile kullanılmıştır. Deneysel seçenek ağırlıklandırma, seçenek ve toplam puan arasındaki nokta çift serili korelasyonu kullanır. Son yıllarda yapılan çalışmalar deneysel seçenek ağırlıklandırmanın güvenirliği arttırdığını göstermiştir (Diedenhofen ve Musch, 2015).

Doğrudan yanıtlama modellerinden doğru yanıta ulaşana kadar yanıtlama modelinde de yanıtlayıcı doğru yanıtı bulana kadar işaretleme yapar. Doğru yanıtı bulunca diğer maddeye geçer. Çoklu doğru yanıt modelinde ise maddenin birden fazla doğru yanıta sahip olduğu durumlar ve her seçeneğin doğru-yanlış olarak puanlanması söz konusudur. Bu doğrultuda her seçenek doğru-yanlış maddeleri gibi de düşünülebilir (Kurz, 1999).

MTK’da ise iki kategorili puanlamanın yapıldığı modeller mevcut olmakla birlikte, çok kategorili puanlamanın yapıldığı ve kısmi bilgilerin yetenek düzeyleri üzerinde etkisi olduğu modeller de mevcuttur. Bu modellerden bazıları şunlardır (Ostini ve Nerig, 2006):

 Kısmi Puan Modeli (KPM) – (Partial Credit Model - Master, 1982)

 Aşamalı Tepki Modeli (ATM) - (Graded Response Model – Samejima, 1969)

 Dereceleme Ölçeği Modeli (DÖM) - (Rating Scale Model - Andrich, 1978).

 Sınıflamalı Tepki Modeli (STM) (Nominal Response Model – Bock, 1972)

 Genelleştirilmiş Kısmi Puanlama Modeli (GKPM) – (Generalized Partial Credit Model – Muraki, 1992).

Bu çalışmada iki kategorili ve çok kategorili puanlanan maddeler kapsamında DMF’yi incelemek için, iki kategorili puanlama için Rasch model kullanılmıştır. Çok kategorili model için ise, doğrudan yanıtlama modelleri içerisinde yer alan MTK’ya dayalı modellerden KPM kullanılmıştır. MTK’nın avantajlarını ve Rasch modelinin özelliklerini taşımasından dolayı bu model tercih edilmiştir. Rasch modelin uzantısı olan modellerden bir diğeri de DÖM modelidir. Ancak bu modelde kategoriler arası uzaklıkların eşit olduğu varsayılmaktadır ve bu nedenle bu varsayıma sahip olmayan KPM çok kategorili MTK modelleri arasında yaygın olarak kullanılmaktadır. Bu

(29)

noktada KPM’ye ayrıntılı olarak değinmeden önce Rasch modelin özelliklerine değinmek gerekmektedir.

MTK modelleri, madde parametreleri ve birey gizil değişkenleri arasındaki fonksiyonu tanımlayan modellerdir. İki kategorili maddelerde yanıtlayıcı performansları madde karakteristik eğrileriyle grafiksel olarak modellendirilir. Veri modele uygun olduğu zaman, madde parametreleri örneklemden bağımsız, birey parametreleri de maddelerden bağımsız tahmin edilebilir. Bu modeller kapsamında iki kategorili maddeler için bir maddeye doğru yanıt verme olasılığı formül 1.2’de gösterilmiştir (Wen, 2014).

𝑃_𝑖𝑗(𝑌𝑖𝑗 = 1|𝜃) = 𝑐_𝑖 + ^1−𝑐^𝑖

1+𝑒−1.7𝑎𝑖(𝜃𝑗−𝑏𝑖) (1.2)

θ bireyin yeteneğini, αi, i maddesinin ayırt ediciliğini, bi, i maddesinin güçlüğünü ve ci ise şans parametresini gösteren değerlerdir. Pij (Yij=1|θ) ise j. bireyin, i.

maddeye doğru yanıt verme olasılığıdır. MTK modellerinde b parametre değerinin küçük olması, maddeye doğru yanıt vermek için daha düşük yeteneğin yeterli olduğunu göstermektedir (Embretson ve Reise, 2000). Tüm bu parametreler modele dahil olduğu için bu model üç parametreli (3 PL) modeldir. Eğer ci modele dahil edilmezse 1.3’te formülü verilen iki parametreli (2 PL) model elde edilmiş olur.

𝑃_𝑖𝑗(𝑌𝑖𝑗 = 1|𝜃) = ¹

1+𝑒−1.7𝑎𝑖(𝜃𝑗−𝑏𝑖) (1.3)

Eğer tüm maddeler aynı ayırt edicilik parametresine sahipse 1.4’te verilen bir parametreli (1 PL) model kullanılır.

𝑃_𝑖𝑗(𝑌𝑖𝑗 = 1|𝜃, 𝑏) = ¹

1+𝑒−1.7𝑎𝑖(𝜃𝑗−𝑏𝑖) (1.4)

Veri 1 PL modele uygun olduğunda, DMF belirlemede basit ve açık bir yaklaşım benimsenmiş olur. Ancak bu yaklaşımın temel sıkıntılarından biri madde ayırt ediciliğini kullanmadığı için, madde ayırt ediciliğindeki farklılıklardan kaynaklanan TBO DMF belirlemenin sıkıntı olmasıdır (Lai, Teresi ve Gershon, 2005).

(30)

Eğer yukarıda verilen 1 PL modelde αi=1 ise Rasch model elde edilir. Rasch model Danimarkalı Matematikçi Georg Rasch tarafından 1960 yılında iki kategorili maddeler için geliştirilmiştir. MTK’da çokça kullanılan modellerden biri Rasch modeldir. Modelin temel mantığı; bireyin bir maddeye doğru yanıt verme olasılığının, bireyin θ düzeyi ile madde güçlüğü arasındaki farkın lojistik fonksiyonu olarak tanımlanmasıdır (Pallant ve Tennant, 2007). j. bireyin i. maddeye x(0,1) yanıtını verme olasılığı formül 1.5’teki gibi hesaplanmaktadır

𝑃_𝑖𝑗(𝑌𝑖𝑗 = 1|𝜃_𝑗, 𝑏_𝑖) = ¹

1+𝑒^{−(𝜃𝑗−𝑏𝑖)} (1.5)

1.5’teki formül lojit modelle 1.6’daki gibi gösterilebilir.

ln ( ^𝑃^𝑛𝑖

1−𝑃_𝑛𝑖) = 𝜃_𝑛− 𝑏_𝑖 (1.6)

Rasch modelinin en önemli varsayımlarından biri ölçülen değişkenin tek boyutlu olması ve tek bir yapıyı temsil etmesidir (Piquero, Macintosh ve Hickman, 2000). Bu model yeni ölçme araçları geliştirmek, ölçme araçlarının kalitesini değerlendirmek ve özellikle tek boyutluluğu sorgulamak için çok kullanılmaktadır (Tennant, McKenna ve Hagell, 2004). Modelin bir diğer önemli varsayımı, bireylere ve maddelere ait toplam puanların sırasıyla birey ve madde parametrelerinin yeterli istatistikleri olduğudur (Yüksel, 2012).

Rasch modelde test ya da madde bilgi fonksiyonları önemli kavramlardır. Bilgi fonksiyonlarını kullanmanın önemli bir noktası, paralel ölçümlerde benzer bilgi fonksiyonlarının olup olmadığını belirlemektir (van der Linden, 2005). Benzer bilgi fonksiyonlarına sahip olmak, her düzeyde gizil yeteneğin aynı tahmin edildiğini göstermektedir. Başka bir anlatımla, farklı gruplarda benzer bilgi fonksiyonları elde edilmişse maddelerin ya da testin paralel olduğu ifade edilebilir (Wyse ve Mapuranga, 2009). Rasch modelde test bilgi fonksiyonu 1.7’de gösterildiği gibi elde edilir.

𝐼_𝑖(𝜃) = I(X|𝜃) = 𝑃_𝑖(𝜃) 𝑄_𝑖(𝜃) (1.7) 𝑄_𝑖=1- 𝑃_𝑖(𝜃): maddeye yanlış yanıt verme olasılığı

(31)

Şimdiye kadar anlatılan MTK modelleri, iki kategorili maddeler için geliştirilmiş modellerdir. İki kategorili maddelerin daha uzun tarihsel geçmişi vardır ancak çok kategorili maddelerin gizil yetenekle ilgili daha çok bilgi verdiği belirtilmiştir (Ostini and Nering, 2006). Daha önce ifade edildiği üzere, pek çok MTK modeli bulunmasına karşın, KPM Rasch modellerinin özelliklerini taşıdığından çok kategorili MTK modelleri arasında yaygın olarak kullanılan bir modeldir. Bu model ayrıca diğer araştırmacılar tarafından da tercih edilen bir model olmuştur (Bolt, 2002, Dooden, 2004;

Fidalgo ve Bartman, 2010; Garrett, 2009; Su ve Wang, 2005; Wang ve Su,2004).

Çok kategorili Rasch ailesi modellerinin (KPM, DÖM) iki temel avantajı vardır.

İlk avantajı, model parametrelerini kestirmek için yalnızca tek bir eşitliğe ihtiyaç duyulmasıdır. Bu modeller (doğrudan modeller; KPM, DÖM) hesaplanması daha az karmaşık modellerdir. Diğer modeller ise (doğrudan olmayan modeller; ATM), bireylerin yanıtlarının olasılıklarını belirleyebilmek için iki aşamalı bir süreç (iki eşitlik) kullanmaktadır (Embretson ve Reise, 2000; Thissen and Wainer, 2001).

KPM Masters tarafından 1982’de geliştirilmiştir ve iki kategorili maddeler için geliştirilmiş olan Rasch modelin uzantısıdır. Bu model, çözümleme sürecinde farklı aşamaların tamamlanması durumunda kısmi puan vermenin önemli olduğu veya Likert tipi maddelerde yanıt kategorileri arasındaki uzaklıkların maddeden maddeye farklılık gösterdiği durumlar için geliştirilmiştir. Modelin önemli özelliklerinden biri θ düzeyi orta derecede olan kişilerin de puanlandırılmasının mümkün olmasıdır (Koch ve Dodd, 1989). Bir başka anlatımla kısmi puanlamanın temel amacı, kısmi başarılara da puan verebilmektir. Kısmi puanlama, bireyin yeteneği hakkında tam tahmin yapmayı amaçlamaktadır.

Daha önce de bahsedildiği üzere KPM çok aşamalı (multistep) problemlerin de çözümünde kullanılmaktadır. DeAyala (1993) KPM’yi şu örnekle açıklamaktadır. Çok aşamalı bir problem üzerinde durulsun; örneğin (6/3) + 2. Bu problemi çözmek ve tam puan alabilmek için iki aşamayı tamamlamak gerekmektedir. Aşama 1; (6/3)’ü tamamlamak, aşama 2 ise 2+2’yi tamamlamaktır. Bu problemi doğru çözmek için bu iki aşamanın mutlaka tamamlanması gerekmektedir. Yalnızca aşama 1 tamamlanırsa kısmi puan alınır ancak ne aşama 1 ne aşama 2 tamamlanamazsa puan alınamaz. Bu problem üç yanıt kategorisine sahiptir. Bunlar 0,1 ve 2’dir. Kategori 0’ın puanı yoktur. Kategori

(32)

1 kısmi puanlıdır ve kategori 2 ise tam puanlıdır. DeAyala (1993) aşama 1’in aşama 2’den daha zor olduğunu belirtmiştir. Fakat kolaydan zora doğru sıralama model için bir gereklilik değildir.

KPM’de birey parametresi olan θ ve madde parametresi olan β mevcuttur.

Masters, β parametrelerini “adım güçlüğü” olarak tanımlamaktadır. Adım güçlüğü olarak tanımlamasının nedeni, bireyin bir adımı başarılı olarak tamamladıktan sonra diğer adıma geçmesidir. Madde adım güçlüğü parametresi, kategori kesişim parametresi olarak da adlandırılır. Sonuç olarak adım güçlüğü parametresi bir yanıt kategorisinden diğer yanıt kategorisini seçmeyi içeren güçlüğün miktarı olarak tanımlanmaktadır.

KPM’de madde kategori sayısından bir eksik adım güçlüğü parametresi vardır. Örneğin dört kategorili bir madde için üç adım güçlüğü parametresi vardır (Garrett, 2009). Bütün Rasch modellerinde olduğu gibi, maddeler eşit ayırt edicilikte varsayılmaktadır.

Dolayısıyla modelde madde ayırt ediciliği parametresi yoktur.

KPM ile i. kişinin, j. maddeden x puanı alma olasılığı formül 1.8’deki gibi hesaplanmaktadır.

𝑃

_𝑖𝑗𝑥

=

_∑ ^{𝑒𝑥𝑝 ∑}^𝑥^𝑘=0^(𝜃^𝑖^−𝛽^𝑗𝑘⁾

𝑚 𝑒𝑥𝑝

𝑘=0 ∑^𝑘_𝑡=0(𝜃_𝑖−𝛽_𝑗𝑡) (1.8)

KPM, adımların birbiri ardından geldiğini varsaymaktadır. Ancak bu durum her adımın eşit güçlükte olduğu anlamına gelmemekte yani son adımın en zor olduğu, ilk adımın ise en kolay olduğu çıkarımı yapılmamaktadır. Tam tersine adımların zorlukları değişiklik gösterebilmektedir. Şekil 1.4’te bir maddeye ilişkin KPM kapsamında bir örnek sunulmuştur (Koch ve Dodd, 1989).

(33)

Şekil 1.4. KPM kapsamında bir madde örneği

Şekil 1.4’te görüldüğü üzere üç madde adım güçlüğü parametresi vardır (b1, b2

ve b3), çünkü ilgili madde dört kategorilidir. Örnekten de görüleceği üzere, adım iki en kolay, adım üç ise en zor adımdır. Adım güçlükleri θ ölçeği üzerinde görülmektedir (Koch ve Dodd, 1989).

Test geliştirme süreçlerine tarihsel olarak bakıldığında, yaygın olarak kullanılan geniş ölçekli testler, standart başarı testleri veya bireylerin belli bir ücret ödeyerek aldıkları testlerin önemli bir kısmı çoktan seçmeli olarak geliştirilmiştir. Bu nedenle DMF ile ilgili ilk çalışmalar iki kategorili maddeler üzerinedir (Penfield ve Lam, 2000).

Kısacası iki kategorili maddelerde DMF belirleme 1980’lerin başlarında başlamış ve 1990’ların başlarında da artık çok kategorili maddeler için DMF incelenmeye başlamıştır. Daha önce de ifade edildiği üzere bu araştırma iki kategorili ve çok kategorili puanlanan maddeler kapsamında DMF incelemeyi temel almıştır. İki kategorili puanlama için Rasch, çok kategorili puanlama için KPM kullanarak, LORDIF, Mantel-Haenszel (MH) ve ANOVA DMF belirleme analizleri gerçekleştirilmiştir. Bu doğrultuda araştırmanın amacıyla ilgili Türkiye’de ve yurtdışında yapılmış olan araştırmalar aşağıda sunulmuştur.

Özdemir (2003) araştırmasında DMF’yi iki kategorili puanlama ve önsel ağırlıklandırma modelleri kapsamında incelemiştir. İki kategorili puanlama için yanıtlar 1-0 olarak puanlanırken, önsel ağırlıklı puanlama için her bir maddeye verilen

Gizil Özellik (ϴ)

Olasılık

(34)

seçenekler, doğru yanıta yakınlıklarına göre ağırlıklandırılmıştır. Bu doğrultuda cinsiyet ve okul türü değişkenleri ele alınmıştır. 780 erkek ve 698 kız öğrenci üzerinden yürüttüğü çalışmasında MH, DMF katsayısı ve LR tekniklerini kullanmıştır. Araştırma sonucunda, iki kategorili ve önsel ağırlıklı puanlama kapsamında testte yer alan maddelerin büyük çoğunluğunun hem okul türüne hem de cinsiyete göre önemli düzeyde DMF göstermediği belirlenmiştir.

Gözen Çıtak (2007) araştırmasında çoktan seçmeli testte yer alan maddelerin farklı puanlanması durumunda (iki kategorili puanlama (1-0), önsel seçenek ağırlıklandırma ve deneysel seçenek ağırlıklandırma) testin güvenirliğinin ve geçerliğinin Klasik Test Kuramı (KTK) ve Madde Tepki Kuramı’na (MTK) göre nasıl etkilendiğini belirlemeyi amaçlamıştır. Bu doğrultuda 18 maddelik çoktan seçmeli bir sözel yetenek testinin uygulanmış olduğu 1593 kişilik veri seti kullanılmıştır.

Araştırmanın bulguları, MTK kapsamında “1-0” puanlamanın kullanıldığı durumda yetenek ölçeği üzerindeki parametrelerin ağırlıklı puanlamaların kullanıldığı duruma göre daha doğru kestirildiğini göstermiş, bu puanlama modelinin test geçerliği açısından da daha etkili olduğu sonucuna ulaşılmıştır. KTK’da ise deneysel ağırlıklandırmanın kullanıldığı durumda güvenirliğin daha yüksek kestirildiği, ancak tüm puanlama modellerinin test geçerliği üstünde benzer etkiyi yaratmış olduğu belirlenmiştir. Bu bulgu, güvenirliği en yüksek düzeyde kestiren deneysel seçenek ağırlıklandırma modelinin, KTK kapsamında güvenirliğin kestirilmesinde diğer puanlama modellerine göre daha etkili sonuçlar verdiği şeklinde yorumlanmıştır. Aynı zamanda, MTK kapsamında güvenirliğin kestirilmesinde “1-0” puanlamanın diğer puanlama modellerine göre daha etkili olduğu ifade edilmiştir.

Yurdugül (2010) çalışmasında, KTK’ya dayalı ağırlıksız, ağırlıklandırılmış madde puanlama modelleri, MTK’ya dayalı 1PL ve 2PL modellerden kestirilen olasılıksal madde puanlama modelleri ve Konjenerik Test Kuramı’na dayalı madde puanlama modellerini, güvenirlik, tekboyutluluk ve veri-model uyumu açısından karşılaştırmıştır. Araştırmanın sonuçlarına göre MTK’ya dayalı puanlama modelleri ile Konjenerik Test Kuramına dayalı puanlama modellerinin KTK’ya dayalı madde puanlama modellerine göre daha iyi sonuçlar verdiği belirlenmiştir. Aynı zamanda madde puanlarının toplamı şeklindeki test puanlarına göre sıralama karşılaştırması