Yabancı Dilde Yazma Becerisinin Ölçülmesinde Puanlayıcılar Arası Güvenirliğin Çok Gruplu Doğrulayıcı Faktör Analizi ile İncelenmesi

(1)

(2)

(3)

YABANCI DİLDE YAZMA BECERİSİNİN ÖLÇÜLMESİNDE

PUANLAYICILAR ARASI GÜVENİRLİĞİN ÇOK GRUPLU

DOĞRULAYICI FAKTÖR ANALİZİ İLE İNCELENMESİ

MELİKE KÜBRA TAŞDELEN YAYVAK

YÜKSEK LİSANS TEZİ

EĞİTİM BİLİMLERİ ANABİLİM DALI

EĞİTİMDE ÖLÇME VE DEĞERLENDİRME BİLİM DALI

GAZİ ÜNİVERSİTESİ

EĞİTİM BİLİMLERİ ENSTİTÜSÜ

(4)

TELİF HAKKI ve TEZ FOTOKOPİ İZİN FORMU

YAZARIN

Adı : Melike Kübra Soyadı : Taşdelen Yayvak

Bölümü : Eğitimde Ölçme ve Değerlendirme

İmza :

Teslim tarihi :

TEZİN

Türkçe adı : Yabancı Dilde Yazma Becerisinin Ölçülmesinde Puanlayıcılar Arası Güvenirliğin Çok Gruplu Doğrulayıcı Faktör Analizi ile İncelenmesi

İngilizce adı : Use of Multiple-Group Confirmatory Factor Analysis to Examine Inter-Rater Reliability in Foreign Language Writing Assessment

(5)

ETİK İLKELERE UYGUNLUK BEYANI

Tez yazma süresinde bilimsel ve etik ilkelere uyduğumu, yararlandığım tüm kaynakları kaynak gösterme ilkelerine uygun olarak kaynakçada belirttiğimi ve bu bölümler dışındaki tüm ifadelerin şahsıma ait olduğunu beyan ederim.

Yazar Adı Soyadı: Melike Kübra TAŞDELEN YAYVAK İmza: ………

(6)

JÜRİ ONAY SAYFASI

Melike Kübra TAŞDELEN YAYVAK tarafından hazırlanan “Yabancı Dilde Yazma Becerisinin Ölçülmesinde Puanlayıcılar Arası Güvenirliğin Çok Gruplu Doğrulayıcı Faktör Analizi ile İncelenmesi” adlı tez çalışması aşağıdaki jüri tarafından oy birliği ile Gazi Üniversitesi Eğitimde Ölçme ve Değerlendirme Anabilim Dalı’nda Yüksek Lisans tezi olarak kabul edilmiştir.

Danışman: Dr. Öğr. Üyesi Emine ÖNEN

Eğitimde Ölçme ve Değerlendirme, Gazi Üniversitesi ………...

Başkan: Prof. Dr. Selahattin Gelbal

Eğitimde Ölçme ve Değerlendirme, Hacettepe Üniversitesi ………...

Üye: Prof. Dr. Mehtap Çakan

Eğitimde Ölçme ve Değerlendirme, Gazi Üniversitesi ………...

Tez Savunma Tarihi: 15/08/2018

Bu tezin Eğitimde Ölçme ve Değerlendirme Anabilim Dalı’nda Yüksek Lisans Tezi olması için şartları yerine getirdiğini onaylıyorum.

Prof. Dr. Selma YEL

(7)

(8)

TEŞEKKÜR

Çalışmalarım esnasında beni yönlediren ve yardımlarını esirgemeyen danışmanım Sayın Dr. Öğr. Üyesi Emine Önen’e,

Değerli vakitlerini ayırıp tez savunma jürisinde yer alan Sayın Prof. Dr. Mehtap Çakan ve Sayın Prof. Dr. Selahattin Gelbal’a,

Tez yazım sürecinde önemli katkılar sağlayan Sayın Doç. Dr. Hakan Yavuz Atar ve Sayın Dr. Öğr. Üyesi Tuğba Elif Toprak’a,

Çalışmalarım sırasında desteğini hiçbir zaman eksik etmeyen Emel Kulaksız, Esra Tabak, Maide Yılmaz, Derya Akbaş ve burada adı yer almayan tüm değerli arkadaşlarıma,

Varlığıyla en büyük güç kaynağım olmuş canım babam Bahri Taşdelen’e, hayata karşı duruşu ve pozitifliğiyle iyi ki benim annem dediğim, şükür sebebim Tugay Taşdelen’e, daima yanımda olan kardeşlerim Gökçen Sonbudak, Selcen Dolanbay ve Fatih Taşdelen’e, Ve son olarak tanıştığım ilk günden beri varlığıyla bu benliği anlamlandıran, bu hayatın bana vermiş olduğu en değerli hediye olan eşim Berk Yayvak’a sonsuz teşekkürler.

(9)

YABANCI DİLDE YAZMA BECERİSİNİN ÖLÇÜLMESİNDE

PUANLAYICILAR ARASI GÜVENİRLİĞİN ÇOK GRUPLU

DOĞRULAYICI FAKTÖR ANALİZİ İLE İNCELENMESİ

(Yüksek Lisans Tezi)

Melike Kübra Taşdelen Yayvak

GAZİ ÜNİVERSİTESİ

EĞİTİM BİLİMLERİ ENSTİTÜSÜ

Ağustos, 2018

ÖZ

Yazma becerisinin puanlanmasında ölçümlerin güvenirliğini etkileyen en önemli faktörlerden biri puanlayıcıdır. Aynı performansın farklı puanlayıcılar tarafından farklı puanlanması ölçmede istenmeyen bir durumdur. Bu çalışmada yabancı dilde paragraf yazma becerisinin puanlanmasına etki eden temel değişkenlerden biri olan puanlayıcı ele alınmıştır. Puanlayıcılar arası güvenirlik Çok Gruplu Doğrulayıcı Faktör Analizi (ÇGDFA) ile incelenmektedir. Gazi Üniversitesi Yabancı Diller Yüksekokulunda öğrenim gören 267 gönüllü öğrenci çalışma grubunu oluşturmaktadır. Öğrencilerin aynı konu üzerine yazmış oldukları paragraflar üç farklı puanlayıcı tarafından aynı puanlama anahtarı ile ayrı ayrı puanlanmış ve elde edilen puanlar SPSS 24, LISREL 8.8 ve Mplus6 programları ile analiz edilmiştir. Ölçümlerin geçerliğine ilişkin kanıtlar AFA ve DFA ile elde edilirken ölçümlerin güvenirliğine ilişkin kanıtlar Cronbach α değeri ile elde edilmiştir. Puanlayıcılar arası güvenirliğin ölçme değişmezliği testleri bağlamında ÇGDFA ile incelenmesi sonucunda şekilsel ve metrik değişmezliğe ilişkin kanıt elde edilmişken, tam ve kısmi ölçek değişmezliğine ilişkin kanıt elde edilememiştir. Tam ve kısmi ölçek değişmezliğine ilişkin kanıt elde edilememesi puanlayıcıların yazma becerisini puanlarken performansın aynı başlangıç düzeyini kullanmadığı anlamına gelirken, bu durumdan dolayı faktör varyanslarının değişmezliği ve değişmez özgüllük aşamaları test edilememiştir. Bu iki

(10)

değişmezlik türünden elde edilebilecek bilgiye dolayısıyla ulaşılamazken, puanlayıcılar arası güvenirliğe ilişikin kanıt elde edilememiştir.

Anahtar Kelimeler: ÇGDFA, Ölçme Değişmeliği, Puanlayıcılar Arası Güvenirlik Sayfa Adedi: 93

(11)

USE OF MULTIPLE-GROUP CONFIRMATORY FACTOR

ANALYSIS TO EXAMINE INTER-RATER RELIABILITY IN

FOREIGN LANGUAGE WRITING ASSESSMENT

(M.S Thesis)

Melike Kübra Taşdelen Yayvak

GAZI UNIVERSITY

GRADUATE SCHOOL OF EDUCATIONAL SCIENCES

August 2018

ABSTRACT

One of the most important factors that influence the reliability of measurements in scoring of writing skills is rater. Different scoring by different raters of the same performance is an undesirable condition in measurement. In this study, rater, one of the basic variables affecting the score of paragraph writing ability in foreign language is considered. The inter-rater reliability is examined by Multi-Group Confirmatory Factor Analysis (MFCFA). The study group is constituted by 267 volunteer students studying at Gazi University Foreign Languages School. In the research, where students write a paragraph on the same topic, the paragraphas are scored separately by three different raters with the same scoring key and acquired scores are analyzed via SPSS 24, LISREL 8.8 ve Mplus6 programs. While the evidence for validity of measurements are obtained with EFA and CFA, the evidence for reliability of measurements are obtained with Cronbach α coefficient. As a result of testing inter-rater reliability with MGCFA within the frame of measurement invarince, evidence of configural and metric invariance has been obtained, while evidence of scalar and partial scalar invariance hasn’t been obtained. Acquring no evidence of complete and partial scale invariance means that scorers do not use the same initial level of performance when scoring the writing ability, so invariance of factor variances and invariant uniqueness steps can not be tested. Therefore, the information that can be obtained from these two types of invariance can not be reached and the evidence regarding the reliability between the raters can not be obtained.

(12)

Key Words: MGCFA, Measurement Invariance, Interrater Reliability Page Number: 93

(13)

İÇİNDEKİLER

TELİF HAKKI ve TEZ FOTOKOPİ İZİN FORMU ... i

ETİK İLKELERE UYGUNLUK BEYANI ... ii

JÜRİ ONAY SAYFASI ... iii

TEŞEKKÜR ... v

ÖZ ... vi

ABSTRACT ... viii

İÇİNDEKİLER ... x

TABLOLAR LİSTESİ ... xiii

ŞEKİLLER LİSTESİ ... xiv

SİMGELER VE KISALTMALAR LİSTESİ ... xv

BÖLÜM 1 ... 1

GİRİŞ ... 1

Problem Durumu ... 1

Klasik Test Kuramı (KTK) ... 7

Puanlayıcı Güvenirliği ve İnceleme Yöntemleri ... 12

Ölçme Değişmezliği ... 15

Puanlayıcılar Arası Güvenirliğin Ölçme Değişmezliği Bağlamında İncelenmesi ... 19 Araştırmanın Amacı ... 20 Araştırmanın Önemi ... 20 Araştırmanın Sayıltıları ... 21 Araştırmanın Sınırlılıkları ... 22 Yapılan Çalışmalar ... 22

BÖLÜM II ... 33

(14)

YÖNTEM ... 33

Araştırmanın Modeli ... 33

Çalışma Grubu ... 33

Veri Toplama Araçları ... 34

Yazma Görevi ... 34 Puanlama Anahtarı ... 35 Verilerin Toplanması ... 37 Ölçümlerin Güvenirliği ... 38 Ölçümlerin Geçerliği ... 38 Verilerin Analizi ... 48

Yapısal Eşitlik Modelleme ... 48

Doğrulayıcı Faktör Analizi ... 51

Çok Gruplu Doğrulayıcı Faktör Analizi (ÇG-DFA) ... 55

BÖLÜM III ... 59

BULGULAR VE YORUMLAR ... 59

Betimsel İstatistikler ... 59

Puanlayıcılar Arası Güvenilirliğin Ölçme Değişmezliği Yoluyla Test Edilmesi ... 61

Birinci Araştırma Sorusuna İlişkin Bulgular ve Yorum ... 61

İkinci Araştırma Sorusuna İlişkin Bulgular ve Yorum ... 62

Üçüncü Araştırma Sorusuna İlişkin Bulgular ve Yorum ... 63

BÖLÜM IV ... 67

SONUÇ VE TARTIŞMA ... 67

Sonuçlar ... 67 Öneriler ... 69

EKLER ... 81

EK 1. Yazma Görevi ... 82

EK 2. Dereceli Puanlama Anahtarı ... 83

EK 3. T.C. Gazi Üniversitesi Etik Komisyonu Kararı ... 84

EK 4. T.C. Gazi Üniversitesi Yabancı Diller Yüksekokulu Müdürlüğü İzini ... 86

EK 5. Araştırma Kapsamında Yapılan Açımlayıcı Faktör Analizi Sonuçları ... 87

EK 6. Yeniden Düzenlenen Dereceli Puanlama Anahtarı ... 88

EK 7. Ki-Kareler (χ2) için Ölçeklendirilmiş Fark Testi Sonuçları ... 89

(15)

EK 9. Metrik Değişmezliğin İncelenmesinde Kullanılan Mplus Kodları ... 91 EK 10. Ölçek Değişmezliğin İncelenmesinde Kullanılan Mplus Kodları ... 93

(16)

TABLOLAR LİSTESİ

Tablo 1. Çalışma Grubundaki Öğrencilerin Fakültelere ve Cinsiyete Göre Dağılımı... 34 Tablo 2. Göstergeler Arasındaki İlişkiyi Gösteren Korelasyon Matrisi ... 39 Tablo 3. Birinci, İkinci ve Üçüncü Puanlayıcıdan Elde Edilen KMO ve Barlett Testi

Sonuçları ... 40

Tablo 4. Puanlara İlişkin Hesaplanan Çok Değişkenli Normallik Varsayımı Testleri

Tablo 5. Model (A) Model Uyum İndeksleri ... 43 Tablo 6. Model (A)‘nın Göstergelerine İlişkin Faktör Yük Değerleri, Hata Değerleri ve t

Değerleri ... 44

Tablo 7. Model (B) Model Uyumu İndeksleri ... 46 Tablo 8. Model (B)’nin Göstergelerine İlişkin Faktör Yük Değerleri, Hata Değerleri ve t

Değerleri ... 47

Tablo 9. Puanlayıcılar Tarafından Verilen Puanlara İlişkin Betimsel Analizlerin

Tablo 10. Ölçme Değişmezliği İncelemesi Sürecinde Test Edilen Modele İlişkin Hesaplanan

Uyum İyiliği Değerleri ... 61

(17)

ŞEKİLLER LİSTESİ

Şekil 1. Model (A): Yabancı dilde paragraf yazma becerisine ilişkin tanımlanan temel ölçme

modeli ... 42

Şekil 2. Model (B): Yabancı dilde paragraf yazma becerisine ilişkin yeniden tanımlanan

ölçme modeli ... 46

(18)

SİMGELER VE KISALTMALAR LİSTESİ

CEFR Common European Framework of Reference for Languages CFI Comparative Fit Index

ÇG-DFA Çok Gruplu Doğrulayıcı Faktör Analizi DFA Doğrulayıcı Faktör Analizi

KTK Klasik Test Kuramı

MFRM Many Facet Rasch Measurement

ML Maximum Likelihood

MLR Maximum Likelihood Robust

MTK Madde Tepkime Kuramı

MIMIC Çoklu Göstergeler Çoklu Nedenler

RMSEA Root Mean Square Error of Approximation SPSS Statistical Package for Social Sciences YEM Yapısal Eşitlik Modeli

(19)

BÖLÜM 1

GİRİŞ

Bu bölümde araştırmanın problemi açıklanmıştır. Yabancı dilde yazma becerisinin ölçülmesinin öneminden ve yazma becerisine etki edebilecek değişkenlerden bahsedilmiştir. Yazma becerisinin puanlanmasında güvenirliği etkileyen en önemli faktörlerden biri olan puanlayıcı etkisi ile ilgili kuramsal bilgilere ve araştırmalara yer verilmiştir. Araştırmanın amacı ve önemine değinilmiş ve son olarak da araştırmanın sayıltıları ve sınırlılıklarından bahsedilmiştir.

Problem Durumu

Dil, insanların iletişim kurmalarını, duygu ve düşüncelerini ifade edebilmelerini sağlayan en yetkin araçtır. İnsan iletişimde, anlatmaya ve anlatılanı anlamaya dayalı olarak dört temel beceriye ihtiyaç duymaktadır. Bunlar; okuma, dinleme, konuşma ve yazmadır. Dil öğretiminde amaç bu dört temel dil becerisinin en iyi ve etkili bir biçimde kullanılmasını sağlamaktır.

Bu dört temel beceriden biri yazma becerisidir. Yazma, bireyin yazmak istediği konu ile ilgili düşüncelerini ortaya koyduğu ve bu fikirleri bir bütün halinde cümleler ve paragraflar ile okuyucuya aktardığı bir beceridir (Nunan, 2003). Bireyin kendini, düşüncelerini ve duygularını okuyucuya doğru ve net bir şekilde aktarabilmesi dolayısıyla doğru iletişimin sağlanması açısından yazma becerisi yabancı dil öğretiminde büyük önem taşımaktadır. Bireyin düşüncelerini yazılı olarak ifade etmesini gerektiren bu beceri; üretkenlik, belirli bir seviyeye kadar dilbilim, kelime ve gramer bilgisi, aktiflik ve kompozisyon yazım bilgisi gibi birçok bilgi ve alt beceriyi bünyesinde barındırmasından dolayı karmaşık bir beceridir (Gebhart, 1980; Hamp- Lyons, 2003). Harmer (2001) tarafından da ifade edildiği gibi yazma becerisi, gerektirdiği bilişsel süreçlerden dolayı diğer dil becerilerinden farklılaşmaktadır.

(20)

Bundan dolayı yazma becerisi, dinleme ve okuma becerileri gibi pasif değil tam tersi aktif bir beceridir. Başka bir ifadeyle, yazma becerisi diğer becerilerden farklı olarak aktiflik yani üretkenlik gerektiren bir beceridir. Çünkü yazma becerisi, bireyin konu ile ilgili bilgilerini doğru dil yapıları kullanarak ilgili bir üslupla yazının amacı doğrultusunda uygun bir şekilde bir araya getirebilme sürecidir. Ayrıca, yabancı dilde yazma becerisinin kazandırılma sürecine bakıldığında bireyin yaratıcılığını ve üretkenliğini gerektiren bireyin yazısını planlaması, yazısının taslağını oluşturması, yazısını gözden geçirip düzenlemesi ve nihai aşamaya getirmesi gibi birbiriyle ilişkili adımları içermektedir (Harmer, 2004).

Yabancı dilde yazma becerisinin öğretimi sürecinde ölçme ve değerlendirme önemli bir yer teşkil etmektedir. Öğretim süreci; öğretimin planlanması, uygulanması ve değerlendirilmesi aşamalarını içeren önemli bir süreçtir. Bu süreçlerden ölçme-değerlendirme aşamasında hedef-davranışlar ayrı ayrı test edilmekte, istendik davranışların ne kadarının kazandırıldığı incelenmekte ve sunulan eğitimin kalite kontrolü yapılmaktadır (Demirel, 2013). Bununla birlikte ölçme ve değerlendirme sürecinden elde edilen bilgiler öğretim yöntemlerinin verimliği, öğrencinin durumu, öğretim yönetiminin ve programının değerlendirilmesi gibi alanlarda daha doğru kararlar alınmasına yardımcı olmaktadır (Mehrens & Lehman 1991). Benzer bir şekilde Turgut ve Baykul (2014) da ölçme ve değerlendirme ile eğitim programlarının sağlamlığı, öğretimde başvurulan yöntemlerin etkililiği, öğrenme güçlükleri ve öğrenci başarısı gibi birçok konuda bilgi edinilebileceğini belirtmiştir. Tüm bu bilgiler ışığında ölçme ve değerlendirme; eğitim programının, eğitim yöntemlerinin, öğrenme süreçlerinin ve öğrenci başarılarının test edilmesi ve değerlendirilmesi aşamalarında büyük önem taşımaktadır.

Yazma becerisinin ölçülüp değerlendirilmesi ile akla ilk gelen bireyin yazdığı kompozisyon, makale, mektup ya da rapor tarzı belgelerin değerlendirilmesidir. Ancak bilindiği üzere iyi yazılmış makale ve kompozisyonların temelinde yine aynı şekilde iyi yazılmış paragraflar yer almaktadır. Anlaşılmaktadır ki; iyi bir kompozisyon iyi yazılmış paragrafların doğru bir şekilde bir araya gelmesiyle oluşmaktadır. Bu nedendendir ki yazma becerisinin temelinde cümleleri anlamlı ve akıcı bir şekilde bir araya getirebilme kabiliyeti yani paragraf yazma becerisi yer almaktadır (Hart & Reinking, 1990). Yazma becerisinin gözlenebilip değerlendirilebileceği en küçük örneklem ise, bireyin yazdığı işte bu paragraflardır. İyi bir yazma becerisi için bir bireyin öncelikli olarak iyi bir paragraf yazma becerisine sahip olması gerekmektedir. Bu sebeptendir ki yazma becerisinin doğru ve etkili bir şekilde gelişimini sağlamak ve bu beceriyi devam ettirebilmek için bu temel yapıtaşının yani paragraf

(21)

becerisinin doğru ve etkili bir şekilde ölçülüp değerlendirilmesi büyük bir önem arz etmektedir.

Etkili ve güzel bir kompozisyon yazabilmek için iyi fikirlere sahip olmak yeterli değildir. Bu fikirlerin düzgün yazılmış paragraflarla anlamlı bir şekilde açıklanıp ifade edilmesi en temel amaçtır. Bu durum göstermektedir ki iyi yazılmış bir kompozisyon için öncelikle güzel ve doğru yazılmış paragraflar olması gerekmektedir. Çünkü kompozisyon paragraflar bütünü demektir. Kompozisyonun sadece bir parçası olan bir paragrafta fikirlerini doğru ve akıcı olarak ifade edemeyen bir bireyden düzgün yazılmış bir kompozisyon beklemek hayalî bir durumdur. İyi paragraf yazabilen kişiler okuyucunun okuduğunu anlamasını ve okuduğundan keyif almasını sağlamaktadır ve bu şekilde etkili ve güzel kompozisyonların temeli atılmaktadır. Bilinmektedir ki yazma becerisinde görülen en büyük ve en yaygın problemlerden biri öğrencilerin bu doğru ve etkili paragraf yazamaması durumudur (Almasy, 1976; Ensieh & Rahimi, 2013). Bu çalışma ile öğrencilerin yazma becerisinin değerlendirilmesinin temelden yani paragraf yazımından ele alınması bütündeki eksiklerin algılanmasında yabancı dil öğretiminde eğitimcilere ışık tutacaktır.

Yazma becerisinin değerlendirilmesiyle ilgili alan yazına bakıldığında kompozisyon yazma becerisinin değerlendirilmesi çalışmalarına sıkça rastlanmaktadır (Johnson, Penny & Gordon, 2010; Hetharman, 2004; Kondo- Brown, 2002; Matsuno, 2009; Schafer, 2008; Trace, Janssen & Meier, 2015) ancak paragraf yazma becerisinin değerlendirilmesi ile ilgili çalışmalar sınırlıdır. Özellikle ikinci dilde makale ve kompozisyon yazabilmek için öğrencinin paragraf yazma becerisinin yeterli düzeye ulaşması şarttır. Bu nedenledir ki yabancı dil öğretiminde temel olarak öncelikle bireye doğru paragraf yazabilme becerisinin gereksinimleri öğretilip; uzun bir süre bunun uygulaması yaptırılmaktadır. Bu sürecin doğru ve verimli işlemesi yazılan bu paragrafların yine güvenilir ve doğru bir şekilde değerlendirilmesine bağlıdır. Bu şekilde öğrenciye gerekli dönütler verilip öğrencinin bir sonraki seviye olan makale ya da kompozisyon yazma becerisini uygun bir şekilde yerine getirmesi sağlanabilmektedir. Nitekim (Ferris, 2011, s. 12); (Hillocks, 1986, s. 220) öğrencilerin kendi yazdıkları kompozisyon üzerinden aldıkları geri dönütten faydalanabileceğini ve kendilerini bu bağlamda geliştirebileceklerini ifade etmiştir. Aksi halde öğrencideki eksik ve yetersiz paragraf yazma bilinç ve becerisi öğrenciye akabindeki kompozisyon yazım sürecinde başarısızlık ve hayal kırıklığı ile geri dönebilmektedir. Bu açıklamalardan da anlaşılmaktadır ki yabancı dilde yazma becerisinde paragraf yazma becerisi son derece mühim bir konudur. Temelleri sağlam atılmayan hiçbir binanın ayakta

(22)

kalamayacağı gerçeği gibi; temelleri sağlam atılmayan bir becerinin de başarılı olamayacağı aşikârdır. İşte bu becerinin kazanımının ne kadar gerçekleştirilip ne kadar gerçekleştirilmediği noktasında bize geri dönüt vermesi açısından doğru bir şekilde yapılan ölçme ve değerlendirme çok önemli bir yere sahiptir. Bu şekilde bireyin bu beceride ne kadar iyi olduğu ya da ne kadar eksik olduğu keşfedilip gerekli düzeltmeler yapılabilmektedir. Yazma becerisinin değerlendirilmesi üzerine Amerika’da 1901’de Collage Board’un ilk yazma sınavını ortaya atmasıyla beraber iki farklı yaklaşım ortaya çıkmıştır. Bunlar doğrudan ve dolaylı değerlendirmelerdir. Bunlardan doğrudan değerlendirmede, yazılmış gerçek bir kompozisyonun iki ya da daha fazla puanlayıcı tarafından okunup bağımsız bir şekilde puanlandırılması gerekmektedir. Dolaylı değerlendirmede ise, puanlanacak herhangi bir kompozisyona ihtiyaç olmayıp bireyin sadece çoktan seçmeli formattaki maddelere cevap vermesi gerekmektedir (Breland & Gaynor, 1979).

Yazma becerisinin ölçülmesi ile ilgili çalışmalar incelendiğinde Godshalk, Swineford ve Coffman yapmış oldukları çalışmada öğrencilerin yazma becerisinin dolaylı olarak ölçülmesi yoluyla aldıkları puanlar ile doğrudan ölçülmesi yoluyla aldıkları puanlar karşılaştırılmış ve birbiriyle yüksek derecede ilişkili olduğu sonucuna ulaşılmıştır (Greenberg, 1992). Bu çalışma neticesinde yazma becerisinin ölçülmesinde dolaylı ölçme yöntemlerinin -çoktan seçmeli maddelere ve cümle düzeltme gerektiren maddelerin- kullanımına devam edilmiştir. Bu duruma karşın Brown (1978) yazma becerisinin değerlendirilmesinde kullanılan dolaylı ölçme yöntemlerinin yazma becerisi öğretmenlerinin üzerinde yarattığı memnuniyetsizliğe ve elde edilen yüksek güvenirliğin aldatıcı olduğuna dikkat çekmiştir. Bununla beraber yazma becerisi için bireyde gerçekleşen aktif zihinsel sürece karşın çoktan seçmeli yazma becerisi sınavlarında bireyde gerçekleşen pasif zihinsel sürece ve bu zıtlığa vurgu yapmıştır. Braddock, Lloyd-Jones ve Schoer (1963) da benzer bir şekilde yazma becerisinin ölçülmesinde doğrudan ölçme yöntemlerinin kullanımının daha doğru bir hareket olacağını savunmaktadır. Her iki değerlendirme yönteminin de kendince başarılı olduğu yani her ikisinin de avantaj ve dezavantajlarının olduğu belirtilmektedir. Ancak bu dolaylı değerlendirmelerden elde edilen puanların düşük güvenilirlik sergilemesinden dolayı doğrudan değerlendirme yöntemi dikkatleri üzerine bir hayli çekmektedir (Breland, 1983).

Bir yazma becerisi sınavından elde edilen puanların güvenilir olarak nitelendirilebilmesi için aynı öğrenciye farklı koşullarda bu sınav uygulandığında öğrencinin aldığı puanların birbiriyle tutarlı olması ve aynı yazma görevinin farklı puanlayıcılar tarafından

(23)

değerlendirilmesiyle elde edilen puanların da yine aynı şekilde birbiriyle tutarlı olması şarttır. Bu durumdan anlaşılmaktadır ki yazma becerisinin puanlarının güvenirliği temel olarak puanlayıcı ve örneklem (performans) olmak üzere iki temel durumdan etkilenmektedir (Hyland, 2003). Hughes (1989, s. 55-50) örneklemden kaynaklanabilecek değişkenliği azaltmak için öğrenciye uygulanan yazma görevlerinin yeterli sayıda olması gerektiğini, bu yazma görevlerinin konu ve tür olarak sınıflandırılmasını, yazma görevlerinin talimatlarının açık bir şekilde ifade edilmesini ve yazma görevlerinin öğrencinin öğrendiği tarzda bir yazma görevi olması gerektiğini ifade etmiştir. Öznel değerlendirmeleri içinde barındıran puanlayıcı güvenilirliği ise hala tartışma konusudur.

Yazma becerisinin ölçülmesinde puanlayıcıların yazma becerisi puanlarının güvenilirliğini olumsuz etkilediği anlaşılmaktadır. Bu bağlamda, yazma performansının değerlendirilmesinde puanlayıcılar arası güvenirliğin incelendiği bu çalışmada öncelikli olarak ölçme ve değerlendirme kavramlarının anlaşılması ve daha detaylı ele alınması faydalı olacaktır. Ölçme, herhangi bir birey ya da objenin belirli özelliklere sahip olup olmadığının sahipse ne derecede sahip olduğunun belirlenmesi durumudur. Cronbach (1990) ölçmeyi, gözlenen davranışların sayısal değerler ya da sabit birimler ile sistematik bir şekilde ifade edilmesi şeklinde açıklamıştır (s. 32). Değerlendirme ise bir varlık, olay ya da durumun ölçülen özelliğinin belli bir koşulu karşılayıp karşılamadığının belirlenmesiyle sonuçlanan bir karar verme işlemi olarak tanımlanmaktadır (Turgut, 1990). Bu doğrultuda eğitimde uygulanan değerlendirme; öğrenci, uygulanan program ve öğretim teknikleri ile ilgili yargılarda bulunulan kısımdır. Nitekim Weigle (2007) da eğitimdeki değerlendirmeyi, öğretmenlerin, öğrencilerinin ilerleyişlerini, öğrenme ihtiyaçlarını ve başarılarını tespit etmek için yaptıkları tüm aktiviteleri kapsayan geniş bir kavram olarak açıklamaktadır. Eğitim Bilimleri alanında genel olarak Sosyal Bilimlerde ölçmeye konu olan özellikler psikolojik özelliklerdir. Bu özellikler doğrudan gözlenip ölçülemeyen ancak dolaylı olarak ölçülebilen özelliklerdir. Doğrudan gözlemleyemediğimiz bu yapıların (kavramların) ne ölçüde varolduğunu görgül olarak saptayabilmemizi sağlayan işevuruk tanımlarına ihtiyaç duyulmaktadır. Yani, bu yapıların işevuruk bir şekilde tanımlanması, analiz edilmesi ve yorumlanması gerekmektedir (Baykul, 2010; Turgut & Baykul, 1992). Dolayısıyla bu tanımlar ve kuramsal yapıların test edilmesi, işevuruk tanımların uygunluğuna ve ölçümlerin güvenirliğine bağlıdır.

Crocker ve Algina (1986) psikolojik yapıların ölçülmesindeki beş temel problemi şöyle açıklamaktadır:

(24)

1. Herhangi bir yapının ölçümünde kullanılacak tek ve evrensel bir yaklaşım yoktur. 2. Psikolojik yapılar genellikle sınırlı sayıda davranış örneklemi ile ölçülürler. 3. Elde edilen ölçümler daima hata içerir.

4. Ölçekler iyi tanımlanmış birimlerden yoksundur.

5. Psikolojik yapılar sadece onların işevuruk tanımlarıyla açıklanamaz. Diğer yapılarla ve gözlenebilir olaylarla da ilişkisi gösterilmelidir.

Sosyal bilimler ve eğitim bilimleri yukarıda belirtilen ölçme problemleri ile baş etmek ve bunları çözmek durumundadır. Bu çözüm ve yöntemleri içeren disiplin alanına ise test kuramı denilmektedir. Test kuramı ölçme bilimine genel bir çerçeve oluşturmaktadır ve bu çerçevede çözüm aradığı temelde iki durum vardır. İlki yapılan ölçmelerin ölçme problemlerinden ne kadar etkilendiğini (hata miktarı) belirlemek ikincisi de bu hata miktarlarını en aza indirecek yöntemleri bulmaktır (Crocker & Algina, 1986).

Test kuramının çıkış noktası ise, 1800’lü yıllarda Avrupa ve Birleşmiş Milletler’deki psikoloji ve eğitim üzerine yapılan çalışmalara dayanmaktadır. İngiltere’de Galton (1883), bazı istatistiksel teknikleri psikolojik test puanlarına uygulayarak; Karl Pearson’nın korelasyon katsayısına ilişkin formülü ortaya koymasına zemin hazırlamıştır (aktaran, (Croker & Algina 1986). Diğer ünlü İngiliz bilim adamı Charles Spearman zekâ üzerinde çalışmalar yapmış ve faktör analizi olarak adlandırılan analizi bu çalışmaları esnasında geliştirmiştir. Bu sırada Fransız psikologlar Alfred Binet ve Theophile Simon zekâ testi çalışmaları sırasında bu testin geliştirilmesi ve geçerliliğinin incelenmesi aşamalarında ortaya koydukları uygulanabilir yöntemler ile test kuramına büyük katkı sağlamışlardır (Gardner, 1993). Amerikalı psikolog Thorndike, 1904’te test kuramları ile ilgili ilk kitabını (An Introduction to the Theory of Mental and Social Measurement) yazmış ve yine Amerikalı bilim adamları Thurstone ve Chave (1929) tutumların ölçülmesiyle ilgili çalışmaları ile alan yazına büyük katkı sağlamışlardır (aktaran, Crocker & Algina, 1986). Bu çalışmalar eğitimde yapıların ölçülebilmesi geliştirilen temel iki kuramdan ilki olan Klasik Test Kuramının ortaya çıkmasına zemin hazırlamıştır. Başka bir ifade ile test kuramında ölçmeye yönelik olan iki temel yaklaşım söz konusudur. Bunlardan ilki Klasik Test Kuramı (Classical Testing Theory) yaklaşımıdır. Bu kuram esas olarak ölçme hatası ve gözlenen puanın gerçek puan ile çeşitli hata bileşenlerini içeren bileşenlere ayrıştırılmasına dayanmaktadır. Bu yaklaşımın kökenlerinin Spearman (1904) psikometrik çalışmalara dayanmaktadır (aktaran, Behizadeh & Engelhard, 2011). İkincisi ise Örtük Özellik Kuramı

(25)

ya da Madde Tepki Kuramı olarak da bilinen ölçme kuramıdır. Bu araştırma çerçevesinde gerçekleştirilecek olan analizler KTK kuramına dayandığından bu kısımda Klasik Test Kuramı (KTK) ayrıntılı olarak açıklanacaktır ancak öncesinde Madde Tepki Kuramı’na (MTK) kısaca değinilecektir.

Madde tepki kuramının ilk ortaya çıkışı 1930’lu yıllara dayanmakta olup, 1970’li yıllarda ölçme uzmanlarının kullanımları ile yaygınlaşmaya başlamıştır (Hambleton & Swaminanthan, 1985). Madde tepki kuramının dayandığı temel, teste yer alan maddelerdir. MTK’da test maddelerine yanıt vermeyi etkileyen baskın bir özellik olduğu düşünülmekte ve dolaylı olarak ölçülebilen bu özellikler “örtük özellik” olarak tanımlanmaktadır (Hambleton & Swaminanthan, 1985, s. 9).

MTK, testi alan kişinin test performansı ile test ile ölçülmek istenen yetenek arasındaki ilişkiyi temel alarak; bu ilişkiyi matematiksel bir fonksiyonla modellemektedir. Hambleton ve Swaminanthan (1985) madde tepkime kuramına ait temel varsayımları; tek boyutluluk, yerel bağımsızlık, madde kestirimlerinin değişmezliği olarak ifade ederken test süresine (speededness) de vurgu yapmıştır. Tek boyutluluk kavramı maddelerin tek bir özelliği ölçmesi anlamına gelmekteyken; yerel bağımsızlık, testi alan bireyin testteki herhangi bir maddeye verdiği cevabın testteki diğer maddelere verilen yanıtlardan etkilenmemesi durumudur. Yani maddeler birbirlerinden bağımsızdır. Madde kestirimlerinin değişmezliği, madde parametrelerinin de gruptan bağımsız olarak kestirilebilmesi anlamına gelmektedir. Test süresi (speededness) varsayımı ise cevaplama hızı ölçmenin amacı dâhilinde değilse bu testlerin hızlandırılmış koşullarda –yetersiz/kısa sürede- uygulanmadığı anlamına gelmektedir.

Klasik Test Kuramı (KTK)

Klasik test kuramının temelleri Spearman’ın 1907- 1913 yıllarındaki çalışmaları ile başlayıp; Guilford, (1936), Gulliksen (1950), Magnusson (1967), Lord & Novick (1968) gibi birçok araştırmacı tarafından yapılan çalışmalarla geliştirilmiştir (Crocker & Algina, 1986).

Gerçek puan modeli olarak da bilinen bu kuramın temeli; gerçek puan (true score), gözlenen test puanı (observed test score) ve hata puanı (error) olmak üzere üç temel kavram üzerine kurulmuştur.

(26)

Bu eşitlikte “T” gerçek puan olup, bireyin test ile ölçülen özelliğe ilişkin gerçek düzeyini yansıtmaktadır. Bu puan, bireyin belirli bir konuda ölçülen özelliğin o bireyde varolma seviyesine tam olarak karşılık gelmektedir ve hipotetiktir. “X” değişkeni gözlenen test puanıdır ve bireyin uygulanan testten aldığı puandır. “E” değişkeni ise ölçmeye karışan ölçme hatası olup gerçek puan modeline göre bireyin gözlenen test puanı (observed test score) ile gerçek puanı (true score) arasındaki farktır (Crocker & Algina, 1986). Bu eşitlikten anlaşılacağı üzere bireyin gözlenen puanı ile gerçek puanı arasındaki fark ne kadar az ise elde edilen puan o kadar güvenilirdir.

KTK’nın bir takım temel varsayımları bulunmaktadır. Bu varsayımlar şu şekilde ifade edilebilir: a) bir evrendeki testi alan bireylerin hata puanlarının ortalamaları sıfırdır, b) bir evrendeki testi alan bireylere ait gerçek ve hata puanları arasında korelasyon yoktur ve c) bireylere iki ayrı test uygulandığında, her bir bireyin iki testten aldığı puanlardaki hata miktarı arasında bir ilişki bulunmamaktadır. Başka bir ifade ile bir testteki hata puanı ile diğer testteki hata puanı arasında korelasyon yoktur (Baykul, 2010; Crocker & Algina, 1986).

KTK uzun bir süredir ölçek geliştirmede, ölçek puanlanmasında ve bu puanların yorumlanmasında kullanılmasına rağmen bu kuramın da bazı sınırlılıkları mevcuttur.

1- Madde güçlük ve madde ayırıcılık gibi klasik madde istatistikleri, testin uygulandığı örnekleme ya da gruba bağlı olarak hesaplanmaktadır ve gruptan gruba değişebilmektedir.

2- Klasik test kuramında güvenirlik kavramı paralel testler üzerinden açıklanmaktadır. Paralel testler arasındaki zaman, bu zaman diliminde gelişen ya da değişen yetenekler ve testi alan bireyin duygu durumundaki değişimler gibi nedenlerden dolayı paralellik özelliğinin sağlanması zordur. Belirtilen tesadüfi hatalardan dolayı güvenirliğin alt sınırı elde edilebilmektedir.

3- KTK ölçme hatalarına ilişkin varyansın tüm cevaplayıcılar için aynı olduğunu varsayar. Ancak bazı bireyler test performansında diğer bireylere göre daha tutarlı olabilmektedir ve bu tutarlılık beceriye göre değişebilmektedir.

4- KTK, testi alan bireyin test maddesine karşı nasıl bir performans sergileyeceğinin kestirilebilmesi anlamında bir bilgi sağlamamaktadır. Yani, madde temelli değil test temellidir.

(27)

KTK’nin doğru bir şekilde uygulanabilmesi için bilinmesi gereken önemli noktalardan biri de ölçme aracından elde edilen ölçümlerin sahip olması gereken geçerlik ve güvenirlik gibi niteliklerdir. Geçerlik, test geliştiricinin test puanlarının yorumlanmasıyla elde edilen değerlendirmelerin doğruluğunu kanıtlama süreci olarak tanımlamaktadır (Cronbach, 1990, s. 145). Başka bir ifade ile ölçme aracının ölçülmek istenen özelliği başka bir değişkeni karıştırmadan ölçebilme derecesi olarak açıklanabilmektedir (Baykul, 2010). Bununla beraber bir ölçme aracından elde edilen ölçümlerin geçerli olabilmesi için güvenilir olması zorundadır yani güvenirlik geçerlik için önkoşuldur ama yeterli de değildir (Croker & Algina, 1986; Gay, 1987).

Bir ölçme aracından elde edilen ölçümlerin geçerliğine ilişkin farklı türlerde kanıtlar elde edilebilmektedir. Ölçme aracındaki maddelerin ölçülmek istenen davranış ve konu alanlarını yeterli ve dengeli bir şekilde temsil edebilmesi kapsam geçerliğine ilişkin kanıt sağlamaktadır. Kapsam geçerliliğinin incelenmesinde genelde uzman görüşüne ve kuramsal çalışmalara başvurulmaktadır. Yapı geçerliği; ölçme aracındaki maddelerin yapıları kuramda tanımlanan şekliyle ölçebilme derecesi olarak ifade edilmektedir ki bunun için yapının ne olduğunun iyi bilinmesi ve iyi tanımlanması gerekmektedir. Son olarak ölçüt dayanıklı geçerlik kanıtı ise, test puanlarının ölçülmek istenen davranışı yada özelliği doğrudan ölçtüğü kabul edilen bir kriter (ölçüt) ile önceden yada eş zamanlı olarak karşılaştırılmasıyla elde edilmektedir (Messick, 1987). Başka bir ifadeyle, ölçüt geçerliği var olan ölçme aracından elde edilen puanlar ile aynı özelliği ölçen ve geçerliğine ilişkin kanıtlar daha önceden elde edilmiş başka bir ölçme aracının aynı gruba uygulanması ile elde edilen puanların birbiriyle ilişkisidir.

KTK’da bir ölçme aracından elde edilen ölçümlerin sahip olması gereken diğer bir özellik ise güvenirliktir. Güvenilir ölçümlerin duyarlı, kararlı ve tutarlı olması beklenir. Duyarlılık, ölçme aracının mümkün olduğunca hassas ölçümler yapabilmesi anlamındayken kararlılık bir ölçme aracının aynı gruba belli bir zaman aralığından sonra tekrar uygulanması ile iki uygulama sonucu arasındaki benzerliğin göstergesidir ve genelde psikolojik testlerde aranan bir özelliktir. Tutarlılık ise aynı bireylere aynı şartlar altında aynı test uygulandığında bu bireylerin bu testten yine benzer puanları alması durumudur.

Güvenirlik temel olarak ölçüm puanlarının hatalardan arınırlık derecesidir. Hatalar ölçmeciden, ölçme aracından, ölçme yönteminden, ölçmenin yapıldığı ortamdan ve ölçülen bireyin bu koşullarla etkileşiminden ileri gelebilir (Tekin, 1982). Bu yüzden sonuçların güvenirliğini etkileyecek bu hata kaynakları göz önünde bulundurmak gerekmektedir.

(28)

Bilindiği üzere psikolojik özellikler soyut yapılar oldukları için doğrudan gözlenip ölçülememektedir (Payne & Gwynne, 1957). Bu nedenle; ölçme sonuçlarına karışan hata miktarının incelenmesi önem taşımaktadır. Ölçme sonuçlarına karışan üç tür hatadan söz edilmektedir. Bunlar; a) sabit hata, b) sistematik hata ve c) seçkisiz (tesadüfi) hatadır (Baykul, 2010; Crocker & Algina, 1986; Turgut,1990).

Bir ölçme aracındaki sabit hata bireysel ölçümleri ve o ölçümlerin ortalamasını gerçekte olduğundan büyük ya da küçük gösterebilir, fakat ölçümlerin standart sapma, varyans gibi dağılım ölçülerini değiştirici yönde bir etkiye sahip değildir (Tekin, 1982). Çünkü sabit hatada her bir ölçüme karışan hata miktarı eşittir. Ölçülen özelliğe, ölçmeyi yapan bireye veya ölçme koşullarına bağlı olarak miktarı değişen hatalara ise sistematik hata denmektedir (Turgut, 1990). Sistematik ölçme hataları kişisel sebeplerden veya ölçülen yapıyla ilgisi olmayan özelliklerinden kaynaklanan hata türleridir ve dağılım ölçülerini değiştirici yönde bir etkiye sahiptirler. Son olarak seçkisiz -tesadüfi- hatalar ise kaynağı bilinmeyen, ölçme sonuçlarına gelişigüzel karışan ve ölçmeyi ne yönde etkilediği yordanamayan hatalardır. Cevabı tahmin etme şansı, testin uygulandığı ortamdaki dikkat dağıtıcı faktörler, testin uygulanmasındaki hatalar, puanlayıcı hataları ve bireyin durumundaki değişimler bu hataya örnek olarak verilebilir (Croker & Algina, 1986).

Ölçümlere karışan hata miktarı doğrudan hesaplanamadığı için ölçme aracından elde edilen ölçümlerin güvenirliğinin incelenmesi yoluyla hataya ilişkin bilgiler sağlanabilmektedir. Ölçümlerin çok fazla hata içermesi (güvenilir olmayan ölçümler) hatalı değerlendirmeler yapmaya ve hatalı kararlar almaya yol açmaktadır. Bu nedenle ölçme aracını geliştiren ve uygulayan bireylerin ölçme aracından elde ettikleri ölçümlerin güvenirliğini incelemeleri gerekmektedir. KTK’da güvenirlik katsayısı, gerçek puan varyansının gözlenen puan varyansına oranı olarak tanımlanmaktadır (Crocker & Algina, 1986; Tekin, 1982). Bu noktada bireylerin gerçek puanlarını bilemediğimiz için bu eşitlik teoride var olup pratikte uygulanamamaktadır. Bu durum araştırmacıları güvenirlik kanıtlarını elde edebilecekleri yöntemler aramaya sevk etmiştir. Crocker ve Algina (1986) bu yöntemleri birden çok uygulayamaya dayalı ve tek uygulamaya dayalı yöntemler olmak üzere iki kısımda ele almıştır.

Birden çok uygulamaya dayalı güvenirliğe ilişkin kanıtlar elde etme yöntemleri arasında test tekrar test yöntemi ve paralel formlar yöntemi yer almaktadır. Aynı ölçme aracının farklı zamanlarda aynı bireylere aynı koşullar altında tekrarlı bir şekilde uygulanması ile elde edilen puanların karşılaştırılmasına dayanan yöntem test tekrar test yöntemi olarak

(29)

bilinmektedir. Eşdeğer iki ölçme aracının (test formunun) aynı gruba aynı zamanda ya da kısa süreli aralıklarla uygulanması sonucu elde edilen puanların karşılaştırılmasına dayanan yöntem ise paralel (eşdeğer) formlar yöntemi denmektedir. Bu iki yöntemde de elde edilen puanlar arasındaki ilişki kararlılık bağlamında incelenir. Tek uygulamaya dayalı yöntemler arasında ise eş değer yarılar yöntemi, Cronbach α formülü, KR-20 ve KR-21 formülleri yer almaktadır. Tek uygulamaya dayalı bu yöntemlerde ölçme aracında bulunan maddelerden elde edilen puanların tutarlılığına bakılmaktadır yani bunlar iç tutarlığa dayalı yöntemlerdir (Crocker & Algina, 1986, s. 122).

Ölçmenin standart hatası KTK’de güvenilirliğin kestiriminde ilgilenilen bir diğer kavramdır. Bireyin gözlenen puanındaki hata miktarını tam olarak belirlemek mümkün olmamasına rağmen KTK bireyin gözlenen puanlarının gerçek puanından ne kadar farklılaştığını hesaplamak için bir yöntem sağlamaktadır. KTK da bireyin gerçek puanı bireyin birçok kez girmiş olduğu tekrarlı testlerden aldığı notların ortalaması olarak düşünülmektedir. Teoride her bir bireyin gerçek puanı etrafında olası gözlenen puanların bir standart sapması vardır. Grup içindeki bu bireylerin standart hata varyanslarının ortalaması alındığında ölçmenin standart hatası elde edilmektedir (Crocker ve Algina, 1986, s. 122).

Anlaşılmaktadır ki bir ölçmenin standart hatası güvenirlik ve standart sapma ile ilişkilidir. Ölçmenin standart hatası ne kadar büyükse ölçmede aynı oranda hata olduğu ve dolayısıyla güvenirliğinin de aynı oranda düştüğü ifade edilmektedir.

Güvenirlik hesaplama yöntemleri ölçme sonuçlarımızın ne kadar güvenilir olduğuna ilişkin kanıtlar bulmak için yapılmaktadır; çünkü ölçme sonuçlarının niteliği bireyler ile ilgili yapılan değerlendirmelerin doğruluğuna etki ettiğinden güvenilir ölçme puanları elde etmek önem arz etmektedir. Güvenilir ölçme sonuçları, yani yüksek güvenirlik katsayıları elde etmek için ise ölçme sonuçlarına karışan hata miktarının minimum düzeyde tutulmasının gerekliliği net bir şekilde anlaşılmaktadır. Bu hata miktarının minimum düzeyde tutulabilmesi için ise ölçmede hatalara neden olabilecek kaynakların anlaşılması, bu hataların en başından azaltılması büyük öneme sahiptir (Viswanathan, 2005, s. 135). Bu çalışmada yazma becerisinin ölçülmesinde el edilen puanların güvenirliği incelenmektedir. Bu bağlamda yazma performansının ölçülmesinde puanlara karışabilecek hataların neler olabileceği bilinmelidir.

Puanlarda değişkenliğe neden olan bu hata kaynaklarından en önemlilerinden biri puanlayıcıdır (Lumley & McNamara, 1995). Puanlayıcıdan kaynaklanan ölçme hataları ölçme araçlarının güvenirliğine etki eden önemli bir etmendir. Myford ve Wolfe (2003) puanlamanın puanlayıcının gözlemlerinden, yorumlarından ve kişisel

(30)

değerlendirmelerinden etkileneceği için objektiflikten uzaklaşabilen bir süreç olduğunu belirtmiştir. Puanlayıcının puanlamadaki yumuşaklığı ya da sertliği, puanlayıcının performansa ortalama puan verme eğilimi ve puanlayıcının farklı zamanlarda değişiklik gösteren puanları puanlama hatasına neden olan durumlardır (Coffman, 1971). Bu tür durumlarda bir bireyin performansı birden fazla puanlayıcı tarafından puanlanmaktadır. Bu puanların güvenilirliğine ilişkin kanıtlar farklı puanlayıcıların vermiş oldukları bu puanlar arasındaki ilişkinin incelenmesi yoluyla elde edilmeye çalışılmaktadır. Bu çalışmada yazma becerisinin ölçülmesinde puanlayıcılar arası güvenirlik inceleneceğinden puanlayıcılar arası güvenirlik ve bu güvenirliği inceleme yöntemleri ayrı bir başlık altında ele alınarak aşağıda açıklanmıştır.

Puanlayıcı Güvenirliği ve İnceleme Yöntemleri

Puanlayıcı güvenirliği birden fazla puanlayıcının vermiş olduğu puanlar arasındaki tutarlılık olarak ifade edilmektedir (Crocker & Algina, 1986). Farklı puanlayıcıların aynı yazma performansını farklı şekilde puanlaması ölçmede istenmeyen durumlardan biridir (Casanave, 2004, s. 124). İki farklı puanlayıcının bir yazma performansına verdikleri puanlar konusunda farklılaşması yazma performansına ilişkin elde edilecek puanın doğruluğuna (güvenirliğine) gölge düşürecektir (Casanave, 2004, s. 124). Bu nedenledir ki puanlayıcıların yazma performansına vermiş oldukları puanlar arasındaki uyumun yani puanlayıcı güvenirliğinin yüksek olması istenen bir durumdur. Dahası, yazma performansının değerlendirilmesiyle bireye verilen geri dönütler; bireyin yazma becerisinde kendini değerlendirip eksiklerini görmesine yardım edeceğinden (Hyland, 2003, s.179; Keh, 1990) etkili bir yabancı dil öğretiminde yazma becerisi ve öğrencinin yazma becerisinin hatasız bir şekilde ölçülüp değerlendirilmesi önem arz etmektedir.

Literatürde (Engelhard 1994; Kondo-Brown, 2002; Eckes, 2005; Hetherman, 2004; Huang, 2008, 2011) puanlayıcı güvenirliği inceleme yöntemlerine bakıldığında farklı yöntemlerin kullanıldığı görülmektedir. Farklı puanlayıcıların vermiş oldukları puanlar arasındaki ilişki Pearson korelasyon katsayısı hesaplanarak ortaya konmaktadır. Sadece iki puanlayıcı olması durumunda t-testi birden fazla puanlayıcının olması durumunda ise varyans analizi tekniği kullanılarak puanlayıcı güvenirliğine ilişkin kanıtlar elde edilmeye çalışılmaktadır (Goodwin, 2001). Benzer şekilde puanlayıcı performansı ve puanlayıcılar arasındaki uyum Kappa katsayısı, Pearson katsayısı ve Kendall’ın tau-B değerleri ile de yorumlanabilmektedir (Davey, Gugiu & Coryn, 2010).

(31)

Lumley ve McNamara (1995) da yapmış oldukları çalışmada test puanlarındaki değişkenliğin puanlayıcı faktörüyle ilişkisinin büyük ve geniş çaplı olduğu gerçeğinin uzun bir süredir (en az bir yüzyıldır) bilindiğini belirtmiştir. Benzer olarak Shohamy, Gordon ve Kraemer (1992) da birçok puanlayıcının profesyonel öz geçmişi ve eğitimi gibi faktörlerin yazma görevlerinin puanlanmasına dolayısıyla hata puanına etki edebileceğini belirtmiştir. Özellikle ikinci dilde yazma performanslarının değerlendirilmesinde puanlayıcıdan kaynaklı hatanın araştırılmasında klasik test teorisine (classical test theory, CTT) dayalı yöntemler, genellenebilirlik yaklaşımına (G-theory approach) dayalı yöntemler ve Rasch (multiple facet Rasch approach) yaklaşımına dayalı yöntemlerle karşılaşılmaktadır (Hetherman, 2004; Huang, 2008, 2011). Literatüre (Engelhard 1994; Kondo-Brown, 2002; Eckes, 2005) bakıldığında performans değerlendirmelerinde puanlayıcı değişkeninin puanlar üzerindeki etkisinin incelendiği çalışmalarda Rasch yaklaşımının kullanıldığına sıklıkla rastlanılmaktadır. Benzer şekilde puanlardaki puanlayıcıdan kaynaklı değişkenliğin genellenebilirlik kuramı ile de incelendiği görülmektedir (Barkaoui, 2007; Elorbany & Huang, 2012; Stuhlmann vd., 1999).

Puanlayıcı güvenirliği inceleme yöntemlerinden en sık kullanılanlardan biri genellenebilirlik kuramına dayalı yöntemlerdir. Güvenirlik gözlenen puanlardaki tutarlılık ve tutarsızlığı rasyonel olarak ortaya koyan bir özelliktir ve genellenebilirlik kuramı da gözlenen puanlarda oluşan ya da oluşma ihtimali olan bu tutarsızlığın kaynağını/kaynaklarını belirlemede kullanılan bir teoridir (Brennan, 2011). KTK’da tüm hata kaynakları tek bir hata terimi üzerinde toplanırken, Genellenebilirlikte tüm hata kaynakları ayrı ayrı incelenebilmekte, ayrıca bu hata kaynaklarının birbiriyle etkileşiminden kaynaklanan diğer hatalar da göz önüne alınabilmektedir. Ayrıca Genellenebilirlik teorisi sadece hata kaynaklarını belirlemek için kullanılmamakta aynı zamanda bu hata kaynaklarının benzer tüm örnekleme etkisinin aynı anda incelenmesine de imkân sağlamaktadır (Huang, 2011).

Genellenebilirlik kuramında X, gözlenen puan;

μ

p, evren puanı olup tekrarlanan ölçümlerden

elde edilen gözlenen puanların beklenen değeridir ve KTK ‘daki gerçek puana benzer bir kavramdır; E ise araştırmacının ilgilendiği ve ölçmenin yüzeylerini etkili bir şekilde açıklayan hata kaynaklarını ifade etmektedir.

X =

μ

p + E1 + E2 + E3 +… E∞ (Eşitlik 2)

Genellenebilirlik teorisinde ölçme durumları yani ölçme sonuçlarına etkileyecek değişkenler yüzey (facet) olarak adlandırılırken, tüm koşullar altında ölçülerek elde edilecek ölçümlerin

(32)

tümü ise evren (universe) olarak tanımlanmaktadır (Crocker & Algina, 1986). Kuramda genelleme (G) çalışması ve karar (D) çalışması olmak üzere iki çalışma uygulanabilmektedir. (G) çalışması ölçüm örnekleminin ölçüm evrenine genellenebilmesi çalışması olarak ifade edilmektedir. Genelleme çalışmalarına; aynı testin istikrarlı sonuçlar verip vermemesi, bir veya daha fazla araçla elde edilen sonuçların eşit olup olmaması, alt ölçek puanları ve ölçekteki maddeler arasındaki ilişkinin olup olmaması ile ilgilenen araştırmalar örnek olarak gösterilmektedir (Crocker & Algina, 1986). (D) çalışması ise belirli bir konuda karar vermek için toplanmış verileri ifade etmektedir ve deneydeki grupların karşılaştırılması, bireylerin değerlendirilmesi veya değişkenlerin birbiriyle ilişkisinin incelemesi gibi süreçleri kapsamaktadır (Crocker & Algina, 1986). Araştırmada puanlara etki eden değişkenlerin (yüzeylerin) tanımlanıp bu değişkenlerin puanlara karıştırdıkları hata miktarının belirlenmesi için G çalışması uygulanırken; bu çalışma ile elden edilen bilgiler daha sonra D çalışmasında, G katsayısının ve güvenirlik indekslerinin kestiriminde kullanılır (Brennan, 2001). Dolayısıyla farklı (D) çalışmaları için yine farklı (G) çalışmalarına ihtiyaç duyulmaktadır ve (G) çalışmaları araştırmada yer alabilecek tüm değişkenleri, (D) çalışmaları için göz önünde bulundurmalıdır. G katsayısı bireyin ölçülen yeteneği açısından gerçek puanı ile gözlenen puanının birbirinden ne kadar farklılaştığını belirten hata puanı ile hesaplanırken; güvenirlik indeksleri (dependability indices) mutlak hata terimi ile hesaplanır ve gözlenen puanın güvenirliğin derecesini yansıtır. (Lynch & McNamara, 1998, s. 167).

Genellenebilirlik kuramına dayalı çalışmalara bakıldığında (Aktaş, 2013; Huang, 2011; In’nami & Koizumi, 2016; Stuhlmann, Daniel, Dellinger, Denny & Powers, 1999) puanlayıcı güvenirliğinin G katsayısı ile incelendiği görülmektedir.

Puanlayıcı güvenirliği inceleme yöntemlerinden bir diğeri ise Çok Yüzeyli Rasch Modellemedir (Multi-Facet Rasch Model, MFRM) (Linacre, 1994). İki veya daha fazla puanlayıcının puanlamaları arasındaki değişkenliği, puanlama yumuşaklığı/sertliği, bağlamında inceleyen yöntemlerdendir. MFRM’de her bir yüzeyin etkisi bir bütün olarak ele alınmanın yanısıra birbirlerinden bağımsız olarak da incelenebilmektedir (Myford & Wolfe, 2003). Başka bir ifadeyle puanlayıcıların puanlamada sertlik bakımından farklılaşıp farklılaşmadığının yanı sıra hangi puanlayıcının bireysel olarak nasıl bir farklılık gösterdiği bilgisine de ulaşılabilmektedir. Bu da puanlayıcıların doğrudan karşılaştırılmalarına imkân sağlamaktadır. Ayrıca, uyum istatistikleri (fit statistics) her bir puanlayıcının bireysel olarak puanlamayı ne kadar tutarlı yaptığı bilgisini araştırmacıya sunmaktadır (Linacre, 1994;

(33)

Stembler & Tsai, 2014). Başka bir ifadeyle uyum istatistiği, puanlayıcının her bir puanlamada puanlama anahtarındaki göstergelere kendi algısına bağlı kalarak aynı tutarlılıkla puanlayıp puanlayamama gücünü ortaya koymaktadır. MFRM ile ilgili bilinmesi gereken bir diğer özellik ise MFRM’nin örtüşen araştırma modeline (overlapping research design) uygunluğudur (Linacre, 1994; Stembler & Tsai, 2014). Bu birden fazla puanlayıcının yer aldığı bir araştırmada ayrı ayrı her bir puanlayıcının tüm yazma performanslarını değerlendirmesine ihtiyaç duyulmadığı anlamına gelmektedir.

Puanlayıcının puanlamadaki sertliği, yazma görevinin zorluğu, adayın becerisi gibi birçok durum performans puanlarına etki etmekte ve hata olarak yansımaktadır. Multi-Facet Rasch Modellemede bu etkenler yüzey olarak ele alınmaktadır. Böylece puanlamaya etki eden bu değişkenlik kaynakları belirlenip yorumlanabilmektedir. MFRM ile ilgili yapılmış çalışmalarda (Eckes, 2012; Jonathan, Janssen & Meier, 2010; Knoch, 2009; Lumley & McNamara, 1995; Matsuno, 2009; McQueen & Congdon, 1997) yazma, konuşma gibi becerilerin puanlamasına etki eden puanlayıcı yanlılığının incelendiği görülmektedir. Çalışmalarda puanlara etki eden, puanlayıcı ve puanlama anahtarı gibi değişkenler incelenirken; puanlayıcının puanlama konusunda eğitim alıp almaması, puanlayıcının tecrübesi gibi durumlarda yüzey yani ölçme koşulları olarak ele alınıp incelenebilmektedir. Puanlayıcılar arası güvenirliğin incelenmesinde kullanılan kuramsal dayanaklardan bir diğeri ise ölçme değişmezliğidir. Örgütsel araştırma alanında iş performansının farklı puanlayıcılar arasında puanlanmasında ölçme değişmezliği kullanılmıştır (McGill, van der Vleuten & Clarke, 2015). Psikoloji ve işletme alanında (Gower, 2012) ölçme değişmezliği bağlamında puanlayıcılar arası güvenirliğin incelenmesine rağmen eğitim alanında yazma becerilerinin ölçülmesinde puanlayıcılar arası güvenirliğin ölçme değişmezliğine dayalı olarak araştırıldığı bir çalışma ile karşılaşılmamıştır. Bu yönü çalışmanın özgün yanını oluşturmaktadır. Bu çalışmada puanlayıcılar arası güvenirlik ölçme değişmezliğine dayalı olarak incelendiğinden aşağıda ölçme değişmezliği daha ayrıntılı olarak açıklanmaktadır.

Ölçme Değişmezliği

Ölçme değişmezliği, iki veya daha fazla grupta işevuruk olarak tanımlanmış belirli bir yapı için karşılık gelen ölçüm parametrelerinin matematiksel eşitliği olarak ifade edilmektedir (Little, 1997). Ölçme değişmezliğini Kelcey, McGinn ve Hill (2014) ise gizil bir değişken ve göstergeleri arasındaki ilişkinin gözlemlerin (puanların) hangi gruptan elde edildiğine

(34)

bağlı olarak değişmemesi durumu olarak ifade etmektedir. Başka bir ifade ile aynı ölçeğin farklı gruplara uygulanması ile elde edilen gözlemlerin gruplar arasında benzer yapı örüntüsünün sergilenip sergilenmediği durumdur.

Alan yazına bakıldığında (Reise, Widaman & Pugh, 1997) ölçme değişmezliği çalışmalarının temelde MTK ve DFA olmak üzere iki yaklaşım doğrultusunda ele alındığı görülmektedir. DFA modelleri ölçekte yer alan göstergeler arasındaki kovaryansı açıklarken; MTK modelleri bireyin ölçekte yer alan göstergelere verdiği cevapları açıklamaktadır. Her iki yaklaşımın odak noktası aynı olmasına rağmen, teknik olarak farklılaşmaktadırlar. Yapılan çalışmada puanlayıcıların puanlama ölçeği üzerinden göstergelere vermiş oldukları puanların psikometrik özellikleri inceleneceğinden ÇGDFA uygulanmıştır.

Bu çalışmada ölçme değişmezliği veriler en az sınırlama konulan modelden en fazla sınırlanma konulan modele doğru giden yöntem ile beş adımda incelenmektedir;

1- Şekilsel değişmezlik (configural invariance) 2- Metrik değişmezlik (metric invariance) 3- Ölçek değişmezliği (scalar invariance) 4- Değişmez özgüllük

5- Faktör varyanslarının değişmezliği (Vandenberg ve Lance, 1998)

Ölçme değişmezliği aşamalarından ilki şekilsel değişmezliktir. Şekilsel değişmezliğin test edilmesi aşaması ölçme değişmezliğinin en temel aşamasıdır; çünkü gruplar arasında test edilen modelin veriye uyum sağlamaması diğer aşamaların uygulanamayacağının bir göstergesidir (Bollen, 1989). Bu aşamada, test edilen hipotez, ölçme modelinin faktör yapısının puanlayıcılar arasında değişmez olduğudur. Cheung ve Rensvord (2002) modelde ele alınan yapıların ve bu yapıların kendi göstergeleri ile ilgili ilişkisinin gruplar arasında uyumlu olması durumu olarak ifade etmektedir. Bu uyum parametreleri, puanlayıcılar arası faktör yüklerine λ, gösterge sabit değerlerine τ ve özgül varyans değerlerine herhangi bir eşitlik sınırlaması konulmaksızın ölçme modelinin veriye uyum düzeyinin incelenmesi yoluyla elde edilmektedir. Gruplar arasında eldeki verinin şekilsel olarak (faktör yük sayısı ve yükleme örüntüsü) modele uyumunun test edildiği aşamadır. Şekilsel değişmezliğin sağlanamaması gruplarda farklı yapıların ölçüldüğü anlamına geldiği için diğer ölçme değişmezliği testlerinin yapılması anlamlı olmayacaktır. Bundan dolayı ölçme değişmezliği testlerinin uygulanabilmesi için şekilsel değişmezlik ön koşuldur (Brown, 2015,s. 246; Grevenstein & Bluemke, 2017).

(35)

Ölçekte şekilsel değişmezliğe ilişkin kanıt elde edilse bile, ölçekteki yapılar ve bu yapıların maddeleri arasındaki ilişkinin gücü anlamında gruplar arasında farklılaşma olabilmektedir. Ölçme değişmezliğinin ikinci aşamasında şekilsel değişmezliğe ilişkin kanıtlar sağlandıktan sonra, metrik değişmezliğe yani faktör yüklerinin (λ) gruplar arasında değişmez olduğuna ilişkin kanıtlar incelenmektedir. Modele ilişkin göstergelere ait regresyon eğimlerinin yani faktör yüklerinin puanlayıcılar (gruplar) arasında eşit olduğu anlamına gelmektedir. Başka bir ifade ile puanlayıcıların göstergeleri benzer şekilde puanladığı anlamına gelmektedir. Gruplar arasındaki bu benzerliğin yani ilişkinin gücünü metrik değişmezlik ile ortaya konmaktadır. Bu durumun desteklenmesi ölçekteki gösterge tanımlarının gruplar arasında benzer bir şekilde anlaşıldığı anlamına gelmektedir.

Bu araştırmada metrik değişmezlik her üç puanlayıcının da dilin kullanımı ve performans görevi boyutlarına ait göstergeleri benzer şekilde anlayıp anlamadığı anlamına gelmektedir. Faktör yükü, gösterge ve göstergeyi açıklayan faktör arasındaki ilişkinin gücünü ortaya koyan bir değerdir. Buna yönelik olarak, ölçme modelinde yer alan maddelere ilişkin faktör yüklerinin puanlayıcılar (gruplar) arasında sabit olduğu sınırlaması konulup model test edilmektedir. Modelin veri ile uyumlu çıkması durumunda, metrik değişmezlikten elde edilen uyum değerleri ile şekilsel değişmezlikten elde edilen değerler birbiriyle karşılaştırılmaktadır. Metrik değişmezliğe ilişkin kanıt elde edilmesi puanlayıcılar arasında puanlama anahtarında tanımlanan becerinin düzeylerinin benzer şekilde algılandığı ve bu yeteneğin düzeylerinde farklılaşma olmadığı anlamına gelmektedir.

Metrik değişmezlik uyum düzeyi elde edildikten sonraki aşama ölçek değişmezliğidir. Ölçek değişmezliği için modelde metrik değişmezlik için konulan sınırlandırmalara ek olarak madde (gösterge) sabit (intercept) değerlerinin de gruplar arasında değişmez olduğu şeklindeki hipotez test edilmektedir. Madde sabit değeri, bir ölçmenin başlangıç noktası olan tau (τ) değerini ifade etmektedir. Ölçek değişmezliğinin sağlanması madde sabit değerlerinin birbirine yakınlığına işaret etmektedir. Puanlayıcılar tarafından verilen bu puanların grup ortalamalarının karşılaştırılabilmesi için ölçümlerin orijinlerinin eşit olması yani ölçek değişmezliğinin sağlanması gerekmektedir. Ölçek değişmezliğinden elde edilen model uyumu değerleri ile bir önceki aşama olan metrik değişmezliği uyum değerleri karşılaştırılmaktadır. Ölçek değişmezliğinden elde edilen model uyum değerlerinin daha kötü bir uyum yansıtmadığı takdirde bir sonraki adım olan değişmez özgüllük aşamasına geçilebilmektedir.

(36)

Değişmez özgüllük aşamasında ise faktör yüklerinin ve intercept değerlerinin gruplar arasında eşit olduğu sınırlandırılmasına ek olarak hata varyansları da sınırlandırılmaktadır. Hata varyansı, gizil değişken varyansının onunla ilişkili olan madde varyansı tarafından açıklanamayan kısmı olarak ifade edilmektedir (Cheung & Rensvold, 2002). Hata varyansının gruplar arasındaki eşitliği, göstergelerin ilgili gizil yapıyı aynı miktarda hata karıştırarak ölçmesi anlamına gelmektedir. Değişmez özgüllüğe ilişkin kanıt sağlanamaması genelde ölçeğin uygulandığı grupta ölçeğe ya da puanlama şekline aşina olmama ve ya ölçekte geçen kelime ya da duruma yabancı kalmak gibi nedenlere bağlı olabilmektedir. Bu değişmezlik testi hata varyansının (değişmez özgüllük) gruplar arasında aynı olduğunu savunan, elde edilmesi kolay olmayan bir değişmezliktir. Elde edilen uyum değerleri bir önceki (ölçek) model uyum değerleri ile karşılaştırılıp daha kötü bir uyum sergilemediğine dair kanıt elde edilmesi durumunda faktör varyanslarının değişmezliği test edilebilmektedir. Faktör varyanslarının değişmezliği testi ise gruplar arasında faktör varyanslarının değişmediği yani gruplar arasında eşit olduğu hipotezine dayanmaktadır (Vanderberg & Lance, 2000). Bu durum yapının boyutlarının puanlayıcılar arasında eşit ranjlarda puanlanıp puanlanmadığı bilgisini sağlamaktadır.

Bazı parametrelerin gruplar arasında değişkenlik gösterdiği durumda ölçme değişmezliğinin daha zayıf formu olan kısmi ölçme değişmezliği uygulanabilmektedir. Şekilsel değişmezliğe ilişkin kanıt elde edildikten sonra tam metrik değişmezliğinin sağlanamaması durumundan bir sonraki ölçme değişmezliği aşamasının test edilebilmesi için en azından kısmi metrik ölçme değişmezliğinin sağlanması gerekmektedir (Vanderberg & Lance, 2000). Bu durum diğer ölçme değişmezliği aşamaları için de geçerlidir.

Kısmi değişmezlik testleri, hangi faktör yüklerinin ya da madde sabitlerinin gruplar arası farklılaştığının ortaya konması amacıyla kullanılmaktadır (Schoot, Lugdig & Hox, 2012). Kısmi değişmezliğin uygulanmasında değişmezliğin incelendiği aşama doğrultusunda faktör yük değerleri ya da madde sabit değerlerinin yüksek olanları incelenmektedir. Örneğin, kısmi ölçek değişmezliği uygulanacaksa madde sabit değerleri incelenmektedir. Ölçekte en büyük farka sahip madde sabiti belirlendikten sonra, bu madde sabitine ait parametre gruplar arası serbest bırakılıp geride kalan madde parametreleri gruplar arasında eşitlendikten sonra model uyumu incelenmektedir (Schoot, Lugdig & Hox, 2012). Elde edilen kısmi ölçek değişmezliğine ait χ2_{değeri ile}bir önceki ölçme değişmezliği (tam ölçek değişmezliği)

aşamasından elde edilen χ2 değeri arasındaki fark incelenmektedir. Bu farkın manidar

(37)

Bu farkın manidar çıkması durumunda ise başka bir madde parametresi daha serbest bırakılarak model test edilmektedir. Bu durum kısmi ölçek değişmezliğinin sağlanmasına mani olan maddenin tanımlanmasına kadar devam etmektedir.

Puanlayıcılar Arası Güvenirliğin Ölçme Değişmezliği Bağlamında İncelenmesi

Puanlayıcılar arası güvenirliğin ölçme değişmezliği ile incelenmesi puanlama ile ilgili bize daha detaylı bilgi sağlaması açısından önem arz etmektedir. Ölçme değişmezliğinin her aşamasında farklı bir yoruma ulaşılabilmektedir. Bu çalışmada şekilsel değişmezliğe ilişkin kanıt aranması paragraf yazma becerisini ortaya koyan model yapısının puanlayıcılar arasında aynı olup olmadığına dair kanıt elde edilmeye çalışılması anlamına gelmektedir. Paragraf yazma becerisine ilişkin gizil/örtük yapının puanlayıcılar arasında değişip değişmediği ve puanlayıcıların göstergeleri benzer bir kavramsal bakış açısıyla puanlayıp puanlamadığı yorumuna ulaşılabilmektedir. Metrik değişmezlik ile puanlayıcılar arasında faktör yüklerinin değişip değişmediği ve bu şekilde ölçülen özellikle ölçeğin boyutları arasındaki ilişinin benzer olup olmadı incelenebilmektedir. Ölçek değişmezliği ile göstergelere ait regresyon denklemindeki τ (tau) değerlerinin puanlayıcılar arasında benzer olup olmadığına ilişkin kanıt elde edilebilmektedir. Bu duruma ilişkin kanıt elde edilmesi puanlayıcılardan elde edilecek puanların ortalamalarının karşılaştırılmasının anlamlı olduğuna işaret etmektedir. Gözlenen değişkenlerdeki ortalama farklılığın puanlayıcılardan kaynaklanmayıp öğrencilere ait gizil yapıdaki farklılıktan kaynaklandığı anlamına geleceği belirtilebilmektedir. Değişmez özgüllük aşamasında ise puanlayıcıların puanlama anahtarında yer alan göstergeleri puanlarken puanlamaya karışan hata terimlerinin puanlayıcılar arası farklılaşıp farklılaşmadığı test edilebilmektedir. Son olarak faktör varyanslarının değişmezliği ile puanlayıcılar arasında faktör varyanslarının benzer olup olmadı incelenebilmektedir.

Ölçme değişmezliğinin bu açılardan sağlayacağı bilgiler doğrultusunda yabancı dilde yazma becerisinin puanlanmasında puanlayıcılar arası güvenirlik bu boyutlardan ele alınıp araştırılabilmektedir.

(38)

Araştırmanın Amacı

Bu çalışmada yabancı dilde yazma becerilerinin ölçülmesinde çok gruplu DFA tekniği ile puanlayıcılar arası güvenirliğin incelenmesi amaçlanmıştır. Bu temel amaç doğrultusunda yabancı dilde yazma becerisine ilişkin puanların psikometrik nitelikleri puanlayıcılar arası farklılaşıp farklılaşmadığı incelenmiştir. Yazma becerisi, dilin kullanımı (use of language) ve görev performansı (task achievement) olarak iki boyutta ele alınmıştır. Bu kapsamda yapılmış olan bu çalışmada; farklı puanlayıcılar aynı performans boyutlarına dayalı olarak çalışma grubundaki öğrencilerin yazma becerilerini puanlamada;

1. Performansın aynı boyutlarını mı kullanmaktadırlar? 2. Aynı ölçme birimlerini mi kullanmaktadırlar?

3. Performansın aynı başlangıç düzeyini mi kullanmaktadırlar? 4. Puanlama işlemine aynı miktarda mı hata karıştırmaktadırlar?

5. İlgili yapı boyutlarının eşit ranjlarını (continuum) mı kullanmaktadır? sorularına cevap aranmıştır.

Araştırmanın Önemi

Çalışmanın temelinde yer alan yabancı dilde paragraf yazma becerisinin ölçülmesinde puanlayıcılar arası güvenirliğin ölçme değişmezliği bağlamında ÇGDFA ile incelenmesi çalışmanın odak noktasıdır.

Yazma becerisinin önemi ve bu becerinin değerlendirilmesi 20.yy başlarından beri hiçbir test puanının mükemmel derecede güvenilir olmayacağından dolayı araştırmacıların ilgilendiği önemli bir alan olmuştur (Greenberg, 1992). Güvenilir sonuçlar elde edilememesinin çeşitli nedenleri vardır. Değerlendirilen bireyin hastalık, uykusuzluk gibi bireysel durumdaki değişkenlikler, sınav ortam ve yönetimindeki tutarsızlıklar herhangi bir ölçme durumuna karışabilecek hata kaynaklarındandır. Bu hata kaynakları önceden alınacak birkaç tedbirle kontrol altına alınabilirken; puanlayıcıların puanlamada sergiledikleri tutumlar (sertlik ve yumuşaklık), puanlayıcıların demografik özellikleri ve puanlayıcıların bilişsel değişkenlikleri ve puanlayıcılar arası değişkenlikler gibi faktörler öznel durumlar olmasından dolayı kontrol edilmeleri çok daha güç olmaktadır (Antonioni ve Park, 2001). Bundan dolayıdır ki performans değerlendirmelerinde puanların güvenirliği bu durumundan ciddi bir şekilde etkilenmektedir. Puanlamaya karışan bu hata kaynağının kontrol altında