• Sonuç bulunamadı

2.5. Ölçme Kavramı ve Özellikleri

2.5.1 Ölçme Araçlarının Özellikleri

Eğitim sistemi içerisinde ölçme araçları (test, ölçek, envanter, form vb.) sıklıkla kullanılır. Bir ölçme aracında bulunması gereken özellikler, geçerlik, güvenirlik, yanlılık ve kullanıĢlılıktır (Bahar, Nartgün, DurmuĢ ve Bıçak, 2010). AĢağıda bu

çalıĢmanın amaçları doğrultusunda ölçme araçlarının geçerlik ve güvenirlikleri hakkında kısa açıklamalara yer verilmiĢtir.

2.5.1.1 Geçerlik

Geçerlik, bir ölçme aracının amaca hizmet etme derecesi olarak tanımlanabilir. Geçerlik aynı zamanda ölçme aracının ölçmeye çalıĢtığı özelliği baĢka özelliklere karıĢtırmadan ölçebilme derecesidir (Bahar vd., 2010). Bir testin, belli özellik ya da özelliklerin geçerli bir ölçüsü olabilmesi için, onun, söz konusu özellik ya da özellikleri tutarlı biçimde ölçmesi de gerekmektedir. Bu nedenle güvenirlik, geçerliğin önemli bir parçasıdır. Bir test, geçerli olmak için güvenilir olmak zorundadır (Tekin, 2000).

Bir ölçme aracında güvenirliğin yüksek olması, araç hangi özelliği ölçüyorsa onu ölçtüğüne bir kanıttır. Ancak bu kadarlık bir bilgi, ölçme aracının baĢka bir özelliği değil de bizim ölçmek istediğimiz özelliği ölçen bir araç olduğunu göstermez. Çünkü böyle bir ölçme aracı, önce de belirtildiği gibi, baĢka bir özelliği ölçtüğü için de kararlı, yani güvenirliği yüksek olabilir. Ancak güvenirliği yüksek olan bir ölçme aracının, aynı zamanda bizim ölçmek istediğimiz özelliği ölçen bir ölçme aracı olduğunun da gösterilmesi gerekir. Yukarıda, güvenirlik ve geçerlik gibi iki kavramla karĢılaĢmıĢ olmamızın nedeni budur (Özçelik, 1997, s.114).

Geçerlik, bir ölçme aracı olarak testin ölçme amacını güttüğü özellikle ilgili

farkları ortaya koyabilme gücünün bir ölçüsü (Bloom, 1995, s.346); bir testin, ölçülmesi istenen özelliği ya da özellikleri gerçekten ölçebilme niteliği (Oğuzkan, 1993, s.58) olarak tanımlanmaktadır. BaĢka bir ifadeyle, bir ölçme aracının ölçmek istenilen özelliği ölçme derecesine onun bu özelliği ölçmedeki geçerliği denir (Özçelik, 1997, s. 114).

Terminolojide farklı geçerlik türlerine rastlansa da çoğu bilim adamlarınca kabul gören geçerlik türleri aĢağıdaki gibidir. (Oğuzkan, 1993; Özçelik, 1997; Turgut, 1997; Baykul, 2000).

• Kapsam Geçerliği (Content Validity) • Yordama Geçerliği (Predictive Validity)

• Yapı Geçerliği (Construct Validity)

2.5.1.1.1 Kapsam Geçerliği

Bir testte bulunan soruların, kapsanılması öngörülen ders programı ya da çalıĢma sonuçlarını içerme derecesine “kapsam (konu) geçerliği” denir (Oğuzkan; 1993, s.80). BaĢka bir ifadeyle; bir ölçme aracının kapsamı, onun geçerliğini yükseltecek biçimde seçilebilir. Hazırlanması bitmiĢ bir aracın da, kapsamına ve içeriğine bakılarak geçerliği kestirilebilir. Ölçme araç ve yöntemlerinin kapsamlarına ve içeriklerine bakılarak varılan geçerlik yargılarına “kapsam geçerliği” denir (Turgut, 1997, s.39).

Eğitimde kullanılan yazılı-sözlü yoklama ya da test gibi farklı ölçme araçları hazırlanırken öncelikle “test planı” yapılmalıdır. Test planında o araçla, dersin konularıyla ilgili hedeflerden hangilerinin yoklanacağı/kapsanacağı ayrıntılarıyla yer alır ve böylece aracın hangi davranıĢları ölçeceği önceden belirlenmiĢ olur. Burada dikkat edilmesi gereken Ģey, öncelikle test planının, daha sonra da testin hedef davranıĢlar yönünden yeterince programı temsil edici ve dengeli olmasıdır. Yapımı tamamlanmıĢ bir testin maddeleri incelenerek de kapsam geçerliği hakkında kanıt elde edilebilir. Bu inceleme Thorndike ve Hagen tarafından da iĢaret edildiği gibi, “konular” ve “süreçler” olarak iki boyutta yapılmalıdır. Bir sınavda konular, öğrencinin cevaplandırmaya çalıĢtığı sorulardır; süreçler ise öğrencinin o soruları cevaplandırırken yapmaya mecbur olacağı davranıĢlardır. Yukarıda sözü edilen yazarlar, “süreçlerin incelenmesi” deyimiyle, test sorularının doğru cevaplandırılması için gerekli davranıĢlar zincirini kastetmiĢlerdir. Bir sınavın soruları teker teker incelenmeli, her bir sorunun doğru cevaplandırılması için ne gibi davranıĢlar gerektiği meydana çıkarılmalı, iĢte bu davranıĢların programda hedef alınan davranıĢlar olup olmadığına bakılmalıdır. Böylece, testin gerektirdiği cevaplama davranıĢlarının programın hedef davranıĢlarını temsil ettiği görülürse, o testin geçerliğe sahip olduğu kanısına varılır. Eğitimde, özellikle öğrenci baĢarısının ölçülmesinde kullanılan araçların geçerliği için en inandırıcı kanıt bu yolla elde edilebilir (Turgut, 1997, s.40).

2.5.1.1.2 Yordama Geçerliği

Yordama Geçerliği; testlerden elde edilen bir “yordayıcı puan” ile gelecekteki durumlarla ilgili bir “ölçüt”e iliĢkin değerler arasındaki korelasyon katsayısı olarak nitelendirilebilir. Örneğin müzik yetenek sınavları, çoğu kez bu sınavlarda kullanılan testlerden yüksek puan alanların düĢük puan alanlara göre ileride daha baĢarılı olacakları temel sayıltısına dayanmaktadır. Bu tür testlerde yordama geçerliği çok önemlidir. Çünkü öğrenciler testten aldıkları puanlara göre baĢarı sırasına konulmakta, en yüksek puandan baĢlayarak kontenjan sayısı kadar öğrenci müzik eğitimi programına kabul edilmektedir. Kullanılan testlerde yordama geçerliğinin yüksek olması istenir/beklenir. Aksi halde verilen kararlar tartıĢmalı duruma gelebilir.

Yordama bir tahmindir. Ne var ki her tahmin bir yordama değildir. Bir tahminin yordama olabilmesi için, onun geleceğe dönük olması ve belli bilgiler temelinde bazı teknikler kullanılarak yapılmıĢ olması gerekir. Buna göre yordama, istatiksel teknikler kullanılarak ve bilinenlerden yararlanılarak bilinmeyen durumlar hakkında yapılan geleceğe yönelik tahminlerde bulunma iĢlemidir.

Genellikle bireylerin bir programa ya da bir ise alınıp alınmaması, onların bir testten elde ettikleri puanlara veya daha önceki programda almıĢ oldukları notlara göre karara bağlanır. Bunun somut ve herkesçe bilinen bir örneği ÖSYM tarafından yapılan seçme ve yerleĢtirme sınavlarıdır. Seçme sınavında uygulanan testlerden elde edilen puanlar, adayların gelecekteki baĢarılarının yordayıcısı olarak kullanılmaktadır. Bu anlamda yordama, genellikle bir testten alınan puanlara dayanılarak, bireylerin belli bir programdaki ya da isteki baĢarılarını önceden kestirme iĢlemidir.

2.5.1.1.3 Yapı Geçerliği

Bir testin geçerliğini belirlemek amacıyla bu test, ölçülmek istenen özelliğe sahip oluĢ dereceleri önceden bilinmekte olan kiĢilere veya bu nitelikteki gruplara uygulanır ve buradan elde edilen ölçülerin, kiĢiler veya gruplar arasında var olduğu bilenen farkları yansıtıp yansıtmadığına bakılırsa buna testin “yapı geçerliğini

belirleme” denir (Özçelik, 1997, s.116). Örneğin müzik yetenek testi mezun öğrencilere uygulansın. Bu öğrencilerin testle yoklanan davranıĢların tümüne sahip oldukları önceden bilindiğine göre, testin bunları yansıtması gerekir. ĠĢte burada yapılan iĢlem testin yapı geçerliğini belirleme iĢlemidir. Geçerliği kanıtlanacak puanlarla ölçüt puanları arasındaki iliĢki, korelasyon katsayıları ile hesaplanır. Bu durumdaki korelasyon, “geçerlik katsayısı” adını alır. Geçerlik katsayıları –1,00 ile +1,00 arasında değerler alabilir. Geçerlik katsayısının negatif olması testin önemli bir kusuru bulunduğunu, sıfır olması geçersizliğini gösterir. Test, geçerlik katsayısı pozitif ise ve katsayının yüksekliği oranında geçerlidir (Turgut, 1997, s.42).

2.5.1.2 Güvenirlik

Güvenirlik kavramı ölçme sonuçlarına karısan hatalarla iliĢkili bir kavramdır. Bir ölçme aracı ne kadar az hata üretiyor ise o kadar güvenilirdir. Bir ölçme aracının ve bununla elde edilen ölçme sonuçlarının hatalardan arınıklık derecesine güvenirlik denir (Bahar vd., 2010).

Bir ölçme aracı hangi özelliği ölçüyorsa onun bu özelliğin gerçek değerlerine yakın ölçüler verdiğini savunabilmek için bir kere bu araç, özelliği ölçülen varlık ya da olayların bu özelliğinde bir değiĢme olmadıkça onları hep aynı sıraya koyan ölçüler vermelidir. Ölçme aracı neyi ölçüyorsa onu, kararlı bir şekilde ölçmelidir. Buna ölçme

aracının güvenirliği denir (Özçelik, 1997, s.112). BaĢka bir deyiĢle güvenirlik; bir

testin, ölçülmesi gereken Ģeyi her uygulanıĢında aynı biçimde ölçmede gösterdiği tutarlık derecesidir (Oğuzkan, 1993, s.67). Bunu somut bir örnekle açıklamakta yarar vardır: Öğrencileri boy sırasına koyarken kullanılan uzunluk aracı, bu öğrencilerin boyları değiĢmediği halde onları değiĢik denemelerde farklı sıralara koyabiliyorsa bu uzunluk aracı kararlı değildir. BaĢka bir deyiĢle bu uzunluk aracının güvenirliği düĢüktür. Eğer bir araç ilgili öğrencileri hep aynı sıraya koyuyorsa kararlıdır, yani güvenirliği yüksektir. Güvenirliğe baĢka bir örnek olarak bir test alınabilir. Müzik yeteneğini ölçtüğü belirtilen bir test ile bir grup öğrenci birkaç kez sıralanıyor ve kiĢilerin müzik yetenekleri değiĢmediği halde bu test onları farklı sıralara koyabiliyorsa testin kararlılığı, yani güvenirliği düĢüktür. Söz edilen koĢullarla tekrarlanan ölçmelerde ne kadar sıra değiĢikliği oluyorsa güvenirlik o kadar düĢüktür. Öte yandan, bu

koĢullarda ölçme tekrarlanırken ne kadar az sıra değiĢikliği oluyorsa güvenirlik o kadar yüksektir.

Güvenirlikle ilgili korelasyon hep pozitif olur ve 0,00 ile 1,00 arasında değiĢir. Korelasyonun 1,00‟e yakın olması testin güvenirliğinin yüksek olduğu, 0,00‟a yakın olması da testin güvenirliğinin düĢük olduğu anlamına gelir. BaĢka bir ifadeyle korelasyonun 1,00‟e yakın olması test puanlarına karıĢan hatanın az olduğunu, 0,00‟a yakın olması da test puanlarına karıĢan hatanın fazla olduğunu gösterir

Güvenirlik hesaplamada kullanılan çeĢitli yöntemler vardır. Bu yöntemlerin seçimi, bir testin iki kez ya da bir kez uygulanmasına göre değiĢiklik gösterirler. (Özçelik, 1997; Turgut, 1997). Bir testin iki kez uygulanmasıyla yapılan güvenirlik hesaplama yöntemleri “Test-Tekrar-Test Yöntemi” (Test-Retest Reliability) ve “EĢdeğer Formlar Yöntemi” (Parallel Forms Reliability) dir. Bir testin bir kez uygulanmasıyla yapılan güvenirlik hesaplama yöntemleri ise “Ġki-Yarı (Spearman- Brown) Yöntemi” (Split-halves Reliability) ve “Ġç Tutarlılık Yöntemleri” (Internal Consistency Methods) dir. Ancak burada sözü edilen güvenirlik hesaplama yöntemleri genellikle kağıt-kalemle uygulanan testlerin güvenirliklerini belirlemede baĢvurulan yollardır. Bunların dıĢında güvenirlik hesaplamada “puanlayıcılar arasındaki tutarlığa” dayalı bir yöntem daha vardır ki buna da “puanlayıcılar arası güvenirlik (interscorer reliability)” denir.