Ölçek Geliştirme/ Geçerlilik ve Güvenirlik*

DENEYSEL ARAŞTIRMALAR

İNCELENEN ÖLÇÜLECEK

3.2. Ölçek Geliştirme/ Geçerlilik ve Güvenirlik*

Soyut/ olgusal olmayan veriler doğrudan gözlemlenemez ve metre, kilo gibi standart ölçü birimleriyle ölçülemez. Ancak dolaylı yöntemlerle gözlenir ve göreceli/ rölatif ölçü birimleriyle tanımlanabilirler. Bu tür verileri bir tek soru ile değerlendirmek, tanımlamak olanaksızdır. Bu nedenle de verinin değişik belirti ve boyutlarını temsil eden/ test eden birçok sorudan oluşan bir endeks/ölçüt aracılığı ile değerlendirilirler. Örneğin kişilerin herhangi bir konudaki bilgi, tutum ya da memnuniyetlerini doğrudan gözlemlemek, ölçmek/saymak veya bir tek soru ile öğrenmek olanaklı değildir. Ancak, belli bir konudaki bilgi, tutum ve memnuniyetlerini o konunun çeşitli belirti ve boyutlarını ele alan sorulara verdikleri yanıtlara dayalı bir endeks/ ölçüt geliştirerek, bu ölçüte göre onların durumunu değerlendirmek/ ölçmek olanaklı olabilir. Bu amaçla kullanılan endekslere/ anketlere ise ölçek adı verilir (Adolesanların Yeme Davranışlarını Saptama Ölçeği/ Adli psikiyatri Hastalarına Yönelik Hemşire Tutum Ölçeği/ Açık Kaygı Ölçeği/ Stresle başa Çıkma Yöntemleri Ölçeği vb.).

Soyut konular/ özellikler üzerinde araştırma yapabilmek ve bilimsel gelişme sağlayabilmek için onları ölçebilmek gereklidir/ ya da ölçmek ile olanaklıdır. Bu amaçla bir grup soru manzumesinden oluşan ölçekler kullanılır. Bu ölçekler iki yolla elde edilir. Ya tamamen yeni bir ölçek/anket/ endeks olarak geliştirilir, ya da var olan/ başka ülkelerde geliştirilmiş olan ölçeklerin kullanılacak ülke/ toplum diline ve kültürüne uyarlanması yapılır.

İster yeni bir ölçek geliştirilsin isterse başka bir dilde var olanın uyarlaması yapılsın, bir ölçeğin standart ölçüm yapabilmesi ya da geçerli ve güvenilir olabilmesi için, geliştirilmesi, uyarlanması ve kullanılması aşamalarında birçok kurala veya standarda uygun çalışılması gerekir. Aksi halde ölçeğin geçerlik ve güvenilirliği azalarak, bunlarla yapılacak çalışmalarda birtakım hatalar ve taraf tutmalar ortaya çıkar.

* Güvenirlik ve geçerlik konusunda özelikle “İlker Ercan,İsmet Kan Ölçeklerde Güvenirlik ve Geçerlik, Uludağ Üniversitesi Tıp Fakültesi Dergisi 30(3) 211-216 2004” çalışmasından yararlanılmıştır.

3.2.1. Yeni Bir Ölçek Geliştirme

Yeni bir ölçek geliştirmeden yapılması gereken ilk iş araştırılacak konuda bir ölçek olup olmadığının taranmasıdır. Eğer konu hakkında bir ölçek var ise onu alıp Türkçeye uyarlamak daha avantajlı ve doğrudur. Çünkü yoktan ölçek geliştirmek yerine uyarlama yapılması; daha az zaman ve maliyet gerektirmesi, bilinen yaygın kullanılan bir ölçek ise daha güvenli olması, uyarlamaların yeterli uzmanı olmayan ülkelerde de kotarılabilmesi, başta orijin ülke olmak üzere, uyarlama yapılan tüm ülke ve kültürlerde ölçme yeteneğine sahip olması gibi avantajlara sahiptir.

Herhangi bir ölçek yok/ yeni ve ilk defa geliştirilecek ise bu koşulda yapılması gereken ilk şey konuyla ilgili yazını/ literatürü taramaktır. Literatür taramaya başlamadan önce neyin/ hangi tip verilerin ölçüleceğinin ve bu amaçla hazırlanacak ölçekte hangi tip soruların/ soru formatının (sıralama, sınıflama, eşit aralıklı oran ölçeği, Thurstone tipi, Likert tipi, Osgood boyutsal ayırma vb) tanımlanmış ve belirlenmiş olması gerekir. Böylece literatür taranırken ölçek için hangi soruların/ konuların kullanılabileceğine yoğunlaşılmış olur ya da soru seçimi daha kolay olur. Tarama sonunda hazırlanan/ akla gelen soru maddelerinden oluşan bir soru havuzu oluşturulur. Soru maddeleri düzenlenirken, sade ve anlaşılır olmasına, bir maddenin birden fazla yargı ve düşünce ifadesi içermemesine özen gösterilmelidir.

Soru havuzundan hangi soruların ölçeğe alınmasının yerinde olacağı konusunda uzmanların görüş ve yorumları alınır. Sorular seçildikten/ ölçek taslağı hazır olduktan sonra da uzmanların görüş ve yorumlarının alınmasında büyük yarar vardır. Uzman görüşlerine göre şekillendirilen taslak ölçek kitleyi temsil eden/ randomize/ rastgele olarak seçilmiş bir gruba uygulanır.

Bu uygulama sırasında sorularda düzeltme/ redaksiyon gereksinimi ortaya çıkar ise saptanır ve son hali verilirken bu düzeltmeler yapılır. Taslağın uygulanmasından sonra geçerlilik ve güvenirlik analizleri yapılır. Sonuçlar tatminkar bulunur ise (geçerlik ve güvenilirliği yeterli bulunur ise) ölçek tamamlanmış/ uygulamaya hazır hale gelmiş olur.

3.2.2. Bir Ölçeğin Türkçeye Uyarlanması

Uyarlama çalışmasına karar verildiğinde, yapılacak olan ilk iş ölçek sahibinden izin almaktır. Ölçek sahibi, telif haklarına sahip olan kişi ya da kurum bu izni verirken bazı bilgiler isteyebilir. Örneğin; uyarlanan ölçeğin kullanım amacının belirtilmesini/ uyarlama çalışması yapacak ekibin yeterliliğinin olup olmadığının belgelenmesini isteyebilir. Pazarlama amaçlı uyarlama izni isteniyorsa, telif ücreti talep edebilir.

İzinden sonra ikinci aşama çeviri aşamasıdır.Çeviri aşamasında, her iki dilde de akıcı konuşan, ölçeğin geliştirilmiş olduğu (orijin) ve çalışma yapılacak olan kültürleri tanıyan, ölçülen yapı hakkında bilgiye sahip/ bilgilendirilmiş

çevirmenler ile çalışılmalıdır. Çeviri/ translation önce Türkçeye yapılır. Türkçe çevirinin, birbirinden habersiz birden fazla tercümana çeviri yaptırılıp sonra da bunların birleştirilerek elde edilmesi sık başvurulan ve güvenli bir yoldur. Sonra Türkçeleştirilmiş ölçek asıl/ orijinal diline tekrar çevirilir/ retranslation ve orijinal metnin elde edilip, edilmediği kontrol edilir.

Bir ölçeğin Türkçeye uyarlanması sadece Türkçeye sonra da yeniden orijinal dile çevirme işleminden ibaret değildir. Bu süreç bir dil ve kültürel uyarlama sürecidir. Bu nedenle çeviriden sonra ölçeğin psikometrik özelliklerinin de uyarlanması gerekir. Bu ise çok ciddi uzmanlık/ uzman bir ekip isteyen çalışmadır. Tek tek soruların ve ölçeğin her iki hatta tüm kültürlerde aynı anlama gelip gelmediği sorgulanmalıdır. Eğer aynı anlama gelme sağlanamıyorsa/ oluşturulamıyorsa çalışma durdurulmalıdır.

Çeviri ve psikometrik uygunluk süreci tamamlandıktan sonra ölçek bir pilot/ deneme grubu üzerinde uygulanır ve geçerlilik ve güvenirlik çalışmaları yapılır. Pilot uygulama sonrası sorularda düzeltilmesi gereken yerler saptanır. Son şekli verilirken bu düzeltmeler yapılır. Pilot grubun özellikleri ölçeğin esas uygulanacağı grubun özelliklerini taşımalıdır. Eğer yeterince geçerli ve güvenilir bulunur ise uygulanır/ uygulamaya sokulur.

3.2.3. Geçerlilik/ Validity Araştırması

Geçerlilik, bir ölçme aracının ölçtüğü özelliği/değişkeni doğru ölçebilme, başka bir özellikle karıştırmama yeteneğine/ derecesine/ gücüne, onun geçerliliği denir. Geçerliliği düşük olan bir ölçekle elde edilen istatistiki sonuçların gücü de düşüktür. Geçerlilik dört başlıkta incelenir:

1) Kapsam geçerliliği, 2) Kriter geçerliği, 3) Yapı geçerliliği ve 4) Görünüş geçerliliği.

Ölçeklerin geçerlilik düzeyi, geçerlik katsayısının hesaplanmasıyla anlaşılır. Geçerlik katsayısı, ölçekten elde edilen değerlerle ölçeğin kullanış amacına göre belirlenen kriter ya da kriterler takımı arasındaki ilişki katsayısıdır ve –1.00 ile +1.00 arasında değerler alır.

İlişki katsayısı ne kadar yüksekse ölçek amaca o kadar iyi hizmet ediyor demektir. Geçerlik katsayısının düşük bulunması, sadece ölçekten elde edilen değerlerle kriter değerleri arasındaki ilişkinin zayıflığından kaynaklanmaz, aynı zamanda elde edilen değerlerin güvenirliklerinin tam olmayışından da kaynaklanabilir. Güvenilir bir ölçek her zaman geçerli olmayabilir. Bu nedenle geçerlik katsayıları güvenirlik katsayılarıyla birlikte yorumlanmalıdır. İyi bir geçerlik ölçütü olma niteliği ise çalışmanın niteliğine göre değişmekle birlikte yorumsal geçerlik, yapı geçerliği ve ölçüte dayalı geçerlik olmak üzere üç ana gruptan oluşur.

3.2.4. Güvenirlik/ Reliability Analizi

Bir ölçeğin aynı koşullarda tekrarlanması halinde aynı sonuçları vermesi kararlılık göstermesi halidir.Bir ölçme aracının ölçmek istediği özelliği hatasız ölçebilme derecesini gösterir. Örneğin; hasta memnuniyeti için hazırlanmış bir ölçek aynı hastalara birbirini takip eden iki farklı günde verildiğinde skorların birbirine çok yakın/ aynı çıkması ve birbiri ile ilişki göstermesi gerekir. Eğer bu iki güne ait skorlar birbiri ile farklı çıkar ve bir ilişki göstermez ise uygulanan ölçekten ya da uyguladığımız hasta grubundan kaynaklanan bir sorun var demektir. Bu da güvenirlik derecesinin düşük olduğu şeklinde ifade edilir.

Güvenirlik derecesi düşük ölçeklerle yapılan ölçümlerde bias olasılığı artar. Başka bir söylemle “bias”a neden olarak, özellikle klinik uygulamada bazı hatalı kararlara ortam hazırlayabilir.

Güvenirlik;

1) Norm-referans güvenirliği

2) Kriter-referans güvenirliği olmak üzere iki başlıkta incelenir.

Norm referans güvenirlikte; a. Formun tekrarı yöntemi, b. Eşdeğer formlar yöntemi ve

c. İç tutarlılık yöntemi olmak üzere üç yöntem kullanılır.

İç tutarlılıkta; Yarıya Bölünme/ Split Half yöntemi ile, Kuder-Richardson Güvenirlik Katsayısı, Cronbach Alfa Güvenirlik Katsayısı, Teta Güvenirlik Katsayısı, Omega Güvenirlik Katsayısı, Guttman Güvenirlik Katsayısı gibi katsayılar kullanılır.

İkiye Bölünmüş Model/ Split Half yöntemi: Ölçekte yer alan sorular eş

iki parçaya ayrılır ve bu iki parça arasında korelasyon hesaplanır. Ayrıca bu iki parçadan her biri için ayrı ayrı alfa (α) katsayıları da hesaplanır. Eğer ölçekteki soru sayısı çift ise, her bir alt gruba düşen soru sayısı k/2 olup, soruların ilk yarısı birinci alt gruba, ikinci yarısı ikinci alt gruba dahil edilir. Eğer ölçekteki soru sayısı tek ise, birinci alt gruba dahil edilecek soru sayısı (k+1)/2 ile bulunur ve kalan sorular diğer parçayı oluşturur.

Kuder-Richardson Güvenirlik Katsayısı: Sık kullanılan yöntemlerden

biridir. Ölçekteki tüm maddelerin aynı değişkeni ölçtüğü varsayımına dayanan bir hesaplamadır.

Cronbach Alfa Güvenirlik Katsayısı: Daha önce hazırlanmış olan ve

Likert tipi sorular kullanan bir ölçeğin çeviri (çeviri-yeniden çeviri-kültürel uyarlama) aşamasından sonra geçerliliği/ tutarlılığı aşağıda verilen formülle hesaplanan Cronbach Alpha (α) değeri ile ölçülür. Cronbach Alfa Katsayısı, ölçekte yer alan k sayıdaki sorunun homojen bir yapıyı açıklamak üzere bir bütün oluşturup oluşturmadıklarını araştırır. Ölçekte yer alan k adet sorunun varyansları toplamının genel varyansa oranlanması ile bulunan ve 0 ile 1 arasında değerler alan Cronbach Alfa katsayısı, bir ağırlıklı standart değişim ortalamasıdır.

Alpha değeri tek bir soru için hesaplanabileceği gibi tüm anket/ ölçek için de hesaplanabilir. Eğer tek bir soru için hesaplanır ise o sorunun güvenirliğini tüm ölçek için hesaplanan değer ise tüm ölçeğin/ anketin toplam güvenirliğini gösterir ve 0,7’den büyük olması beklenir. Bu değerden düşük α değerleri ölçeğin zayıf güvenirliği olduğunu gösterir. Alfa değeri α>0,8 olan ölçekler yüksek güvenirliğe sahip ölçeklerdir. Ölçeğin güvenirliğinin arttırılması için sorulara ait α değerleri gözden geçirilir. Bunlardan toplam α değerini düşüren sorular ölçekten çıkarılır. Böylece ölçeğin toplam α değeri/ güvenirliği yükseltilmiş olur.

K = Madde saysını, σ2_{X toplam skorunun varyansı, σ}2_{Yi ise i(nci)}

maddenin toplam örneklemdeki varyansını gösterir.

Cronbach’s alpha Güvenilirlik

α ≥ 0.9 Mükemmel 0.9 > α ≥ 0.8 İyi 0.8 > α ≥0 .7 Kabul edilebilir 0.7 > α ≥ 0.6 Şüpheli 0.6 > α ≥ 0.5 Kötü 0.5 > α Güvenilmez

Alfa Katsayısı, bireysel puanların k soru içeren bir ölçekte sorulara verilen cevapların toplanması ile bulunduğu durumlarda soruların birbirleri ile benzerliğini, yakınlığını, ortaya koyan bir katsayıdır. Sorular arasında

α = _{K - 1}K (1 - ΣK İ = 1σ2Yi σ2_X ) =

negatif korelasyon varsa Cronbach Alfa Katsayısı da negatif çıkar. Alfa’nın negatif çıkması, güvenirlik modelinin bozulmasına neden olur. Çünkü bu durumda ölçeğin toplanabilirlik varsayımı bozulmuş ve ölçek toplanabilir ölçek olmaktan çıkmış olur.

Guttman Modeli: Güvenilirliği kovaryans ya da varyans yaklaşımı ile

hesaplayan bir modeldir. Lamda1’den lamda6’ya kadar giden altı güvenilirlik katsayısı hesaplanır.

Paralel Model: Ölçekteki bütün sorular için eşit varyanslılığı ve karşılıklı/

across tekrar soruları için de eşit hata varyanslılığını varsayar. Bu modelde en büyük benzerlik tahminleri yapılır ve verilere uygunluğu Ki-Kare/ chi-square ile test edilir.

Kesin Paralel Model (Strict Parallel): Bu modelde, eşit varyanslılığın

yanı sıra sorular arası ortalamaların da eşit olduğu varsayımı söz konusudur. Burada da amaç en büyük benzerlik parametre tahminleri yapmaktır ve paralel modelde olduğu gibi Ki-kare’den yararlanılır.

Bu modellerden hangisinin kullanılacağı ile ilgili olarak şunlar söylenebilir: Soru (madde, item) istatistiklerine bakılır, eğer varyanslar birbirine eşit(homojen) ise alfa katsayısı ve paralel modelden elde edilen güvenirlik katsayıları ölçeğin güvenirlik katsayısı olarak kullanılır. Soruların varyansları homojen ve ortalamaları benzer ise, Kesin Paralel Modeli ile elde edilen güvenirlik katsayılarını kullanmak gerekir.

Belgede Sağlık Bilimlerinde araştırma ve tez yapma rehberi (projelendirme, uygulama, rapor yazma) (sayfa 111-116)