• Sonuç bulunamadı

Çeviri Sonucunun Değerlendirilmesi

2. BĠLGĠSAYARLI ÇEVĠRĠ TEKNĠKLERĠ

2.4 Çeviri Sonucunun Değerlendirilmesi

Bilgisayarlı çeviri çalışmalarında, en zor işlemlerin biri, geliştirilen sistemin (yöntem veya algoritmaların) değerlendirilmesidir. Bilimsel çalışmaların tüm alanında, geliştirilen yeni bir yöntemden bahsedilirken, geliştirilen yöntemlerin başarımını sayısal sonuçlar ile göstermek ve kanıtlamak gerekmektedir. Bu nedenle, bilgisayarlı çeviri ile yeni bir sistem geliştirildiğinde, sistemin başarısını belli sayısal rakamlar ile göstermek zorunludur. Diller ile ilgili en büyük sorun ise, üzerlerinde matematik ya da fizik gibi doğrudan bir formül ile uygulanamıyor olmasıdır. Dil, kendi doğası gereği belli bir dereceye kadar belirsizdir.

Bu nedenle, doğal dil çalışmalarında doğrudan bir kriter uygulanamaz. Örneğin, bilgisayarlı çeviri ile değerlendirme yaparken, hiçbir zaman en iyi ve tek bir çözüm diye değerlendirme yapılamaz. Doğal olarak kaynak cümleye karşın birden fazla mükemmel çeviri üretilebilir. Çeviri cümlenin kalitesi ise, çeviri için kullanılan sözcüklere göre, hatta bazen aynı sözcükleri kullansa bile, sözcüklerin tümcede sırasına göre değişebilir .

Bazen insan oğlu bile iyi çevirilmemiş tümceler ile iyi çevirilen tümceleri fark edemeyebilir [101]. O zaman iyi çeviri nedir?. Bu soruya insanlar bile doğru cevap verememektedirler. Bir bilgisayarlı çeviri sisteminin başarısı söz konusu olduğunda, insanlar hep farklı kriterler üzerinden değerlendirme yaparlar, yani uzlaşılan bir kriter yoktur.

Genelde iyi bir çeviri ise üretilen çevirinin, hedef dil bilgisine göre düzgün ve kaynak tümcedeki anlamları doğru şekilde aktarmasıdır. Değerlendirme kalitesinin

14

Biçimbilimsel çözümlemede sadece son durumu ulaşabilen çözümlemeler geçerli sayılır. Birden fazla son duruma ulaşabilirse hepsi geçerli sonuç olur.

belli kiritlerler üzerinden, insan gücü ile yapılmasıdır. Ancak insanlar değerlendirme yaparken hata yapma olasılıkları yüksektir. Üstelik değerlendirme yapacak insanların çeviri yapılan dillerde derin dilbilgisine sahip olmaları gerekmektedir.

Bu nendenle bilgisayarlı çevirileri otomatik değerlendirme yöntemleri geliştirilmiştir. Geliştirlen bu yönemler içinde en yaygın kullanılan ise BLEU [101], NIST[102], F ölçütü [103], METEOR [104], WER [105] dir. Bu yöntemler çeviri sistemin başarılarını hesaplarken, insanlar tarafından yapılan referans çeviri ile sistemin ürettiği çeviriler üzerinde değişik karşılaştırma yöntemlerine dayanır. Yukarıda sözü edilen başarım ölçme yöntemlerinden NIST, F ölçütü ve METEOR ise BLEU üzerinde değişiklik yapılarak geliştirilmiştir. Bu tez kapsamında bu sistemin başarımı, BLEU yöntemi ile değerlendirelecektir. Bu nedenle alttaki bölümlerde BLEU yöntemi ile WER yöntemi kısaca tanıtılacaktır.

2.4.1 BLEU

BLEU ölçütü, bilgisayarlı çeviri sonuçlarını insanlar tarafından yapılan referans çevirileri üzerinden n-gram bazında yapılan benzerliğinin istatistiksel sonuçlarına göre hesaplar [101]. Doğal olarak bir tümce bir başka dile farklı biçimlerde çevrilebilir. Bu nedenle daha gerçekçi sonuçlar elde edebilmek için her hedef tümceye karşılık birkaç referans tümce oluşturulur. Bu nedenle bazı referans tümceleri sistemin üreteceği aday tümceden daha uzun olabilir ve sistemin yüksek sonuç vermesine neden olabilir. Bu durumu önlemek için ceza katsayısı uygulanır. Birden fazla tümce ile çeviri yaparken, tüm sistemin başarısını sınamak için kesinliği değiştirilmiş Pn (2.1)‟e göre hesaplanır. Formülde, C test sisteminin ürettiği aday çeviriler kümesidir. Aday çeviri kümesinde yer alan her tümcede geçen sözcükler, bu çeviri kümesi için oluşturulan referans tümcesindeki her tümce ile eşleştirilir. Bu eşleştirme n-gram bazında yapılır. Bir tümcenin birden fazla referans çevirisi olduğundan, aday tümcedeki sözcük referans tümcesinde birden fazla geçse de sadece bir sefer sayılır.

 

 

     ngram ngram P S ngram C S S ngram C S n Adet Adeteşleşen (2.1)

BLEU yöntemi birden fazla referans tümcesi kullanıldığında geri getirim değerini hesaplamak zorundadır ve genel olarak kesinlik değerine göre hesaplama yapar.

32

Sistemin başarımını hesaplanması, referans tümcelerden dolayı oluşacak hatayı önlemek amacıyla ceza puanı ağırlıklı olarak kesinlik (precision) ölçütüne dayanmaktadır. Birden fazla referans formül: (2.2)‟ye göre hesaplanır. Formülde, r referans tümcenin üzunluğu, C aday tümcenin uzunluğudur.

      r c ğer e e r c ğer e BP 11 r /c (2.2)

Kesinlik değeri ve ceza puanı hesaplandıktan sonra BLEU puanı aşağıdaki gibi hesaplanır:       

N n n n P w x BP BLEU 1 log exp (2.3)

Formülde w=1/4 olarak hesaplanır. Genelde BLEU sonucu 0 ile 1 arasında değişir. Eğer sistem sonucu 1 olursa, sistemin ürettiği aday tümceden en az bir referans tümce ile birebir benzediği anlamına gelir.

2.4.2 WER

Hatalı sözcük oranı ses tanıma ve bilgisayarlı çeviri sistemlerinde yaygın kullanılan yöntemlerden biridir.

Geliştirilmiş sistemlerin başarısı değerlendirilirken, genel olarak yaşanan zorluk, sistemlerin ürettiği çözümler ile referans tümce sözcüklerin farklı olmasıdır. Hatalı sözcük oranı WER sözcük bazında hesaplanır. Sistemin ürettiği çeviri sözcüğü ile referansta geçen sözcüğün birbirine olan benzeme oranına (yakınlık oranı) göre hesaplınır.

İki sözcük arasındaki benzerlik oranına Levenshtian mesafesi denir [106]. Levenshtian mesafesi hedef sözcüğü kaynak sözcüğe benzetmek için, karakter ekleme, silme ve değiştirme için gereken en az işlem sayısıdır [107].

Örneğin, “kitten” ile “sitting” sözcükleri arasındaki Levenshtian mesafesi 3 tür, ve aşağıdaki gibi hesaplanmıştır.

1. kitten  sitten (“k” karakteri ise “s” karakteri ile değiştirilmiştir ). 2. sitten sittin (“e” karakteri ise “i” karakteri ile değiştirilmiştir).

3. sittin  sitting (“g” karakteri eklenmiştir)

Levenishtian mesafesi hesaplandıktan sonra, hatalı sözcük oranı aşağıdaki formülle hesaplanır. N I D S WER   (2.4)

Formülde, S değiştirilen karakter sayısını, D silinen karakter sayısını, I eklenen sözcük sayısını ve N ise referansta bulunan toplam sözcük sayısını belirtir.

Benzer Belgeler