5. SONUÇ
5.1 Performans ve Sonuçlar
Mühendislik uygulamalarının başarımı çok çeşitli ölçütlerle değerlendirilmekle beraber en temel ölçüt, hedeflenen sonuca ulaşılıp ulaşılamadığıdır. Yanı sıra hedeflenen bu sonuca ne derece etkin olarak ulaşıldığı da gözetilen bir diğer ölçüttür. Bu ise genel olarak bir sistemin verimliliğini, yani burada ele alınan şekliyle performansını ifade eder.
Bu tezde ele alınan konuşma tanıma uygulamasında geri yayılımlı ÇKA, Elman ağı ve OSA yapıları için elde edilen test sonuçları birbirleriyle ve literatürdeki benzerleriyle mukayese edilmiştir. Bunun için tanınması hedeflenen kelimeler, her biri 16 defa olmak üzere toplam 160 defa seslendirilmiş ve tüm ağ modelleri ile test edilmiştir. Her ağ modeli için doğruluk çizelgeleri oluşturulmuştur.
Çizelge 5.1 Geri yayılımlı ÇKA için doğruluk çizelgesi
Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi
Sıfır 16 - - - 100
Bir - 15 1 - - - 93,75
İki - - 16 - - - 100
Üç - - - 16 - - - 100
Dört 1 - - - 15 - - - 93,75
Beş - - - 16 - - - - 100
Altı - - - 16 - - - 100
Yedi - - - 16 - - 100
Sekiz - - - 16 - 100
Dokuz - - - 16 100
Toplam 98,75
Çizelge 5.2 Elman ağı için doğruluk çizelgesi
Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi
Sıfır 16 - - - 100
Bir - 15 - - - 1 - - 93,75
İki - - 16 - - - 100
Üç - - - 16 - - - 100
Dört - - - - 16 - - - 100
Beş - - - 16 - - - - 100
Altı - - - 16 - - - 100
Yedi - - - 16 - - 100
Sekiz - - - 16 - 100
Dokuz - - - 16 100
Toplam 99,375
Çizelge 5.3 OSA için doğruluk çizelgesi
Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi
Sıfır 16 - - - 100
Bir - 16 - - - 100
İki - - 16 - - - 100
Üç - - - 16 - - - 100
Dört - - - - 16 - - - 100
Beş - - - 16 - - - - 100
Altı - - - 16 - - - 100
Yedi - - - 16 - - 100
Sekiz - - - 16 - 100 Dokuz - - - 16 100 Toplam 100
Ayrıca, sistemin test kelimelerini tanıma oranları yüzde cinsinden ve ayrı ayrı aşağıdaki çizelgelerde gösterilmiştir.
Çizelge 5.4 Ağ başarımları
Test veri tabanı Geri yayılımlı ÇKA (%)
Elman ağı (%)
OSA (%)
SIFIR 100 100 100
BİR 93,75 93,75 100
İKİ 100 100 100
ÜÇ 100 100 100
DÖRT 93,75 100 100
BEŞ 100 100 100
ALTI 100 100 100
YEDİ 100 100 100
SEKİZ 100 100 100
DOKUZ 100 100 100
Çizelge 5.4’te verilen sonuçlarda, sistem genelinde karıştırılan kelimelerin “bir” ve “dört”
olduğu görülmüştür. Bu kelimelerin her ikisi de tek heceli kelimelerdir ve bu sonuç, tek heceli kelimelerin modellenmesinin daha zor olduğu bilgisini destekler niteliktedir. Ayrıca hem geri yayılımlı ÇKA, hem de Elman ağlarının “bir” kelimesinde hata yapması, bu kelimenin seslendiriliş ve yapı yönüyle diğerlerinden farklı olması ile açıklanabilir.
Yapılan testlerde, “bir” kelimesi birer defa “iki” ve ”yedi” ile; “dört” kelimesi ise bir defa
“sıfır” ile karıştırılmıştır. Eğer bir kelime sıklıkla, belirli bir diğer kelime ile karıştırılmış olsaydı, anılan kelimenin yeterince modellenemediği ve karıştırıldığı kelime modeline yakınsadığı sonucuna varılabilirdi. Ancak burada farklı kelimelerle ve tüm veri tabanı için,
unsurları olan sayısal sinyal işleme ile öznitelik çıkarımı ve sinir ağları ile kelimelerin modellenmesi aşamalarının her ikisinin de başarıyla tasarlandığını göz önüne sermektedir.
Çizelge 5.5’te sistemin test kelimelerini tanıma oranlarının ortalaması yüzde cinsinden ve genel olarak gösterilmiştir.
Çizelge 5.5 Ortalama ağ başarımları
YSA türleri
Veri tabanı başarım yüzdesi Geri yayılımlı
ÇKA 98,75
Elman ağı 99,375
OSA 100
Yukarıdaki tablolardan hareketle, ağ modellerine göre başarım yüzdelerinin ortalama değerleri bir grafik ile gösterilmiştir.
90 92 94 96 98 100
Geri yayılımlı ÇKA
Elman ağı
Olasılıksal ağ
Grafikte de görüldüğü gibi ortalama ağ başarımları hayli yüksek değerlerde seyretmekle birlikte OSA yapısı tam sonuç vermektedir.
Burada test edilen konuşma tanıma sistemi, bu çalışmanın 4. bölümünde de belirtildiği gibi kapalı set olmak üzere tasarlanmıştır. Açık set olarak tasarlanan bir sistemin kapalı set olarak da başarılı olması gerekir ancak kapalı set olarak tasarlanan bir sistemin açık set kullanımda da başarılı olması ilave bir başarım ölçütüdür. Dolayısıyla bu tezde tasarlanan kapalı set sistem, hedeflenen kelimelerin tanınması kadar eğitim veri tabanında yer almayan kelimelerin tanımsız olduğunun belirlenmesi yönüyle de test edilmiştir.
Bu amaçla, sistemin tanımak üzere eğitilmediği kelimelerle test edilmesi için de bir veri tabanı hazırlanmıştır. Problemi zorlaştırmak adına, hedef kelimelere en benzer sesleri içeren “sefir”, “onbir”, “kedi”, “göç”, “dürtü”, “baş”, “altmış”, “yetki”, “seksen”, “sakız”
kelimeleri seçilmiştir. Seçilen bu 10 kelime ile sistem test edildiğinde ağırlıklı olarak
“TANIMSIZ” yanıtı alınmıştır. Ancak bazı testlerde geri yayılımlı ÇKA modelinin, “altı”
ile “altmış” ve “üç” ile “göç” kelimelerini karıştırabildiği, fakat bu gibi yanlış sonuçlar elde edildiğinde ağın tekrar eğitilmesi ile bu kelimelerin de doğru tanındığı görülmüştür. Bu durum, gerek kelimelerin uzunluklarının gerekse içerdikleri seslerin benzerliği göz önünde bulundurulduğunda makul değerlendirilmiştir. YSA’nın farklı eğitim süreçleri neticesinde farklı sonuçlar elde edilmesi ise ağın eğitim işleminin her seferinde farklı gerçekleşmesine bağlanmıştır.
Yapılan testler genelinde OSA yapısı gerek veri seti içerisindeki tüm kelimelerin tanınması gerekse veri seti dışındaki kelimelerin TANIMSIZ olarak teşhis edilmesi yönüyle incelenen üç ağ yapısı içerisinde en iyi sonucu vermiştir. Bu sebepten anılan yapı için, konuşma tanıma uygulamasında kullanılan diğer iki ağ yapısına ilave bazı incelemeler yapılmıştır.
Öncelikle, tanınması hedeflenen rakamlar için oluşturulan eğitim ve test verisi yeniden düzenlenmiştir. Bu amaçla her kelime için oluşturulan 20’şer ses kaydı 4’erli gruplara bölünmüştür. Elde edilen 5 gruptan ilki eğitim, diğer dördü ise test verisi olarak ayrılmıştır.
Bu işlem tüm gruplar için sırasıyla gerçekleştirilmiştir. Böylece test verisi çeşitlendirilmiş ve sayıca arttırılmıştır (16 x 5 = 80). Oluşturulan yeni veri tabanı ile OSA yapısı test edildiğinde elde edilen sonuçlar aşağıdaki çizelgede görülmektedir.
Çizelge 5.6 OSA için geniş veri seti ile doğruluk çizelgesi
Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi
Sıfır 79 - - - 98,75
Bir - 74 - - - 92,50
İki - - 77 - - - 96,25
Üç - - - 80 - - - 100
Dört - - - - 80 - - - 100
Beş - - - 80 - - - - 100
Altı - - - 80 - - - 100
Yedi - - - 79 - - 98,75
Sekiz - - - 78 - 97,50
Dokuz - - - 80 100
TANIMSIZ 1 6 3 0 0 0 0 1 2 0 98,375
Çizelge 5.6’ya göre, veri seti değiştirildiğinde ve sayıca arttırıldığında YSA’nın farklı sonuçlar verdiği, ancak bu sonuçlarda da ağ başarımı için elde edilen yüksek değerlerin korunduğu görülmüştür. Bu sonuçlar kelime bazında değerlendirildiğinde sıklıkla teşhis edilemeyen kelime, tek heceli bir kelime olan “bir” olmuştur. Bu durum, kelimelerin fonem tabanlı olmayan konuşma tanıma uygulamalarında sayısal olarak ifade edilmesindeki zorluktan kaynaklanmakta olup, ilk iki ağ modeli ile elde edilen sonuçlarla da paralellik
(“üç” kelimesinde “ç” sesi ve “beş” kelimesinde “ş” sesi) ve kelimelerin seslendirilişlerindeki uzunluk farkından (“dört”) kaynaklanmaktadır.
Yukarıdaki incelenmelerin yanı sıra, OSA yapısının başarım oranı, her rakam için 80’er örnek ile yapılan testlerde elde edilen % 98,375 değerinde sabit tutularak eğitim verisinde yer alan örnek sayısının ağın yapısına olan etkisi araştırılmıştır. Sonuçlar aşağıdaki şekilde görülmektedir.
0 200 400 600 800 1000
Nöron sayısı
10 20 30 40 50
Örnek sayısı
Şekil 5.2 OSA yapısında kullanılan nöron sayısının, eğitim verisindeki örnek sayısı ile değişimi
Şekil 5.2’de görüldüğü gibi, tanınması hedeflenen her bir rakam için sırasıyla 1’er, 2’şer, 3’er, 4’er ve 5’er örnek ile yapılan testlerde elde edilen sonuçlara göre, belirlenen başarım oranını yakalamak için kullanılması gereken nöron sayısı eğitim verisindeki örnek sayısı ile doğru orantılı olarak artmaktadır. Testler, sonuçların belirli bir formda seyretmesi ve artan eğitim verisi ile ağın işlem yükünün artması gibi nedenlerden dolayı her bir rakam için 5’er örnekte sonuçlandırılmıştır.
Ayrıca, bu çalışmada oluşturulan OSA yapısı gürültüye olan duyarlılığı yönüyle de incelenmiştir. Genellikle, sistemlerin gürültü duyarlılığının az olması daha sağlıklı çalışmaları açısından tercih edilen bir özelliktir. Çünkü gürültü, sistem performansını olumsuz etkileyen bir unsurdur. Benzer şekilde örüntü tanıma problemlerinde gürültü, tanınması hedeflenen örüntüyü bozarak tanıma oranını, diğer bir deyişle sistem performansını olumsuz yönde etkiler.
Bu çalışmada tasarlanan OSA yapısı için, test verisine ortalama bir iletim kanalı gürültüsü kadar olan 30 dB seviyesinde beyaz gürültü (AWGN - Additive White Gausien Noise) eklenerek ağ testleri tekrar edilmiştir. Sonuçlar Çizelge 5.7’de görülmektedir.
Çizelge 5.7 OSA için gürültü ilaveli doğruluk çizelgesi
Sıfır Bir İki Üç Dört Beş Altı Yedi Sekiz Dokuz Doğruluk yüzdesi
Sıfır 15 - - - 93,75
Bir - 15 - - - 93,75
İki - - 16 - - - 100
Üç - - - 16 - - - 100
Dört - - - - 16 - - - 100
Beş - - - 16 - - - - 100
Altı - - - 16 - - - 100
Yedi - - - 16 - - 100
Sekiz - - - 15 - 93,75
Dokuz - - - 16 100
TANIMSIZ 1 1 0 0 0 0 0 0 1 0 98,125
Gürültü eklenen veri seti ile yapılan test sonuçları (Çizelge 5.7), gürültü eklenmemiş olarak daha önce yapılan test sonuçları ile karşılaştırıldığında (Çizelge 5.3); “sıfır”, “bir” ve
“sekiz” kelimelerinin birer defa tanımlanamadığı görülmüştür. Bu sonuçlara göre, OSA yapısının başarım oranının önceki sonuçlara yaklaşık değerlerde seyrettiği hesaplanmış ve ağın gürültüye olan duyarlılığının düşük seviyede olduğu değerlendirilmiştir.
Özetle, tasarlanan Konuşma Tanıma sistemi ile tanınması hedeflenen tüm kelimeler tanınmış ve eğitim verisinde yer almayan kelimeler “TANIMSIZ” olarak teşhis edilmiştir.
Yapılan testler ile elde edilen tüm sonuçlara göre bu tezde tasarlanan Konuşma Tanıma sistemi hedef kelimeleri doğru olarak tanıyan, amacına ulaşmış, başarılı bir sistemdir.
Buradan yola çıkarak YSA’nın Konuşma Tanıma gibi karmaşık problemlerin üstesinden gelebilen başarılı bir teknik olduğu görülmüştür.