Türkçe Ses Sentezi için Süre Modellenmesi

(1)

Türkçe Ses Sentezi için Süre Modellenmesi

Ömer Şayli¹, Levent M. Arslan¹ve A. Sumru Özsoy² Boğaziçi Üniversitesi, Bebek, 80815,İstanbul

1Elektrik-Elektronik Mühendisliği Bölümü

2Batı Dilleri ve Edebiyatı Bölümü {sayliome, arslanle, ozsoys}@boun.edu.tr

Özetçe

Bu çalışmada, Türkçe ses sentezi için harflerin (seslerin) sürelerini tahmin eden modeller oluşturuldu. Çalışmada modelleri çıkarmak için, yetişkin bir erkeğe ait, 16 kHz ve 16-bit’te örneklenmiş ve tamamı etiketlenmiş ses kayıtları kullanıldı. Öncelikle kullanılan ses kayıtlarının Türkçe’nin ne kadarlık bir kısmını kapsadığı araştırıldı. Üçlü öbekler baz alındığında, kapsamanın %70 dan fazla olduğu görüldü. Harflerin sürelerine etki eden etmenler değişim (varyans) analizi ile bulundu.

Seslerin sürelerini tahmin için, harflerin ortalama sürelerini kullanan model ile üçlü öbeklerin ortalama sürelerini kullanan modele ilaveten doğrusal bağlanım modeli denendi. Kayıtlar tüm harfler/modeller için işlendi ve yazıdan sese sentez için bahsedilen modellere dayalı süre tahmin ediciler bulundu. Denenen üç modelde, genel olarak üçlü öbeklerin ortalama sürelerini kullanan modelin en iyi performansı gösterdiği görüldü.

Ortalama-süre tahminine dayalı model, basit olmakla beraber bazı harfler için iyi performans gösterdi. İstatistiksel olarak, doğrusal bağlanım modelinin bazı harflerin sürelerinin değişkenliklerinin %80’ninden fazlasını açıklayabildiği görüldü.

1. Giriş

İnsan-makina arabağlarının önem kazanmaları ve popüler olmalarıyla son yıllarda çeşitli diller için ses sentezi üzerindeki çalışmalar oldukça büyük bir ivme kazanmıştır. Özellikle İngilizce ve bazı diğer diller için – Fransızca, Almanca ve Çince gibi- oldukça başarılı ses sentez uygulamaları geliştirilmiştir. Dilimiz Türkçe için de yapılan başarılı ses sentez uygulamaları [1] bulunmaktadır.

Bu uygulamalardaki en büyük eksiklik, henüz tam olarak ‘doğal’ seslerin üretilememesidir. Prosodi özellikleri olan perde sıklığı, şiddet ayarı, vurgu, entonasyon ile ses süreleri sesin doğallığını etkileyen ve henüz tam olarak modellenememiş ses özellikleridir. Bu çalışmada Türkçe için ele aldığımız etmen Türkçede süre özelliğidir. Süre ile kastedilen, bitiştirmeli sentez sistemlerinde, bitiştirilen parçacıkların süreleridir. Seslerin süre özelliği, oldukça kompleks olup ne tamamen istatiksel etmenlere ne de tamamen grammer özelliklerine (kurallara) bağlıdır [4]. Aksine bunların etkileşimi oldukça karmaşık bir durum meydana getirmektedir. Bu çalışmada, ses süreleri istatistiksel yöntemlerle incelenmiş ve modeller çıkarılmıştır.

2. Kullanılan Veri Tabanı

Süre modelleri çıkarılması için, 16 kHz ve 16-bit te okunmuş ve etiketlenmiş 7898 (tek başına okunmuş) kelime ve 206 (toplam 1167 kelimeden oluşan) tümce kullanıldı [2]. Okunmuş kelimeler

Şayli, Ö., Levent M. Arslan ve A.Sumru Özsoy, “Türkçe Ses Sentezi için Süre

Modellenmesi”, Sinyal İşleme ve İletişim Uygulamaları Konferansı, Pamukkale/Denizli, s.

841-845, 2002. (Sözel sunum)

(2)

ve tümcelerin Türkçe’nin ne kadarını kapsadığı Türkçede en sık geçen üçlü öbeklerin oluşturduğu grup ele alınarak incelendi. Ü. Yapanel’in [6] çalışmasında, yaklaşık iki milyon kelime kullanılarak Türkçe’de en sık kullanılan üçlü öbekler bulunmuştur. Üçlü öbekleri bir örnekle açıklarsak, /Ali geldi/ tümcesindeki üçlü öbekler /ali/, /liZ/, /iZg/, /Zge/, /gel/, /eld/, /ldi/, /diZ/’dir (Z boşluğu temsil etmekte). En sık geçen üçlü öbeklere göre, okunmuş kelimelerin Türkçe’nin %82’sini, okunmuş tümcelerin ise Türkçe’nin %76’sını kapsadığı bulundu.

Bu veritabanı, bitiştirmeli ses sentezinde kullanılmak için etiketlendi. Dalga biçimlerinin etiketlenmesinde (her harf için sesin dalga biçiminde karşılık gelen kısmın işaretlenmesi) ses sentezi için uygunluk göz önünde bulunduruldu. Uygunluktan kastedilen, ses sentezinde kullanılan parçacıkların bir araya geldiklerinde dalga biçimlerinin uyuşmasıdır. Örneğin, patlamalı seslerde, dalga biçimde görünen yüksek şiddetli kısma ilaveten önceki düşük şiddetli bölüm de etikete dahil edilmektedir.

3. Harf Sürelerini Etkileyen Etmenlerin Bulunması

Giriş kısmında da belirtildiği gibi, harf sürelerinini etkileyen bir çok etmen bulunmaktadır. Diğer bazı diller için yapılan çalışmalarda, harf sürelerini etkileyen temel etmenlerin şunlar olduğu bulunmuştur: harfin kimliği, harfin çevresindeki harflerin kimliği, harfin geçtiği kelimenin önemi (ne kadar ‘yeni’ bilgi taşıdığı), harfin kelime ve tümce içindeki pozisyonu (baş, orta ve son gibi), konuşma hızı, vurgu ve entonasyon. Harf sürelerini etkileyen diğer bazı etmenler olmakla beraber, bunların etkileri bu etmenlere göre daha az ve belirsizdir. Amerikan ingilizcesinde, yukarıdaki etmenlerin ünlülerdeki süre değişiminin %94’ünü açıklayabildiği gösterilmiştir [5]. Bu olguladan hareketle, eldeki veritabanı her harf için aşağıdaki etmenleri bulmak üzere işlendi;

1) Sesin kelime içindeki pozisyonu (baş-orta-son olmak üzere 3 düzey)

2) Sesin tümce içindeki pozisyonu (baş-orta-son olmak üzere 3 düzey) (Tümce ortamı için) 3) Sesten önceki ve sonraki ünsüz tipi (21+21 düzey)

4) Sesten önceki ve sonraki ünlü tipi (8+8 düzey)

5) Sesin içinde bulunduğu hece tipi (açık/kapalı olmak üzere 2 düzey) 6) Sesin içinde bulunduğu hece örüntüsü (10 düzey)

7) Tümcedeki kelime sayısı (7 düzey) (Tümce ortamı için)

Elimizde şu an için yazıdan ve dalga biçiminden insan yardımı olmaksızın otomatik olarak konuşma hızı, vurgu ve entonasyon bilgisini bulabilecek araçlar olmadığından bu etmenler incelemeye dahil edilemedi. Yukarda bulunan etmenlerin harflerin sürelerini etkileyip etkilemediği değişinti (varyans) analizi yardımıyla araştırıldı. Bu analiz sonucu, 0.05 anlamlılık seviyesine göre tek-kelime ortamında tüm etmenlerin harf sürelerini etkilediği ortaya çıktı. Tümce ortamında ise, süreyi etkilemeyen etmen düzeyleri yalnızca ünlüler için ünlü harften önceki ve sonraki ünlüler olduğu görüldü [3].

4. Süre Modelleme

Eldeki veritabanının yeterince iyi kapsama sağladığı görüldükten ve harf sürelerini etkileyen etmenlerin bulunmasından sonra model çıkarma safhasına geçildi. Süre tahmini için denenen ilk model harflerin ortalama sürelerini kullanan modeldir. Veritabanı kullanılarak her harfin ortalama süresi bulunmuştur. Diğer ortalama süreye dayalı model, üçlü öbeklerin ortalama sürelerini kullanmaktadır. Üçlü öbeklerin ortalama sürelerini kullanan model, her ne kadar ortalama süre kullanıyor olsa da, üçlü öbeğin ortasındaki harf için komşu iki harfin bilgisini de kendiliğinden

(3)

içermektedir. Türkçe’de en sık geçen 5000 üçlü öbeğin, veritabanı kullanılarak ortalama süreleri bulunmuştur. Ayrıca harf sürelerini tahmin için doğrusal bağlanım modeli uygulandı. Doğrusal bağlanım modelini, modeli çıkarılacak harfi α ile temsil edersek,

y^α =X^αβ^α (1) βˆ_α =(X_α^TX_α)⁻¹(X_α^Ty_α) (2)

şeklinde göstermek mümkündür. Burada y vektörü harflerin süre değerlerini, _α X harfin vektörde _α geçen süreyi aldığı kelimedeki/tümcedeki etmen düzey değerlerini, β doğrusal bağlanım katsayı _α değerlerini, βˆ_α veritabanıyla bulunan doğrusal bağlanım katsayı tahminlerini ifade etmektedir.

Sesin süresini etkilediği varsayılan ve X vektörüne kodlanan etmenler, harflerin sürelerine etki _α ettiği saptanan etmenlerdir. Fakat etmenlerin çarpım şeklinde etkileşimleri modele dahil edilmemiştir. Eldeki veritabanıyla, her harf için denklem (2) ile doğrusal bağlanım katsayı tahminleri elde edilmiştir. Doğrusal bağlanım modelinin verideki değişimin ne kadarını açıkladığı R² istatistik değeri ile bulunmaktadır.

5. Sonuçlar

Uygulanan üç modeli kıyaslamak için ortalama hata yüzdeleri kullanıldı. Her harf için, ortalama hata yüzdesi denklem (3)’e göre hesaplandı. Harfi α , hesaplanan ortalama hata yüzdesini Y ile _α temsil edersek, ortalama hata yüzde bulma denklemi şu şekildedir;

*100 Süre

Gerçek

Tahmin -

Süre Gerçek



 



= Ortalama

Y_α (3)

Ünlüler ve ünsüzler için hata yüzde hesapları, denenen üç model ve iki ortam için tablo 1, 2.1 ve 2.2’de belirtilmektedir. Ortalama hata yüzdeleri modeller için %10 ile %54 arasında değişmektedir.

Harflerin ortalama süresini kullanan modelin ortalama hata yüzdesi ünlülerde %22 ile %50 arasında, ünsüzlerde ise %16 ile %54 arasındadır. Bu model oldukça basit olmakla beraber, hata yüzde performansı bazı harfler için iyidir (/ş/ için tümce ortamında %16). Basitliği diğer modellere göre avantaj oluşturmaktadır.

Üçlü öbeklerin ortalama sürelerini kullanan modelin performansı diğer iki modeli çoğu yerde geçmektedir. Yalnızca tek kelime ortamında ünlülerin süre tahmininde doğrusal bağlanım modeli daha iyi sonuç vermektedir. Fakat şunu belirtmek gerekir ki, üçlü öbekler kullanılarak her harf için süre tahmini yapılamamaktadır, yalnızca veritabanında karşılığı olanlar için yapılmaktadır. Bu yüzden denklem (3) kullanılarak hata yüzdesi hesaplanırken, her veri kullanılmamıştır üçlü öbek modelinde.

Doğrusal bağlanım modelinin ortalama hata yüzdesi üçlü öbek modeline yakındır ve her girilen yazı için süre tahmini yapılabilmektedir. Bu modelin karmaşıklığı da üçlü öbek modeline göre azdır çünkü süre tahmini için tek gereken yalnızca doğrusal bağlanım katsayı tahminlerinin veritabanında saklanmasıdır. Bu da üçlü öbekleri saklamak için gereken yere göre oldukça azdır.

Tablo 4.1 ve 4.2’de seslerin süre değişimlerinin ne kadarının doğrusal bağlanım modeliyle açıklanabildiği R² istatistik değerleri verilerek belirtilmiştir. Pratik olarak, 0.75’in altındaki değerler için doğrusal bağlanım modelinin başarılı olduğu söylenemez. Çoğu harf için R²değeri bu değerin

(4)

altındadır. Denediğimiz doğrusal bağlanım modeli etmenlerin etkileşimini (çarpımları) içermemektedir. Bu etkileşimlerin de eklenmesi halinde doğrusal bağlanım modelinin başarısının artacağı düşünülmektedir.

Tüm etmenler göz önüne alındığında, doğrusal bağlanım modeli her durum içim süre tahmini yapabilmesi ve hata yüzdesinin az olmasından dolayı en iyi model seçilebilir. Harflerin süre tahmini için halen yeni modeller geliştirilmeye çalışılmaktadır. Bu çalışmanın ilginç sonuçlarından biri de Türkçede ünlülerin ve ünsüzlerin özelliklerinin bulunmasında süre bilgisinin kullanılabileceğini gösterilmesi oldu [3].

Tablo 1. Ünlüler için elde edilen hata yüzdeleri

Ortam Model a e ı i o ö u ü

Harf ortalama 27.5 26.6 49.22 41.0 22.4 19.2 37.7 33.7 Üçlü öbek 17.5 16.2 19.0 18.9 15.8 12.9 17.9 16.9 Tek

Kelime

Ortamı Doğrusal Bağlanım

16.0 12.8 19.0 19.0 12.6 10.3 18.5 16.9 Harf ortalama 25.1 22.8 45.5 37.7 22.7 22.0 35.4 29.0 Üçlü öbek 15.1 14.6 18.7 18.9 12.9 10.8 15.9 12.6 Tümce

ortamı Doğrusal Bağlanım

19.7 16.9 30.1 27.4 13.8 12.2 23.3 18.6

Tablo 2.1 Ünsüzler (b-k) için elde edilen hata yüzdeleri

Ortam Model b c ç d f g ğ h j k Harf ortalama 37.5 26.1 29.9 40.8 38.9 31.6 34.7 49.9 39.0 52.7 Üçlü öbek 27.3 16.4 12.7 21.3 20.5 22.7 23.4 25.6 11.6 14.9 Tek

Kelime

Ortamı Doğrusal

Bağlanım 32.3 17.2 14.0 24.5 25.3 25.2 27.0 31.8 14.5 22.2 Harf ortalama 33.3 25.5 22.0 41.1 26.5 27.7 33.9 51.0 - 25.9 Üçlü öbek 24.5 11.6 11.2 20.8 12.5 19.6 20.0 22.1 0.0 18.2 Tümce

ortamı Doğrusal

Bağlanım 31.8 20.3 11.7 26.7 10.3 19.7 18.7 39.7 - 21.0

Tablo 2.2 Ünsüzler (l-z) için elde edilen hata yüzdeleri

Ortam Model l m n P r s ş t v y z

Harf ortalama

29.7 29.3 53.2 41.5 53.6 20.1 20.6 38.0 30.1 28.5 42.9 Üçlü öbek 18.7 15.2 16.0 16.8 19.7 13.1 10.5 16.4 19.0 19.6 16.3 Tek

kelime

ortamı Doğrusal

Bağlanım 20.8 16.3 17.0 20.2 21.6 15.0 10.4 19.3 20.4 20.0 19.2 Harf

ortalama

27.5 25.4 44.0 27.4 49.0 17.3 15.9 25.8 25.0 31.0 33.8 Üçlü öbek 18.4 15.8 20.9 11.3 20.0 11.6 10.1 12.3 18.3 18.0 19.7 Tümce

ortamı

Doğrusal Bağlanım

23.5 19.6 27.5 9.9 27.2 13.3 11.8 17.9 19.5 24.1 24.0

(5)

Tablo 3 Ünlüler için elde edilen R² değerleri

a e ı i o ö u ü

Tek kelime ortamı 0.56 0.70 0.77 0.72 0.66 0.76 0.74 0.74 Tümce ortamı 0.33 0.36 0.55 0.45 0.61 0.91 0.59 0.62

Tablo 4.1 Ünsüzler (b-m) için elde edilen R² değerleri

b c ç d f g ğ h j k l m Tek

kelime ortamı

0.26 0.68 0.84 0.51 0.57 0.39 0.58 0.70 0.85 0.79 0.59 0.74 Tümce

ortamı 0.21 0.97 0.70 0.47 0.78 0.60 0.70 0.41 - 0.28 0.26 0.44

Tablo 4.2 Ünsüzler (n-z) için elde edilen R² değerleri

n p r s ş t v y z

Tek kelime

ortamı 0.79 0.73 0.80 0.48 0.73 0.75 0.65 0.62 0.65 Tümce

ortamı 0.51 0.80 0.72 0.34 0.54 0.47 0.33 0.50 0.61 6. Kaynakça

[1] Arslan, L. M., “Sürekli Konuşma Tanıma ve Konuşma Sentezi Uygulamalarında En Uygun Fonetik Dizgenin Otomatik Seçimi,” S.İ.U. Konferansı, Bilkent, Ankara, Haziran, 1999.

[2] GVZ Ses Teknolojileri Yazılım Hizmetleri A.Ş., www.gvz.com.tr

[3] Şayli, Ö., “Duration Modelling for Turkish Text-to-Speech Synthesis”, Yüksek Lisans Tez Çalışması, Boğaziçi Üniversitesi.

[4] Van Santen, J., ''Chapter 5: Timing'', Multilingual Text-to-Speech Synthesis: The Bell Labs Approach, Kluwer Academic Publishers, Richard Sproat, editör, s. 115-139, 1998.

[5] Van Santen, J.P.H., “Contextual Effects on Vowel Duration,” Speech Communication, Cilt 11, s. 513-546, 1992.

[6] Yapanel, Ü., “Garbage Modeling Techniques for a Turkish Keyword Spotting System”, Yüksek Lisans Tezi, Boğaziçi Üniversitesi, 2000.