T.C.
PAMUKKALE ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ
BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI
KONUŞMA BİLGİSİ VE MAKİNE ÖĞRENMESİ KULLANILARAK DUYGU ANALİZİ
YÜKSEK LİSANS TEZİ
İSMAİL AKBUDAK
DENİZLİ, AĞUSTOS - 2019
T.C.
PAMUKKALE ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ
BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI
KONUŞMA BİLGİSİ VE MAKİNE ÖĞRENMESİ KULLANILARAK DUYGU ANALİZİ
YÜKSEK LİSANS TEZİ
İSMAİL AKBUDAK
DENİZLİ, AĞUSTOS - 2019
i
ÖZET
KONUŞMA BİLGİSİ VE MAKİNE ÖĞRENMESİ KULLANILARAK DUYGU ANALİZİ
YÜKSEK LİSANS TEZİ İSMAİL AKBUDAK
PAMUKKALE ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BİLGİSAYAR MÜHENDİSLİĞİ ANABİLİM DALI
(TEZ DANIŞMANI: PROF. DR. SEZAİ TOKAT) DENİZLİ, AĞUSTOS - 2019
Bu tez çalışmasında, insanların konuşurken çıkardığı seslerdeki duygu durumu ve sese ait spektral özellikler makine öğrenmesi kullanılarak işlenmeye çalışılmıştır. Duyguyu barındıran sesli içerik günlük konuşmalar, videolar, müzik, film, dizi içerikleri gibi birçok farklı kaynaktan elde edilebilir. Duygunun tespit edildiği sistemin ne kadar sürede duygu çıkarımı yaptığı, bu tarz bir sistemin oluşturulması aşaması, özelliklerin sesten elde edilmesi için harcanan süre ve sistem gereksinimlerinin minimum düzeye indirilmesi önemli bir çalışma alanıdır.
Bu tez çalışmasında daha önce konuşmadan duygu çıkarımı çalışmalarında bir arada kullanılmayan spektral özellikler girdi duyarlılık analizi yapılarak bir arada kullanılmıştır. Makine öğrenmesi sistemlerinin yüksek başarımla çalışabilmesi için kullanılan özellik sayısının az olması önemli bir faktördür. Bu nedenle bu çalışmada duygu çıkarımının az özellik kullanılarak yapılması üzerinde durulmuştur. Yapılan çalışmada sese ait spektral özellikler olan Melspectrogram, Mel Frekans Kepstral Katsayıları, Chorma – Kısa Süreli Fourier Dönüşümü, Spektral Kontrast ve Tonnetz özellikleri, makine öğrenmesi tekniği olan yapay sinir ağları ve destek vektör makineleri yöntemleri ile birlikte kullanılarak elde edilen en iyi sonuçlar paylaşılmıştır. Konuşmadan duygu çıkarımı çalışmalarında bu özelliklerin kullanılmasına katkı sağlanmaya çalışılmıştır.
ANAHTAR KELİMELER: Duygu Analizi, Konuşma, Makine Öğrenmesi, Destek Vektör Makineleri, Yapay Sinir Ağları.
ii
ABSTRACT
EMOTION RECOGNITION USING SPEECH INFORMATION AND MACHINE LEARNING
MSC THESIS İSMAİL AKBUDAK
PAMUKKALE UNIVERSITY INSTITUTE OF SCIENCE COMPUTER ENGİNEERİNG
(SUPERVISOR: PROF. DR. SEZAİ TOKAT)
DENİZLİ, AUGUST 2019
In this thesis, it is aimed to obtain the sentiment in the speeches that people make while talking by using the spectral features and machine learning.
Emotional audio content can be obtained from many different sources such as daily speeches, videos, music, movies, series content. Issues like how long it takes for the emotion extraction system to detect the emotion, how long the emotion extraction takes place, the process of creating such a system, the time taken to obtain the features from the sound and minimizing the system requirements, are an important work area.
In this thesis, spectral features, which were not used together in previous speech extraction studies were used together by performing input sensitivity analysis. The low number of features used for machine learning systems is an important factor for high performance. Therefore, in this study, it is emphasized that emotion extraction is done by using few features. In this study, spectral properties of speech such as Melspectrogram, Mel Frequency Cepstral Coefficients, Chorma - Short Term Fourier Transform, Spectral Contrast and Tonnetz properties are used together with machine learning methods such as Artificial Neural Networks and Support Vector Machines and best results were shared. It has been tried to contribute to the usage of these features in the studies of sentiment extraction from speech.
KEYWORDS: Sentiment Analysis, Speech, Machine Learning, Support Vector Machines, Artificial Neural Networks.
iii
İÇİNDEKİLER
Sayfa
ÖZET ... i
ABSTRACT ... ii
İÇİNDEKİLER ... iii
ŞEKİL LİSTESİ ... iv
TABLO LİSTESİ ... v
KISALTMALAR LİSTESİ ... viii
ÖNSÖZ ... ix
1. GİRİŞ ... 1
1.1. Tezin Konusu ... 1
1.2. Tezin Amacı ... 9
1.3. Tezin İçeriği ... 10
2. MAKİNE ÖĞRENMESİ İLE DUYGU ANALİZİ ... 11
2.1 Duygu Analizi ... 11
2.2 Makine Öğrenmesi ... 14
2.2.1 Makine Öğrenmesi Yöntemleri ... 14
2.2.2 Makine Öğrenmesi Uygulamaları ... 16
2.2.3 Makine Öğrenmesi Modelleri ... 16
2.2.3.1 Yapay Sinir Ağları ... 17
2.2.3.2 Destek Vektör Makineleri ... 17
2.3 Literatür Çalışması ... 17
3. SES VERİSİ VE KULLANILAN ÖZELLİKLERİ ... 24
3.1 İnsan Sesinin Özellikleri ... 24
3.1.1 Diksiyon ... 24
3.1.2 Ses ... 24
3.1.3 Ton ... 25
3.1.4 Ruh Hali ... 25
3.2 Ses Dosyasından Elde Edilen Özellikler ... 25
3.2.1 Melspectrogram ... 25
3.2.2 Mel Frekansı Kepstral Katsayıları ... 26
3.2.3 Chroma – Kısa Süreli Fourier Dönüşümü ... 26
3.2.4 Spektral Kontrast ... 28
3.2.5 Tonnetz ... 29
3.3 Ses Verisi ... 30
3.3.1 Sayısal Bilgiler ... 33
4. YÖNTEM ... 35
5. BULGULAR ... 37
6. SONUÇ VE ÖNERİLER ... 69
7. KAYNAKLAR ... 72
8. ÖZGEÇMİŞ ... 88
iv
ŞEKİL LİSTESİ
Sayfa Şekil 3.1: Shepard’ın perde algı sarmalının çizimi (Bartsch ve Wakefield 2005).
... 27
Şekil 3.2: Harmonik değişim tespit fonksiyonu sisteminin akış şeması (Harte ve diğ. 2006). ... 30
Şekil 3.3: Duyguların tanınabilirlik oranları ... 33
Şekil 3.4: Tüm cümleler için duygu durumlarına göre örnek sayıları ... 33
Şekil 3.5: Cümle gruplarının duygu durumlarına göre dağılımları ... 34
Şekil 3.6: Cümle gruplarının duygu durumlarına göre yoğunlukları ... 34
Şekil 4.1: Modellerin eğitim akış şeması ... 35
Şekil 4.2: Yapay sinir ağı modeli ... 36
v
TABLO LİSTESİ
Sayfa Tablo 3.1: Her oktav ölçekli bant geçişi için filtrenin frekans aralığı (Örnekleme
hızı = 44.1 kHz) (Lee ve diğ. 2007). ... 29
Tablo 5.1: Cümle grupları için 7 sınıflı YSA test sonuçları ... 38
Tablo 5.2: Cümle grupları için 7 sınıflı DVM test sonuçları ... 38
Tablo 5.3: Cümle grupları için 5 sınıflı YSA test sonuçları ... 39
Tablo 5.4: Cümle grupları için 5 sınıflı DVM test sonuçları ... 39
Tablo 5.5: Cümle grupları için 4 sınıflı YSA test sonuçları ... 40
Tablo 5.6: Cümle grupları için 4 sınıflı DVM test sonuçları ... 40
Tablo 5.7: Gruplanmış veriler için 7 sınıflı YSA test sonuçları ... 41
Tablo 5.8: Gruplanmış veriler için 7 sınıflı DVM test sonuçları ... 41
Tablo 5.9: Gruplanmış veriler için 5 sınıflı YSA test sonuçları ... 42
Tablo 5.10: Gruplanmış veriler için 5 sınıflı DVM test sonuçları ... 42
Tablo 5.11: Gruplanmış veriler için 4 sınıflı YSA test sonuçları ... 42
Tablo 5.12: Gruplanmış veriler için 4 sınıflı DVM test sonuçları ... 42
Tablo 5.13: Tüm veriler için YSA test sonuçları ... 43
Tablo 5.14: Tüm veriler için DVM test sonuçları ... 43
Tablo 5.15: C1 özellikleri ile cümle grupları için 7 sınıflı YSA test sonuçları 44 Tablo 5.16: C1 özellikleri ile cümle grupları için 7 sınıflı DVM test sonuçları45 Tablo 5.17: C1 özellikleri ile cümle grupları için 5 sınıflı YSA test sonuçları 45 Tablo 5.18: C1 özellikleri ile cümle grupları için 5 sınıflı DVM test sonuçları46 Tablo 5.19: C1 özellikleri ile cümle grupları için 4 sınıflı YSA test sonuçları 46 Tablo 5.20: C1 özellikleri ile cümle grupları için 4 sınıflı DVM test sonuçları47 Tablo 5.21: C1 özellikleri ile gruplanmış veriler için 7 sınıflı YSA test sonuçları ... 47
Tablo 5.22: C1 özellikleri ile gruplanmış veriler için 7 sınıflı DVM test sonuçları ... 47
Tablo 5.23: C1 özellikleri ile gruplanmış veriler için 5 sınıflı YSA test sonuçları ... 48
Tablo 5.24: C1 özellikleri ile gruplanmış veriler için 5 sınıflı DVM test sonuçları ... 48
Tablo 5.25: C1 özellikleri ile gruplanmış veriler için 4 sınıflı YSA test sonuçları ... 48
Tablo 5.26: C1 özellikleri ile gruplanmış veriler için 4 sınıflı DVM test sonuçları ... 48
Tablo 5.27: C1 özellikleri ile tüm veriler için YSA test sonuçları ... 49
Tablo 5.28: C1 özellikleri ile tüm veriler için DVM test sonuçları ... 49
Tablo 5.29: C2 özellikleri ile cümle grupları için 7 sınıflı YSA test sonuçları 49 Tablo 5.30: C2 özellikleri ile cümle grupları için 7 sınıflı DVM test sonuçları50 Tablo 5.31: C2 özellikleri ile cümle grupları için 5 sınıflı YSA test sonuçları 50 Tablo 5.32: C2 özellikleri ile cümle grupları için 5 sınıflı DVM test sonuçları51 Tablo 5.33: C2 özellikleri ile cümle grupları için 4 sınıflı YSA test sonuçları 51 Tablo 5.34: C2 özellikleri ile cümle grupları için 4 sınıflı DVM test sonuçları52 Tablo 5.35: C2 özellikleri ile gruplanmış veriler için 7 sınıflı YSA test sonuçları ... 52
vi
Tablo 5.36: C2 özellikleri ile gruplanmış veriler için 7 sınıflı DVM test sonuçları ... 52 Tablo 5.37: C2 özellikleri ile gruplanmış veriler için 5 sınıflı YSA test sonuçları ... 53 Tablo 5.38: C2 özellikleri ile gruplanmış veriler için 5 sınıflı DVM test sonuçları
... 53 Tablo 5.39: C2 özellikleri ile gruplanmış veriler için 4 sınıflı YSA test sonuçları ... 53 Tablo 5.40: C2 özellikleri ile gruplanmış veriler için 4 sınıflı DVM test sonuçları
... 53 Tablo 5.41: C2 özellikleri ile tüm veriler için YSA test sonuçları ... 54 Tablo 5.42: C2 özellikleri ile tüm veriler için DVM test sonuçları ... 54 Tablo 5.43: C3 özellikleri ile cümle grupları için 7 sınıflı YSA test sonuçları 54 Tablo 5.44: C3 özellikleri ile cümle grupları için 7 sınıflı DVM test sonuçları55 Tablo 5.45: C3 özellikleri ile cümle grupları için 5 sınıflı YSA test sonuçları 55 Tablo 5.46: C3 özellikleri ile cümle grupları için 5 sınıflı DVM test sonuçları56 Tablo 5.47: C3 özellikleri ile cümle grupları için 4 sınıflı YSA test sonuçları 56 Tablo 5.48: C3 özellikleri ile cümle grupları için 4 sınıflı DVM test sonuçları57 Tablo 5.49: C3 özellikleri ile gruplanmış veriler için 7 sınıflı YSA test sonuçları ... 57 Tablo 5.50: C3 özellikleri ile gruplanmış veriler için 7 sınıflı DVM test sonuçları
... 57 Tablo 5.51: C3 özellikleri ile gruplanmış veriler için 5 sınıflı YSA test sonuçları ... 57 Tablo 5.52: C3 özellikleri ile gruplanmış veriler için 5 sınıflı DVM test sonuçları
... 58 Tablo 5.53: C3 özellikleri ile gruplanmış veriler için 4 sınıflı YSA test sonuçları ... 58 Tablo 5.54: C3 özellikleri ile gruplanmış veriler için 4 sınıflı DVM test sonuçları
... 58 Tablo 5.55: C3 özellikleri ile tüm veriler için YSA test sonuçları ... 58 Tablo 5.56: C3 özellikleri ile tüm veriler için DVM test sonuçları ... 58 Tablo 5.57: C4 özellikleri ile cümle grupları için 7 sınıflı YSA test sonuçları 59 Tablo 5.58: C4 özellikleri ile cümle grupları için 7 sınıflı DVM test sonuçları59 Tablo 5.59: C4 özellikleri ile cümle grupları için 5 sınıflı YSA test sonuçları 60 Tablo 5.60: C4 özellikleri ile cümle grupları için 5 sınıflı DVM test sonuçları60 Tablo 5.61: C4 özellikleri ile cümle grupları için 4 sınıflı YSA test sonuçları 61 Tablo 5.62: C4 özellikleri ile cümle grupları için 4 sınıflı DVM test sonuçları61 Tablo 5.63: C4 özellikleri ile gruplanmış veriler için 7 sınıflı YSA test sonuçları ... 62 Tablo 5.64: C4 özellikleri ile gruplanmış veriler için 7 sınıflı DVM test sonuçları
... 62 Tablo 5.65: C4 özellikleri ile gruplanmış veriler için 5 sınıflı YSA test sonuçları ... 62 Tablo 5.66: C4 özellikleri ile gruplanmış veriler için 5 sınıflı DVM test sonuçları
... 62 Tablo 5.67: C4 özellikleri ile gruplanmış veriler için 4 sınıflı YSA test sonuçları ... 62 Tablo 5.68: C4 özellikleri ile gruplanmış veriler için 4 sınıflı DVM test sonuçları
... 62
vii
Tablo 5.69: C4 özellikleri ile tüm veriler için YSA test sonuçları ... 63 Tablo 5.70: C4 özellikleri ile tüm veriler için DVM test sonuçları ... 63 Tablo 5.71: C5 özellikleri ile cümle grupları için 7 sınıflı YSA test sonuçları 64 Tablo 5.72: C5 özellikleri ile cümle grupları için 7 sınıflı DVM test sonuçları64 Tablo 5.73: C5 özellikleri ile cümle grupları için 5 sınıflı YSA test sonuçları 65 Tablo 5.74: C5 özellikleri ile cümle grupları için 5 sınıflı DVM test sonuçları65 Tablo 5.75: C5 özellikleri ile cümle grupları için 4 sınıflı YSA test sonuçları 66 Tablo 5.76: C5 özellikleri ile cümle grupları için 4 sınıflı DVM test sonuçları66 Tablo 5.77: C5 özellikleri ile gruplanmış veriler için 7 sınıflı YSA test sonuçları ... 67 Tablo 5.78: C5 özellikleri ile gruplanmış veriler için 7 sınıflı DVM test sonuçları
... 67 Tablo 5.79: C5 özellikleri ile gruplanmış veriler için 5 sınıflı YSA test sonuçları ... 67 Tablo 5.80: C5 özellikleri ile gruplanmış veriler için 5 sınıflı DVM test sonuçları
... 67 Tablo 5.81: C5 özellikleri ile gruplanmış veriler için 4 sınıflı YSA test sonuçları ... 67 Tablo 5.82: C5 özellikleri ile gruplanmış veriler için 4 sınıflı DVM test sonuçları
... 68 Tablo 5.83: C5 özellikleri ile tüm veriler için YSA test sonuçları ... 68 Tablo 5.84: C5 özellikleri ile tüm veriler için DVM test sonuçları ... 68
viii
KISALTMALAR LİSTESİ
YSA : Yapay Sinir AğlarıDVM : Destek Vektör Makineleri
MFKK : Mel Frekeans Kepstral Katsayıları SVC : C-Destekli Vektör Sınıflandırması E.V.S. : Eğitim Verisi Sayısı
T.V.S. : Test Verisi Sayısı E. Skor : Eğitim Skor
Ö.K. : Öğrenme Katsayısı
ix
ÖNSÖZ
Bu tez çalışmasında, insanların konuşurken çıkardığı seslerdeki duygu durumunu elde etmek için, sese ait spektral özellikler ve makine öğrenmesi yöntemleri kullanılarak girdi duyarlılık analizi yapılmıştır. Kullanılan spektral özellikler daha önceki çalışmalarda bir arada kullanılmamıştır ve girdi duyarlılık analizi ile sistemin az özellik kullanılarak çalışması amaçlanmıştır.
Öncelikle tez sürecinde bana her türlü yardımda bulunan tez danışmanım Prof. Dr. Sezai Tokat’a teşekkürlerimi sunarım. Tez konusu seçerken yardımlarını esirgemeyen Arş. Gör. Selahattin Akkaş’a ve tüm eğitim hayatım boyunca benden maddi ve manevi desteklerini esirgemeyen, her zaman yanımda olan aileme teşekkürlerimi bir borç bilirim.
1
1. GİRİŞ
1.1. Tezin Konusu
Türk Dil Kurumu bilgiyi, “insan aklının erebileceği olgu, gerçek ve ilkelerin bütünü” yani enformasyon olarak tanımlamaktadır. İnsanın kendinden bir şeyler katmadığı bu bilgi, enformasyon (information) diğer bir deyişle, soyut ya da somut bir varlığın ne olduğunu belirten ve dolayısıyla varlığın doğasını ve özelliklerini belirten, belirsizliğin çözümüdür. Hançerlioğlu (1976) enformasyonu haber alma olarak nitelendirmiştir. Bunun yanı sıra, Güvenç (2006) bilginin tek bir kelime olmasına rağmen farklı türleri olduğunu belirtmiştir. Bu türler incelenecek olursa, insanlık tarihi boyunca sözlü olarak aktarılmış, töre (gelenek) bilgisi diğer bir adıyla mitos bulunmaktadır, bu bilgi türünün yanında inançların bilgisi etos denilen bir bilgi türü mevcuttur, bu bilgi türlerine karşı da, bilimin, aklın bilgisi denilen diğer bir adıyla bilimsel bilgi, logos vardır (Güvenç 2006).
İnam (2006) enformasyon dışında, bilgiyi (knowledge) kişinin kendisinden bir şeyler katarak, kendi içinde içselleştirip, işleyip, anlam çıkararak, plan yaparak elde ettiğini savunmuştur. Buna göre veriler (data) vardır, bu verilerden enformasyonlar yıllar boyunca elde edilmiştir ve elde edilmeye devam edilmektedir, bu enformasyonlardan kişi bilgi denilen kavramı çıkartır.
Kesen (2013) enformasyonun bilgiye nasıl dönüştüğünü çok güzel bir örnek ile açıklamıştır. Bu örnek incelenecek olursa; şehirlerarası toplu taşıma aracı (tren, otobüs, uçak vb.) ile seyahat eden bir kişinin seyahatini başarıyla tamamlayabilmesi için satın aldığı bilet üzerindeki bilgilerden yararlanması gerekir. Bilet, üzerinde rakam, şekil, yazı vb. bulunduran bir veri grubudur ve kişi bu verilerin ne olduğunun farkındadır. Bu verilerin enformasyon ya da habere dönüşebilmesi için kişinin yazılanları okuyup, anlayarak çözümlemesi gerekmektedir. Çözümlenmiş bu veriler, kişiye nerede oturacağı, hangi araca binmesi gerektiği gibi enformasyonlar verir. Kişi bu enformasyonları kendi içinde anlamlandırarak, planını ona göre yapıp ve
2
davranışlarını ona göre düzenlerse enformasyonu kendisi için bilgi düzeyine çıkarmış olur (Kesen 2013). Özetle bir verinin bilgi düzeyine çıkabilmesi için işlenmesi, bilginin kişi tarafından özümsenmesi gerekmektedir.
Rowley (1998) ise bilgiyi dünyadaki deneyimlerin ve kişisel, sosyal ve örgütsel işleyişin ayrılmaz bir parçası olarak nitelendirmiştir. Burada bahsedilen bilgi günlük yaşamda insanlar için önem taşımaktadır. Çünkü yönetimin her kademesinde ve herkes tarafından bu bilgilerden yararlanılmaktadır (Aktaş 2006). Bu bilgiler sayesinde insan, hayatını kolaylaştırmakta, huzur ve refah içinde yaşamaya çalışmaktadır. Bu bilgiler bir yandan da toplumsal bir hafıza oluşturmaktadır.
Yirminci Yüzyıl’ın ortalarına kadar bilgiye erişmenin temel yöntemi kitaplar iken, bu tarihten sonraki süreçte bilgiye ulaşma ve paylaşma probleminin yerini doğru bilgiye ulaşma problemi almıştır (Şan 2005).
Bilgiye ulaşmanın kolaylaşmasıyla birlikte bu durum toplumların zenginlik kaynaklarında değişikliklere sebep olmuştur (Aktan ve Vural 2005; Kesen 2013). Bu zamanlarda bilgi çağı ve bilişim toplumu denilen yeni bir dönem başlamıştır (Aktan ve Vural 2005; Kesen 2013). Tarım ve sanayi toplumunun ardından, kas ve makine gücü kullanılarak elde edilen zenginliğin yerini bilgi almaya başlamış ve bu bağlamda toplumdaki yetişmiş beyin gücü önem kazanmıştır. Bilgi üretebilen insanlar yetiştirmek toplumların temel amacı haline gelmiştir. Bu çağ ile birlikte ekonomik, sosyal, siyasal ve teknolojik sistemlerde, ulusal yapıdan küresele dönüşümler başlamıştır (Aktan ve Vural 2005). Ayrıca, bilgiye ulaşımı kolaylaştıran İnternet ve bilgisayar, cep telefonu vb. iletişim araçları bilginin paylaşımını da kolay hale getirmiştir. Bu araçlar ile oluşturulup, güncellenebilen, silinebilen, kendi özelliğinden bir şey kaybetmeden tekrar tekrar görüntülenebilen ve dünyanın herhangi bir noktasındaki bir kişi ile anında paylaşılabilinen ve dijital bilgi olarak nitelendirilen bir bilgi türü ortaya çıkmıştır. Dijital bilgi sıfır ve bir rakam serilerinden oluşarak depolanan bir bilgi türüdür.
Dijital veri, dijital bilgi gibi sadece ikili sayı sistemi yani sıfır ve birleri kullanarak verinin depolanması ve gösterilmesidir. Günümüzdeki bilgisayar sistemlerindeki tüm veriler dijital veridir. Oxford sözlüğü veriyi “miktar, karakter ya da sembollerin gösterimi” olarak tanımlar. Dijital veri üzerinde işlemler bir bilgisayar tarafından gerçekleştirilir ve bilgisayar veriyi manyetik, optik veya
3
mekanik kayıt ortamlarında saklayıp, kayıt altına alabilir ve dijital elektrik sinyalleri şeklinde iletir. Birden çok verinin bir araya gelmesiyle veri kümeleri oluşur. Son yıllarda bu dijital verinin üretimi, paylaşımı ve kullanım miktarında aşırı bir artış yaşanmıştır ve büyük veri kavramı ortaya çıkmıştır (Mauro ve diğ. 2016).
Mauro ve diğ. (2016) büyük veriyi, değere dönüştürülmesi için özel teknoloji ve analitik yöntemler gerektiren yüksek hacim, hız ve çeşitliliğe sahip bilgi varlığı olarak tanımlamıştır. Dijitalleşmenin hızlandığı 1990’ların başlarında analog sistemlerden dijital sistemlere dönüşüm, bilgilerin dijital ortama aktarılmasını sağlamış ve bu sayede dijital olarak üretilen veri miktarı katlanarak artmıştır (Mauro ve diğ. 2016). Bu zamanlarda ortaya çıkan ilk optik karakter okuyucu cihazları ile dijitalleşme süreci iyice hızlanmıştır. Bu cihazlar sayesinde geleneksel kitapların dijital bir kopyası oluşturulup, İnternet ortamında paylaşıma sunulmuştur.
Dijitalleşmenin en önemli örneklerinden biri olan ve 2004 yılında başlatılan Google Kitap Kütüphanesi Projesi ile milyonlarca kitap taranarak dijital hale dönüştürülmüştür (Mauro ve diğ. 2016).
Üretilen verinin artmasını sağlayan bir diğer neden ise, İnternete bağlı ve dijital sensörler (kameralar, ses kayıt cihazları ve GPS cihazları gibi) ile donatılmış kişisel cihazların çoğalmasıdır. Bu sensörler dijitalleşmeyi mümkün kılarken, ağ bağlantısı ile veri toplanmasına, dönüştürülmesine ve nihayetinde veri olarak depolanmasına olanak tanımaktadır. 2008 ve 2009 yılları arasında bir zamanda, İnternet’e bağlı cihazların sayısının insan sayısını aştığı tahmin edilmektedir (Evans 2011) ve 2020 yılına kadar dünyada 26 milyar cihazın İnternet’e bağlı olacağı tahmin edilmektedir (Mauro ve diğ. 2016). Bu durum cihazların insan müdahalesi olmadan kendi aralarında haberleşmesi demek ve büyük veri için üretilen daha çok veri anlamına gelmektedir.
İşin en önemli kısmı ise üretilen bu verilerin anlamlı hale getirilerek toplum, organizasyon, devlet veya ticari firmanın yararına kullanılmasıdır. Büyük veriden elde edilen anlamlı bilgiler ile insanların bir firma, ürün veya konu hakkındaki karar- verme süreçlerini yönetmek, kolaylaştırmak amaçlanmaktadır (Philip ve Zhang 2014).
4
Ham veriden anlamlı bilgiler çıkarılması için elde edilen verilerin işlenerek anlamlı bir bilgiye yani değere dönüştürülmesi gerekmektedir. Fiziksel ham maddenin işlenerek bir ürün elde edilmesi ile ham verinin işlenerek bir veri ürünü veya bilgi elde edilmesi süreçleri üretim olarak birbirine benzemektedir (Hazen ve diğ. 2014). Bu noktada veri işleme teknikleri ve teknolojileri devreye girmektedir.
Bu teknikler istatistik, veri madenciliği, makine öğrenmesi, yapay sinir ağları, sosyal ağ analizi, işaret işleme, örüntü tanıma, optimizasyon yöntemleri ve görselleştirme yaklaşımları gibi birçok disiplini içermektedir. Bu disiplinlerin her biri kendi içinde birçok spesifik teknik içermektedir (Philip ve Zhang 2014).
Gelişen dijitalleşmenin ve iletişim araçlarının, bilgi paylaşımını gün geçtikçe hızlandırdığı 20. yüzyılın sonlarında, sanayiye dayalı ekonomi, dijitalleşme ile yerini yüksek teknoloji ve bilgi ekonomisine bırakmaya başlamıştır (Castells 1996). Bu dönüşüm bilgi çağını başlatmış, üretim ve hizmet sektörleri yüksek teknoloji ve küreselleşen ekonomi ile çevrili daha etkin ve verimli bir işleyiş içinde olan, bilgiye dayalı bir toplum olunması ihtiyacını ortaya çıkarmıştır (Humbert 2007). 18. ve 19.
yüzyıllarda üretim işçilerinin yerine geçen makineler, bilgi çağı ile beraber daha da gelişerek düşünebilen makinelere dönüşmüş ve üretim akışını başından sonuna kadar koordine etme yetisine sahip olarak, hammaddenin çıkarılmasından nihai ürün ve hizmetlerin pazarlanmasına ve dağıtılmasına kadar kavramsal, yönetimsel ve idari işlevlerin yerine getirilmesinde görev almaya başlamıştır (Humbert 2007). Bu bilgisayar tabanlı otomasyon sistemleri, düşük vasıflı milyonlarca kişinin çalıştığı sektör olan üretim ve servis sektörlerinde birçok kişinin işsiz kalmasına sebep olmuştur (Humbert 2007). İnsanların işlerini kaybetmesi, toplumsal huzur ve refahın sağlanmasını zorlaştırmakta, toplum içi şiddet ve suçları artırmaktadır (Humbert 2007). Ayrıca bu dönüşüme ayak uydurmak için devletlerin eğitim politikalarını gözden geçirmesi ve yeni ekonomi düzeninin ihtiyacı olan bireyler yetiştirmek gibi sorunlarla yüzleşmesi gerekmektedir. 21. yüzyılda üretim sektöründen, servis sektörüne kayan çoğu düşük vasıflı iş gücünün yeni gelişmelerle birlikte bu sektörde de uzun dönem yerini koruyamayacağı öngörülmektedir (Rifkin 1995).
Günümüzdeki teknolojik gelişmeler göz önünde bulundurulacak olursa, örneğin sürücüsüz araçların gelişmesi düşünüldüğünde, birçok taksiciyi işinden etmesi senaryosu gibi benzer birçok senaryo hizmet sektöründe yüksek teknoloji ürünlerin toplumsal iş gücünde büyük değişimlere yol açacağı aşikardır. Bu yüzden bilgi
5
sektörü dışında kalan, üretim ve hizmet sektörü yakın zamanda insan iş gücüne hiç ihtiyaç kalmadan otomasyon ile kendi kendini yönetebilecek duruma geleceği, bilgi sektörünün ise makinelerin insan zekasına ulaşana kadar yerini koruyacağı öngörülmektedir (Humbert 2007; Rifkin 1995). Burada bilgi sektöründen kast edilen, düşünce gücü ile toplumun karşılaştığı problemlere çözümler üreten, yeni otomasyon sistemlerinin optimizasyonu sağlayan, yeni fikirler ile insanlığa yararlı ürünler üreten, eğitim, bilim, sağlık, mühendislik, ilaç, uzay vb. konularda gelişmeler sağlayan bir toplum oluşturmaktır.
Sanayi toplumunun bilgi toplumuna dönüşmesi beraberinde birçok problemi getirmiş ve yeni fikirlerin ortaya çıkmasını sağlamıştır. Mavi yaka çalışan olarak nitelendirilen, fabrikalarda çalışan insanların toplum içindeki sayısal üstünlüğü zamanla yerini beyaz yaka denilen, beyin gücünü kullanarak çalışan vasıflı, eğitilmiş kesime bırakmıştır (Humbert 2007). İnsanların bilgisayar tabanlı otomasyon sistemlerinin gelişmesi ile işlerini kaybetmesi gibi olaylar toplumdaki huzursuzluk ve suç oranlarını arttırmıştır (Humbert 2007). Sosyoloji insanların bu gibi durumlarda değişime verdikleri tepkileri ve çevresiyle olan ilişkileri inceleyen bir bilim dalıdır.
Giddens (2009) sosyolojiyi, “insanın toplumsal yaşamının, insan grupları ile toplumlarının bilimsel incelemesidir” şeklinde tanımlamıştır. Sosyoloji insanların bu dönüşümlerde karşılaştığı problemleri çözmeye, insanın kendisini tanımasına ve davranışlarını anlamlandırmasına yardımcı olmaya çalışmaktadır. İnsanlığın varoluşu yaklaşık olarak 500 bin yıl öncesinde başlamıştır (Giddens 2009) ve sürekli bir gelişim ve dönüşüm içerisindedir. İnsanlık, avcı-toplayıcı topluluklar oluşturup daha sonra tarım ile yerleşik hayata geçmiş ve kendi içinde gruplar oluşturup, tüm dünya coğrafyasına yayılmıştır, her bir topluluk kendi içinde gelenek-görenek ve inanç sistemleri oluşturmuş, ticaretin gelişmesi, sanayi devrimi ve dünya savaşlarının çıkması gibi günümüze gelene kadar birçok değişim sürecini yaşamıştır, bu değişimlerin her biri insanlığın kendi toplumu içinde de dönüşümlere sebep olmuştur (Giddens 2009). Her bir dönüşümde insanlık farklı problemler ile yüzleşmiştir. 20.
yüzyıldan sonra ise bu gelişim ve dönüşüm teknoloji sayesinde öncesine göre çok daha hızlıdır (Landes 2003). Bu dönüşüme verilebilecek güzel bir örnek ise haber alma hızıdır. 1950’li yıllarda dünyanın diğer ucundaki bir haberin geri kalanına iletilmesi günler alırken, 2000’li yıllara gelindiğinde artık dünyanın herhangi bir noktasından, medya kanalları sayesinde anlık olarak haber alınabilmektedir (Giddens
6
2009). Medya kanalları da teknolojinin gelişimi ile dönüşümlere uğramıştır. 15.
yüzyılda baskı makineleri ile yüksek hızda kopyası üretilen kitaplar ve metinler kitle iletişiminde önemli bir rol oynamıştır (Giddens 2009). Fakat 20. yüzyılda İnternetin icadı ve 21. yüzyılda yaygınlaşması ile kitle iletişiminde bir dönüm noktası yaşanmıştır (Giddens 2009). Bu iletişim hızı insanların daha çok kişi ile etkileşime girmesine ve farklı kültürden insanların sanal olarak sosyal aktivite oluşturmalarına olanak sağlamıştır. İnsanların içinde bulundukları topluma ait gelenek-görenek, davranış ve değerlerini, toplumun kültürünü öğrendikleri etkileşim sürecine toplumsallaşma veya sosyalleşme denilmektedir (Giddens 2009). İnsanların dijital ortamlarda, sanal olarak kendi içinde gruplar oluşturması ve bir etkileşim sürecinde olması insanların davranışlarını ve grup içindeki etkileşimlerini inceleyen sosyolojinin bir alt dalı olan dijital sosyolojinin çıkmasına sebep olmuştur. İnsanların bu sanal etkileşimleri bulunabileceği çeşitli sosyal medya platformları da 21.
yüzyılda ortaya çıkmıştır. Geleneksel kitle iletişim araçları tek yönlü bir iletişim sağlarken, internet üzerinden online yayın ortamları ve sosyal medya platformları çift yönlü bir iletişim imkanı sunmaktadır (Şentürk 2017). Bu kadar çok kişinin etkileşimde bulunduğu sosyal medya platformları veri üretiminin çok olduğu alanlardan bir tanesidir (Chae 2015). Sosyal medya platformları yanı sıra veri üretiminin çok olduğu diğer alanların başlıca örnekleri ise şu şekildedir; blog yazıları, uzay araştırmaları kapsamında çekilen fotoğraf vb. içerikler, Avrupa Nükleer Araştırma Örgütü (CERN) tarafından yapılan deneyler, biyoloji alanında yapılan gen, protein vb. dizilim araştırmaları (Mauro ve diğ. 2016; Howe ve diğ.
2008; Wang ve diğ. 2018).
Son yıllarda işletmeler ve araştırma toplulukları sosyal medya araştırmalarına yönelik ilgilerini artırmışlardır (Chae 2015). İş dünyası marka yönetimi, ürün ve hizmet tanıtımı dahil olmak üzere pazarlama amacıyla sosyal medyadan yararlanmaktadır. Çeşitli akademik alanlardan oluşan araştırma toplulukları, hisse senedi fiyat tahminleri, epideminin önlenmesi, erken olay takibi, seçim tahminleri, kriz yönetimi ve insani yardım, marka yönetimi, halkla ilişkiler, bilgi yayılımı ve kamuoyu fikri gibi farklı alanlarda yeni analiz teknikleri geliştirmek için, sosyal medya teknolojileri veya platformları aracılığıyla oluşturulan ve depolanan verilerin kullanımını araştırmaktadır (Chae 2015; Şentürk 2017). Sosyal medya günümüzde ürün pazarlama, kişiler hakkında fikir verme, işe alım süreçlerinde kontrol edilen bir
7
özgeçmiş olma, bir ürünün satışının yapılabileceği hedef kitle tahmini, takip ettiğiniz kişi ve kurumlardan anlık haber alma gibi özellikleriyle birçok potansiyel kullanım alanı oluşturmuştur (Kalampokis ve diğ. 2013).
Sosyal medya üzerinden insanlar, kuruluşlar ve son yıllarda ortaya çıkan bot hesaplar birbirini takip ederek ve başkaları tarafından takip edilerek dinamik topluluklar oluşturmaktadır (Chae 2015). Bu toplulukların ve geniş bir takipçi kitlesine sahip hesapların insanların düşüncelerine yön verme gibi bir yeteneği de bulunmaktadır. Geniş takipçi kitlesine sahip hesapların yaptığı paylaşımlar kısa sürede etkisini gösterip bahsi geçen firma, düşünce, sorun, insan, ülke vb. bir konu hakkında olumlu, olumsuz sonuçlar doğurabilmektedir (Chae 2015).
İnsanlar duygu ve düşünceleri sosyal medya üzerinden paylaşarak takipçilerini bir konu, ürün ya da yaşadıkları bir durum hakkında bilgilendirirler (Şentürk 2017). Bu bilgilendirme işlemi yazı, resim, görüntü ve ses gibi karşı tarafın duyularına hitap edecek şekilde yapılmaktadır (Şentürk 2017). Bu paylaşımların diğer bir ilginç noktası ise insanlara birilerinin bir şey sormadan, kendi içinden geldiği gibi ne istiyorsa onu paylaşmasıdır (Şentürk 2017). Sosyal medya platformları içinde Twitter, birçok farklı kültürden insanın duygu ve düşüncelerini paylaştığı, anlık olarak çok miktarda veri üretilen ve bunların herkese açık olduğu platformlardan bir tanesidir (Coban ve diğ. 2015; Meral ve Diri 2014; Pak ve Paroubek 2010; Stieglitz ve Dang-Xuan 2013).
Bir kişinin, bir konu hakkında düşüncesini açıklaması çoğu zaman o konu hakkında ne hissettiğini yani duygusunu içermektedir (Kim ve Hovy 2004). Bazı durumlarda ise kişi görüşünü belirtirken duygusunu yansıtmamaktadır, örnek olarak şu cümleler verilebilir;
- “Bence dünya düzdür”
- “Onlar iflas edecek”
Duygunun belirtildiği cümlelerde ise bu her zaman açık bir şekilde yapılmamaktadır.
Kişi bazen üstü kapalı bir şekilde ne hissettiğini karşı tarafa hissettirmektedir, bu tarz cümlelere örnek ise şu şekildedir;
- “Bence ona borç vermen seni zor duruma düşürecek” (üstü kapalı)
8 - “Ona bu şekilde davranman yanlıştı” (açık)
Bu tarz cümlelerden kişinin konu hakkında temel anlamda iyi, kötü ya da nötr gibi ne hissettiği çıkarılabilmektedir (Go ve diğ. 2009; Kim ve Hovy 2004). Bu konu üzerine fikir madenciliği, duygu analizi şeklinde 2000’li yılların başlarında çalışmalar başlamıştır (Liu 2010).
Duygu analizi üzerinde yoğun çalışılan bir konudur. Özellikle dijital olarak üretilen veri miktarının artmasıyla birlikte, internet ortamında paylaşılan bilgiyi anlamlı hale getirmek amacıyla, sosyal medya, blog, forum vb. web içeriklerinden yazı tabanlı duygu analizi çıkarımı yapmaya yönelik çalışmalara ilgi artmıştır. İlk baştaki çalışmalar dil bilimciler tarafından kelimelerin bir araya gelerek oluşturduğu anlam bütünlüğünü ölçmeye yönelik çalışmalardır (Das ve Chen 2001; Dave ve diğ.
2003; Morinaga ve diğ. 2002; Nasukawa ve Yi 2003; Pang ve diğ. 2002; Turney, 2002; Wiebe 2000). Bazı çalışmalar yazının yanı sıra resim ve video içeriğindeki insanların yüz ifadesi, konuşma biçimi, sesli medya içeriği gibi faktörleri kullanarak duygu çıkarımı yapmaya çalışmıştır (Chen ve diğ. 1998; Chen ve Huang 2000;
Radhakrishnan ve diğ. 2018; Sebe ve diğ. 2000; Zhang ve diğ. 2013). Ayrıca bu faktörlerin farklı kombinasyonları kullanılarak daha doğru bir sonuç elde etmeye yönelik çalışmalar da yapılmıştır (Tripathi ve Beigi 2018).
Sesli medyadan duygu çıkarımı konusunda günlük konuşmalar, video, müzik dosyaları, belli duygu durumu altında kayıt altına alınan ses kayıtları, film, dizi gibi içerikler için aktörlerin duyguyu yansıtmak adına yaptığı seslendirmeler üzerinden, sesin farklı özelliklerini kullanarak yapılan duygu çıkarımı çalışmaları mevcuttur (Anagnostopoulos ve diğ. 2012). Duyguyu barındıran sesli içerik birçok farklı kaynaktan elde edilebilir fakat duygunun tespit edildiği sistemin ne kadar sürede duygu çıkarımı yaptığı, bu tarz bir sistemin oluşturulması aşamasında ve özelliklerin elde edilmesi için harcanan süre ve sistem gereksinimlerinin minimum düzeye indirilmesi önemli bir çalışma alanıdır (Chiou ve Chen 2013). Sistemin farklı cihazlar üzerinde çalışabilmesi, kullanılan özelliklerin hızlı bir şekilde elde edilmesi, mümkün olduğunca az özellik kullanılması oldukça önemlidir. Bu tarz çalışmalara ışık tutabilmesi için sesten yeni özelliklerin çıkarılması ve ortaya çıkan farklı çalışmalarda kullanılan yeni özellik elde etme yöntemlerinin duygu çıkarımı çalışmalarında kullanılarak analiz edilmesi gerekmektedir. Chiou ve Chen (2013)
9
tarafından yapılan çalışma incelendiğinde, var olan çalışmalara göre daha az özellik kullanarak yüksek doğruluk oranına sahip bir sistem elde etmeyi başarmışlardır.
Yapılan bu çalışmadan hareketle daha önce bir arada kullanılmayan özellikler bir arada kullanılarak veya konuşmadan duygu çıkarımı dışında kullanılan ses özellikleri bu alanda kullanılarak, daha az özellik ile başarılı sonuçlar elde etmek mümkündür.
Bu tez çalışmasında önceki çalışmalarda bir arada kullanılmayan ve sese ait olan bazı spektral özellikler ile makine öğrenmesi yöntemleri kullanılarak duygu çıkarımı yapan bir sistem elde edilmeye çalışılmıştır. Ayrıca girdi duyarlılık analizi yapılarak bu özelliklerin hangilerinin daha faydalı olduğu tespit edilmeye çalışılmıştır.
1.2. Tezin Amacı
Bu çalışmanın amacı insanların farklı ruh hallerinde konuşurken çıkardığı seslerin spektral özelliklerini kullanarak önceki çalışmalardan daha az özellikler kullanarak duygu çıkarımı yapmaktır. Daha önceden yapılan çalışmalarda makine öğrenmesinin farklı yöntemleri ve sese ait birçok farklı özellikler kullanılarak duygu çıkarımı yapılmaya çalışılmıştır. Yapılan çalışmalardan bazıları konuşmanın olumlu, olumsuz veya nötr olmasını ayırt etmeye yönelikken bazıları doğrudan yansıtılan duyguyu tespit etmeye yöneliktir. Bu tez çalışmasında, insanın konuşurken çıkardığı sesin spektral özellikleri kullanılarak, yansıtılan duygunun doğrudan tanınması amaçlanmıştır. Ayrıca kullanılan spektral özellikler için girdi duyarlılık analizi yapılmıştır.
Ses verisinden elde edilebilecek birçok özellik bulunmaktadır, bu özellikler Panda ve diğ. (2018) tarafından yapılan çalışmada ayrıntılı bir şekilde listelenmiştir.
Bu listede yer almayan fakat farklı çalışmalarda kullanılan özellikler de mevcuttur.
Sesten elde edile bilinen bu kadar çok özelliğin olması, konuşmadan duygu çıkarımı konusunda hangilerinin etkili olduğunun araştırılmasını gerektirmektedir. Ayrıca birçok özelliğin bir arada kullanılması duygu tanıma işleminin performansını ve özelliklerin elde edilme süresini doğrudan etkileyen bir durumdur (Chiou ve Chen 2013). Bir ses dosyasından birçok özelliği çıkarıp bunların her birini kullanarak yüksek doğrulukta bir sistem elde edilmesi, bu sistemin kullanım aşamasında istenilen performansta çalışmasını engelleyebilir. Bu yüzden az özellik kullanarak
10
veya var olan yöntemlere alternatif yöntemler geliştirerek duygu çıkarımı yapmak önemli bir konudur ve üzerine çalışılmaktadır (Chiou ve Chen 2013). Chiou ve Chen (2013) tarafından yapılan bir çalışmada az özellik kullanarak duygu çıkarımı yapılmaya çalışılmıştır. Bu tez çalışmasında da özellik sayısı az tutularak, önceki çalışmalarda bir arada kullanılmayan spektral özellikler ile makine öğrenmesinin Yapay Sinir Ağları (YSA) ve Destek Vektör Makineleri (DVM) yöntemlerini kullanılarak duygu çıkarımı yapılmaya çalışılmıştır. Çalışmada insanların bir cümleyi farklı ruh hallerinde (öfkeli, doğal, korkulu, bıkkın, mutlu, üzgün, bezgin) söyledikleri ses dosyaları analiz edilerek makine öğrenmesinin gözetimli öğrenme yöntemlerinden faydalanarak bir model eğitimi sağlanmış ve daha sonra defalarca kullanılmak üzere duygu çıkarımı yapan bir uygulama elde edilmesi amaçlanmıştır.
Kullanılan verilerin gürültüden ayıklanmış ve gerçeğe en yakın olabilmesine özen gösterilmiştir. Bu veriler makine öğrenmesinde eğitim verisi olarak kullanılarak YSA ve DVM yöntemleri ile öğrenebilen bir uygulama elde edilmeye çalışılmıştır. Elde edilen bu uygulama test verileri üzerinden analizler ile öğrenmiş olan sistemin önceden karşılaşmadığı verilerde ne düzeyde başarılı olduğu ölçülüp, sonuçları karşılaştırılmıştır.
1.3. Tezin İçeriği
Tezin ikinci bölümünde tez ile ilgili literatür çalışmaları üzerinde durulmuştur. Bu çalışmalar belirli bir metodoloji ile sınıflandırılarak incelenmiş, tezde yapılan çalışmanın literatürdeki yeri belirlenmeye çalışılmıştır.
Tezin üçüncü bölümünde sesi oluşturan niteliklerden bahsedilmiş bunları birbirinden ayıran özellikleri belirtilmiş, duygu analizinde kullanılan ses özelliklerinin kullanım alanları ve elde ediliş yöntemleri hakkında bilgiler verilmiştir.
Ayrıca bu bölümde çalışmada kullanılan ses veri kümesinin özellikleri anlatılmıştır.
Tezin dördüncü bölümünde kullanılan teknikler hakkında bilgiler verilmiş ve beşinci bölümde bu yöntemler için elde edilen sonuçlar paylaşılmıştır.
Son bölümde ise sonuçlar hakkında bilgiler verilmiş ve öneriler sunulmuştur.
11
2.
MAKİNE ÖĞRENMESİ İLE DUYGU ANALİZİ
2.1 Duygu Analizi
Duygu analizi 2000’li yıllara doğru, fikir çıkarımı, fikir madenciliği, duygu çıkarımı, duygu madenciliği, görüş çıkarımı gibi terimler ile ortaya çıkan, bu tarihten önceki süreçte ise dil bilimciler ve doğal dil işleme adı altında uzunca bir dönem üzerinde çalışılan bir konudur (Liu 2010). Duygu analizi ile ilgili çalışmalar çoğunlukla kişinin konu hakkındaki olumlu ya da olumsuz düşüncesinin tahmin edilmesi üzerinedir (Liu 2010). Dile özgü ve her dilin kendine ait özellikleri, kelime anlamları, kelime grupları, pozitif ve negatif anlamlı kelimelerin kullanımı üzerinden sonuçlar elde etmeye yönelik farklı çalışmalar mevcuttur (Akgül ve diğ. 2016; Coban ve diğ. 2015; Narayanan ve diğ. 2009; Uçan 2014; Wilson ve diğ. 2005). Kelimelerin yan yana gelerek oluşturduğu anlam bütününün sonuçları değerlendirildiği için doğal dil işleme, makine öğrenmesi ve uzman sistemlerden yararlanılarak bu çalışmalar yapılmıştır. Bu alanda yazı tabanlı duygu analizi çalışmaları en yaygın olan çalışma türlerindendir (Radhakrishnan ve diğ. 2018). Özellikle sosyal medya üzerinde bir konu, firma, ürün veya herhangi bir olay üzerine paylaşılan içerikler hakkında insanların iyi ya da kötü düşünceye sahip olup olmadığının analizlerini yapan çalışmalar bulunmaktadır (Chae 2015; Go ve diğ. 2009; Pak ve Paroubek 2010;
Stieglitz ve Dang-Xuan 2013). Akademik çalışmaların yanı sıra hobi ve parasal gelir elde etme amaçlı çalışmalar da bulunmaktadır (Braun 2017a). Kar amaçlı yapılan bu uygulamalarda borsaya açılmış olan şirketlerin yaptığı yatırım veya alım-satım işlemleri ile ilgili duyurularını paylaşmasının arkasından, paylaşılan içeriğin olumlu mu olumsuz mu olduğunu anlamaya çalışıp, sonuç doğrultusunda hisse alım-satım işlemi yapan sistemler mevcuttur (Braun 2017a). Özellikle son yıllarda sosyal medya platformlarını takipçilerine bir konu hakkında haber vermek için kullanan devlet veya şirketlerin başında yer alan yetkili kişilerin yaptığı duyurularını analiz ederek bunların sonuçlarına göre işlemler yapan uygulamalar bulunmaktadır (Braun 2017a).
Devlet üst düzey yöneticilerinin bir firma hakkındaki görüşlerini sosyal medya üzerinden duyurması ile paylaşılan içeriğin olumlu-olumsuz olmasına göre bu şirketlerin borsa üzerinde anlık olarak hisse fiyatlarının yükselip, alçalmasına sebep
12
olabilmektedir (Braun 2017b). Bunun örneği Amerika Birleşik Devletleri (ABD) başkanı olan Donald Trump’ın Twitter üzerinden attığı tweetler ile firmaları kötülemesi veya övmesidir. Donald Trump Toyota Motor şirketini, üretimlerini ABD dışında yapmasından dolayı kötüleyen bir tweet atmasının hemen arkasından firmanın ABD borsasında hisse değerleri keskin bir düşüş yaşamıştır (Braun 2017b).
Yine aynı şekilde Donald Trump Ford Motor şirketini, ABD içindeki yatırımlarından dolayı öven bir tweet paylaşmış ve paylaşılan tweet üzerine firmanın hisse değerleri olumlu yönde artış göstermiştir (Braun 2017b). Python programlama dili kullanılarak yazılan bir makine öğrenmesi yazılımı Donald Trump’ın paylaştığı bu tweetleri yorumlayarak bir firma ile ilişkili ve olumlu bir sonuç olup olmadığına karar verip bir hisse alım satım firmasının uygulama programlama arayüzünü kullanarak hisse alım satımı yapmış ve başarılı sonuçlar üretmiştir (Braun 2017b).
Yazı tabanlı analizlerin yanı sıra görsellerin de yazı ile birlikte analiz edilmesi ile duygu çıkarımı yapılmaya çalışılmıştır (Morency ve diğ. 2011; Wang ve diğ.
2015; Yuan ve diğ. 2013). Görsel medyadan duygu çıkarımı yapma konusu ile ilgili olarak yine sosyal medya araçları geniş bir örnek kitlesi oluşturmaktadır. Sosyal medyaya yüklenen bir insan görseli hakkında kişinin ruh hali ilgili çıkarımlar yapmaya çalışan uygulamalar mevcuttur (Jiang ve diğ. 2012). Hatta sosyal medya üzerinde yüklenen içeriğe uygun anahtar kelimeler üreterek bunları etiket olarak kullanıp içeriğin hızlıca anlamlandırılmasına yönelik çalışmalar yapılmıştır (Jiang ve diğ. 2012).
Yazılı ve görsel medyadan duygu çıkarımlarının yanı sıra sesli medyadan da duygu çıkarımı yapılmaya çalışılmıştır. İnsanların konuşma biçimi, kelimeleri söyleyiş şekliyle ilgili çalışmalar mevcuttur (Perez-Rosas ve diğ. 2013). Bu çalışmanın dışında konuşurken sesteki stres durumunu algılayıp bu sonucu hukuk, ülke girişlerindeki vize kontrol noktalarında, polis merkezlerinde suçlu sorgulamalarında kullanılması amaçlanmıştır (Haddad ve Ratley 2000). Bunların dışında sesin farklı özelliklerini kullanarak ve verilerin kayıt altına alınma yöntemlerine göre farklı çalışmalar mevcuttur (Mustafa ve diğ. 2018; Reddy ve Vijayarajan 2017). Chu ve Roy (2017) tarafından yapılan bir çalışmada ses ve görsel medya beraber kullanılarak duygu çıkarımı yapılmaya çalışılmıştır.
13
Bu çalışmaya benzer bir şekilde dilden, konuşmacıdan ve içerikten bağımsız bir şekilde kayıt altına alınan ses kayıtlarının farklı ses özellikleri ve farklı sınıflandırma yöntemleri ile duygu çıkarımı yapılmaya çalışılmıştır (Wang ve Guan 2004). Wang ve Guan (2004) tarafından yapılan çalışmada farklı kültürlerden 8 kişiye, 6 farklı dil için (İngilizce, Çince, Urduca, Pencapça, Farsça ve İtalyanca) her bir duygu durumu için 10 cümle söylemesi istenmiştir. Evrensel olan 6 duygu (Mutluluk, Üzüntü, Öfke, Korku, Şaşırma ve İğrenme) durumu çalışmada kullanılmıştır (Wang ve Guan 2004). Bazı kişiler kültür durumuna göre çeşitlendirme ve farklı cümle seslendirmelerinde bulunarak, her bir duygu durumu için 120, toplamda 720 ses kaydı toplanmıştır (Wang ve Guan 2004). Toplanan ses kayıtlarından farklı sınıflandırma yöntemleri ile eğitilerek oluşturulan uygulama kendisine verilen ses örneği için uygun çıkarımlarda bulunması sağlanmaya çalışılmıştır (Wang ve Guan 2004). Bu çalışmaya benzer bir şekilde başka çalışmalarda, konuşmanın farklı birçok özelliği kullanılarak duygu çıkarımı yapılmaya çalışılmıştır (Chavhan ve diğ. 2010; Kadiri ve diğ. 2014; Ram ve Ponnusamy 2014; Seehapoch ve Wongthanavasu 2013; Wöllmer ve diğ. 2010). Bu çalışmanın diğer çalışmalardan farkı daha önce bir arada kullanılmayan, sese ait bazı spektral özelliklerinin bir arada kullanılarak duygu çıkarımı yapılmaya çalışılmasıdır.
Bu çalışmalardan hareketle insanların konuşurken çıkardığı sesler üzerinden bir duygu çıkarımı yapılarak çeşitli alanlarda bu bilgilerden faydalana bilinir.
Listelenen şu örnekler sesli medyadan duygu çıkarımının önemli bir alan olduğunu göstermektedir; etkileşimli filmler (Nakatsu ve diğ. 1998), konuşan eğitim sistemi (Ai ve diğ. 2006), acı ve stresi tespit edebilmek için tıbbi acil durumlarda (Devillers ve Vidrascu 2006), robotlar ile etkileşimde (Lee ve diğ. 2011; Youssef 1995), bilgisayar oyunlarında (Klein ve diğ. 2002), çağrı merkezlerinde (López-Cózar ve diğ. 2011). Kısa konuşmalardan duygu çıkarımı da etkileşimli sesli cevap sistemlerinde kullanılabileceği diğer bir alandır (Yacoub ve diğ. 2003). Ayrıca duygu tanıma, konuşmadan duygu çıkarımı yapan sistemlerin ilk adımıdır (Gharavian ve Ahadi 2004, Gharavian ve Ahadi 2006). Yaşlı ve engelli insanların kullandığı bilgisayar ile etkileşim ara yüzlerinin geliştirilmesi konuşmadan duygu çıkarımının diğer bir uygulama alanlarındandır (Oudeyer 2003). Özellikle günümüzde gelişmekte olan sürücüsüz araçlar ve robotlardaki tek düze seslendirme yerine bu çalışmalardan elde edilen duygu yüklü konuşmalar kullanılabilir.
14 2.2 Makine Öğrenmesi
Makine öğrenmesi işlemi algoritmaların var olan verilerden elde ettiği sonuçları iyileştirmesi ile birlikte yeni gelen verilerde nasıl davranacağını öğrenmesi işlemidir. Bu işlem sayesinde programın her yeni gelen örnek için nasıl davranacağını satır satır kodlamak yerine, örnek veri üzerinden çıkarımlar yapması sağlanır (Bishop 2006; Koza ve diğ. 1996). Her adımın kodlanamadığı senaryolarda bu çözüm, maliyeti düşük ve etkilidir. Makine öğrenmesi günümüzde geniş bir alanda kullanılmaktadır. En önemli kullanım alanı olarak arama motorları, istenmeyen e-posta tespiti, önerici sistemler, reklam konumlandırma, kredi skoru tespiti, dolandırıcılık tespiti, borsa portföy analizleri olmak üzere birçok alan mevcuttur. Aslında, makine öğrenmesinin temel ögesi veri olduğu için herhangi bir konu ile ilgili veri mevcut ise bu verilerin özelliklerini kullanarak yeni gelen verilerde nasıl davranılacağı öngörülmek istenen her türlü alanda makine öğrenmesini kullanılanabilinir (Friedman 1997).
2.2.1 Makine Öğrenmesi Yöntemleri
Makine öğrenmesi yöntemleri, gözetimli ve gözetimsiz öğrenme olmak üzere iki ana gruba ayrılmaktadır. Gözetimli öğrenme yöntemlerinde öğrenme işlemi sisteme verileri etiketleyerek gösterilmesi işlemidir. Gözetimsiz öğrenme yönteminde ise sisteme geri bildirimde bulunarak sistemin öğrenmesi amaçlanır.
Gözetimsiz öğrenme algoritmalarında başarıya ulaşmak, gözetimli öğrenmelere göre daha zordur. Bu öğrenme tekniklerini daha iyi anlatmak için örnek üzerinden açıklanacak olursa, bir makine öğrenmesi programına girdi olarak verilen meyve resimlerinin hangi meyve olduğunu tahmin edebilmesi için, gözetimli öğrenme tekniğinde; algoritma öncelikle eğitilmelidir, bunun için resim girdisinin yanında, o resmin hangi meyve olduğu bilgisini de ilave ederek bir model geliştirilmelidir. Daha sonra geliştirilen bu model, kendi içinde kullandığı parametreleri yeni gelen resimlerin hangi meyve olduğunu tanımlamakta kullanır. Gözetimsiz öğrenmede ise algoritma modeline resimler girdi olarak verilir ve algoritmanın resmi ne olarak tanımladığı ve doğru olup olmadığını karşılaştırarak algoritmanın resmi kendiliğinden tanımaya çalışması sağlanır. Bu teknikte gözetimli öğrenme tekniğine
15
göre daha zorlayıcı bir şekilde model geliştirilmiş olur. Algoritmanın geliştirmiş olduğu modelin parametreleri yeni gelen resimlerin ne olduğunu tanımlamakta kullanılır.
Gözetimli öğrenme türünde, algoritmaya veri girdileri ve bunların istenilen çıktıları girdi olarak verilir ve algoritmadan verilen girdi ve sonuçlara göre bir kural haritası oluşturması beklenir (Stuart ve Norvig 2009). Bu öğrenme türünde girdilerin tamamı yerine bir kısmının ya da kısıtlı bir şekilde algoritmaya verilmesiyle birlikte özel durumlar ortaya çıkmıştır. Bu durumlarda gözetimli öğrenme altında farklı öğrenme yöntemleri ortaya çıkarmıştır.
Yarı-gözetimli öğrenme; bu öğrenme türünde eğitim veri kümesine ait bazı elemanlarının, arzu edilen sonuçları verilmeden model eğitimi yapılır. Aktif öğrenme; bu öğrenme türünde algoritma bazı eğitim verisi elemanlarının etiketlerine ulaşır ve etiketleri elde etmek için eleman seçimlerini optimize eder. Gözetimsiz öğrenme yöntemlerinde kullanılacak veri ile ilgili hiçbir etiket ya da sonucu belirleyecek bir girdi algoritmada kullanılmaz. Algoritmanın kendi başına girdilere göre kendi sonuçlarını oluşturması beklenir. Bu algoritma modellerinde amaç insanın doğrudan fark edemediği veri-özellik ilişkilerini bulmaktır (Jordan ve Bishop 1997;
Tucker 2004).
Aktif öğrenme yöntemlerinde eğitim verisi algoritmaya kendi dinamik ortamındaki aksiyonlarına göre geri bildirim olarak verilir. Bu geri bildirimler bir nevi ödüllendirme ve cezalandırma şeklindedir. Son zamanlarda bu öğrenme türü büyük bir ivme göstermiş durumdadır. Bu alanda yapılan güzel çalışmalara en iyi örneklerden bir tanesi OpenAI’dır. Bu öğrenme türüne insansız hareket eden araçlar, bir rakibe karşı programın kendi kendine aksiyonlar alması örnek olarak verilebilir.
Bu öğrenme türü ile Defense of the Ancients (DOTA) oyununda rakibini yenmek üzere tasarlanmış bir program saatlerce eğitilmiş ve eğitimleri sonucunda karşısına çıkan rakipleri yenebilecek düzeye gelmiştir. Bu öğrenme türü davranış psikolojisinden ortaya çıkan güzel bir öğrenme yöntemidir (Bertsekas 2007;
Bertsekas 2012; Otterlo ve Wiering 2012).
16 2.2.2 Makine Öğrenmesi Uygulamaları
Makine öğrenmesi uygulamalarının diğer bir gruplaması, sistemin arzu edilen çıktısına göre yapılmaktadır. Bu gruplandırmaya göre makine öğrenmesi uygulaması şu alanlara ayrılmaktadır;
Sınıflandırma; girdiler iki ya da daha fazla sınıflara ayrılır ve sistem bir model üreterek kendisine verilen bir girdiyi sistemin tek sınıf ya da çoklu atamasına göre ilgili atamaları yapması beklenir (Alpaydin 2010). E-postalar için spam filtresi oluşturma, el yazısı resimlerini tanıma gibi örnekler sınıflandırma örneklerinden bazılarıdır. Regresyon; regresyon problemlerinde, sistem çıktıları aralıklı olmak yerine sürekli haldedir (Alpaydin 2010). Özelliklerine göre ev fiyatları veya hava durumunun tahmini gibi örnekler bu uygulamalardan bazılarıdır. Yoğunluk tahmini;
verilen veri kümesi uzayı içerisinde girdilerin dağılımının bulunduğu uygulamalardandır (Alpaydin 2010). Boyut indirgeme; girdileri daha düşük boyutlu bir uzaya haritalayarak basitleştirilmesidir (Alpaydin 2010).
Diğer makine öğrenmesi problemlerinin arasında, öğrenmeyi öğrenme işlemi bulunmaktadır. Öğrenmeyi öğrenme işlemi önceki tecrübelerini tümevarımsal ve kendi ön yargılarına dayanarak öğrenmektir. Robot öğrenimi için geliştirilen gelişimsel öğrenim algoritmaları, özerk, kendini keşfetme, aktif öğrenme, olgunlaşma, taklit gibi rehberlik mekanizmalarını kullanarak yeni becerileri elde etmek için kendi öğrenme planlarını üretmektedir.
Makine öğrenmesi teknikleri kullanılarak ses sınıflandırması işlemleri ile ilgili bazı çalışmalar bulunmaktadır. İstanbul Teknik Üniversitesinde yapılan bir çalışmada kalp seslerinin öznitelikleri belirlenmiş ve yapay sinir ağları ile sınıflandırılması yapılmıştır (Say 2002).
2.2.3 Makine Öğrenmesi Modelleri
Bu tez çalışmasında kullanılan makine öğrenmesi modelleri, YSA ve DVM’dir.
17 2.2.3.1 Yapay Sinir Ağları
YSA insan beyninin öğrenme yeteneğinden esinlenerek, biyolojik sinirlere benzeyen ve beynin öğrenme yeteneğini makinelerde de kullanmayı amaçlayan öğrenme ve hesaplama sistemleridir. Tabi ki insan beyni aynı anda birçok işlem gerçekleştiren ve henüz günümüzde aydınlatamadığımız birçok inanılmaz özelliği olan bir yapıdır (Baştanlar ve Özuysal 2010). Disiplinler arası çalışmalar ile beynin ilginç özellikleri ortaya çıkarılarak bu özelliklerin modellenmesi ve mühendisliğin ihtiyaç duyduğu, görüntü tanıma, ses tanıma ve öğrenme gibi çeşitli problemlerde bu yapıların kullanılması amaçlanmaktadır. Bu sayede bazı problemler daha az kaynak ve bütçe ayırılarak çözüme ulaştırılabilir.
2.2.3.2 Destek Vektör Makineleri
DVM gözetimli öğrenme yöntemlerine ait sınıflandırma ve regresyon problemlerinde de kullanılan bir yöntemdir. Hangi kategoriye ait olduğu belirlenmiş, eğitim verisi elemanları DVM algoritmasının eğitiminde kullanılır ve bu model sistemin daha önce görmediği test verileri üzerinde hangi kategoriye ait olduğunu tahmin etmeye çalışır (Cortes ve Vapnik 1995). DVM’nin diğer yöntemlere göre olumlu yönü, problemi karesel optimizasyon problemine dönüştürüp, öğrenme adımı sayısını azaltarak problemi daha hızlı çözmesidir. DVM’nin problemi hızlı çözmesine ek olarak, hesaplama karmaşıklığı ve kullanışlılığı uygundur (Ayhan ve Erdoğmuş 2014).
2.3 Literatür Çalışması
Sesli medya içeriğinden duygu çıkarımı üzerine oldukça fazla çalışılan bir konudur. Yapılan çalışmalarda kullanılan özellikler ve yöntemler farklılıklar göstermektedir. Bazı çalışmalar sadece sesten elde edilen özellikleri kullanırken bazıları ses özelliklerinin yanında görsel ve metin bazlı içeriklerin özelliklerini de kullanmaya yönelmiştir.
18
Bu alanda Kaushik ve diğ. (2013) tarafından yapılan bir çalışmada, sesli içerik yazıya dönüştürülerek yazı üzerinden olumlu, olumsuz ve nötr duygu çıkarımı yapılmış ve başarılı sonuçlar üretilmiştir. Bazı çalışmalarda ise hem yazı hem de sesten çıkarılan özellikler beraber kullanılarak duygu çıkarımı yapılmaya çalışılmıştır (Behera ve diğ. 2017; Bhaskar ve diğ. 2015). Bu çalışmalar ileriye dönük olarak elde edilen farklı özelliklerin bir arada kullanılmasıyla daha iyi sonuçlar elde edilebileceğini gösteren çalışmalardır. Bu gibi çalışmalarda kullanılabilmesi için yeni çıkan özellik elde etme yöntemlerinin üzerine çalışılıp katkı sağlanması önemli bir konudur.
Bu çalışmada tercih edilen veri kümesini kullanarak sesteki duygular arası ilişkiler ve sesten duygu çıkarımı üzerine yapılan çalışmalar kronolojik olarak şu şekildedir.
Sesin temel frekans ölçümlerini ve söylenen cümlelere ait kelimelerin prosodik özelliklerini kullanarak yani cümleyi söylerken konuşmacının yaptığı vurgu, tonlama, perde, duraksama vb. özelliklerin yanı sıra aksandaki yükselme ve alçalmalara ait hesaplamalar yaparak duygular arasındaki prosodik ilişkileri çıkarmayı amaçlayan bir çalışma Paeschke ve Sendlmeier (2000) tarafından yapılmıştır. Bu çalışma konuşmadaki duygu durumlarının tespitinden daha çok konuşma içindeki duygu durumlarının birbirleri arasındaki benzerlik ve farklılıklar ortaya çıkarılmıştır.
Danisman ve Alpkocak (2008) tarafından yapılan bir çalışmada DVM ile sesin MFKK, toplam enerji ve F0 biçimlendirici değerlerini özellik olarak kullanıp duygu çıkarımı yapılmaya çalışılmıştır. Bu veri üzerinde 7 sınıflı ve doğruluk oranı
%63.5 olacak şekilde bir başarı elde edilmiştir (Danisman ve Alpkocak 2008).
Scherer ve diğ. (2008) tarafından yapılan bir çalışmada gürültülü ortamlarda gerçek zamanlı olarak duygu tanıma üzerine bir çalışma yapılmıştır. Aktif öğrenme yöntemleri ve sesin uzun dönem modülasyon spektrum özelliği kullanılarak duygu çıkarımı amaçlanmıştır. Uzun dönem modülasyon spektrumu, konuşmanın hece ve fonetik zamansal yapılarını yansıtan bir özelliktir ve insanın temel işitsel sistemine dayanmaktadır. Bu çalışmada gerçek zamanlı olarak duygu çıkarımı için başarılı bir sonuç elde edilememiştir (Scherer ve diğ. 2008).
19
Casale ve diğ. (2008) tarafından yapılan bir çalışmada ETSI ES 202 211 (V1.1.1) standartlarında yer alan, enerji algoritmasının zaman eğilimi, 12 kepstral katsayısı, perde periyodu, titreşim ve ses sınıfına dayalı 3800’ün üzerinde farklı özellik ile WEKA (Waikato Environment for Knowledge Analysis) yazılımı kullanılarak duygu çıkarımı yapılmaya çalışılmıştır. Yapılan bu çalışmada ilgili özelikler içerisinden en etkili olanlar seçilerek farklı makine öğrenmesi yöntemleri ile model eğitimleri gerçekleştirilmiş ve bu veri kümesi üzerinde %92’lik bir başarı oranı elde edilmiştir (Casale ve diğ. 2008). Kullanılan birçok özellik doğruluk oranını fark edildiği gibi yüksek oranda etkilemiştir.
Fersini ve diğ. (2009) tarafından yapılan başka bir çalışmada makine öğrenmesi yöntemleri ile sesin perde, F0 gibi temel frekansları ve F1, F2, F3 gibi biçimlendirici frekanslarını kapsayan prosodik özelliklerinin yanı sıra enerji ile alakalı olan özellikleri ve MFKK farklı bir hesaplaması kullanılarak duygu çıkarımı yapılmaya çalışılmıştır. Prosodik özellikler insanın ses tonunu belirten, ses tellerinin titreşim frekansını ifade etmektedir (Fersini ve diğ. 2009). Enerji ile ilgili özellikler ses sinyalinin yoğunluğu, MFKK ise ses sinyalinin spektrumu ile ilgilidir. Bu çalışmada süre, hız ve duraklama ile ilgili özelliklerin yanı sıra farklı ses kalitesi özellikleri de kullanılmıştır (Fersini ve diğ. 2009). Bu çalışmada ayrıca duygu çıkarımı için sınıflandırma yapmadan önce cinsiyete göre bir çıkarım yapılıp bunun üzerinden cinsiyet bazlı bir duygu çıkarımı yapılmaya çalışılmıştır (Fersini ve diğ.
2009).
Chavhan ve diğ. (2010) tarafından yapılan bir çalışmada MFKK ve Mel Enerji Spektrumu Dinamik Katsayıları isimli iki özelliğin birçok alt hesaplamaları ve DVM kullanılarak cinsiyetten bağımsız olarak %96.25, cinsiyete göre erkekler için
%97.36 ve kadınlar için %100’lük bir başarı elde edilmiştir (Chavhan ve diğ. 2010).
Shen ve diğ. (2011) ile Pan ve diğ. (2011) tarafından yapılan çalışmalarda az özellikler kullanarak duygu çıkarımı yapılmaya çalışılmıştır. Kepstral katsayılarının farklı hesaplamaları, enerji, perde ve DVM kullanılarak %82.5’luk (Shen ve diğ.
2011) ve %95.1’lik (Pan ve diğ. 2011) başarı oranları elde edilmiştir.
Krothapalli ve diğ. (2012) tarafından yapılan bir çalışmada duygusal ortamda konuşmacı tanıma sistemi için sesin spektral özelliklerinden olan MFKK
20
özelliğinden yararlanarak ve YSA kullanılarak konuşmacının farklı duygu durumlarında, sesi üzerinden kimliğini tespit etmeye çalışmışlardır. Bu çalışmada olduğu gibi sese ait özellikler farklı çalışmalarda da kullanılmıştır.
Glüge ve diğ. (2011) tarafından yapılan bir çalışmada Bölümlü-Bellek’li Aktif Öğrenme isimli yeni bir öğrenme tekniği ile konuşmanın temel frekans (F0), perde, MFKK özelliklerinden yararlanarak bir çıkarım yapılmaya çalışılmıştır. Bu çalışmada elde edilen doğruluk oranları %51 ile %71 arasında değişiklikler göstermektedir.
Seehapoch ve Wongthanavasu (2013) tarafından yapılan insanın duygu durumunu otomatik olarak tanımlama çalışmasında konuşmanın kısa zamanlı dalgacık sinyallerinden temel frekans (F0), enerji, sıfır geçiş hızı, doğrusal tahmini kodlama ve MFKK özelliklerini ve DVM kullanarak bir çıkarım yapılmaya çalışılmıştır. Yapılan çalışmada %89.80’lik bir doğruluk oranı elde edilmiştir (Seehapoch ve Wongthanavasu 2013).
Chiou ve Chen (2013) tarafından yapılan başka bir çalışmada kullanılan özelliklerin sayısı azaltılarak duygu çıkarımı yapılmaya çalışılmıştır. Kullanılan 6000 üzerindeki özellik sayısı 37’ye düşürerek %80’lik bir doğruluk oranı elde edilmiştir (Chiou ve Chen 2013). İlgili çalışmada DVM ve konuşmanın sıfır geçiş oranı, sinyal enerjisi, perde ve MFKK özellikleri kullanılmıştır (Chiou ve Chen 2013).
Milton ve diğ. (2013) tarafından yapılan bir çalışmada MFKK özelliğinin farklı 24 değeri ve DVM kullanılarak %68’lik bir başarı oranı elde edilmiştir.
Chiou ve Chen (2013) ile Milton ve diğ. (2013) tarafından yapılan çalışmalar dikkate alındığında az özellik kullanarak sistem optimize edilmeye çalışılarak bir katkı sağlanmaya çalışılmıştır.
Kadiri ve diğ. (2014) tarafından yapılan bir çalışmada konuşmanın nötr ya da duyguyu belirten bir durum olduğu üzerine analizler yapılmıştır. Bu çalışmada YSA ve konuşmanın yayılma kaynağı ve konuşma sinyalinin vokal sistem bileşenleri üzerine yoğunlaşılmıştır (Kadiri ve diğ. 2014). Yapılan analizler ile duygu durumunda söylenen cümleler ile nötr cümle ayrımı yapılmaya çalışılmıştır (Kadiri ve diğ. 2014).
21
Badshah ve diğ. (2017) tarafından yapılan bir çalışmada konuşma sinyallerinden çıkarılan spektrogram verisi ve derin konvolüsyonel özellikleri YSA kullanarak %84,3’lük bir doğruluk oranı elde etmişlerdir.
Kerkeni ve diğ. (2019) tarafından yapılan yeni bir çalışmada konuşmaya ait MFKK özelliği ile spektral özelliklerin farklı hesaplanmış değerleri ile birlikte Çok Değişkenli Doğrusal Regresyon ve DVM makine öğrenmesi yöntemleri kullanılarak
%83’lük bir başarı elde edilmiştir.
Bu çalışmaların dışında konuşmanın MFKK özelliğini kullanarak yeni model önerisi olan çalışmalar mevcuttur (Dileep ve Sekhar 2014; Kanth ve Saraswathi 2015; Li ve diğ. 2013; Ram ve Ponnusamy 2014). Bu çalışmalardan bazıların detayları şu şekildedir; Li ve diğ. (2013) tarafından yapılan bir çalışmada YSA ile Saklı Markov Modellerinin karışımı hibrit bir yeni model önerisi ile konuşmadan duygu çıkarımı yapılmaya çalışılmıştır. Dileep ve Sekhar (2014) tarafından yapılan bir çalışmada İyileştirilmiş Destek Vektör Makineleri kullanılarak duygu çıkarımı için yeni yöntem önerisinde bulunulmuştur.
Yapılan çalışmalar dikkate alındığında konuşma ses verisi ile ilgili birçok farklı özellik bulunmaktadır (Chavhan ve diğ. 2010; Kadiri ve diğ. 2014; Ram ve Ponnusamy 2014; Seehapoch ve Wongthanavasu 2013; Wöllmer ve diğ. 2010). Bu özellikleri genel olarak gruplayacak olursak şu şekilde bir liste karşımıza çıkmaktadır;
- Prosodik özellikler o Perde
o Yoğunluk o Süre
o Temel frekanslar (F0)
o Biçimlendirici Frekanslar (F1, F2, F3) - Ses kalitesi özellikleri
o Titreşim o Parıltı
o Harmonik Gürültü Oranı - Sinyal enerjisi özellikleri