• Sonuç bulunamadı

6. DERİN ÖĞRENME MODELLERİ İLE METİN SINIFLANDIRMASI

6.7. Duygu Sınıflandırması Performans Sonuçları ve Tartışma

Bu tez bölümünde, değişen sayıda batch boyutu ve devir sayısı (epoch) hiper parametreler için çeşitli derin sinir ağları eğitilmiş ve test edilmiştir. Sunulan derin öğrenme modelleri 0,001 öğrenme katsayısı ve 32, 64, 128 ve 256 batch boyutları ile Adam optimizer [209] kullanılarak eğitilmiştir. Eğitim iterasyonlarının sayısı yani epoch sayısı erken durdurma tekniği kullanılarak otomatik olarak optimize edilmiş ve model eğitim sürecine göre belirlenmiştir. Erken durdurma (early stopping), doğrulama hatasını izleyerek model eğitiminin ne zaman durdurulacağını belirleyen ve Tensorflow ile desteklenen bir tekniktir. Bu şekilde, epoch sayılarını ayarlayarak hiper parametrelerin güçlü bir şekilde aşırı öğrenme problemine takılmasından kaçınmaya yardımcı olur.

Eğitim ve doğrulama süreçleri sırasında, en iyi modele ulaşma çalışmalarında denenmiş modeller için bazı aşırı öğrenme durumları gözlemlenmiştir. Şekil 6.13’te eğitim aşamasında aşırı öğrenmeye maruz kalan modellerin hatalı doğruluk ve kayıp sonuçları verilmiştir. Eğitim ve doğrulama aşamaları için doğruluk değerlerinin birbirinden ayrıldığı ve aynı aşamalar için hata değerlerinin de birbirinden uzaklaştığı noktalar modellerin veriyi aşırı öğrendiğini göstermektedir. Örneğin mavi renkle gösterilen CNN1 eğitim adımı için doğruluk oranı ve kırmızı renkle gösterilen CNN1 doğrulama adımı için gösterilen doğruluk oranı 1.epoch sayısında hızla birbirinden uzaklaşmaya başlamıştır. Bu durum daha önceki bölümde anlatıldığı gibi aşırı öğrenmeyi işaret etmiştir. Benzer şekilde CNN1 eğitim sonuçlarından alınan hata oranı ve aynı modelin doğrulama sonuçlarından alınan hata oranı düşmek yerine yükselmeye başlamıştır. Şekil 6.13’te gösterilen eğitim sonuçları bu çalışma kapsamında denenmiş hatalı modellere aittir ve bu modeller hiper parametre ayarlamaları ile optimize edilerek iyi duruma getirilmiştir.

Önceden eğitilmiş kelime temsilleri ya da vektörleri (kısaca PWE diyoruz), dildeki sözdizimsel ve anlamsal düzenleri yakalayabilmektedir [240]. PWE ile derin sinir ağları NLP çalışmalarında başarılı sonuçlar elde etmektedir [241]. Bu tez çalışmasında da PWE ile çeşitli derin öğrenme modelleri test edilmiş ve metin sınıflandırma problemi üzerindeki etkileri analiz edilmiştir.

164

Şekil 6. 13. Aşırı öğrenme problemine maruz kalmış hatalı modeller

(a) (b)

165

(e) (f)

Şekil 6. 14. (a) CNN1, (b) CNN2, (c) LSTM1, (d) LSTM2, (e) CNNLSTM, (f) BiLSTM modelleri için duygu sınıflandırma sonuçlarında PWE kullanımının etkileri

Şekil 6.14’te verilen deneysel sonuçlardan gözlemlenebilir ki PWE ile başlatılan modeller PWE kullanmadan eğitilen modellere göre daha iyi performans sergilemiştir. Ayrıca yapılan testlerden görülmüştür ki özellikle bir ya da iki katmanlı CNN modeller PWE kullanılmadığı durumda veriyi aşırı öğrenmiştir ve bu sorun PWE kullanımı ile çözülmüştür. Burada denilebilir ki CNN modeller için önceden eğitilmiş kelime temsillerin kullanılması önemli bir ölçüttür. Bu çalışmada veri setinin büyüklüğüne bağlı olarak en iyi değerlerin değiştiği farklı büyüklüklerdeki batch boyutları için doğruluk ve hata değerleri hesaplanmıştır. Özellikle CNN modeller olmak üzere tüm modellerde küçük batch boyutu aşırı öğrenmeye sebep olmuştur. Bu nedenle kullanılan veri seti üzerinde model eğitimi için, sunulan modeller PWE ile başlatılmayacaksa, 128 ve 256 batch boyutlarının kullanılması uygun olacaktır.

PWE ile derin öğrenme modelleri için PWE kullanmadan eğitilen modeller üzerindeki performans iyileştirme sonuçları Tablo 6.1’de ayrıntılı olarak açıklanmıştır. Tablo 6.1’den görüleceği gibi PWE tüm modeller için doğruluk oranlarında artış sağlamıştır. Bununla birlikte en önemli performans kazanımı %1.654 ve 0.050 ile sırasıyla CNN1 ve CNN-LSTM modellerinde olmuştur. Ayrıca bu modeller eğitim ve test sürelerine bakıldığında çalışma süresi bakımından avantaj sağlamaktadır. Buna karşılık iki katmanlı LSTM2 ve iki yönlü BiLSTM

166

modellerinin toplam hesaplama zamanı ve maliyeti diğer modeller ile kıyaslandığında çok yüksektir. Sonuç olarak düşük zaman maliyeti ve yüksek performans kazancı esas alındığında CNN1 ve CNN-LSTM modelleri bu tez çalışma kapsamında oluşturulan önceden eğitilmiş kelime temsilleri ile birlikte kullanıldığında iki duygu sınıflandırma çalışması için diğer modellere göre başarılı doğruluk sonuçları vermektedir.

Tablo 6. 1. PWE ile başlatılan derin modellerin performans kazanımları

Modeller Şekil 6.14.

PWE ile Maksimum Performans Kazanımı (%) Batch Boyutu Eğitim Süresi (sn.) CNN1 a 1.654 128 310 CNN2 b 0.011 32 520 LSTM1 c 0.020 32 955 LSTM2 d 0.005 256 6210 CNN-LSTM e 0.050 32 481 BiLSTM f 0.014 64 7514

167

Tüm modeller için ikili duygu sınıflandırması sonucu alınan doğruluk oranları çeşitli batch boyutlarına göre Şekil 6.15’te sunulmuştur. Bu grafiklerden aşağıdaki sonuçlar çıkarabilmektedir:

• Tek katmanlı CNN1+PWE, iki katmanlı CNN2 ve tek katmanlı CNN1 modellerine göre daha iyi performans sağlamıştır.

• Tek katmanlı LSTM1+PWE, iki katmanlı LSTM2, tek katmanlı LSTM1 ve BiLSTM modellerine göre daha başarılıdır.

• PWE ile tek katmanlı ağlar için CNN1, LSTM1 modele göre daha başarılı performans sergilerken PWE ile iki katmanlı ağlar için, LSTM2, CNN2 modele göre daha iyi sonuçlar vermiştir.

• CNN-LSTM+PWE modeli diğer tüm modellerden daha başarılı performans sonucu vermiştir.

• MLP modeli diğer tüm derin öğrenme modelleriyle kıyaslandığında kötü sınıflandırma sonucu vermiştir.

• CNN1, CNN2 modelden daha iyi sonuç vermiştir. Dolayısıyla CNN modellerde duygu sınıflandırması için fazla katman kullanarak fazla parametre ve hesaplama karmaşıklığı oluşturmaya ihtiyaç kalmamıştır.

Tablo 6.2’de veri setinden örnek yorumlar ve bu yorumlar üzerinde test edilen CNN-LSTM + PWE modelin tahmin çıktıları verilmiştir. Modelin tahmin ettiği değer oranı [0-1] arasında ölçeklenmiştir. Eğer tahmin edilen değer oranı 0’a yakınsa tahmin etiketi 0 alınır tam tersi durumda 1 alınır. Gerçek etiket ile tahmini etiket aynı ise yorumun duygusunun doğru sınıflandırıldığı sonucu çıkarılmaktadır. Buna göre tabloda verilen rastgele örnek yorumların gerçek ve tahmin etiketinin örtüştüğü ve son yorum hariç doğru sınıflandırıldığı görülmektedir. Bu tez çalışması kapsamında ayrıca model eğitim ve test verilerine dahil edilmeyen 4000 film yorumu için eğitilmiş modellerin testi gerçekleştirilmiştir. Bu test seti 2000 pozitif ve 2000 negatif yorum içermektedir. Her bir model için test doğruluğu Tablo 6.3’te verilmiştir. Tablodan görüleceği üzere eğitilmiş model harici test örnekleri üzerinde de yüksek ve başarılı sonuçlar

168

elde etmiştir. CNN-LSTM ve CNN1 modelleri performansı ile bu test sonuçlarında da ön plana çıkmıştır.

Tablo 6. 2. Rastgele seçilmiş bazı test örnekler üzerinde model çıktılarının açıklanması

(T0:Tahmin oranı % sonucu, TE: Tahmini etiket, GE: Gerçek Etiket )

TO TE GE Yorum

0.787164 1 1 film gercekten tam bi.. superdi ya.. 0.000068 0 0 berbat tamamen zaman kaybi

0.820993 1 1

muthis bir film bayildim hic kovalamaca dovus eglence kahkaha . bu filmin serisi bitmesin . gercekten harika .

0.818120 1 1

muhtesem senaryo muhtesem oyunculuk muhtesem yonetmen . . kill bill i izlemeyen cok sey kaybetmis…

0.000029 0 0

asiri dandik bi film arkadaslar vakit kaybi olur sizin icin hele aile sakin ha sakin izlemeyin . tuhaf bi film ya .

0.426062 0 1

kotu amerikan. yaptigi icin oscar alacak demistim .. izleyince anladim tam tersine malesef oscari kaybetmis . demekki oscar guzel muhtesem . 0.000132 0 0 Hayal kirikligi . izleyin gorun .

Tablo 6. 3. 4000 test örneği üzerinde sınıflandırma sonuçları

Model (PWE) Yanlış Sınıflandırılan Yorum Sayısı Test Sonucu (%) MLP 869 78,27 CNN1 96 97,60 BILSTM 129 96,77 LSTM1 137 96,57 CNN2 95 97,62 CNNLSTM 77 98,07 LSTM2 139 96,52

Benzer Belgeler