• Sonuç bulunamadı

Bu tez çalışmada, aglutinatif bir dil olan Türkçe ‘de bazı derin öğrenme mimarileri kullanılarak soru sınıflandırması alanı üzerinde çalışılmıştır. Türkçe gibi diller doğal dil işlemeyi zorlaştıran bazı benzersiz özelliklere sahiptir. Derin öğrenme mimarilerini eğitmek ve test etmek için kullanılan soru veri seti İngilizce ’den Türkçe ’ye çevirisi yapılmış kullanıcı sorularından oluşan bir veri setidir. Bu tez çalışmasında iki büyük derin öğrenme modeli kullanılmıştır. Bunlar: CNN, LSTM ve bunlara ek olarak da ayrıca CNN-LSTM, CNN-SVM yapılarıdır. Bu tez çalışmasında ilk olarak, word2vec yöntemlerinden olan Skip-gram ve CBOW modelleri ile büyük bir korpus kullanılarak farklı özellik ve boyutta kelime vektörleri üretilmiştir. Bundan sonraki aşamada, derin öğrenme mimarileri kullanılarak daha önceden eğitilmiş farklı word2vec kelime gömme modellerinin sonuçlara olan etkisi incelenmiştir. Bu çalışmanın sonuçları, farklı derin öğrenme modellerinde farklı word2vec modellerinin kullanımının doğruluk oranı üzerinde önemli bir etkiye sahip olduğunu göstermektedir. Ayrıca, bu çalışmaya başlarken çalışmamıza uygun herhangi bir etiketlenmiş Türkçe soru veri seti bulunmadığından, bu çalışmadaki bir diğer katkı da UIUC İngilizce soru veri kümesinden çevrilen yeni Türkçe Soru veri tabanının tanıtılmasıdır. Buna ek olarak, derin öğrenme mimarilerinin başarı oranları doğruluk ve 10-Katlamalı Çapraz Doğrulama açısından karşılaştırılmıştır. Bu tez çalışmasında bahsedilen teknikleri kullanarak soru veri setinde %94 doğruluk oranına ulaşılmıştır.

Bu tez çalışmasında, word2vec yöntemlerinden skip-gram ve CBOW gömme vektörleri kullanılarak, bazı derin öğrenme yöntemleri soru veri kümesine uygulanmış ve bu şekilde sözcükler arasındaki anlamsal ve sözdizimsel ilişkilerin etkili bir şekilde yakalandığı gösterilmiştir. Bunu yapmak için, ilk olarak Word2vec algoritmaları sözlük kelimelerinin kelime vektörlerini hesaplamaktadır. Algoritmalar, sözcük vektörlerini rastgele vektörlerle başlatır. Daha sonra algoritmalar, sisteme göre tanımlanabilen tüm kelimeler ve bağlamları arasındaki kosinüs benzerliğini artırmaya çalışır. Bu nedenle, Word2vec algoritmalarına çok miktarda metin verisi vererek (bu çalışma için büyük miktarda Wikipedia verisi sağlayarak), yakınlıklarına karşılık gelen kelimelerle ilgili olacak şekilde uzayda sözcük vektörleri dağıtılabilir.

Bu çalışmada, hem Skip-Gram hem de CBOW word2vec tabanlı derin öğrenme sınıflandırma yöntemleri kullanılmıştır. Bu çalışma, bir aglütinasyon diline odaklanmaktadır ve bilinen kadarı ile bu çalışma soru sınıflandırmasının aglutinatif bir dilde derinlemesine incelendiği ilk çalışmadır.

Sonuç olarak, çalışmada aglutinatif bir dildeki soru veritabanı üzerinde elde edilen sonuçlara göre tatmin edici başarıya ulaşılmıştır.

Soru sınıflandırması ile ilgili daha önce yapılan çalışmalarda, örneğin varlık veya benzer sınıfların sınıflandırılması [31] ve HMM tabanlı bir dizi sınıflandırma tekniği kullanılarak kural tabanlı bir tekniğin entegre edilmesi [30] gibi farklı görevler üzerinde yoğunlaşılmıştır. Fakat bu tür çalışmalar, aglütinasyon dillerinde soru sınıflandırma problemini genelleştirmeyebilir.

Öte yandan, soru sınıflandırma üzerine diğer dillerde yapılan benzer çalışmalarda [8], [102], Word2Vec varyasyonları olan CBOW ve Skip-Gram ile bazı parametreler örneğin özellik vektör boyutu gibi faktörlerin soru sınıflandırma performansı üzerindeki etkileri incelenmemiştir. Bu çalışmadaki deneysel sonuçlar, yukarıda bahsedilen faktörlerin soru sınıflandırma sistemlerinin sınıflandırma performansını kesinlikle etkileyebileceğini göstermektedir.

Genel olarak bu çalışmada, çeşitli word2vec yöntemleri olan CBOW ve Skip-Gram yöntemleri çeşitli derin öğrenme mimarileri olan CNN, LSTM, CNN-LSTM ve CNN- SVM kullanılarak incelenmiştir. Word2Vec yönteminin iki farklı türünü kullanırken, Skip-Gram kullanan CNN, CNN-LSTM ve CNN-SVM modeli, CBOW kullanımına kıyasla Soru Sınıflandırma veri kümesinde doğruluk açısından önemli ölçüde daha iyi sonuçlar vermiştir. CNN, CNN-LSTM ve CNN-SVM modellerinin aksine, CBOW kullanımı genellikle LSTM yapısı üzerinde daha iyi sonuçlar vermiştir. CNN-LSTM modelinde, Skip-Gram kullanmak çoğu durumda CBOW kullanmaktan daha iyi sonuçlar vermiştir. Buna ek olarak; CNN modelinde, 300 boyutlu özellik vektörlü Skip-Gram kullanılarak %94 doğrulukla en iyi sonuç elde edilmiştir.

Buna ek olarak, doğru veri kümesi formunu kullanmak, soru sınıflandırma veritabanı için potansiyel olarak daha fazla kelime içerebileceği anlamına gelebilmektedir. Bu nedenle, kullanılacak olan korpus ve soru sınıflandırma veri seti arasındaki ilişki, soru düzeyinde

iyi temsiller vermesi bakımından önemlidir.

Son olarak, [93]’ün yazarlarının aynı veri seti üzerinde yapılan benzer bir çalışmada İngilizce dilinde LSTM ile %95.4 doğruluk elde ettikleri çalışması ile karşılaştırıldığında; İngilizce olarak yapılan bu çalışmaya göre tez çalışmasında elde edilen sonuçlar düşük çıkmıştır. Bunun en önemli nedeni, daha önce bahsettiğimiz gibi Türkçe’nin dil yapısıdır. Sonuç olarak, Türkçe ’de İngilizceye kıyasla etkili bir lemmatizasyon aracı bulunmamaktadır.

Gelecekte Türkçe’de soru sınıflandırması üzerine yapılabilecek çalışmalara biraz değinilirse; ilk olarak eğitilen word2vec modelinde, internet üzerinde açık kaynak olarak sadece Wikipedia’dan alınan korpus verisi kullanıldı. Wikipedia verisi genel olarak ansiklopedik makalelerin olduğu bir kaynaktır. Daha farklı korpus verileri oluşturularak veya farklı kaynak verileri birleştirilerek word2vec modeli eğitilirse soru sınıflandırma sisteminin doğruluk oranı arttırılabilir. Çünkü korpus verisi ne kadar büyük olursa, word2vec modelleri kelimeler arasında o kadar fazla ilişki ve benzerlik yakalayabilirler. İkinci olarak, bu tez çalışmasında kullanılan soru veri seti İngilizce’den Türkçe’ye çevrilmiş ve tamamen Amerikan kültürünü ve yaşantısını yansıtan sorulardan oluşan bir veri setidir. Kullanılan bu soru veri seti yerine, tamamen Türk kültür ve yaşamını yansıtan sorulardan oluşan etiketli bir veri seti oluşturularak sistem tekrardan eğitilirse doğruluk oranı yükselecektir. Üçüncü olarak, soru sınıflandırma sisteminin doğruluğunu arttırmak için birden fazla kelime gömme yönteminin birlikte kullanılmasına dayanan hibrit bir özellik çıkarma tekniği kullanılabilir. Bu hibrit yöntemi kullanarak, sistem birlikte kullanılacak olan tüm farklı kelime gömme yöntemlerinin avantajlarından aynı anda yararlanabilecektir.

Benzer Belgeler