Deneysel Sonuçlar - VSE SİSTEM MİMARİSİ İÇİN METİN SINIFLANDIRMA

7. VSE SİSTEM MİMARİSİ İÇİN METİN SINIFLANDIRMA

7.3. Deneysel Sonuçlar

Algoritmalar arasındaki farklılıklar aşağıdaki nedenlere bağlanabilir;

 Veri önişleme aşamasında yapılan nitelik seçimi, verilerin tamamlanması gibi analiz sonuçlarını etkileyici işlemlerde model çıkarımını etkileyici işlemler yapılması,

 Farklı önişlemlerle oluşturulan verilerin analiz sonuçlarının farklı olması.

Sınıflandırma performansını etkileyen faktörler aşağıdaki gibi olabilir;  Algoritmalardaki farklılıklar,

 Veri setine özgü özellikler,

 Yöntem ve problemler arasındaki uyumsuzluklar.

Veri setine özgü özellikler aşağıdaki gibi olabilir;  Sınıf belirsizliği,

 Örnek azlığı.

Sınıf belirsizliği, sınıflandırma problemi içinde verilen özelliklerle herhangi bir sınıflandırma algoritması kullanılarak ayrım yapılamadığı durumları belirtmektedir. Sınıflandırma zorluğunu arttıran bir diğer etken de verinin seyrek olmasıdır. Sınıflandırıcının genelleme mekanizmasını sınırlayacak kadar örnek ile örneklenmemiş durumların sınıflandırması büyük oranda rastgele olacaktır.

Naïve Bayes, normal dağılım varsayımına (Manning, 2008) sahip doğrusal bir sınıflandırıcı olup, çekirdek yoğunluk kestiricisi kullanıldığında doğrusal olmayan bir sınıflandırıcıya dönüşebilmektedir (John, 1995). Ağırlıklandırma yapılırken text2arrf yazılımı kullanılarak arff dosyaları Tablo 7.1’deki seçimlere göre yapılmıştır.

Tablo 7.1. Yapılan deneylerin parametre seçimleri

Deneyler Yöntem Tf / Tfxidf Frequency k

1. Deney 2-Gram Tfxidf 10 50

2. Deney 2-Gram Tfxidf 50 50

3. Deney Words Tf 10 50

4. Deney Words Tf 50 50

Yukarıda yazılan seçimler dört adet makine öğrenmesi yönteminde uygulanmıştır. Dokümanlar ise iki sınıf halinde ayrılmış ve kırkar adet doküman içererek bu sayı her klasörde beşer artarak uygulanmıştır. Örnek olarak kırk doküman ikinci denemede kırk beş, üçüncü denemede elli diye artarak son denemede ayrı ayrı iki sınıf içerisinde dört yüzer doküman sayısına ulaşılmış, toplamda sekiz yüz dokümana ulaşılmıştır. K en yakın komşu algoritmalarındaki k değerleri bir ile otuz arasında değiştirilerek hesaplanmıştır. Destek Vektör Makinelerinde yapılan bir değişiklik ise SVM type olarak nu-SVC classification kullanılmıştır.

1. Deneyde, Text2arff yazılımı ile elde edilen eğitim kümeleri WEKA kullanılarak deneylerde kullanılan sınıflandırma algoritmaları tarafından öğrenilmektedir. Bu öğrenme işlemi sonunda elde edilen ortalama f-measure sonuçları Şekil 7.1, Şekil 7.2, Şekil 7.3 ve Şekil 7.4’de yer almaktadır. Bu sonuçlara göre sınıflandırıcıların karşılaştırılması ve performanslarının değerlendirilmesi yapılmaktadır.

Şekil 7.1. Naïve Bayes sınıflandırıcının 1. deney f-measure sonuçları

Şekil 7.3. IBK sınıflandırıcının 1. deney f-measure sonuçları

Şekil 7.4. SVM sınıflandırıcının 1. deney f-measure sonuçları

Tablo 7.2’de deneylerde kullanılan sınıflandırıcıların öğrenme işlemi sonunda ki en yüksek ve en düşük doğruluk oranları gösterilmektedir. Buna göre NaïveBayes sınıflandırıcının örnekleri doğru bir biçimde sınıflandırma oranı diğer sınıflandırıcılara göre daha yüksektir.

Tablo 7.2. Birinci deneye göre sınıflandırıcıların maksimum ve minimum doğruluk oranları Doğru Biçimde Sınıflandırılmış Örneklerin Yüzdesi NaïveBayes J48 SVM IBK Maksimum (Max) 96,8852 94,1538 96,25 84,4444 Minimum (Min) 85,7143 76,25 75,5932 69,2105

Yukarıdaki algoritmalarda tüm parametreler varsayılan değerleri ile kullanılmıştır. Sadece k en yakın komşu algoritmasında k değeri dört olarak seçilmiştir.

Algoritmalar arasındaki en yüksek başarı ve stabil çalışan Naïve Bayes’dir. Destek vektör makinelerinde stabil, fakat dalgalanma yapısının varlığı gözlenmiştir. Öğrenme oranı ile ikinci sırada yer alan algoritmadır. Karar ağaçları, destek vektör makinelerinden daha stabildir. Öğrenme oranı ile üçüncü sırada yer almaktadır. En kötü öğrenme yapısı K en yakın komşu algoritmasında yer almaktadır. K en yakın komşu algoritmasının en iyi değeri k = 4 seçilmiştir.

2. Deneyde, öğrenme işlemi sonunda elde edilen ortalama f-measure sonuçları Şekil 7.5, Şekil 7.6, Şekil 7.7 ve Şekil 7.9’de yer almaktadır. Bu sonuçlara göre sınıflandırıcıların karşılaştırılması ve performanslarının değerlendirilmesi yapılmaktadır.

Şekil 7.5. Naïve Bayes sınıflandırıcının 2. deney f-measure sonuçları

Şekil 7.7. IBK sınıflandırıcının 2. deney f-measure sonuçları

Şekil 7.8. SVM sınıflandırıcının 2. deney f-measure sonuçları

Tablo 7.3’te deneylerde kullanılan sınıflandırıcıların öğrenme işlemi sonunda ki en yüksek ve en düşük doğruluk oranları gösterilmektedir. Buna göre SVM sınıflandırıcının örnekleri doğru bir biçimde sınıflandırma oranı diğer sınıflandırıcılara göre daha yüksektir.

Tablo 7.3. İkinci deneye göre sınıflandırıcıların maksimum ve minimum doğruluk oranları Doğru Biçimde Sınıflandırılmış Örneklerin Yüzdesi NaïveBayes J48 SVM IBK Maksimum (Max) 95,9649 94,4444 96,25 96,25 Minimum (Min) 89,1667 75 75,5932 80,4255

Algoritmalar arasındaki en yüksek başarı ve stabil çalışan NaiveBayes’dir. Destek vektör makinelerinde yine dalgalanma çok fazla gözlenmiştir. Karar ağaçları, frekans yükseltilmesinden dolayı daha başarılı bir sonuç vermiş ve daha stabil çalışmıştır. K en yakın komşu algoritması daha iyi bir sonuç vermiş ilk sınıflarda yüksek sonuçlar biraz düşmüş fakat devam eden sürede Naïve Bayes gibi başarılı bir sonuç vermiştir. K en yakın komşu algoritması değeri k = 7 seçilmiştir.

3. Deneyde, öğrenme işlemi sonunda elde edilen ortalama f-measure sonuçları Şekil 7.9, Şekil 7.10, Şekil 7.11 ve Şekil 7.12’de yer almaktadır. Bu sonuçlara göre sınıflandırıcıların karşılaştırılması ve performanslarının değerlendirilmesi yapılmaktadır.

Şekil 7.10. J48 sınıflandırıcının 3. deney f-measure sonuçları

Şekil 7.12. SVM sınıflandırıcının 3. deney f-measure sonuçları

Tablo 7.4’te deneylerde kullanılan sınıflandırıcıların öğrenme işlemi sonunda ki en yüksek ve en düşük doğruluk oranları gösterilmektedir. Buna göre NaiveBayes sınıflandırıcının örnekleri doğru bir biçimde sınıflandırma oranı diğer sınıflandırıcılara göre daha yüksektir.

Tablo 7.4. Üçüncü deneye göre sınıflandırıcıların maksimum ve minimum doğruluk oranları Doğru Biçimde Sınıflandırılmış Örneklerin Yüzdesi NaïveBayes J48 SVM IBK Maksimum (Max) 98,75 93 96,5909 90 Minimum (Min) 92,6316 81,6667 76,1538 61,8182

N-gram yerine words’ler kullanılmıştır. Algoritmalar arasındaki en yüksek başarı ve stabil çalışan NaïveBayes’dir. Destek vektör makinelerinde yine dalgalanma çok fazla gözlenmiştir. Karar ağaçları, dolayı daha başarılı bir sonuç vermiş ve daha stabil çalışmaktadır. K en yakın komşu algoritması bir düşüşe geçmiş ve şimdiye bu çalışmada alınan en kötü bir sonucu vermektedir. K en yakın komşu algoritması değeri k =1 seçilmiştir.

4. Deneyde, öğrenme işlemi sonunda elde edilen ortalama f-measure sonuçları Şekil 7.13, Şekil 7.14, Şekil 7.15 ve Şekil 7.16’da yer almaktadır. Bu sonuçlara göre sınıflandırıcıların karşılaştırılması ve performanslarının değerlendirilmesi yapılmaktadır.

Şekil 7.13. Naïve Bayes sınıflandırıcının 4. deney f-measure sonuçları

Şekil 7.15. IBK sınıflandırıcının 4.deney f-measure sonuçları

Şekil 7.16. SVM sınıflandırıcının 4.deney f-measure sonuçları

Tablo 7.5’te deneylerde kullanılan sınıflandırıcıların öğrenme işlemi sonunda ki en yüksek ve en düşük doğruluk oranları gösterilmektedir. Buna göre NaïveBayes sınıflandırıcının örnekleri doğru bir biçimde sınıflandırma oranı diğer sınıflandırıcılara göre daha yüksektir.

Tablo 7.5. Dördüncü deneye göre sınıflandırıcıların maksimum ve minimum doğruluk oranları Doğru Biçimde Sınıflandırılmış Örneklerin Yüzdesi NaïveBayes J48 SVM IBK Maksimum (Max) 98,75 92,5 96,9118 95,375 Minimum (Min) 93,3333 81,9231 73,5714 72,7273

N-gram yerine words’ler kullanılmaya devam edilmiş arff dosyaları oluşturulurken frequency değeri elli olarak değiştirilmiştir. Algoritmalar arasındaki en yüksek başarı ve sabit öğrenme değeri NaïveBayes’dir. Destek vektör makinelerinde dalgalanma azalmakta ve başarı oranı en yüksek seviyeye çıkmaktadır. Karar ağaçlarındaki başarının en az olduğu kısımdır. Fakat öğrenme bir noktadan sonra artarak devam etmektedir. K en yakın komşu algoritma başarısı 2.deneyde olduğu gibi yüksektir. Bu algoritma en düşük öğrenme düzeyinden başlayarak başarılı bir artış göstermiştir. K en yakın komşu algoritması değeri k =12 seçilmiştir.

VSE metin sınıflandırma mimarisinin en yüksek öğrenmesini NaïveBayes algoritması words ağırlıklandırması kullanılarak vermiştir. Fakat k değeri değişerek hazırlanmış words ağırlıklandırması için yüksek öğrenme oranı değişmemiştir.

VSE metin sınıflandırma mimarisinde 4.deney ile hazırlanan eğitim verileri üzerinde K en yakın komşuluk sınıflandırıcısının mutluluk eğrisi istenilen düzeyde gerçekleşmiştir. Ancak başarı oranı NaïveBayes kadar yüksek değildir.

Tüm bu sonuçlar analiz edildiğinde words özellik çıkarım yöntemi ile hazırlanan eğitim verileri üzerinde NaïveBayes sınıflandırıcının 98,75% oranında doğruluk sağlaması ve f-measure/veri sayısı grafiğinin yani mutluluk grafiğinin çok az dalgalı yapısından dolayı tezde geliştirilen VSE mimarisinde 4. deneysel çevre ve NaïveBayes sınıflandırıcısı temel alınmıştır. Böylelikle eğitim verilerinin hazırlanması sürecinde özellik çıkarım yöntemi olarak words, ağırlıklandırma yöntemi olarak idf, frekans değeri olarak 50 ve son olarak tekrar sayısı olan k için 50 değeri seçilmiştir. Daha sonra

eğitim verilerinin öğrenilmesi sürecinde sınıflandırıcı olarak NaïveBayes kullanılmış ve WEKA ortamında bu sınıflandırıcının varsayılan parametreleri kullanılmıştır. Ayrıca mutluluk grafiği bize sınıflandırıcının performansı hakkında önemli bilgiler sunmaktadır. Buna göre 800 adet veri yerine yaklaşık olarak 550 adet eğitim verisi ile sınıflandırıcı daha önceki doğruluk oranını yaklaşık olarak yakalamakla beraber performansında da önemli oranda artış yaşanmaktadır.

Belgede Özel anlamlı ifade içeren verilerde sızıntı önleme için bir mimari tasarım ve gerçekleştirilmesi (sayfa 73-87)