Deneysel Sonuçlar - 1 Elektrik Elektronik Fakültesi, Bilgisayar Mühendisliği Bölümü Yıldız Tek

1 Elektrik Elektronik Fakültesi, Bilgisayar Mühendisliği Bölümü Yıldız Teknik Üniversitesi

4. Deneysel Sonuçlar

,

(

1 )

,

(

j

i

sim

j

i

dis 

(6)

Eşitlik 6’da, dis(i,j); i. ve j. kelimeler arasındaki uzaklığı, sim(i,j) ; i. ve j. kelimelerin birlikte geçtikleri metin sayısını göstermektedir. Bu yeni matrise Çok Boyutlu Ölçekleme uygulanarak kelimelerin koordinatları bulunmuştur. Çok Boyutlu Ölçekleme için MDSJ Kütüphanesi [20] kullanılmıştır. Metinlerin koordinatları ise daha önce de belirtildiği gibi içinde geçen kelimelerin bu anlamsal uzaydaki koordinatlarının ortalaması alınarak bulunmuştur. 3.13. Kavram Genelleştirme

Kelimelerin anlamlarına göre hiyerarşik bir yapıda düzenlendikleri Wordnet, Conceptnet gibi birçok çalışma mevcuttur. Türkçe için ise benzer yapıda hazırlanmış Türkçe Wordnet [21] bulunmaktadır. Bu özellik grubunda, bu hazır, sabit, eğitim kümesinden bağımsız veri kaynakları, kelimeleri bir üst kavramlarıyla ifade etmede kullanılmıştır. Bu sayede kelime kümelemede olduğu gibi, hem metinlerin boyut sayısı indirgenmiş, hem de metinlerin içerdikleri kavramlar daha anlamsal bir şekilde ifade edilmiş olmaktadırlar.

Kelimeleri bir üst kavramlarıyla ifade etme (genelleştirme) işlemi için 2 veri kümesi kullanılmıştır. İlki Türkçe

Wordnet’ten çıkarılmış 15018 adet kavram-üst kavram ikilisidir. İkincisi ise Zemberek’in kütüphanesinden alınan özel isimler listesidir. Eğer bir kelime kavram–üst kavram ikilileri listesinde kavramlar içinde yer alıyorsa onun yerine karşılık gelen üst kavram kullanılmıştır. Eğer bir kelime özel isimler listesinde yer alıyorsa onun yerine “insan” kavramı kullanılmıştır.

3.14. Sınıf Bilgisiyle Kelime Kümeleme

Bizim önerdiğimiz bu yöntemde, öncelikle kelimelerin her sınıftaki frekansları bulunarak kelimeler sınıf sayısı boyutlu bir uzayda birer noktaya dönüştürülmektedir. Daha sonra kelimeler, bu boyutları üzerinde 3.8. bölümde anlatılan kümeleme metotlarıyla sınıf sayısı adet kümeye ayrılmaktadır. Bu işlem sonunda her bir kelime sınıf sayısı adet kümeden birine ait olmaktadır. Metinler ise, sınıf sayısı adet kümenin frekanslarıyla ifade edilmektedirler. Bir kümenin bir metindeki frekansı, o kümede bulunan tüm kelimelerin o metindeki frekanslarının toplamıdır. Bu sayede metinler kelime sayısı adet boyut yerine, sınıf sayısı adet boyutla ifade edilmiş olmaktadır.

4. Deneysel Sonuçlar

Bölüm 2’de tanıtılmış olan 6 veri kümesi için, Bölüm 4’te anlatılan özellik gruplarının çeşitli konfigürasyonlarıyla arff’ler üretilmiştir. Özellik gruplarının her birinin çeşitli konfigürasyonları bulunmaktadır. Tablo 2’de özellik gruplarının (metin temsil yöntemlerinin) adları ve yazının bundan sonraki kısmında kullanılan kısaltmaları verilmiştir.

Tablo 2: Özellik gruplarının isim ve kısaltmaları Kısaltm

a ^Açıklama

Say Sayılar Özellik Grubu (Bölüm 3.2) 2G Harf 2 gramları (Bölüm 3.5) 3G Harf 3 gramları (Bölüm 3.5) K2G Kelime 2 gramları (Bölüm 3.5) KE Kelime ekleri (Bölüm 3.7) KT Kelime Türleri (Bölüm 3.4) FK Fonksiyonel kelimeler (Bölüm 3.6)

KGI Kavram genelleştirme isim tabanlı (Bölüm 3.13) KGO ^{Kavram genelleştirme özel isim tabanlı (Bölüm}_4.13) KK Kelime kökleri

KKHAL Hiyerarşik kelime kümeleme (küme benzerlikleri _{ortalamaya göre) (Bölüm 3.8)} KKHCL Hiyerarşik kelime kümeleme (küme benzerlikleri _{en uzak elemanlara göre) (Bölüm 3.8)} KKHSL Hiyerarşik kelime kümeleme (küme benzerlikleri _{en yakın elemanlara göre) (Bölüm 3.8)} KKK Kmeans ile kelime kümeleme (Bölüm 3.8) KKS SOM ile kelime kümeleme (Bölüm 3.8) MDS ^{Birlikte geçme matrisi tabanlı anlamsal uzay}_{(Bölüm 3.12)} LSI Saklı Anlam İndeksleme (Bölüm 3.11)

Amasyalı M. F., Balcı S., Varlı E. N., Mete E., Türkçe Metinlerin Sınıflandırılmasında Metin Temsil Yöntemlerinin Performans Karşılaştırılması, Cilt 2, Sayı 4, Syf 95-104, Aralık 2012

Temalı Derleme Makale

Tablo 3’te kelime Türleri, 2 gram, 3 gram, Fonksiyonel kelimeler, kelime 2 gramları, kelime ekleri, kavram genelleştirme isim, kavram genelleştirme özel isim, kelime kökleri olmak üzere toplam 9 özellik gruplarının her biri için kullanılan 6 frekans hesaplama yöntemi ve yazının bundan sonraki bölümlerinde kullanılacak olan kısaltmaları verilmiştir.

Tablo 3: Frekans hesaplama için kullanılan yöntemler Yöntem Açıklama

Binary ^{Bir kavram metinde geçiyorsa 1}geçmiyorsa 0 (Bölüm 3.1) Log Eşitlik 2.

N1 Eşitlik 3. N2 Eşitlik 4.

TF ^{Bir kavramın bir metindeki geçiş}sayısı (Bölüm 3.1) TFIDF Eşitlik 1.

Tablo 4’te kelime kümelemede, KKHAL, KKHCL, KKHSL, KKK, KKS olmak üzere toplam 5 metodun her biri için kelimelerin kümelenmesinde kullanılan 4 matrisin isimleri ve kısaltmaları verilmiştir.

Tablo 4: Kelime Kümeleme için kullanılan matrisler Yöntem Açıklama

Cooccurance ^{Kelime kümele Birlikte geçme matrisine}göre (Bölüm 3.8 ve 3.9) Snf ^{Kelime kümele sınıf bilgisine göre}(Bölüm 3.14) mTF ^{Kelime kümele TF matrisine göre (Bölüm}3.8) mTFIDF ^{Kelime kümele TFIDF matrisine göre}(Bölüm 3.8) Kelimelerin kümelenmesinde küme sayısı 50 olarak belirlenmiştir. LSI ve MDS için metinlerin ifade edileceği boyut sayısı 50 olarak belirlenmiştir. MDS’te ve birlikte geçme matrisinin kullanıldığı her yöntemde yakınlıktan uzaklığa geçiş için Eşitlik 6 kullanılmıştır. Say özellik grubu için değişken bir parametre kullanılmamıştır.

Üretilen tüm metin temsil yöntemleri WEKA [22] ile birlikte kullanılabilmeleri için arff formatında kaydedilmiştir. Sonuç olarak 6 veri kümesi her biri için ( 9*6 ) + ( 5*4 ) + 3 (LSI, MDS, Say) =77 arff, toplamda 77*6 = 462 arff üretilmiş ve her arff üzerinde 5’li çapraz geçerlemeyle WEKA kütüphanesinde yer alan 5 adet sınıflandırıcının (en yakın komşu-1NN, karar ağacı-C4.5, destek vektör makineleri-SVM, Naive Bayes-NB, Random Forest-RF) performansı ölçülmüştür. Özellik gruplarının sınıflandırma performanslarını gösteren tablolardaki (Tablo 5-10) tüm değerler 5’li çapraz geçerlemenin ortalama değerleridir.

kaydedilmiştir. Sonuç tablolarında (Tablo 5-10), kullanılan 5 algoritmadan en yüksek performansa sahip olanının adı ve başarı yüzdesi verilmiştir. Özellik sayısı 101 olan kayıtlarda orijinal özellik sayısı 5000’i aştığından bilgi kazancına göre özellik seçimi yapılmıştır. arff dosya formatında sınıf bir özellik olarak yer almaktadır. Buna göre özellik sayısı d olan bir veri kümesinde, d-1 adet özellikle sınıf etiketi tahmin edilmektedir.

4.1. Şiir Veri Kümesi Denemeleri

Tablo 5’te bir şiirin yazarını tahmin etme problemi üzerinde yaptığımız denemeler verilmiştir.

Tablo 5: Şiir veri kümesinde her bir özellik grubunun en başarılı olduğu konfigürasyon ve başarı yüzdeleri,

rastgele başarı % 14,29 Özellik

Grubu ^Konfigürasyon ^Özelliksayısı ^Başarıyüzdesi Sınıflandırıcı 3G Binary 101 75,29 NB KKHCL Snf 8 67,86 1NN 2G N1 1670 63,86 SVM KKK Snf 8 62,29 RF Say 20 53,29 RF KGI Binary 1829 48 NB KGO Binary 1672 43,71 NB KKS Snf 8 41,86 NB LSI 51 41,71 RF KK Binary 441 40,57 NB FK N1 410 36,14 RF KE TF 102 33,57 NB KT Log 16 32,29 SVM KKHAL mTFIDF 51 30,71 RF KKHSL Snf 8 29,14 1NN MDS 51 28,71 SVM K2G TFIDF 21 18,86 C45

Tablo 5 incelendiğinde bir şiirin yazarını tahmin etmede en başarılı metin temsil yönteminin (özellik grubunun) 3gramlar’ı binary olarak kodlamak (3G-Binary) olduğu görülmektedir. Veri kümesi için üretilen tekil 3gramların sayısı 5 bin’i geçtiğinden özellik seçimi yapılmış ve bilgi kazancına göre en iyi 100 adet 3gram metinlerin temsilinde kullanılmıştır. 7 şaire ait 20’şer şiirle elde edilen sonuçlara göre bir şiirin yazarı % 75,29’luk doğrulukla tahmin edilebilmektedir. En başarılı 2 yöntem (3G-Binary, KKHCL-Snf) arasında oldukça büyük bir fark bulunmaktadır. 4.2. Köşe Yazarı Veri Kümesi Denemeleri

Tablo 6’da bir köşe yazısının yazarını tahmin etme problemi üzerinde yaptığımız denemeler verilmiştir.

Tablo 3: Frekans hesaplama için kullanılan yöntemler Yöntem Açıklama

Binary ^{Bir kavram metinde geçiyorsa 1}geçmiyorsa 0 (Bölüm 3.1) Log Eşitlik 2.

N1 Eşitlik 3. N2 Eşitlik 4.

TF ^{Bir kavramın bir metindeki geçiş}sayısı (Bölüm 3.1) TFIDF Eşitlik 1.

Tablo 4’te kelime kümelemede, KKHAL, KKHCL, KKHSL, KKK, KKS olmak üzere toplam 5 metodun her biri için kelimelerin kümelenmesinde kullanılan 4 matrisin isimleri ve kısaltmaları verilmiştir.

Tablo 4: Kelime Kümeleme için kullanılan matrisler Yöntem Açıklama

4.1. Şiir Veri Kümesi Denemeleri

Tablo 5’te bir şiirin yazarını tahmin etme problemi üzerinde yaptığımız denemeler verilmiştir.

Tablo 5: Şiir veri kümesinde her bir özellik grubunun en başarılı olduğu konfigürasyon ve başarı yüzdeleri,

rastgele başarı % 14,29 Özellik

Tablo 6’da bir köşe yazısının yazarını tahmin etme problemi üzerinde yaptığımız denemeler verilmiştir.

100 EMO Bilimsel Dergi, Cilt 2, Sayı 4, Aralık 2012 TMMOB Elektrik Mühendisleri Odası

Tablo 3: Frekans hesaplama için kullanılan yöntemler Yöntem Açıklama

Binary ^{Bir kavram metinde geçiyorsa 1}geçmiyorsa 0 (Bölüm 3.1) Log Eşitlik 2.

N1 Eşitlik 3. N2 Eşitlik 4.

TF ^{Bir kavramın bir metindeki geçiş}sayısı (Bölüm 3.1) TFIDF Eşitlik 1.

Tablo 4’te kelime kümelemede, KKHAL, KKHCL, KKHSL, KKK, KKS olmak üzere toplam 5 metodun her biri için kelimelerin kümelenmesinde kullanılan 4 matrisin isimleri ve kısaltmaları verilmiştir.

Tablo 4: Kelime Kümeleme için kullanılan matrisler Yöntem Açıklama

4.1. Şiir Veri Kümesi Denemeleri

Tablo 5’te bir şiirin yazarını tahmin etme problemi üzerinde yaptığımız denemeler verilmiştir.

Tablo 5: Şiir veri kümesinde her bir özellik grubunun en başarılı olduğu konfigürasyon ve başarı yüzdeleri,

rastgele başarı % 14,29 Özellik

Tablo 6’da bir köşe yazısının yazarını tahmin etme problemi üzerinde yaptığımız denemeler verilmiştir.

Tablo 6: Köşe Yazarı veri kümesinde her bir özellik grubunun en başarılı olduğu konfigürasyon ve başarı

yüzdeleri, rastgele başarı % 5,56 Özellik

Grubu ^Konfigürasyon ^Özelliksayısı ^Başarıyüzdesi Sınıflandırıcı 2G Log 3817 93,78 SVM 3G Log 100 86,76 SVM KK Binary 800 85,68 SVM FK Log 534 81,49 SVM KGI Log 470 79,78 SVM KGO Log 448 79,68 SVM Say 20 73,4 RF KKK Snf 19 65,49 RF LSI 51 63,59 RF KKHCL Snf 19 63,17 RF KE Log 114 61,05 SVM MDS 51 56,41 NB K2G Binary 427 53,94 NB KKS mTFIDF 43 53,87 RF KT Log 16 50,51 NB KKHAL mTFIDF 51 47,17 SVM KKHSL Co 51 35,14 RF

Tablo 6 incelendiğinde bir köşe yazısının yazarını tahmin etmede en başarılı metin temsil yönteminin (özellik grubunun) 2gramlar’ı Log olarak kodlamak (2G-Log) olduğu görülmektedir. 18 köşe yazarının 35’şer yazısıyla elde edilen sonuçlara göre bir köşe yazısının yazarı % 93,78’lik doğrulukla tahmin edilebilmektedir. En başarılı 2 yöntem (2G-Log, 3G-Log) arasında büyük bir fark bulunmaktadır. Şiirlerin yazarlarının doğru tahmin yüzdesi % 75,29 iken, köşe yazılarının yazarlarının yüzdesi % 93,78’dir. Üstelik köşe yazarı veri kümemizde 18 yazar(sınıf) varken, şiir veri kümemizde 7 şair (sınıf) vardır. Sınıf sayısının artmış olmasına rağmen, başarının da artmış olması beklenmedik bir durumdur. Bu duruma 2 açıklama getirilebilir. İlki sınıflara ait örnek sayılarıdır. Veri kümelerinde şairlere ait 20’şer şiir varken, köşe yazarlarına ait 35’er örnek vardır ki bu köşe yazarlarının daha başarılı tahmin edilebilmesine olanak sağlamış olabilir. İkinci açıklama ise şiirlerde, köşe yazılarından çok daha fazla söz sanatına başvuruluyor olmasıdır. Ve eğer bir şairin üslubu kullandığı söz sanatı türlerine göre belirlenebiliyorsa ve çıkarılan özelliklerde bu söz sanatları yer almadığından şiirlerin yazarlarını köşe yazarları kadar iyi tahmin edemiyor olabilir.

4.3. Haberler Veri Kümesi Denemeleri

Tablo 7’de bir haber metninin konusunu tahmin etme problemi üzerinde yaptığımız denemeler verilmiştir.

Tablo 7: Haberler veri kümesinde her bir özellik grubunun en başarılı olduğu konfigürasyon ve başarı

yüzdeleri, rastgele başarı % 20 Özellik

Grubu ^Konfigürasyon ^Özelliksayısı ^Başarıyüzdesi Sınıflandırıcı

2G N1 3698 94,54 SVM KK N1 864 92,63 RF KGO Log 719 91,13 RF KGI N1 724 90,85 RF 3G N1 101 90,47 RF MDS 51 89,84 RF KKK Snf 6 87,51 RF KKHCL Snf 6 87,25 RF KKS mTFIDF 47 81,63 RF LSI 11 73,48 RF KKHAL mTFIDF 51 73,44 RF KE Log 120 68,02 SVM K2G TFIDF 101 65,84 RF FK N1 534 62,61 RF Say 20 57,08 RF KT Log 16 56,21 SVM KKHSL Co 51 47,06 C45

Tablo 7 incelendiğinde bir haberin türünü tahmin etmede en başarılı metin temsil yönteminin (özellik grubunun) 2gramlar’ı Eşitlik 3’teki gibi normalize edip kodlamak (2G-N1) olduğu görülmektedir. 5 haber türüne ait 230’ar haber metniyle elde edilen sonuçlara göre bir haberin türü %94,54’lük doğrulukla tahmin edilebilmektedir. En başarılı 2 yöntem (2G-N1, KK-N1) arasında küçük bir fark bulunmaktadır.

4.4. Cinsiyet Veri Kümesi Denemeleri

Tablo 8’de bir köşe yazısının yazarının cinsiyetini tahmin etme problemi üzerinde yaptığımız denemeler verilmiştir.

Tablo 8: Cinsiyet veri kümesinde her bir özellik grubunun en başarılı olduğu konfigürasyon ve başarı

yüzdeleri, rastgele başarı % 52,38 Özellik

Grubu ^Konfigürasyon ^Özelliksayısı ^Başarıyüzdesi Sınıflandırıcı 2G Binary 101 99,62 SVM 3G Log 101 98,67 1NN LSI 51 98,1 RF KK Binary 101 95,81 SVM KGI Binary 95 95,81 SVM KKK Snf 3 95,62 1NN KGO TFIDF 93 95,43 SVM KKHSL Snf 3 95,24 C45 KKHCL Snf 3 93,52 1NN K2G TFIDF 83 87,62 NB FK Log 42 81,14 SVM Say 20 79,24 RF KE Log 11 77,33 NB KKS mTF 49 76,57 SVM KKHAL Co 6 71,05 1NN MDS 6 70,67 NB KT N1 3 64,19 NB Özellik

4.3. Haberler Veri Kümesi Denemeleri

Tablo 7’de bir haber metninin konusunu tahmin etme problemi üzerinde yaptığımız denemeler verilmiştir.

Tablo 7: Haberler veri kümesinde her bir özellik grubunun en başarılı olduğu konfigürasyon ve başarı

yüzdeleri, rastgele başarı % 20 Özellik

Grubu ^Konfigürasyon ^Özelliksayısı ^Başarıyüzdesi Sınıflandırıcı

KGO Log 719 91,13 RF KGI N1 724 90,85 RF 3G N1 101 90,47 RF MDS 51 89,84 RF KKK Snf 6 87,51 RF KKHCL Snf 6 87,25 RF KKS mTFIDF 47 81,63 RF LSI 11 73,48 RF KKHAL mTFIDF 51 73,44 RF KE Log 120 68,02 SVM K2G TFIDF 101 65,84 RF FK N1 534 62,61 RF Say 20 57,08 RF KT Log 16 56,21 SVM KKHSL Co 51 47,06 C45

4.4. Cinsiyet Veri Kümesi Denemeleri

Tablo 8’de bir köşe yazısının yazarının cinsiyetini tahmin etme problemi üzerinde yaptığımız denemeler verilmiştir.

Tablo 8: Cinsiyet veri kümesinde her bir özellik grubunun en başarılı olduğu konfigürasyon ve başarı

yüzdeleri, rastgele başarı % 52,38 Özellik

Belgede EMO BİLİMSEL DERGİElektrik, Elektronik, Bilgisayar, Biyomedikal Mühendisliği Bilimsel Dergisi (sayfa 42-45)