Sınıflandırma - MATERYAL VE YÖNTEM - Sürekli optimizasyon problemleri için değişken komşuluk ar

3. MATERYAL VE YÖNTEM

3.6. Sınıflandırma

Sınıflandırma, sınıf etiketi bilinmeyen girdi verilerinin sınıflarını tahmin etmek için verilere ait sınıf ve kavramlarını tanımlayan modeller veya fonksiyonlar kümesinin bulunması sürecidir (Han ve Kamber, 2001). Sınıflandırma işlemi genellikle model olarak danışmanlı öğrenme metotlarını kullanır. Burada, çıktı sınıfı bilinen bir eğitim veri kümesi verildiğinde, değişkenler ve sınıflar arasındaki gizli ilişkilerin bulunması amaçlanmaktadır (Hand ve ark., 2001).

Veri madenciliği uygulamalarında sınıflandırma kuralları, kullanıcıların kuralları anlamasının ve yorumlamasının daha kolay olmasından dolayı çıktı gösterimi için en çok tercih edilen yöntemlerden birisidir. Genellikle kurallar bilginin net bir şekilde ifade edilmesi için kullanılır ve kullanıcılar tarafından anlaşılması daha kolaydır (Adriaans ve Zantige, 1996).

Sınıflandırma işlemi, sınıf değeri belli olmayan verilerin hangi sınıfa dâhil edileceklerini tahmin etmek için bünyesinde bir takım fonksiyonlar içerir. İstatistik, veritabanı, sinir ağları, makine öğrenimi, evrimsel algoritmalar ve bunlar gibi birçok alanda geliştirilmiş pek çok sınıflandırma yöntemleri mevcuttur.

Geliştirilen yöntemler, veri kümesinde sınıflandırma için kullanılacak olan bir eğitim kümesinin analizine dayanmaktadır ve bir kaydın önceden belirlenen bir sınıf içerisine dâhil edilmesi amaçlanmaktadır (Ye, 2003). Bu işlemi gerçekleştirmek için kullanılacak olan bir sınıflandırma algoritması ile eğitim verileri kullanılarak hangi

sınıfların var olduğu tespit edilmelidir. Test verileri kullanılarak öğrenme yöntemi ile sınıflandırma kuralları elde edilir.

Veri sınıflandırma işlemi iki aşamadan oluşmaktadır. İlk aşama, veri kümesi sınıfını tanımlayan modelin oluşturulmasıdır. Model, özellikler kullanılarak veri kümelerinin analizi ile oluşturulur. İkinci aşama, modelin sınıflandırılması için kullanılmaktadır. İlk olarak, modelin sahip olduğu tahmin veya sınıflandırmadaki doğruluk değeri tespit edilir. Verilen test kümesindeki modelin doğruluğu, model tarafından doğru bir şekilde sınıflandırılan test kümesi örneklerinin oranı olarak ortaya çıkar (Han ve Kamber, 2001).

Test veri kümesinin her bir kaydı, eğitilmiş modelin sınıf tahmini ile karşılaştırılır. Eğitilmiş modelin doğruluğunun belirlenebilmesi için eğitim verisinden bağımsız olan test verisi kullanılmaktadır. Eğer modelin doğruluk derecesi önceden belirlenmiş bir eşik seviyesinin üzerinde ise, model sınıf değerleri bilinmeyen veri kümelerini sınıflandırmak için kullanılabilir.

Sınıflandırma ve tahminde doğruluğu geliştirmek için bir takım ön işlem adımları veri kümesinde yer alan veriler üzerinde uygulanabilir. Bunlar sırasıyla; veri içerisindeki gürültüyü yok etmek ve eksik değerleri gidermek için veri temizleme ile ön işlemden geçirilir. Uygunluk analizi kullanılarak ilgisiz veya gereksiz özelliklerin öğrenme işleminden çıkarılması ile sınıflandırma etkinliğinin ve ölçeklenebilirliğinin gelişimine yardımcı olunur. Veri dönüşümü yapılarak veri kümesinde bulunan veriler daha üst kavramlara genelleştirilebilmektedir. Bu işlem genel olarak sürekli değerlere sahip özellikler için faydalı olmaktadır (Han ve Kamber, 2001).

3.6.1. Sınıflandırma kuralları

Sınıflandırma kuralları, genellikle veritabanı bilgi keşfi süreci sonunda elde edilen bilginin ifade edilmesinde kullanılır ve kullanıcılar tarafından kolayca anlaşılabilir yapıdadır. Sınıflandırma işlemi geleneksel analiz yöntemleri ile karşılaştırıldığı zaman bir takım avantajlara sahip olduğu görülmektedir. Bu avantajları aşağıdaki gibi özetleyebiliriz (Edelstein, 1999);

 İşlemi çözümleme zamanı geleneksel analiz yöntemine göre daha kısadır  Parametrik değişkenler kullanılabilir

 Elde edilen doğruluk değerleri daha yüksektir  Düşük maliyetli sonuçlar elde edilir

 Elde edilen bilgiler tutarlıdır

 Analiz işlemleri için uzman gerektirmez  Anlaşılır ve kolay yorumlanabilir  Kullanım alanı geniştir.

Sınıflandırma kuralının genel yapısı “EĞER koşul O HALDE değer” biçimindedir. Bu kural yapısında, koşullar bölümü kuralın mantıksal operatörler ile kontrol edilen nitelik değerlerinin kontrol edilmesidir. Kuralın en sonunda bulunan değer kısmı ise koşul kısmını sağlayan durumlar için tahmin edilen sınıf değerini belirtir. Bu gösterim biçimi, keşfedilen bilginin anlaşılabilirliğine ve yorumlanabilirliğine katkı sağlamaktadır (Hand ve ark., 2001).

Sınıflandırma kuralları tanımlama ve ayırt etme kuralları olarak iki gruba ayrılır. Tanımlama kurallarında amaç bir sınıfın özelliklerini tanımlayan kuralları bulmaktır ve oluşturulan kurallar “EĞER sınıf O HALDE nitelik” biçimindedir. Ayırt etme kurallarında ise amaç bir sınıfa ait verilerin, veri kümesi içerisinde kalan veriler içinden ayırt edilmesine olanak sağlayan kuralların bulunmasıdır. Ayırt etme kuralları “EĞER

özellik O HALDE sınıf” biçiminde oluşturulurlar. Burada tanımlama kurallarının tersi

ayırt etme kuralları şeklindeki bir algı yanlış olur (Breiman ve ark., 1984).

3.6.2. Kural çıkarımı

Kural çıkarımı, üzerinde çalışılan veri kümesinde gizli olan bir bilgiyi yeterli doğrulukta tanımlamak ve mantıksal kavramlar ile sembolik olarak belirtmektir (Tan ve ark., 2006a). Kural çıkarımında temel amaç, verideki gizli bilgiyi keşfetmek ve bilgiyi anlaşılabilir bir şekilde ifade ederek tanımlama kabiliyetini artırmaktır.

Kural çıkarımı ile elde edilen kurallarda bir takım özellikler aranmaktadır. Bu özellikleri şu şekilde sıralayabiliriz (Tan ve ark., 2006a);

 Kolay anlaşılabilir olmalı

 Yapısı basit ve karmaşık olmamalı  Yorumlanabilir olmalı

 Tutarlı olmalı

 Kural tekrarı olmamalı

 Eksiklikleri tanımlama kabiliyeti olmalı

 Muhakeme ve açıklama kapasitesine sahip olmalı  Verideki bilgiyi tek başına özetleyebilmeli.

Sınıflandırma kural çıkarım teknikleri kural tabanlı metotlar ve kural tabanlı olmayan metotlar olarak ikiye ayrılır (Kuttiyil, 2004).

Kural tabanlı metotlar: Kural tabanlı sınıflandırma metotları veri kümesinden

gizli bilgiyi doğrudan çıkartırlar ve anlaşılması kolaydır. Bu metotlara örnek olarak C4.5, karar tabloları vb. metotları verilebilir.

Kural tabanlı olmayan metotlar: Kural tabanlı olmayan sınıflandırma

metotlarından, kural tabanlı sınıflandırma metotlarına nazaran daha doğru sonuçlar elde edilir. Ancak bilgiler kullanıcıların anlayacağı bir biçimde sunulamaz. Genel olarak yapay sinir ağları gibi kural tabanlı olmayan sınıflandırıcılar çok iyi sınıflandırma doğrulukları elde edebilmelerine rağmen anlaşılabilirlik yönünden rekabetçi değildirler. Destek vektör makineleri, yapay sinir ağları, doğrusal genetik programlama kural tabanlı olmayan metotlara örnek olarak verilebilir.

Belgede Sürekli optimizasyon problemleri için değişken komşuluk arama tekniklerinin geliştirilmesi (sayfa 80-83)