• Sonuç bulunamadı

2. VERĠ VE YÖNTEM

2.2 Öznitelik Oluşturma ve Öznitelik Seçimi

2.2.2 Öznitelik seçimi

Bir sınıflandırma modelinin karmaşıklığı girdi sayısına bağlıdır. Bu değer, böyle bir modeli eğitmenin zaman ve uzay karmaşıklığını ve gerekli öğrenme örneği sayısını belirler. Bir modeli eğitmek için tüm girdiler yerine sadece önemli olanlarını almak zaman ve uzay karmaşıklığını azaltmamıza olanak sağlar. Bu nedenle boyut azaltma önemli bir süreç olarak karşımıza çıkmaktadır (Alpaydin 2014). Boyut azaltmayı istememizin birkaç nedeni vardır. Bunlar:

71

 Bir girdinin gereksiz olduğunu anladığımızda onu elde etmek ya da ölçmek için gereken zamandan tasarruf ederiz.

 Küçük veri kümelerinde daha basit modeller daha güvenilir olur. Böylesi modellerin varyansı düşüktür.

 Veri kümesi daha az değişkenle açıklandığında bu verileri oluşturan süreci daha iyi anlayabiliriz.

 Veriyi daha iyi görselleştirebiliriz.

Boyut azaltmak için iki temel yöntem vardır. Bunlar: öznitelik seçimi ve öznitelik çıkarımıdır. Öznitelik seçimi birçok örüntü tanıma ve Yapay Zeka problemlerinin çok önemli adımlarından biridir (Zhang & Deng 2007). Öznitelik seçiminde, n adet değişkenden en çok bilgi içeren k tanesi bulunur ve öteki (n-k) tanesi atılır. Öznitelik çıkarımında ise asıl n adet değişken birleştirilerek k<n tane yeni değişken oluştururuz (Alpaydin 2014). Bu yöntemler çıktı bilgisini kullanıp kullanmadıklarına göre gözetimli ya da gözetimsiz olabilirler. Öznitelik çıkarımı için en iyi bilinen ve sık kullanılan yöntemler temel bileşen analizi ve doğrusal ayırtaç çözümlemesidir. Bu yöntemlerin ikisi de doğrusaldır ve ilki gözetimsiz, ikincisi gözetimlidir. Bunların dışında gözetimsiz yöntemlerden birkaçı şunlardır: etmen çözümlemesi ve çok boyutlu ölçeklemedir. Doğrusal olmayan boyut azaltmaya örnek olarak eşölçümsel öznitelik eşleme ve yerel doğrusal gömme yöntemleri verilebilir.

Makine Öğrenmesi algoritmalarını etkili bir biçimde kullanabilmek için verinin önceden işlenmiş olması gereklidir. Öznitelik seçimi de verinin işlenmesi noktasında önemli yöntemlerden biridir. Öznitelik seçimi yöntemlerinin amacı ilişkisiz, gereksiz ve gürültülü özniteliklerin elenerek Makine Öğrenmesi algoritmalarının hızını ve sınıflandırma doğruluğunu arttırmaktır (Kalousis et al. 2007). İlgisiz öznitelikler, yararlı bilgi sağlamayan özelliklerdir. Ayrıca gereksiz öznitelikler, seçilen özniteliklerden daha fazla bilgi sağlamazlar. Gözetimli öğrenme açısından öznitelik seçimi üç yaklaşımdan birini kullanarak bir dizi aday özellik verir (Molina et al. 2002):

 Değerlendirme ölçütünü optimize eden özniteliklerin alt kümesinin boyutu

 Değerlendirme ölçümleri üzerinde belirli bir kısıtlamayı sağlayan alt kümenin küçük boyutu

72

 Genel olarak, boyut ve değerlendirme ölçümleri arasında en iyi uyuma sahip alt küme

Öznitelik seçimi, Makine Öğrenmesi algoritmalarının genelleme yeteneğini ve öğrenme hızını arttırırken model karmaşıklığını da azaltmaktadır. Öznitelik seçimi boyunca; verideki ilgisiz, gereksiz veya gürültülü öznitelikler birçok durumda engellenebilmektedir (Dash & Liu 1997). Örneklerin sayısı özniteliklerden çok daha az olduğunda, Makine Öğrenmesi algoritmaları veriyi öğrenme konusunda özellikle zorlanır. Çünkü arama uzayı yeterli büyüklükte değildir. Böylelikle model, gürültü ve ilgili veriler arasında doğru bir şekilde ayrım yapamamaktadır (Provost 2000). Öznitelik seçimi için iki önemli yaklaşım vardır. İlki Bireysel Değerlendirme, ikincisi Alt Küme Değerlendirmedir. Özniteliklerin sıralanması Bireysel Değerlendirme olarak bilinir (Guyon & Elisseeff 2003). Bireysel Değerlendirmede, tek bir özniteliğin ağırlığı, uygunluğunun derecesine göre atanır. Alt Küme Değerlendirmesinde ise aday öznitelik alt kümeleri, arama stratejisi kullanılarak oluşturulmuştur (Kumar 2014).

Öznitelik seçimi için genel yöntem dört anahtar adımdan oluşmaktadır. Bunlar: Alt küme oluşturma, alt küme değerlendirme, durma kriteri ve sonuç değerlendirmedir. Alt küme oluşturma, her bir aşamanın arama alanındaki değerlendirme için bir aday alt küme belirlediği sezgisel bir arama yöntemidir. İki temel konu alt küme oluşturma sürecinin doğasına karar verir: Bir sonraki alt küme oluşturma ve arama organizasyonudur. Birincisi; arama yönünü etkileyen arama başlangıç noktasına karar verir. Her aşamada arama başlangıç noktalarına karar vermek için ileri, geri, bileşik, ağırlıklandırma ve rastgele yöntemler kullanılır (Doak 1992). İkincisi; ardışık arama, üssel arama (Narendra & Fukunaga 1977; Pearl 1984) veya rasgele arama (Liu & Motoda 1998) gibi belirli bir stratejiyle öznitelik seçimi sürecinden sorumludur. Yeni oluşturulan bir alt küme belirli bir değerlendirme kriteri ile değerlendirilmelidir. Bu nedenle, özniteliklerin aday alt kümesinin performansını belirlemek için literatürde birçok değerlendirme kriteri önerilmiştir. Makine Öğrenmesi algoritmaları üzerindeki bağımlılıklarına dayanarak değerlendirme ölçütleri iki gruba ayrılır: bağımsız ve bağımlı kriterler (Liu & Yu 2005). Bağımsız kriterler, bir öznitelik kümesinin veya bir özniteliğin performansını değerlendirmek için herhangi bir Makine Öğrenmesi algoritması içermeksizin eğitim verisinin temel özelliklerini kullanır. Bağımlı kriterler ise Makine Öğrenmesi algoritmasının

73

performansına dayalı öznitelikleri seçmek için önceden belirlenmiş Makine Öğrenmesi algoritmalarını içerir. Son olarak, seçim sürecini durdurmak için durdurma ölçütleri belirlenmelidir. Öznitelik seçimi işlemi doğrulama işleminde durur. Doğrulama süreci öznitelik seçimi sürecinin parçası değildir. Ancak öznitelik seçim yöntemi, farklı testler ve karşılaştırmaları daha önceden belirlenen sonuçlarla ya da yapay veri kümeleri, gerçek dünya veri kümeleri ya da her ikisini birden kullanan rakip yöntemlerin sonuçlarıyla karşılaştırarak doğrulanmalıdır (Kumar 2014).

Makine Öğrenmesi algoritmalarının veriden model oluşturma sürecini önemli bir biçimde belirleyen etmenlerden biri de öznitelik kümesidir. Öznitelik seçimi için üç genel yaklaşım vardır. Bunlar: Filtre Yaklaşımı, Sarmalama Yaklaşımı ve Gömülü Yaklaşımdır. Filtre Yaklaşımı, eğitim verisinin genel özelliklerini Makine Öğrenmesi algoritmasından bağımsız olarak kullanır yani özniteliklerin değerlendirilmesinde istatistiksel testler kullanılır (Bolón-Canedo et al. 2013). Sarmalama Yaklaşımı, ilgililik düzeyi ile en iyi öznitelik alt kümesi seçimi arasındaki ilişkiyi keşfeder ve Makine Öğrenmesi algoritmasına uyarlanmış optimal bir öznitelik alt kümesini arar (Kohavi & John 1997). Özellik seçimindeki yaklaşımlardan sonuncusu ise deneylerde kullanılan sınıflandırma algoritmalarının seçilen öznitelik gruplarından hangisi üzerinde iyi bir öğrenme sağladığı üzerinedir. Bu yaklaşım Sarmalama Yaklaşımına benzemektedir. Ancak Gömülü Yaklaşımda, arama sürecine öğrenme süreci etki etmektedir. Bu da hesaplamasal maliyeti azaltmada ve veriye olan aşırı eğilimi azaltmaktadır.

Gömülü Yaklaşım ve Sarmalama Yaklaşımı aynı zamanda fayda teorisi yaklaşımını kullanmaktadır. Fayda Teorisi bir durum hakkında belirsizlik sözkonusu olduğu zaman akılcı kararlar verme ile ilgili bir yaklaşımdır (Alpaydin 2014). Fayda teorisine göre yapılan seçimler sonucunda en iyi sonucu veren öznitelik kümesi aynı zamanda öznitelik vektörümüzü oluşturmaktadır. Bu durumu matematiksel olarak ifade edelim: Elimizde bulunan ilk öznitelik x olsun ve S durumu ayrık durumlardan oluşsun; Sk, k = 1,…,n. Buna göre x özniteliğini bildiğimizde Sk durumunun gerçekleşme olasılığı P(Sk|x) olarak hesaplanır. x özniteliğini Sk durumuna atayan karar hareketi αi ve fayda fonksiyonumuzu da Uik olarak tanımlayalım. Böylelikle beklenen fayda (2.65) te gösterildiği gibidir (Alpaydin 2014).

74

( ) ∑ ( )

(2.65)

Beklenen faydayı en yüksek yapacak hareketin αi olduğunu varsayarsak; x özniteliği için αi hareketinin beklenen faydası (2.66) eşitliğindeki gibi hesaplanır (Alpaydin 2014).

( ) ∑ ( )

(2.66)

Mevcut öznitelik kümesine eklenen yeni bir özniteliğimiz y olsun. Buna göre beklenen fayda (2.67) eşitliğindeki gibi tekrar hesaplanır (Alpaydin 2014).

( ) ∑ ( )

(2.67)

Böylece EU(x,y) > EU(x) ise y özniteliğinin seçilen Makine Öğrenmesi algoritması için yüksek enformasyon sağlayan bir öznitelik olduğu söylenebilir. Yani öznitelik kümesine eklenen yeni özniteliğin beklenen faydası önceki öznitelik kümesinin beklenen faydasından büyük ise yeni özniteliğin yararlı bir öznitelik olduğu söylenebilir.

Literatürde birçok öznitelik seçimi yöntemi önerilmiştir. Ancak bu yöntemlerin karşılaştırmalı olarak çalışılması çok zor bir görevdir. Gerçek veri setinden önce ilişkili öznitelikleri bilmeden, öznitelik seçim yöntemlerinin etkinliğini bulmak çok zordur. Zira veri setleri çok sayıdaki ilişkisiz öznitelik, gereksiz öznitelik, gürültülü veri ya da özelliklerden veya örneklerden dolayı yüksek boyutluluk gibi birçok zorluk içerebilir. Bu nedenle öznitelik seçimi yönteminin performansı, öğrenme yönteminin performansına bağlıdır. Literatürde doğruluk, bilgisayar kaynakları, öznitelik seçimi hızı gibi birçok performans ölçütü vardır. Çoğu araştırmacı, öznitelik seçiminde "en iyi yöntem"in bulunmadığını kabul etmektedir (Bolón- Canedo et al. 2013). Bu nedenle, yeni öznitelik seçme yöntemleri, farklı stratejiler kullanarak özel problemlerin üstesinden gelmeye çalışmaktadır. Bu stratejiler aşağıda belirtilmektedir:

 Bir topluluk yöntemi kullanarak öznitelik seçiminin daha iyi bir şekilde yapılmasını sağlamak (Saeys et al. 2008; Bolón-Canedo et al. 2012)

75

 Ağaç topluluğu (Tuv et al. 2009) gibi başka yöntemlerle birleştirme ve öznitelik çıkarımı (Vainer 2009)

 Mevcut algoritmaları yeniden yorumlama (Sun 2007; Sun et al. 2008)

 Çözülmemiş problemlerle başa çıkmak için yeni bir yöntem oluşturma (Chidlovskii & Lecerf 2008; Loscalzo et al. 2009)

 Birkaç öznitelik seçim yöntemini birleştirmek (Zhang et al. 2008; El Akadi et al. 2011)

Öznitelik seçiminde değerlendirme kriteri, en uygun özellik alt kümesini elde etmek için kullanılır. Yüksek boyutlu verilerde (örnek sayısı < özellik sayısı), optimal özellik alt kümesini bulmak zor bir iştir (Kohavi & John 1997). Bu problem NP-hard bir problem olarak bilinmektedir (Kohavi & John 1997; Blum & Rivest 1992). Yani

N adet öznitelik sayısı için 2N adet öznitelik alt kümesi bulunmaktadır. Öznitelik alt kümesinin bulunması için birçok arama yöntemi vardır. Bu yöntemler ve birbirleriyle karşılaştırmaları Çizelge 2.4‘de gösterilmektedir (De Silva & Leong 2015).

Çizelge 2.4: Arama Yöntemlerinin Karşılaştırılması (De Silva & Leong 2015) Arama

Yöntemi Karmaşıklık Avantajlar Dezavantajlar

Kapsamlı ( )  Yüksek doğruluk Optimal öznitelik kümesi Hesaplamasal maliyet çok yüksek Ardışık ( )  Uygulanması basittir Geriye doğru iz sürme

daha az esnektir Rastgele ( log )

 Kullanıcılar doğruluk ve hız arasında tercih yapabilir

 Yerel optimumdan kaçınır

Düşük doğruluk

VIBES algoritması Parkinson veri kümesine uygulanmadan önce veri kümesine ait

özniteliklerin seçilmesi gerekmektedir. Çünkü onbinlerce öznitelik üzerinde Veri Madenciliği gerçekleştirmek oldukça zahmetli bir süreçtir. Veri Madenciliği sürecini hızlı bir şekilde gerçekleştirmek için Parkinson veri kümesi için oluşturulan özniteliklerden en fazla enformasyon veren (ya da sınıflandırma doğruluğu en yüksek) özniteliklerin seçilmesi gerekmektedir. Öznitelik seçimi için kullanılan öznitelik seçim algoritması OneRAttributeEval algoritmasıdır. Böylelikle daha yüksek enformasyon veren öznitelikler seçilirken düşük enformasyon veren öznitelikler elenmiş oldu. Özniteliklerin seçimi esnasında OneRAttributeEval algoritması 10-katlı çapraz doğrulama yöntemi kullanılarak çalıştırıldı. Bunun

76

sonucunda özniteliklerin her birinin veriyi doğru sınıflandırma yüzdeleri elde edilir. 10-katlı çapraz doğrulama yöntemi uygulandığı için doğru sınıflandırma oranı bu 10- kat‘ın ortalamasıdır. Böylelikle her bir öznitelik için ( ) şeklinde sonuçlar elde edilmiş olur. Daha sonra öznitelikler seçilirken ( ) şartına uyan öznitelikler seçilir. Böylelikle onbinlerce öznitelik arasından sadece sayısı yüzlerle ifade edilebilecek kadar öznitelik seçilir. Bölüm 3.2‘de bu süreç ayrıntılı bir biçimde anlatılmaktadır.