DESTEK VEKTÖR MAKİNALARI - Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerini

Destek vektör makineleri (DVM), doğrusal ve doğrusal olmayan verilerin sınıflandırılmasında kullanılan denetimli bir yöntemdir. Destek vektör makineleri metin sınıflandırma, parçacık tanıma ve yüz tanıma gibi pek çok gerçek dünya probleminde başarılı bir şekilde uygulanmaktadır. Destek vektör makineleri yönteminde temel düşünce pozitif ve negatif örnekleri ayıran en uygun düzlemin bulunmasıdır (Kumar ve Gopal 2009).

DVM’nin yüksek genelleme yeteneği bu yöntemin yüksek boyutlu veriler üzerinde uygulamasını mümkün kılmaktadır. DVM metin sınıflandırma konusunda birçok sınıflandırma yönteminden daha başarılı sonuç vermekle birlikte ÖS için de kullanılabilmektedir (Shima ve ark 2004). Destek vektör makineleri yüksek boyutlu özellik uzayı için etkili bir öğrenme başarısı elde etmektedir (Cachopo ve Oliveira 2006). Destek vektör makineleri eğitim verisini doğrusal olmayan bir dönüşümle yüksek boyuta çıkarmakta ve bu yeni boyut içinde en uygun ayırıcı düzlemi aramaktadır. En uygun düzlem iki sınıf arasındaki, sınıfların sınır noktaları arasındaki uzaklığı en yükseğe çıkaran düzlemdir. En uygun düzlemi bulmak için bu düzleme paralel ve sınırlarını oluşturacak iki düzlemin belirlenmesi gerekir. Bu düzlemleri oluşturan noktalar destek vektörü ismini almaktadırlar (Han ve Kamber 2006). Şekil 4.1’de sınıfları ayıran düzlem ve destek vektörler gösterilmektedir (Durmaz 2011).

Şekil 4.1. Sınıfları ayıran düzlemin belirlenmesi (a) En uygun düzlemin bulunması (b) Destek vektörler

Şekil 4.1’de gösterildiği gibi iki sınıflı uzayı B ve C düzlemleri tam olarak ayıramamaktadır. A düzlemi ise bu sınıfları en küçük aralıkla ayırmaktadır. Destek vektör makinelerinde hedeflenen nokta en büyük aralığı veren düzlemin seçilmesidir. Doğrusal veriler bu şekilde ayırmak mümkün iken doğrusal olmayan veriler için verilerin yüksek boyutta ifade edilmesi gerekir.

4.1. Çekirdek (Kernel) Fonksiyonları

Destek vektör makineleri ile matematiksel olarak K(xi,xj) = ϕ(x).ϕ (xj) şeklinde ifade edilen bir çekirdek fonksiyonu sayesinde doğrusal olmayan dönüşümler yapılabilmektedir. Bu işlem yapılarak verilerin yüksek boyutta doğrusal olarak ayrılmasını sağlamaktadır. Sonuç olarak, çekirdek fonksiyonu yardımıyla doğrusal olarak ayrılamayan iki sınıflı bir problemin çözümü ile ilgili karar kuralı aşağıdaki şekilde yazılabilir (Osuna ve ark 1997):

𝑓(𝑥) = 𝑠𝑖𝑔𝑛(∑ 𝛼𝑖 _𝑖𝑦_𝑖𝜑(𝑥). 𝜑(𝑥_𝑖) + 𝑏) (4.1)

DVM ile gerçekleştirilecek bir sınıflandırma işlemi için öncelikle kullanılacak çekirdek fonksiyonu ve bu fonksiyona ait optimum parametrelerin belirlenmesi gereklidir. Literatürde çekirdek fonksiyonu olarak en sık kullanılan polinom, radyal tabanlı fonksiyon, Pearson VII (PUK) fonksiyonu ve normalleştirilmiş polinom çekirdekleri Çizelge 4.1’de formülleri ve parametreleriyle birlikte verilmiştir. Çizelge 4.1’de görüldüğü gibi her çekirdek fonksiyonu için bazı parametrelerin kullanıcı tarafından belirlenmesi gerekir. PUK çekirdeği için belirlenmesi gereken parametre sayısı iki iken, diğer fonksiyonlar için sınıflandırmayı gerçekleştirecek model oluşumunda bir parametrenin belirlenmesini gerektirmektedir.

Çekirdek fonksiyonları karşılaştırıldığında polinom ve radyal tabanlı çekirdeklerin daha sade ve anlaşılabilir olduğu görülmektedir. Polinomun derecesindeki artış matematiksel olarak basit görünse de, algoritmanın karmaşık bir hal almasına sebep olmaktadır. Bu da hem işlem süresini önemli ölçüde artırmakta hem de bir noktadan sonra sınıflandırma doğruluğunu azaltmaktadır. Buna karşın radyal tabanlı fonksiyonun çekirdek boyutu ( γ ) olarak ifade edilen parametresindeki değişimlerin sınıflandırma başarısına etkisinin daha az olduğu görülmüştür (Hsu ve ark 2010). Normalleştirilmiş polinom fonksiyonu ise veri kümesinin normalleştirilmesi yerine polinom çekirdeğine ait matematiksel ifadenin normalleştirilmesi amacıyla Arnulf ve ark (2001) tarafından önerilmiştir. Normalleştirilmiş polinom kernelinin polinom kernelinin genelleştirilmiş bir tipi olduğu söylenebilir. Diğer taraftan, PUK kerneli Pearson genişliği olarak bilinen (σ, ω) iki parametresi ile diğer çekirdek fonksiyonlarına göre daha karmaşık bir yapıya sahiptir. Bu iki parametre sınıflandırma doğruluğuna etki etmekte ve hangi parametre ikilisinin en iyi sonuç vereceği önceden bilinmemektedir.

Bu nedenle PUK kernelinin kullanımında en uygun parametre ikilisinin belirlenmesi önemli bir aşamadır (Kavzoğlu ve Çölkesen 2010).

Çizelge 4.1. Destek vektör makinelerinde kullanılan temel kernel fonksiyonları ve parametreleri

Kernel Fonksiyonu Matematiksel İfadesi Parametre

Polinom Kerneli 𝐾(𝑥. 𝑦)= ((𝑥. 𝑦) + 1)𝑑 _{Polinom derecesi (d)}

Normalleştirilmiş Polinom Kerneli 𝐾(𝑥. 𝑦)= ((𝑥.𝑦)+1)𝑑 √((𝑥.𝑥)+1)𝑑_{.((𝑦.𝑦)+1)𝑑} Polinom derecesi (d) Radyal Tabanlı Fonksiyon Kerneli 𝐾(𝑥. 𝑦)= 𝑒 −𝛾|(𝑥−𝑥_𝑖)|2 _{Kernel boyutu (𝛾)}

Pearson VII (PUK) Kerneli 𝐾(𝑥. 𝑦) = 1 [ 1 + ( 2 + √‖𝑥 − 𝑦‖2_√2(1/𝜔)_{− 1} 𝜎 ) 2 ] 𝜔 Pearson genişliği parametreleri (𝜎 ve 𝜔)

Kernel fonksiyonuna özgü parametrelerin yanında tüm destek vektör makineleri için düzenleme parametresi C’nin kullanıcı tarafından belirlenmesi gerekir. Bu parametre için olması gerekenden çok küçük veya çok büyük değerler seçilmesi durumunda optimum hiper-düzlem doğru belirlenemeyeceğinden sınıflandırma doğruluğunda ciddi düşüş beklenir. Diğer taraftan C = ∞ olması durumunda DVM modeli sadece doğrusal olarak ayrılabilen veri setleri için uygun hale gelir. Buradan da görüleceği üzere parametreler için uygun değerlerin seçimi DVM sınıflandırıcısının performansını direkt olarak etkileyen bir faktör durumundadır. Genellikle deneme ve hata stratejisi kullanılmasına karşın, çapraz doğrulama yaklaşımı başarılı sonuçlara ulaşılmasına olanak sağlamaktadır. Çapraz doğrulama yaklaşımında amaç oluşturulan sınıflandırma modelinin performansının belirlenmesidir. Bu amaçla veri kümesi iki kısma ayrılır. Birinci kısım sınıflandırmaya esas olan model oluşumunda eğitim verisi olarak kullanılırken ikinci kısım modelin performansının belirlenmesi amacıyla test verisi olarak işleme konur. Eğitim seti ile oluşturulan modelin test veri kümesine uygulanması sonucunda doğru sınıflandırılan örneklerin sayısı sınıflandırıcının performansını gösterir. Dolayısıyla çapraz geçerlilik yöntemi kullanılarak en iyi sınıflandırma performansının elde edildiği çekirdek parametrelerinin belirlenmesi ve sınıflandırmayı gerçekleştirecek modelin oluşturulması gereklidir (Kavzoğlu ve Çölkesen 2010).

Belgede Sınıflandırma problemlerinde meta-sezgisel optimizasyon yöntemlerinin özellik seçimi ve ayrıklaştırma amacıyla kullanımı (sayfa 54-57)