• Sonuç bulunamadı

2. MAKĠNE ÖĞRENMESĠ

1.5. K-EN YAKIN KOMġULUK

Ġlk olarak Fix ve Hodges (1951) tarafından tanımlanan k-En Yakın KomĢuluk (k-EYK), birçok uygulamada baĢarılı olduğu kanıtlanmıĢ model tanımaya dayalı bir danıĢmanlı makine öğrenme tekniğidir (Lu ve Zhu, 2014: 276). K-EYK parametrik olmayan ayırt etme tutarlılığı özellikleri gösteren bir sınıflandırma tekniği olup örüntü tanıma ve veri madenciliğinde çok sık kullanılmaktadır (Fukunaga ve Hummels, 1987: 634). Hedef değiĢken kategorik ise sınıflandırma tekniklerinin en

80

basit parametrik olmayan karar prosedürü, en yakın komĢusu kategorisinde x'i sınıflandıran en yakın komĢu kuralıdır (Cover ve Hart, 1967: 21).

K-EYK algoritması, çeĢitli uygulamalarda yaygın olarak kullanılabilen en iyi ve en yaygın sınıflandırma algoritmalarından biridir. En yakın komĢunun aranması algoritması bilgisayar bilimlerinde birçok uygulamaya sahiptir (Chahardoli, Yaghubi ve Esmaeilpour, 2015: 140).

Bilinen (veya kısmen bilinen) sınıflandırmaya ve uygun bir mesafe ölçüsüne sahip özellik vektörlerini içeren sonlu büyüklükteki bir eğitim seti verildiğinde, yeni bir örneğin sınıfına ait belirsizliği karakterize etmek için k-EYK kullanılır (Zouhal ve Denoeux, 1998: 263). Girdi verileri en yakın k tane komĢuluğuna göre sınıflandırılır (Kermani, 2015: 348). Bir baĢka deyiĢle zaman serilerinde k-EYK ile tahmin etmenin ardındaki fikir, mevcut veriye en yakın olan geçmiĢ verileri tanımlamak ve mevcut verinin bir sonraki değerini tahmin etmek için gelecekteki değerlerini birleĢtirmektir (Arroyo ve Mate, 2009: 197). Tahmin setindeki bilinmeyen bir örnek, eğitim setindeki k-EYK‟larının çoğunluğuna göre sınıflandırılır (Lu ve Zhu, 2014: 276).

Gözlemlerin „n‟ öznitelikleri varsa, bunlar n boyutlu bir uzayda bir vektör olarak düĢünülür ve bu uzayda gözlemin „k‟ tane yeni komĢuları aranır ve bu komĢuların sınıf etiketlerine dayanarak, yeni gözlemin sınıf etiketi tahmin edilir (Arlot ve Celisse, 2010: 50).

Veri sayısı büyükse, en yakın komĢu yerine en yakın k komĢularının çoğunluk oyu kullanması mantıklıdır. SınıflandırılmamıĢ x noktası için Bayes olmayan bir kararın olasılığını en aza indirgemek için k değeri büyük olmalıdır. Ancak x'in gerçek sınıfının sonraki olasılıklarının doğru bir tahminini vermek için k noktalarının x'e yeterince yakın olması durmunda k‟nın değeri küçük olmalıdır (Cover ve Hart, 1967: 22).

Bu algoritmanın dezavantajlarından biri, tüm özelliklerin komĢularla yeni maksimum uzaklığının hesaplanmasıdır. Bu sorun, sınıflandırma sürecini yanıltma ile sonuçlanmakta ve sınıflandırma algoritmasının doğruluğunu azaltmaktadır. Birliktelik kuralları kullanılarak, k-EYK algoritmasının doğruluğunu artıracak çeĢitli özelliklere ağırlık verilmiĢtir (Chahardoli, Yaghubi ve Esmaeilpour, 2015: 140).

81 1.5.1. K-Katlı Çapraz Doğrulama

Uygun bir k değeri, k-EYK modelinin doğruluğu üzerinde büyük bir etkiye sahiptir ve k-EYK model kalibrasyonunda en uygun parametre k değeri çapraz doğrulama ile belirlenir (Lu ve Zhu, 2014: 276). Sistemlerin doğruluklarının ölçülmesinde k-katlı çapraz doğrulama yöntemi kullanılır. Bu yönteme göre toplam veri kümesi olan A, k alt kümeye bölünür. Her bir k alt kümesi k defa yenilenerek bir küme test kümesi diğer kalanlar ise eğitim kümesi olarak seçilir. Yapılan her yenilemede bulunan hata oranlarının ortalaması alınır ve böylece tahmin yönteminin hata oranı bulunur. Parametre k‟nın (3, 5, 7, vb.) değeri, en iyi modeli elde etmek için sırayla optimize edilir (Lu ve Zhu, 2014: 276). Literatürde k-katlı çapraz doğrulama modelinde optimal k değerinin 10 olduğunu gösteren bazı (Kohavi, 1995: 1139; Blockeel ve Struyf, 2002: Olson ve Delen, 2008:142; Erpolat ve Öz, 2010: 78; Aspinall vd., 2015: 273) çalıĢmalar vardır. On-katlı çapraz doğrulama yönteminde toplam veri kümesi 10 eĢit kümeye bölünür. 10 defa yenilenen iĢlemde her seferinde bir küme test kümesi diğer 9 küme ise eğitim kümesi olarak seçilir (Aydoğan, Gencer ve Akbulut, 2008: 52). On-katlı çapraz doğrulama yöntemi ġekil 18‟de gösterilmiĢtir.

ġekil 18. On-katlı Çapraz Doğrulama Yöntemi (Olson ve Delen, 2008:142).

1.5.2. Uzaklık Ölçüsü ve En Yakın KomĢu Sınıflaması

En yakın komĢu sınıflandırıcı, desenler arasındaki bir metrik veya “uzaklık” fonksiyonuna dayanır. Öte yandan, Öklid metriğini d boyutlarında kabul edilse de, metrik kavramı çok daha geneldir ve sınıflandırmadaki anahtar problemleri ele almak için alternatif mesafe ölçümlerini kullanılır (Duda, 2001: 215). k-EYK yönteminde parametre seçimlerinden biri de uzaklık ölçüsü seçimidir. Literatürde uzaklık ölçüsü olarak kullanılan Tanjant Uzaklığı, Mahalanobis Uzaklığı, Minkowski Uzaklığı,

82

Tanimoto Uzaklığı, Manhattan Uzaklığı ve Öklid Uzaklığı ölçüm teknikleri vardır. ÇalıĢmamızda en yaygın olarak kullanılan uzaklık ölçüsü olan Öklid Uzaklığı kullanılmıĢtır (Malhotra, Sharma ve Nair, 1999: 7; Li ve Lu, 2009: 644; Ioannidis, Pasiouras ve Zopounidis, 2010: 350; Ying ve Li, 2012: 3; Xing vd., 2003: 522). Bu durumda iki girdi vektörü için Öklid uzaklığı Denklem 45 kullanılarak hesaplanır:

x1=(x11,x12,…,x1n) ve x2=(x21,x22,…,x2n) iken 2 1 2 1 2 1 D( , ) ( ) n i i i x x x x  

 (45) Ģeklindedir. En yakın komĢu algoritmasının modelini kullanabilmek için, veri toplama genellikle test ve eğitim kümesine ayrılır. Tahmin edilen konular ve fonksiyonların yakınlaĢtırılmasında tüm verilerin %20'si test seti olarak %80‟i de eğitim için kullanılmaktadır (Chahardoli, Yaghubi ve Esmaeilpour, 2015: 140-141).

En yakın tek komĢudan daha fazlasını dahil ederek, daha yumuĢak bir karar sınırıyla daha sağlam bir sınıflandırıcı elde edilir. Uzaklık ölçüsü olarak Öklid uzaklığı kullanılırsa, k-EYK algoritması x test noktası üzerinde ortalanmıĢ bir hiperküreyi ele alır. Hiperkürenin yarıçapı, tam olarak K eğitim giriĢleri içerene kadar arttırılır. Sınıf etiketi c(x) daha sonra hiperküre içindeki en çok sayıda sınıf tarafından verilir (ġekil 19).

ġekil 19. K-EYK (Barber, 2012: 324)

1.5.3. K-EYK Algoritması Uygulama Adımları

Problemin çözümünde k-EYK algoritması çerçevesinde yapılacak iĢlemler sırasıyla Ģöyledir (Duda, 2001: 205; Harrington, 2012: 25; Bramer, 2016: 30) :

83 1. Adım: K parametresi tespit edilir,

2. Adım: Verilen bir nokta ile diğer tüm noktalar arasındaki uzaklıklar tek tek hesaplanır,

3. Adım: Hesaplanan uzaklıklar arasından en küçük olan k tanesi seçilir,

4. Adım: Tahminlenen gözlem değeri, k adet gözlem değerinin aritmetik ortalaması alınarak bulunur.

1.5.4. K seçimi

K-EYK sınıflandırıcısındaki, k sayısı gözlemlenen verinin k tane komĢularının (genellikle kullanıcı tarafından belirlenen bir parametre) sayısı olduğudur (Harrington, 2012: 25). K> 1 seçiminde bir takım anlamlılık olsa da, K = N (N eğitim noktası sayısıdır) olduğunda çok az anlam vardır. K çok büyük olursa tüm sınıflandırmalar aynı olur. Bunlar en iyi genelleme performansını veren K'nın optimal bir değeri olduğunu gösterir (Barber, 2012: 324). Deneme yanılma yolu ile optimal değere ulaĢılır.

1.5.5. K-EYK Uygulamaları

Veri madenciliği tekniği olarak KNN, regresyonun yanı sıra sınıflandırmada da çok çeĢitli uygulamalara sahiptir. Bu yöntemin uygulamalarından bazıları Ģunlardır; metin sınıflandırma, günlük yağıĢları ve diğer hava değiĢkenlerini simüle etme, borsa tahmini, piyasa trendlerini ortaya çıkarma, yatırım stratejilerini planlama, hisse senetlerini satın alma ve satma için en uygun zamanı belirleme.