GELİŞTİRİLEN EKSİK DEĞER HESAPLAMA YAKLAŞIMLARI

5.1. Eksik Değerlerin Bulanık c-ortalamaları, Destek Vektör Regresyonu ve Genetik Algoritmalar (BcoDvrGa) Hibrit Kullanımı ile Hesaplanması

Tipik olarak eksik veri içeren bir veri kümesi, tam kayıtlar ve eksik kayıtlar olarak iki bölüme ayrılmaktadır. Eksik kayıt bir veya birden çok nitelik değeri olmayan kayıtlara, tam kayıt ise tüm nitelik değerleri var olan veri kümesi satırına ya da nesnesine denmektedir. Şekil 5.1’de önerilen yöntem gösterilmektedir (Aydilek ve Arslan, 2013). Eksik değerler bulanık c-ortalamalar algoritması vasıtasıyla hesaplanabilmektedir. Şekilde c, küme merkezi adedi ve m ağırlık faktörü parametresini göstermektedir.

Şekil 5.1. Önerilen bulanık c-ortalamalar, destek vektör regresyonu ve genetik algoritmalar (BcoDvrGa)

eksik değer hesaplama yöntemi

Literatür araştırması bölümünde incelenen bulanık c-ortalamalar ile yapılmış çalışmalarının eksikliğinin giderilmesi için ve ayrıca Başlık 4.2’de bulanık c- ortalamalar (BCO) ile en iyi eksik değer hesaplama başarısının elde edilebilmesi için vurgulanmış olan c küme merkezi adedinin ve m ağırlık faktörü parametre değerinin veri kümesi yapısına en uygun şekilde belirlenmesi gerekmektedir. Geliştirilen BcoDvrGa yaklaşımı ile bu parametrelerin optimizasyonu yapılmaktadır. Bilinmeyen, gizli veri kümesi yapısı destek vektör regresyonu modeli ile öğrenilmektedir. Genetik algoritmalar, destek vektör regresyonu ile işbirliği yaparak giriş ile çıkış arasındaki

Destek Vektör Regresyonu (Tam Kayıtlarla Eğitilmiş) Eksik kayıt İçeren Veri kümesi Eksik Kayıtlar Bulanık

c-ortalamalar Hata minimum?

Tam Veri Kümesi Hayır, Sonraki Parametre Değerleri Evet, Parametreler optimize Tam Kayıtlar Genetik Algoritmalar c, m Parametreleri

hesaplama hatasını en aza indirmeye çalışmaktadır. Hata fonksiyonu değeri Denklem 5.1 ile hesaplanmaktadır.

ℎ = ( − ) Denklem 5.1

Burada destek vektör regresyon çıkışını, ise bulanık c-ortalamalar tahmin çıkışını ifade etmektedir. Eksik değerler tahmin edilmeden önce destek vektör regresyonu (DVR), veri kümesindeki tam olan kayıtlarla, giriş değerleri neredeyse çıkış değerlerine benzer olacak şekilde eğitilmiş olması gerekmektedir. Bu sayede genetik algoritmalar (GA) giriş ile çıkış arasındaki en düşük farkı bulmayı amaçlayan uygunluk fonksiyonu yardımıyla en uygun c, m parametre değerlerini tespit etmektedir.

Önerilen hibrit yöntem olan bulanık c-ortalamalar (BCO) destek vektör regresyonu (DVR) ve genetik algoritmalar (GA) ile eksik değer hesaplaması aşağıdaki aşamalardan oluşmaktadır.

1. Destek vektör regresyon modeli veri kümesinin tam kayıtlarıyla giriş çıkışa yaklaşık eşit olacak şekilde eğitilir, giriş( ) ≈ çıkış( ).

2. Eksik olan kayıtlar bulanık c-ortalamalar (BCO) ve destek vektör regresyonu (DVR) ile ayrı ayrı hesaplanır.

3. Genetik algoritmalar ile BCO ve DVR arasındaki farkı minimize eden en uygun

c ve m parametre değerleri tespit edilir.

4. Optimize edilmiş parametre değerleri BCO ile kullanılarak eksik değerler hesaplanır.

Bir diğer önerilen yaklaşımda ise sadece bulanık c-ortalamalar (BCO) ve genetik algoritmalar (GA) kullanılarak eksik değer hesaplaması yapılmaktadır. Bu yöntemde tam olan veri kümesinden bazı değerler yapay olarak silinmektedir. BCO eksik değer hesaplaması ile silinmiş olan aslında bilinen gerçek değerlere en yakın hesaplama yapılan optimum c ve m parametre değerleri genetik algoritmalar yardımıyla tespit edilmektedir. Daha sonra eksik olan değerlerin hesabı bu optimum parametre değerleri vasıtasıyla BCO eksik değer hesaplaması tarafından yapılmaktadır. BcoGa eksik değer hesaplama yaklaşımı aşağıdaki aşamalardan oluşmaktadır.

1. Tam olan veri kümesinden bazı kayıtlar yapay olarak eksik hale getirilir.

2. Yapay olarak eksik hale getirilmiş değerler BCO tarafından hesaplanır. Eksiltilmiş değerler ile hesaplanan değerler arasındaki farkı minimize eden genetik algoritmalar optimum c ve m parametre değerlerini bulur.

3. Optimum parametre değerleri ile BCO tarafından veri kümesindeki gerçekte eksik değerler hesaplanır.

5.2. Eksik Değerlerin En Yakın K-Komşu ve Yapay Sinir Ağları (EykYsa) Hibrit Kullanımı ile Hesaplanması

Eksik değerler (k) en benzer kayıt adedi olmak üzere ağırlıklı en yakın k-komşu yöntemiyle hesaplanabilmektedir. Literatür araştırması bölümünde incelenen en yakın k-komşu ile yapılmış çalışmalarının eksikliğinin giderilebilmesi için ve ayrıca Başlık 4.4’de en yakın k-komşu (EYK) ile en başarılı hesaplama doğruluğunu elde edebilmek için vurgulanmış veri kümesine en uygun (k) komşu adedi kullanılması gerekliliği ifade edilmiştir. Çıkış(Y) katmanında, giriş(X) katmanında girilen değerlere en yakın çıkış(Y) üreten yapay sinir ağları modelinin fark fonksiyonu Denklem 5.2’deki gibi kabul edilmektedir. Denklemdeki X yapay sinir ağları girişini, Y ise yapay sinir ağları çıkışını ifade etmektedir.

= − Denklem 5.2

ç = ( − ) Denklem 5.3

Fark fonksiyonunun Denklem 5.2’nin karesi aynı zamanda en uygun (k) komşu adedini bulmak için kullanabilecek negatif olmayan minimum fark (Denklem 5.3) fonksiyonu olarak kullanılmaktadır. Eksik veri kaydı bir veya daha fazla nitelik değeri olmayan, tam veri kaydı ise bütün nitelikleri var olan veri kümesi kayıtlarına denmektedir. Eksik veri içeren tipik bir veri kümesi tam kayıtlar ve eksik kayıtlar olmak üzere iki alt kümeye ayrılmaktadır.

Şekil 5.2’de önerilen yöntem gösterilmektedir. En yakın k-komşu (EYK) ve yapay sinir ağları (YSA) ile eksik değer hesaplaması aşağıdaki aşamalardan oluşmaktadır (Aydilek ve Arslan, 2012).

Eksik değer hesaplaması yapılabilmesi için veri kümesindeki kayıtların ve niteliklerin veri kümesindeki diğer kayıt ve niteliklerle olan bilinmeyen matematiksel

ilişkilerinin çözümlenmesi, anlaşılması gerekmektedir. Önerilen yöntemde veri kümesindeki gizli ilişkileri çözümleyebilmek için yapay sinir ağları modeli kullanılmaktadır. Böylece veri kümesi yapısı bir model olarak analiz edilmiş ve eksik değerler ağırlıklı en yakın k-komşu algoritmasıyla tahmin edilmiştir.

Şekil 5.2. Önerilen yöntem, Eksik değerlerin hibrit en yakın k-komşu, yapay sinir ağları ile hesaplanması

1. Yapay sinir ağı modeli tam olan kayıtlarla giriş çıkışa yaklaşık eşit olacak şekilde eğitilir, giriş (X) ≈ çıkış (Y).

2. Eksik değer içeren kayıtlar k=1’den k=tam komşu kayıt sayısına kadar ağırlıklı EYK ile hesaplanır.

a. Eksik değeri hesaplanmış kayıtlar giriş(X) olarak yapay sinir ağları modeline verilerek çıkış(Y) değerleri elde edilir.

b. En düşük farka ( − ) (Denklem 5.3) yani hataya karşılık gelen (k) komşu değeri tespit edilir.

3. Eksik değerler tespit edilmiş olan en uygun (k) ile ağırlıklı en yakın k-komşu yaklaşımı ile hesaplanır.

Yapay Sinir Ağları (Tam kayıtlarla eğitilmiş) Eksik değerler içeren

Veri kümesi Tam olmayan kayıtlar Ağırlıklı En Yakın k- Komşu hesaplaması Hata minimum?

Tam değerler içeren Veri kümesi Evet, k optimum Hayır, Sonraki k değerini dene Tam kayıtlar Önerilen

Belgede Veri kümelerindeki eksik değerlerin yeni yaklaşımlar kullanılarak hesaplanması (sayfa 57-61)