• Sonuç bulunamadı

3.1. GDD kümeleme

3.1.2. Algoritma gerçeklenmesi

Giriş verisi elde edildikten sonra, daha iyi sonuçlar elde edilmesi için ön işlemden geçirilir. Özellikle değişkenlik göstermeyen sütun değerlerinin çıkarılması, işlem yükünü azaltacaktır. Sütun değerlerinin değişiklik göstermemesi durumunda

incelenen boyuttaki verilerin, 𝑮𝑴𝒊,𝒋 değerlerine etkisi sıfır olacağından buna bağlı

𝑨𝑮𝒊 toplam değerleri de sıfır olacaktır. Bu sebeple incelenen boyuttaki bu

hesaplamalar, kümeleme işlemine etkisi olmamakla birlikte hesap yükünü artırmış olacaktır.

Aşağıdaki liste, yapılan ön-işlem basamaklarını göstermektedir:

1. Filtreleme: Her örnek, veri setinde taranarak eğer eksik özellik ve bilgi

bulunduruyorsa veri girdi setinden çıkarılır. Bu aşamada, eşit değerlere sahip kopya örnek veri girdileri de aynı şekilde liste dışına atılır.

2. Boyut azaltma: Eğer bir boyut (özellik) vektörü sıfır varyansa sahipse, bu

boyut girdi verisindeki sütunu çıkarılır. Yine aynı kısımda boyut indirgeme algoritmaları da kullanılabilir.

Ön-işleme işleminden sonra, veriler Şekil 3.3.'deki akış diyagramına göre hesaplanır. Başlangıçta hesaplanan değişkenler sadece bir kere hesaplandıktan sonra algoritmanın geri kalan kısımlarında kullanılır.

Sonraki adımda, kümelenmemiş veri örnek listesi, giriş verilerinin tutulması için oluşturulur. Her örnek, kendine ait numara ile saklanarak örneklerin izlenmesi ve kontrolü sağlanır. Başlangıçta kümelerin en yoğun noktasını ifade eden ağırlık tabanlı merkezler, kümelenmemiş veriler arasından en yüksek değere sahip ortalama Gauss nokta değerlerine göre belirlenir. Kümeye ait elemanlar belirlendikten sonra, listeden kümelenmiş örnekler çıkarılıp, kümelenmemiş örnekler üzerinden işlem bütün örnekler kümelenene kadar tekrar eder.

Kümeleme işlemi esnasında komşuların ve eşik değerlerinin belirlenmesi için iki önemli liste oluşturulur ki bunlar yakın örnek listesi SPL ve komşu arama listesi NSL olarak adlandırılmıştır. SPL uzaydaki her örnek kullanılarak oluşturulmakla birlikte NSL sadece kümelenmemiş örnekler arasından seçilmektedir. Başlangıçta NSL sadece küme merkezini listede tutar. SPL ise NSL’deki her örnek verisinin, sabit uzaklık eşiği FTD yarı çapını içeren bölgedeki verileri içerir. FDT değerleri, Denklem 3.10 ile Öklid uzaklıkları kullanılarak hesaplanır. SPL Denklem 3.11 ve

Denklem 3.13’de kademeli yoğunluk ve uzaklık değişimlerini belirlemek için

kullanılır. Bu sebeple bölgelerdeki her örneğin hesaplamalara dahil edilmesi gerekli olmaktadır.

FDT, küme merkezine bağlı ve oluşturulduktan sonra komşularından etkilenmeyen göreceli bir eşik değeridir. FDT her küme için farklı değerde olmasına rağmen, küme elemanlarının bulunma aşamasında sabit kalmaktadır. FDT kullanarak, kümelerin genel yoğunluklarına göre bir belirleme ve komşulukları tanımlanması sağlanır ve kümeler oluşturulur. Küme komşuluğunda bulunan örnekler ayrıca, kademeli uzaklık eşiği GDT, sabit Gauss yoğunluk eşiği FGDT, Gauss kademeli yoğunluk eşiği GGDT değerlerini de sağlaması gerekir. Bu eşik denklemleri, komşu örneklerin küme içi ve kademeli değişim farklarına uyarak kümeye olan aitliklerini belirler. Kümeler farklı şekil ve bağlantılar gösterebildiğinden, kademeli değişim eşikleri bu tarz durumlarda rastsal şekillerin yoğunluk ve uzaklıklarını kontrol etmek amacıyla kümeleme işleminde önemli rol oynar. Her kümeleme tespiti taramasında örnekler

kümeye bu dinamik değerler kullanılarak eklenir. Kademeli eşik hesaplamaları iki adımdan oluşur:

1. İncelenen örnekteki komşulukların varyansı

2. Önceki hesaplamalardan elde edilen ortalama ve sapma varyans değerleri

GDD terimi, örneklerin kümeye dahil olmasını sağlayan kriterlerden gelir. Burada yoğunluk kriteri ve uzaklık kriteri (A ve B kriterleri) olarak Denklem 3.8 ve Denklem 3.9 ile tanımlanan iki kriter bulunmaktadır. Yoğunluk kriterinde örnek, Denklem 3.12 ve Denklem 3.13’de görüldüğü üzere FGDT ve GGDT farklarından büyük olup olmadığı kontrol edilir. Uzaklık kriterinde ise örnek, Denklem 3.10 ve Denklem 3.11’de görüldüğü gibi uzaklık verileri olan FDT ve GDT toplamlarından küçük veya eşit olup olmadığına bakılır. Eğer bu kriterler sağlanırsa, incelenen örnek kümeye dahil edilir.

Şekil 3.3.’de görülen A ve B koşulları için veri setindeki herhangi bir rastsal nokta ‘s’ için verilen hesaplamalar aşağıdaki Denklem 3.8 ve Denklem 3.9 gibi yapılmaktadır.

𝐴: 𝐺𝑎𝑢𝑠𝑠(𝑚𝑒𝑟𝑘𝑒𝑧, 𝑠) ≥ 𝐹𝐺𝐷𝑇 − 𝐺𝐺𝐷𝑇 (3.8)

𝐵: 𝑈𝑧𝑎𝑘𝑙𝚤𝑘(𝑚𝑒𝑟𝑘𝑒𝑧, 𝑠) ≤ 𝐹𝐷𝑇 + 𝐺𝐷𝑇 (3.9)

NSL üyeliği tekrarlanan şekilde çalışmaktadır. Kümeleme işlemi esnasında, ilk geçiş sağlandığında sadece küme merkezini temsil eden örnek kümeye dahil edilerek NSL’e eklenir. Sonraki döngüde, merkeze ait komşuluklar taranarak bulunan kriterleri sağlayan örnekler NSL’ eklenir ve küme güncellenir. Eklenen örnekler bir sonraki aşamada her biri sanki birer merkezmiş gibi davranarak kriterlere uyan örnek kalmayana kadar tekrarlanır. Bütün örnekler kümelendiğinde algoritma otomatik olarak sonlandırılır.

A ve B kriterlerinden kesin sonuç alınmaktadır. Bu şekilde minimum ve maksimum, uzaklık ve yoğunluk değerleriyle; küme için örnekler arasında benzerlik ilişkisi oluşturulur. A ve B kriterlerinde olan denklemler ise:

Sabit uzaklık eşiği FDT:

𝐹𝐷𝑇

= |𝐷𝑃𝑀 (𝑚𝑒𝑟𝑘𝑒𝑧)

(𝑙𝑛(𝐺𝑃𝑀(𝑚𝑒𝑟𝑘𝑒𝑧) ∗ 𝑁 + 𝐷𝑃𝐷(𝑚𝑒𝑟𝑘𝑒𝑧)). 𝑙𝑛(𝐺𝑃𝐷(𝑚𝑒𝑟𝑘𝑒𝑧)))|

(3.10)

Her kümeleme merkezi, çevre komşulukları belirleyerek örneklerin katılımını veya çıkarımını denetler. Bu küme merkezine bağlı dinamik olarak oluşturulan eşik değeri Denklem 3.10’da görülebilir. Bu denklem, veri setine bağlı olarak noktalar arası uzaklık ve yoğunluk oranlarıyla belirlenir. Bu değerler farklı veri setlerinde test edilerek denklemlerin performansları ölçülmüştür.

Kademeli uzaklık eşik değeri GDT:

𝐺𝐷𝑇 = 𝜇(𝑆𝑃𝐿𝑠𝑎𝑝𝑚𝑎). 𝐴𝐺(𝑁𝑆𝐿) 𝐴𝐺(𝑚𝑒𝑟𝑘𝑒𝑧) +2. 𝜋. 𝜎(𝑆𝑃𝐿𝑠𝑎𝑝𝑚𝑎). 𝜇(𝐺𝑃𝐷)

𝐺𝑃𝐷(𝑁𝑆𝐿)

(3.11)

Denklem 3.11’te μ(GPD), bütün GPD değerlerinin veri uzayındaki ortalaması alınarak oluşturulur. Kademeli uzaklık eşiği, küme merkezine bağlı olarak incelenen, örnekler küme merkezinden uzaklaştığında önem kazanan, kümelemenin uzaklık kriterinin bir parçasıdır. Her komşu noktası küme merkezi gibi davranarak, çevresel değişkenlerin değişimine göre kümenin bağlılık kriterlerini de değiştirmesi gerekmektedir. Bu yakınsama ve açılma hesaplamaları göreceli olarak GDT değeri ile belirlenir. Eğer veri setindeki incelenen örnekler arası çok açılmış ve dağılmışsa, kümeye ait olmayan örnekler bu kriter sayesinde küme dışında bırakılır.

Sabit Gauss yoğunluk eşiği FGDT:

𝐹𝐺𝐷𝑇 = 𝐺𝑃𝑀(𝑚𝑒𝑟𝑘𝑒𝑧)

𝜋. √𝐺𝑃𝐷(𝑚𝑒𝑟𝑘𝑒𝑧)− 𝜋. 𝐺𝑃𝐷(𝑚𝑒𝑟𝑘𝑒𝑧) (3.12)

Kademeli Gauss yoğunluk eşiği GGDT:

𝐺𝐺𝐷𝑇 = 𝜎(𝑆𝑃𝐿𝑣𝑎𝑟𝑦𝑎𝑛𝑠) (3.13)

Denklem 3.12 ve Denklem 3.13’te uzaklık verilerine benzer olarak Gauss yoğunluk değerlerine göre eşikler belirlenmektedir. GDD kümeleme algoritması Matlab programlama dili kullanılarak geliştirilmiştir [105].