• Sonuç bulunamadı

BÖLÜM 2 İNTERNET TRAFİK SINIFLANDIRMA YAKLAŞIMLARI

4.2. Algoritma Ve Veri Yapısı

4.2.2. Motivasyon

Literatürde yer alan mevcut çalışmalarda (Alshammari ve Zincir-Heywood, 2009; Kim, vd., 20008) yapılan analizlere dayanarak, karar ağacı tabanlı algoritmalardan özellikle C4.5 algoritmasının, yüksek doğruluk sağlama açısından SVM (Este, vd., 2009; Papadonikolakis ve Bouganis, 2012), K-means (Jiang ve M. Gokhale, 2010; Lin, vd., 2012) ve NB (Moore ve Zuev, 2005) gibi diğer tüm ML algoritmalarını geride bıraktığı görülmektedir. Bir karar ağacı, her bir düğümün belirli bir özellik üzerinde bir test gerçekleştirdiği akış şemasına benzer bir veri yapısıdır. Şekil 4.1 giriş trafiğini Skype, PPLive, Sopcast, Joost ve MSN gibi uygulama sınıflarına ayrıştırmak için kaynak portu (SP), hedef portu (DP), ortalama paket büyüklüğü (AVG), minimum paket boyutu (MIN) ve maksimum paket boyutu (MAX) özelliklerini kullanan örnek bir ikili karar ağacını gösterir. Ağaçtaki bir yaprak düğüm (leaf node), arama sonucu olan uygulama sınıfını

41

(sınıf kimliği) temsil eder ve yaprak olmayan düğüm (non-leaf node), ilgili özellik temelinde bir kararı temsil eder.

DP == 6812

SP == 1864

MSN Hayır Evet Yaprak olmayan düğüm Yaprak düğüm Sopcast

AVG == 129

MAX == 1459

Joost PPLive Skype TCP

MIN == 66

SP== 6674

Sopcast PPLive

Şekil 4.1 Örnek Bir İkili Karar Ağacı

Son zamanlarda yapılan çalışmalar, genel karar ağacı tabanlı trafik sınıflandırmayı hızlandırmak için yüksek performanslı boru hatlı (pipeline) donanım mimarilerini kullanmayı önermektedirler (Tong, vd., 2013; Gandhi, vd., 2014; Qu ve Prasanna, 2015). Buradaki çözümlerde genellikle klasik C4.5 karar ağacı kullanılmaktadır. Bir C4.5 karar ağacı nispeten az sayıda yaprak düğümleri içermesine rağmen, arama işlemlerinde uzun gecikmelere neden olan oldukça dengesiz bir yapıya sahiptir. Ayrıca, dengesiz bir ağaç yapısının uygulama sınıflarının sayısı bakımından ölçeklenebilirlik sorunu olasıdır. Gelecekte sınıf sayısındaki potansiyel artış nedeniyle, C4.5 karar ağacı yapısının arama performansı da buna göre düşme eğiliminde olacaktır. Diğer bir deyişle, en kötü durum performansı, (en kötü durum arama süresi) dengesiz bir ağaçtaki ağaç düğümleri sayısı ile doğrusal olarak değişir (Tong, vd., 2014; Gandhi, vd., 2014; Qu, vd., 2014; Qu, vd., 2015). Ayrıca, karar ağacı boru hattı donanımına eşlendiğinden, bir ağacın derinliği dengesiz yapısından dolayı artar ve bu artış kaynak ve bellek verimliliğini de olumsuz yönde etkiler.

42

Basit Sınıflandırma ve Regresyon Ağaçları (The Simple Classification and

Regression Trees – Simple CART) algoritması metodolojisi literatürde ilk defa Breiman (Breiman, vd., 1984) tarafından tanıtılmıştır. Simple CART algoritması ikili bir karar ağacı oluşturmaktadır. Ancak, Simple CART algoritmasını, C4.5 algoritmasından farklılaştıran en önemli unsur ise en iyi bölünme ölçütünü seçmek için entropi ölçümünü kullanmasıdır. Simple CART algoritması en iyi ayırma özelliğini seçmek için, tüm özellikler için olası tüm ayırmaları denetlemektedir (tüm olasılıkların ayrıntılı araştırılması). Bu işlem, her düğüm için daha fazla bölünme imkansız hale gelene kadar sürekli olarak sürdürülmektedir. Kategorik veya sayısal veri kümesine dayanarak, sınıflandırma veya regresyon ağaçları sırasıyla oluşturulur. Simple CART, budama işleminde en iyi ağacı seçmek için çapraz doğrulama yöntemini kullanmaktadır. Gözlemlerimize dayanarak, Simple CART karar ağacının belirli bir veri kümesine bağımlı olmadığını (veya diğer algoritmalara göre çok daha az bağımlı olduğunu) ve giriş trafiğindeki aykırı değerlerden önemli ölçüde etkilenmediğini görülür. Dahası, C4.5 karar ağacıyla kıyaslandığında, Simple CART karar ağacı daha dengelidir. Şekil 4.2 bir Simple CART karar ağacı örneğini göstermektedir.

MIN 66.5

<

>=

MAX 69 DP 2085.5 MSN DP 15332 DP 4217 AVG 60.5 AVG 60.5 SP 3694.5 MSN Skype TCP PPLive Joost Skype TCP PPLive Joost DP 4625.5 AVG 100 SP 4481.5 DP 3639.5 Skype TCP Skype TCP Joost Skype TCP SP 16087.5 SP 12737.5 Sopcast Skype TCP Sopcast

43

Trafik sınıflandırmada yüksek doğruluk elde etmek için, mevcut sınıflandırıcıların çoğu, giriş trafik özelliklerinin sürekli değerlerini ayrık değerlere dönüştüren

ayrıklaştırma süreci (discretization process) (Tong, vd., 2013; Qu ve Prasanna, 2014;

Lim, vd., 2010; Kim, vd., 2008) kullanmaktadır. Ayrıca, ayrıklaştırma sürecinin Simple CART algoritmasının doğruluğunu, mevcut algoritmalara benzer şekilde, önemli ölçüde arttırmaktadır. Buna ilaveten, ayrıklaştırma süreci, karar ağacının büyüklüğünü, iç ve yaprak düğüm sayısı bakımından yaklaşık olarak yarıya indirmektedir. Şekil 4.3, Şekil

4.2’de verilen Simple CART ağacının ayrıklaştırılmış versiyonunu göstermektedir. Bu

iki ağacı karşılaştırdığımızda, iç düğümlerin sayısının ve yaprak düğümlerin sayısının sırasıyla 14 düğümden 7 düğüme ve 15 düğümden 8 düğüme azaldığı görülmektedir. Diğer taraftan, ayrıklaştırma işlemi, Şekil 4.3'te görülebileceği gibi, Simple CART karar ağacında düğüm büyüklüğü çeşitliliğine (farklı büyüklükte düğümler) yol açmaktadır. Ağaç veri yapıları boru hattı donanım mimarilerine eşlenirken, her bir düğüm için ayrılan kaynak miktarı ağacın en büyük düğümü üzerinden hesaplanır. Sonuç olarak, ayrıklaştırılmış Simple CART karar ağacı, boru hattı donanım yapısı üzerinde uygulandığında düğümlerindeki aralıkların değişken sayısı nedeniyle fazladan bellek kullanımına neden olmaktadır. Benzer şekilde, düğüm büyüklüklerindeki çeşitlilik, lojik kaynakların verimli kullanımını da olumsuz yönde etkilemektedir.

DP (4217.0-12421.5]

aralıkta değil aralıkta

MIN (66.5-69.5]I(69.5-inf] DP (2085.5-4217.0]|(12421.5-inf] MAX (61-87.5]|(87.5-723]|(723-inf] MSN MSN Skype TCP SP (4217.0-16087.5] MAX (inf-61]|(87.5-723] Joost Skype TCP Sopcast MAX (87.5-723] PPLive Sopcast

44

Yukarıda özetlenen sorunları çözmek için, ayrıklaştırılmış Simple CART karar ağacı iki aşamalı hibrid veri yapısına (Genişletilmiş Simple CART) dönüştürülmesi önerilmiştir. İki aşamalı yapının 1. aşamasında her bir özellik değerinden elde edilen

Özellik Ağaçları (Feature Tree – FT) ve 2. aşamada ise düğümleri bitmapler ile

zenginleştirilmiş Simple CART karar ağacından oluşmaktadır. Sonuç olarak, önerilen şema yüksek iş oranı elde etmek için Alanda Programlanabilir Kapı Dizilimleri (Field Programmable Gate Arrays–FPGA) kullanılarak paralel ve boru hattı (pipeline) mimari üzerinde uygulanacaktır.

Benzer Belgeler