• Sonuç bulunamadı

2. PROBLEMLERİN TANIMLANMASI VE KARMAŞIKLIK ANALİZİ

2.1. Ağ Modüllerinin Ortaya Çıkarılması

2.1.4. Değerlendirme ölçütleri

Bölüm 2.1.3’te verilen amaç fonksiyonları ile elde edilen tüm ağ modüllerinin uygunlukları bu bölümde sunulan altı adet değerlendirme ölçütünün yardımıyla test edilmiştir. Bu test bize amaç fonksiyonlarının kalite açısından değerlendirilebilmesi ve birbirleriyle kıyaslanabilmesi olanağı sağlamıştır. Böylece bu çalışmada önerilen en uygun algoritma en iyi uygunluk fonksiyonuyla kullanılabilecek ve sonraki bölümlerde sunulan daha büyük ve karmaşık ağlardaki kaliteli modüllerin ortaya çıkarılmasına yardımcı olabilecektir.

Herhangi bir ağdan elde edilen modüller veri üzerinde daha önceden belirlenmiş referans modül yapıları (ground-truth) ile karşılaştırılıp bu modüllerin hangilerinin uygun olduğuna dair karar verilebilmektedir (Arınık ve ark 2015). “Ground-truth” terimi, bir test sonucunun doğrulanması amacıyla tercih edilen kesin referansı (Demir 2015) ifade eder. Şekil 2.5’te sunulmuş 10 düğümlü bir ağ için kesin referanslı topluluklar/modüller (A) ve herhangi bir algoritma ile elde edilen temsili topluluklar/modüller (B) verilmiştir. Bu bölümde sunulan değerlendirme ölçütleri ile Şekil 2.5’teki gibi bir karşılaştırmada elde edilmiş olan toplulukların kaliteleri ölçülür. Böylece çeşitli amaç fonksiyonlarının kullanılması sonucu elde edilmiş ağ topluluklarının uygun olanları hem kesin referanslı topluluklar hem de aşağıda sunulan değerlendirme ölçütlerinin yardımlarıyla belirlenir.

Şekil 2.5. Kesin referanslı ağ modülleri ile diğer modüllerin temsili karşılaştırılması

Karşılaştırma test verisi olarak kullanılan ground-truth etiketli bir ağdan elde edilen modüller daha öncesinden bilinen en iyi referans sonuçlarıyla karşılaştırılır ve böylece önerilen yöntemin başarısı test edilir. Bu doğrulama yaklaşımı özellikle çeşitli kümeleme yöntemlerinden elde edilen sonuçların doğruluğunun gösterilmesinde kullanıldığı gibi modül veya topluluk bulma algoritmalarının karşılaştırılması için de uygulanmaktadır (Yang ve ark 2012 (b), Fu ve ark 2017). Bu amaçla Bölüm 3.1.3’te test verileri sunulmuş ve bu bölümdeki değerlendirme fonksiyonları göre elde edilen sonuçlar da Bölüm 4.1.2’de ayrıntılı olarak analiz edilmiştir. Bu bölümde incelenen fonksiyonlar aşağıda verilmiştir.

Bu fonksiyonlardan ilki Mutual Information (MI―karşılıklı bilgi) isimli fonksiyondur (Shannon 1997, Cover ve Thomas 2012). Bu fonksiyon iki rastgele parametre verisi arasındaki entropik korelasyonun bir ölçütünü belirler. Olasılık ve bilgi teorisinde, iki farklı giriş değişkeninin MI sonucu bu değişkenler arasındaki karşılıklı bağımlılığının bir ölçüsünü gösterir. Bu çalışmada, farklı kümeleme sonuçlarını tutan bilgilerin karşılıklı bilgi değerini hesaplayan fonksiyon 𝐸𝑀𝐼 ile temsil edilmiştir. K ve L ile temsil edilen iki ayrık dizi değişkenin karşılıklı bilgi değeri Denklem 35'e göre hesaplanır. Burada k ve l parametreleri sırasıyla; K ve L dizilerindeki indis bilgilerini tutarlar. 𝑃(𝑘, 𝑙), K ve L değişkenlerinin ortak olasılık fonksiyonunu gösterirken; 𝑃(𝑘) ve 𝑃(𝑙) fonksiyonları ise bu değişkenlerin marjinal olasılık dağılımlarını gösterirler.

𝐸𝑀𝐼 = ∑ ∑ 𝑃(𝑘, 𝑙) log2 𝑃(𝑘, 𝑙) 𝑃(𝑘)𝑃(𝑙)

𝑘 𝜖 𝐾 𝑙 𝜖 𝐿

(35)

Denklem 35’e göre hesaplanan 𝐸𝑀𝐼 değerinin yüksek olması iki değişken arasındaki belirsizliğin veya farklılığın önemli ölçüde az olduğunu; düşük ise tam tersi sonucun elde edildiğini gösterir. İki değişken arasındaki karşılıklı bilgi değerinin sıfır olması, bu değişkenlerin birbirlerinden bağımsız olduğu anlamına gelir. Sonucun 1'e yakınlaşması ise benzerliğin maksimum oranda olduğunu belirtir.

Bir sonraki ölçüt ise Normalized Mutual Information (NMI―normalize edilmiş karşılıklı bilgi) fonksiyonudur (Vinh ve ark 2010). Bu fonksiyon kümeleme veya topluluk/modül algılama gibi alanlarda yaygın olarak kullanır. Bu çalışmada, NMI değeri Denklem 36’da sunulan ENMI ile temsil edilir. ENMI, 𝐶1 ve 𝐶2 olarak temsil edilen iki farklı kümenin benzerlik sonuçlarını 0 ile 1 arasında ölçeklendiren MI (Cover ve Thomas 2012) skorunun normalleştirilmiş halini ifade eder (Vinh ve ark 2010, Sun ve ark 2014). Sırasıyla; N, konfüzyon matrisini; 𝑁𝑖,𝑗, 𝐶1 ve 𝐶2 alt-kümelerinde bulunan toplam düğüm sayısını; 𝑁𝑖𝑠, N'nin i. sıradaki toplamını; 𝑁

𝑗𝑠, N'nin j. sütunundaki

toplamını ifade eder.

𝐸𝑁𝑀𝐼 = −2 ∑ 𝑁𝑖,𝑗 𝑖,𝑗𝑙𝑜𝑔 (𝑁𝑖,𝑗×𝑁 𝑁𝑖𝑠×𝑁𝑗𝑠) ∑ 𝑁𝑖𝑠 𝑖 𝑙𝑜𝑔(𝑁𝑖 𝑠 𝑁 ⁄ ) + ∑ 𝑁𝑗 𝑗𝑠𝑙𝑜𝑔(𝑁𝑗𝑠 𝑁 ⁄ ) (36)

Rand Index―RI (rastgelelik indeksi) (Rand 1971, Hubert ve Arabie 1985,

Wagner ve Wagner 2007) üçüncü değerlendirme ölçütü olarak sunulmuş ve bu çalışmada 𝐸𝑅𝐼 ile temsil edilmiştir. Rastgelelik indeksi 0 ile 1 arasında bir değer alır. 0 değeri iki veri kümesinin herhangi bir düğüm çiftinde aynı olmadıklarını; 1 değeri ise bu veri kümelerinin tam olarak aynı olduğunu gösterir. Hesaplama formülü Denklem 37’de sunulmuştur.

𝐸𝑅𝐼 = 𝑛00+ 𝑛11

𝑛11 + 𝑛00+ 𝑛10+ 𝑛01 (37) Burada verilen 𝑛00, 𝑛01, 𝑛10 ve 𝑛11 parametreleri, düğüm çiftlerinin iki ayrı

kümedeki durumlarına göre elde edilen sayıları tutarlar. Bu amaçla 𝑆00, 𝑆01, 𝑆10 ve 𝑆11 kümeleri tanımlanmış olsun. 𝑆11 kümesi hem tahmini topluluğun hem de referans topluluğunun aynı alt kümelerinde birden bulunan düğüm çiftlerini içerir. 𝑆00 kümesi bu iki topluluğun farklı alt kümelerinde bulunan tüm düğüm çiftlerinin listesini tutar. 𝑆10 kümesi ise ilk topluluğun aynı alt kümesinde olup ikinci topluluğun farklı bir alt kümesinde bulunan düğüm çiftleri saklar. Son olarak 𝑆01 kümesi ise ilk topluluğun farklı; ikinci topluluğun aynı alt kümelerinde olan düğüm çiftlerini tutar. Sonuç olarak; 𝑛11 = |𝑆11|, 𝑛00 = |𝑆00|, 𝑛10 = |𝑆10| ve 𝑛01 = |𝑆01| şeklinde belirtilen kümelerdeki düğüm çiftlerinin toplam sayıları elde edilmiş olur. 𝐸𝑅𝐼 ölçütünün skoru herhangi bir algoritma ile elde edilen ağ topluluk yapısı ve referans topluluk yapısı tarafından benzer şekilde kümülatif olarak sınıflandırılmış düğüm çiftlerinin oranını temsil eder. Böylece, verilen bir çift düğüm için işleme tabi tutulan iki farklı topluluk yapısına göre bu iki düğümün de aynı toplulukta olması veya ikisinin de farklı topluluklarda bulunması durumunda bir kümeleme uyumundan bahsedilebilir (Arınık ve ark 2015).

Dördüncü değerlendirme kriteri olarak Adjusted Rand Index (ARI―düzenlenmiş rastgelelik indeksi) fonksiyonu önerilmiştir. Bu fonksiyon RI (Rand 1971) ölçütünün düzenlenmiş versiyonu olarak görülebilir ve tez çalışmasında 𝐸𝐴𝑅𝐼 ile gösterilmiştir. Bu

fonksiyonun formülü Denklem 38’de verilmiştir. Bir G çizgesi için n = |G| olacak şekilde n, toplam eleman sayısını ifade eder. i, 𝐶1 kümesi için; j, 𝐶2 kümesi için indisleri gösterir ve 𝐿1, 𝐶1 için; 𝐿2, 𝐶2 için maksimum sınır değerlerini tutar. 𝑀𝑖𝑗, konfüzyon matrisini ya da diğer bir ifade ile olasılık tablosunu (Wagner ve Wagner 2007) ifade eder. İki küme karşılaştırıldığında RI, sıfır ile bir arasında değer alırken; ARI bunlardan

farklı olarak negatif değerler alabilir. Böyle bir durum, mevcut indeks değeri beklenen indeks değerinden daha az olduğunda gerçekleşebilir.

𝐸𝐴𝑅𝐼 = 2 (𝑛(𝑛 − 1)(∑ ∑ ( 𝑀𝑖𝑗 2 ) 𝐿2 𝑗=1 𝐿1 𝑖=1 ) − 2 (∑ (|𝐶1,𝑖2 |) ∑ ( |𝐶2,𝑗| 2 ) 𝐿2 𝑗=1 𝐿1 𝑖=1 )) 𝑛(𝑛−1)(∑𝐿𝑖=11 (|𝐶21,𝑖|) + ∑𝑗=1𝐿2 (|𝐶22,𝑗|)) − 4 (∑𝑖=1𝐿1 (|𝐶21,𝑖|) ∑𝑗=1𝐿2 (|𝐶2,𝑗2 |)) (38)

Beşinci kriter olarak Jaccard Index (JI―Jaccard indeksi) seçilmiştir ve formülü Denklem 39’da verilmiştir. JI, farklı çalışmalarda Jaccard Similarity Index veya

Jaccard Similarity Coefficient olarak da isimlendirilmiştir. Bu fonksiyon iki gruptaki

üyelerin aynı kümede bulunup bulunmadığına göre bu grupları birbirleriyle karşılaştıran bir yöntem sunar. Yani, her iki gruptaki düğümlerden aynı kümede sınıflandırılan düğüm çiftlerinin sayısının en az bir gruptaki düğümlerden aynı kümede sınıflandırılan düğüm çiftlerinin sayısına oranı Jaccard indeksi (𝐸𝐽𝐼) sonucunu verir (Fortunato 2010).

𝐸𝐽𝐼 = 𝐽𝐶1,𝐶2

𝐽𝐶1,𝐶2 + 𝐽𝐶1 + 𝐽𝐶2 (39)

Denklem 39’daki 𝐸𝐽𝐼 değeri, sıfır ile bir arasındadır. Sırasıyla, 𝐽𝐶1,𝐶2, her iki

gruptaki düğümler için aynı kümede bulunan düğüm çiftlerinin sayısını; 𝐽𝐶1, ilk gruptaki düğümlerden aynı kümede bulunan düğüm çiftlerinin sayısını; 𝐽𝐶2, ikinci gruptaki

düğümlerden aynı kümede bulunan düğüm çiftlerinin sayısını gösterir.

Son olarak, bu çalışmada permanence (P―kalıcılık) ölçütü ele alınmakta ve Denklem 40’ta 𝐸𝑃 olarak temsil edilmektedir. Bu kriter ağlardan elde edilen alt- kümelerin uygunluğunu değerlendirmek için önerilen düğüm tabanlı yeni bir yaklaşım sunmaktadır. Bu yaklaşım kesin referanslı alt-kümelerin kalitesi ile uygun bir korelasyona sahiptir ve alt-kümelerdeki bozulmalara karşı duyarlıdır (Chakraborty ve ark 2014).

𝐸𝑃(𝑣) = 𝑋𝑖𝑛𝑡

𝑋𝑒𝑥𝑡 × 𝑑+ 𝑈𝑖𝑛 − 1 (40)

Denklem 40’ta, v düğümüne göre kalıcılık skorunu temsil eden 𝐸𝑃(𝑣)’nin

hesaplaması verilmiştir. Bu formül, verilen alt kümelerin iç ve dış bağlantılarına göre hesaplanır. Sırasıyla; 𝑋𝑖𝑛𝑡, v düğümünün ait olduğu alt kümedeki düğümlerle olan iç

(internal) bağlantıların sayısını; 𝑋𝑒𝑥𝑡, kendisi dışındaki ve birbirinden bağımsız alt

kümelerle olan maksimum bağlantı sayısını; 𝑑, v’nin toplam derecesini; 𝑈𝑖𝑛, v'nin aynı modüldeki komşu düğümlerine göre iç kümeleme katsayısını ifade eder. Ayrıca verilen formülde bazı kısıtlar bulunmaktadır. İlk kısıtta, eğer v düğümünün harici bağlantıları yoksa 𝑋𝑒𝑥𝑡 değeri sıfır olacağından bu denklemdeki formülün hesaplanabilmesi için değer bir olarak alınır. Diğer bir kısıt ise her modülün minimum üç düğüm ve üç dahili bağlantı içermesi gerekliliğidir. Aksi durumda, 𝑈𝑖𝑛 değerinin 0 olduğu varsayılır (Chakraborty ve ark 2014).