• Sonuç bulunamadı

Bu çalışma kapsamında kolektif sınıflandırma yöntemlerinin ne olduğu ve hangi durumlarda ne tür veri kümeleri üzerinde kullanılabildiği tanımlanmış, ardından da bu yöntemlerin performanslarının arttırılabilmesi için bazı yöntemler ve deneysel şemalar önerilmiştir.

Kullanılan öznitelik seçme yönteminin performansa etkisi belirgindir. MRMR öznitelik seçme yönteminin CiteSeer veri kümesi hariç diğer veri kümelerinde sağlamış olduğu performans artışı sınırlı olmasına karşın, getirdiği çalışma zamanındaki düşüş kolektif sınıflandırma yöntemlerinin de çalışma zamanı performanslarını olumlu yönde etkilemektedir.

Hem Cora hem de WebKB üzerinde yapılan deneyler göstermiştir ki başarılı öznitelik seçme yöntemleri ile düğüm seçme yöntemlerinin bir arada kullanımı temel performansa belirgin bir şekilde katkı yapmaktadır. Bu yöntemlerin birlikte kullanımı hem özniteliklerde otokorelasyonu arttırdığından hem de ağ yapısındaki komşular arası etiket uyuşumu ile homofiliyi arttırdığından ağ yapısını gürültüden arındırmakta ve kolektif sınıflandırma performansını arttırmaktadır.

Yapılan çalışmaya ek olarak öznitelik seçme yöntemleri komşuluklar sayesinde zenginleştirilmiş öznitelik vektörleri üzerinde denenmiştir. Temel olarak öznitelik seçme yöntemlerinin uygulanmasının ve öznitelik zenginleştirme adını verdiğimiz işlemin gerçeklenmesinin sınıflandırıcıların performansları üzerine olumlu etkide bulundukları görülmüştür. Kimi durumlarda öznitelik zenginleştirmenin bağlantı bilgisi kullanılmadan yapılan içerik tabanlı sınıflandırmada kolektif sınıflandırma yöntemini geride bırakması bu yöntemin doğru kullanımında sağlayabileceği yararı göz önüne sermektedir. Ayrıca gürültü olmadığı veya az olduğu durumlarda zenginleştirme işlemi kolektif sınıflandırıcıların performanslarında da kısmi artışlara

Bu deneylerden çıkan bir başka sonuç ise MRMR gibi başarılı olduğu bilinen öznitelik seçme yöntemi karşısında, geliştirilmiş olan FCBF# yönteminin iyi sonuçlar vermesidir. Çalışma zamanı açısından 40’ta 1’ine yakın bir hızda çalışan FCBF# deneyler sonucunda MRMR ile birçok deneyde aynı veya yakın sonucu vermiştir.

Düğümlerin etiketlerinde yüksek gürültü olduğu durumda ise öznitelik zenginleştirmesi doğru bir öznitelik seçiminin yapımının zorlaşması nedeniyle istenen sonuçları verememektedir. Gürültülü düğümler tarafından test kümesi üzerine uygulanan doğrudan etkinin sınırlı olması zenginleştirilen kolektif sınıflandırma yönteminin performansının eski suruma göre daha düşük olmasına neden olmaktadır. Öznitelik ve düğüm seçme yöntemlerinin kullanılmasının ağ yapısına sahip veri kümelerinde otokorelasyonu arttırdığı bu nedenle de bu veri kümelerinden alınan doğruluk performansını iyileştirdiği gözlenmiştir. Özellikle düğüm seçme yöntemlerinin çok fazla komşuluk olduğu durumlarda oluşan gürültülü ilişkilerden veri kümesini kurtararak çok az sayıda düğüm seçildiği durumlarda bile performansı arttırdığı gösterilmiştir.

Önerilen düğüm seçme yöntemleri karşılaştırıldığında ise ağdaki komşuluklardaki sınıf etiketlerinde bulunan tutarlılığın korunmasını sağlayan komşuluk tutarlılık oranı adı verilen ölçümün veri kümesine göre performansta sağladığı artış diğer yöntemlere göre daha fazla olmuştur. Bunun nedeni olarak ağ yapısındaki homofiliye direk etkide bulunması gösterilebilir.

Sınıf etiketlerini kullanmadan bir istatistiksel düğüm seçimi yapan derece tabanlı düğüm seçim yöntemi sahip olduğu bu eksiklik nedeniyle ağ yapısında istenen derecede bir artış sağlamamaktadır. Ancak yine bu yöntemin aşırı derecede gürültü olan ağlarda düğümlerin elenmesinde rastgele seçime göre daha etkili olduğu da görülmüştür.

Bu çalışma kapsamında yer alan başka bir konu ise öznitelik ve düğüm seçme yöntemlerinin gürültülü veri kümelerinde gösterdikleri performanslardır. Yapılan deneylerden görülebileceği üzere içerik ve bağlantı bilgilerine eklenmiş olan düşük ve yüksek miktardaki gürültüler temel sınıflandırma performanslarında büyük düşüşlere yol açmaktadırlar.

Buna rağmen öznitelik ve düğüm seçme yöntemlerinin kullanılması ise sınıflandırıcıları gürültüye karşı daha dirençli hale getirmekte ve sınıflandırma performanslarında aşırı derecede belirgin iyileştirmelere yol açabilmektedir. Bağlantı bilgisinin yeterli bilgiyi sağlamadığı durumlarda bile sadece öznitelik seçiminin uygulanması başarımın arttırılabilmesi açısından önemli rol oynamaktadır.

KAYNAKLAR

[1] Macskassy, S. and Provost, F., 2007. Classification in networked data: A toolkit and a univariate case study. Journal of Machine Learning Research, 8, 935–983.

[2] Sen, P. and Getoor, L., 2007. Link-based Classification. University of Maryland Technical Report CS-TR-4858.

[3] Macskassy, S. A. and Provost, F., 2003. A simple relational classifier. In Proceedings of the Multi-Relational Data MiningWorkshop (MRDM) at the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 64-76, Washington, DC, USA.

[4] Jensen, D., Neville, J. and Gallagher, B., 2004. Why Collective Inference Improves Relational Classification. KDD 04, August 22-25, Seattle, Washington, USA.

[5] McDowell, L. K., Gupta, K. M., and Aha, D. W., 2007. Case-Based Collective Classification. Proceedings of the Twentieth International FLAIRS Conference, KeyWest, FL: AAAI.

[6] Sen, P., Namata, G., Bilgic, M., Getoor, L., Gallagher, B., and Eliassi-Rad, T., 2008. Collective classfication in network data. AI Magazine, 29, 93–106

[7] Domingos, P. and Richardson. M., 2001. Mining the network value of customers. In Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 57–66, San Francisco, California, USA.

[8] Chakrabarti, S., Dom, B. and Indyk., P., 1998. Enhanced hypertext categorization using hyperlinks. In Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data, 307– 319, Tokyo, Japan.

[9] Neville, J. and Jensen., D., 2003. Collective classification with relational dependency networks. In Proceedings of the Multi-Relational Data Mining Workshop (MRDM) at the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 77–91, Washington, DC, USA

[10] Taskar, B., Abbeel, P. and Koller., D., 2002. Discriminative probabilistic models for relational data. In Proceedings of the Eighteenth Conference on Uncertainty in Artificial Intelligence (UAI), 485–492,

[12] Vapnik., V. N., 1998. The support vector method of function estimation. In Nonlinear Modeling: Advanced Black-Box Techniques, 55–86. Kluwer, Boston.

[13] Boykov, Y., Veksler, O. and Zabih, R., 2001. Fast approximate energy minimization via graph cuts. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 23, 1222–1239.

[14] Hopfield., J. J., 1982. Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences of the United States of America, 79, 2554–2558. [15] Hinton, G. E. and Sejnowski., T. J., 1986. Learning and relearning in

Boltzmann machines. Parallel Distributed Processing: Explorations in the Microstructure of Cognition, 1, 282–317.

[16] Alpaydın, E, 2004. Introduction to Machine Learning (Adaptive Computation and Machine Learning), MIT Press, Massachussets, USA.

[17] Quinlan, J., 1993. C4.5: Programs for machine learning. Morgan Kaufmann, San Francisco, CA, USA.

[18] Witten, I. and Frank, E., 1999. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, San Francisco, CA, USA.

[19] Jensen, D. and Neville., J., 2002. Data mining in social networks. Papers of the Symposium on Dynamic Social Network Modeling and Analysis. National Academy of Sciences, 289–302, Washington, DC, USA. [20] Diestel, R., 2005. Graph Theory, 3rd edition. Heidelberg:Springer-Verlag,

Hamburg, Germany.

[21] John, G., Kohavi, R., & Pfleger, K., 1994. Irrelevant features and the subset selection problem. In Proceedings of the Eleventh International Machine Learning Conference, 121–129, New Brunswick, NJ, USA. [22] Yu, L. and Liu, H., 2003. Feature Selection for High-Dimensional Data: A Fast

Correlation-Based Filter Solution. In Proceedings of The Twentieth International Conference on Machine Leaning (ICML-03), 856–863, Washington, D.C.

[23] Guyon, I., Elisseef, A., 2003. An introduction to variable and feature selection. Journal of Machine Learning, 3, 1157–1182

[24] Saeys, Y., Inza, I. and Larrañaga, P., 2007. A review of feature selection techniques in bioinformatics. Bioinformatics, 23, 2507–2517

[25] Blum, A.L., Langley, P., 1997. Selection of relevant features and examples in machine learning. Artifcial Intelligence, 97, 245-271

[26] Liu H. and Motoda H., 2008. Computational methods of feature selection, Chapman & Hall/CRC, Minnesota, USA.

[27] Peng, H.C., Long, F., and Ding, C., 2005. Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min- redundancy, IEEE Transactions on Pattern Analysis and Machine Intelligence, 27, 1226–1238.

[28] Molina, L. C., Belanche, L. and Nebot, A., 2002. Feature Selection Algorithms: A Survey and Experimental Evaluation. International Conference on Data Mining (ICDM), 306–313, Maebashi City, Japan. [29] Liu, H. and Yu., L., 2005. Towards integrating feature selection algorithms for

classification and clustering. IEEE Transactions on Knowledge and Data Engineering, 17, 1–12.

[30] Setiono, R., and Liu, H., 1996. A probabilistic approach to feature selection-a fitler solution. In Proceedings of International Conference on Machine Learning, 319–327, Bari, Italy.

[31] Senliol, B., Gulgezen, G., Yu, L. ve Cataltepe, Z., 2008. Fast Correlation Based Filter (FCBF) with a Different Search Strategy. Poster presentation in International Symposium on Computer and Information Sciences, Istanbul, Turkey.

ÖZGEÇMĐŞ

Ad Soyad: Barış ŞENLĐOL

Doğum Yeri ve Tarihi: Bursa, 1985

Lisans Üniversite: Đstanbul Teknik Üniversitesi Bilgisayar Mühendisliği

Yayın Listesi:

•Senliol, B., Gulgezen, G., Yu, L and Cataltepe, Z., 2008. Fast Correlation Based Filter (FCBF) with a Different Search Strategy. Poster presentation at ISCIS 2008 Conference, October 27-29, Istanbul, Turkey.

•Senliol, B. and Cataltepe, Z., 2009. Score Matrix Optimization for Quartz Binding Peptides Using Evolutionary Strategy/Kuvarsa Bağlanabilen Peptitler için Evrimsel Strateji ile Skor Matris Optimizasyonu. 17th IEEE Conference on Signal Processing and Communications Applications (SIU 2009), April 9-11, Antalya, Turkey.

•Senliol, B., Aral, A. and Cataltepe, Z., 2009. Feature Selection for Collective Classification", ISCIS 2009 Conference, September 14-16, North Cyprus.

•Senliol, B., Cataltepe, Z. and Sonmez, A., 2009. Collective Classification with Content and Link Noise. Accepted to Workshop on Analyzing Networks and Learning with Graphs in Neural Information Processing Systems Conference (NIPS) 2009, December 11-13, Vancouver, Canada.

Benzer Belgeler