TARTIŞMA VE SONUÇ - Kesik ULV ayrışımı ile gizli anlamsal dizinleme

Günümüzde teknolojinin hızlı gelişimiyle birlikte dijital ortamdaki doküman yığınlarının da sayısı aşırı derecede artmıştır. Bu artışla doğru orantılı olarak insanların aradıkları bilgi veya dokümanlara erişimi de zorlaşmıştır. Bu devasa doküman yığınları arasında istenilen dokümanı bulabilmek için farklı yöntemler geliştirilmiştir.

Bilgi erişim sistemleri de bu problemi çözebilmek için geliştirilen yöntemlerden biridir. Bu sistemler sayesinde kullanıcılar aradıkları dokümanlara daha kolay ulaşmaya başlamışlardır.

Başlıca bilgi erişim sistemleri mantıksal modeller, vektör uzay modelleri ve olasılıklı modellerdir. Mantıksal erişim modelleri klasik küme teorisine ve mantık cebrine dayanan basit bir yöntemdir. Bir mantıksal erişim modelinde sorgu terimleri mantıksal operatörlere bağlıdır ve sistem bu mantıksal operatörlerin sınırladığı dokümanları geri döndürür. Olasılıklı modeller ise sorguda geçen terimlerin dokümanlarda dağılımını inceler. Bu sayede sorgu ile dokümanların benzerliği hesaplanır. Vektör uzayı modelinde ise dokümanlar ve sorgular terim vektörlerinden oluşturulan bir uzayda temsil edilir. Sorgu ile dokümanların ilişkisi öklid uzaklığı veya kosinüs benzerliği gibi yöntemlerle belirlenir.

Bilgi erişim sistemlerinin başarısı geri çağırma ve hassasiyet ölçütlerine göre belirlenir. Bu ölçütlerin değerinin 1 olması durumunda sistemin başarısının %100 olduğu anlaşılır. Yani, kusursuz bir bilgi erişim sisteminde yapılan sorgu sonucu geri döndürülen tüm dokümanlar sorguyla ilişkili olmalıdır. Ayrıca, geri döndürülmeyen ama sorguyla ilişkili doküman kalmamalıdır.

Geleneksel bilgi erişim sistemleri direkt olarak kelime eşleme mantığıyla çalıştıkları için kullanılan dilin iç farklılıklarıyla ilgili sıkıntı yaşar. Örneğin, sorgularda bulunan eş anlamlı ve çok anlamlı kelimeler bu sistemlerin erişim başarısını düşürmektedir. Bu ve buna benzer problemleri çözebilmek için kelime eşleme tabanlı olmayan ve doküman yığınındaki anlamsal yapıyı keşfeden LSA yöntemi ortaya atılmıştır. LSA çağrışım ve anlamsal benzerlik gibi insana ait bilişsel olguları kullanarak terim ve

dokümanların anlamlarını tanımlar. LSA kullanılarak oluşturulan bilgi erişim sistemi ise LSI olarak adlandırılır.

LSI doküman yığınından elde edilen terim-doküman matrisine SVD uygular. Bu sayede elde edilen sıralı tekil değerler incelenerek bir k kırılma noktası belirlenir ve bu noktadan bir kırpma işlemi uygulanır. Aynı zamanda sağ ve sol tekil vektörlerinde belirlenen kısmı atılır. Bu işlem sonucunda doküman yığınını temsil eden anlamsal yapıyı bozan gürültü temizlenmiş olur. Tekil vektörler ve tekil değerler kullanılarak k boyutlu vektör uzayı oluşturulur ve kullanıcıdan alınan sorgunun vektörü elde edilerek

kboyutlu vektör uzayına dâhil edilir. Sorgu vektörü ile doküman vektörlerinin kosinüs benzerliği hesaplanarak belirlenen dokümanlar kullanıcıya geri döndürülür. Geri döndürülen dokümanların durumlarına göre geri çağırma ve hassasiyet ölçütleri hesaplanır ve sistemin performansı değerlendirilir.

LSI, matris ayrışımı olarak genellikle SVD’yi kullanır; ancak SVD’nin maliyeti çok yüksektir. Örneğin, m n boyutlu bir matrisin SVD’sinin hesaplama karmaşıklığı

 

O mn dir. Bu hesaplama karmaşıklığını düşürmek ve doğru anlamsal yapı üreten matris ayrışımlarını LSI’da kullanmak zamanla önemli bir çalışma konusu haline gelmiştir.

Bu çalışmamızda, LSI’da SVD yerine hesaplama karmaşıklığı özellikle güncelleme işlemlerinde düşük olan kesik ULV ayrışımı kullanılmıştır. Seçilen doküman yığınını temsil eden terim-doküman matrisi logaritma ve entropy ağırlıklandırma yöntemlerine göre oluşturulmuştur. Terim doküman matrisine uygulanan SVD ve kesik ULV ayrışımları ile elde edilen 2 boyutlu vektör uzayındaki anlamsal yapılar neredeyse aynıdır. Yine bu ayrışımları kullanarak oluşturulan LSI sistemlerinde de sorgu ile dokümanlar arasındaki benzerlik oranları çok yakın çıkmıştır. Bu iki sistemde k 2 ve eşik değerinin 0,3 olduğu durumda, girilen sorguya karşılık sırasıyla C1, C3, C4, C2 ve C5 dokümanlarını geri döndürmüştür.

SVD tabanlı LSI sisteminin performansı k 2ve 0,9 eşik değeri alınarak ölçülmüştür.

Bunun sonucunda, geri çağırma da %60 hassasiyet de ise %100 başarı oranı

yakalanmıştır. Benzer şekilde kesik ULV ayrışımı tabanlı LSI sisteminin performansı yine aynı rank yaklaşımı ve eşik değer altında incelenmiştir. Sonuç olarak SVD tabanlı sistemde olduğu gibi geri çağırma da %60 hassasiyet de ise %100 başarı oranı yakalanmıştır.

Kesik ULV ayrışımını kullanarak oluşturulan anlamsal yapı folding-in ve kesik ULV ayrışımını tekrar hesaplama yöntemlerine göre güncellenmiştir. Bu metotlara göre güncellenen anlamsal yapılar incelendiğinde kesik ULV ayrışımını tekrar hesaplama yönteminin folding-in yönteminden daha başarılı olduğu gözlemlenmiştir.

İlerleyen çalışmalarda ise doküman yığınını temsil eden mevcut anlamsal yapıyı doküman yığınına yeni eklenen terim ve dokümanların etkisine göre güncellenmesi planlanmaktadır. Bunun için, var olan terim-doküman matrisine ait kesik ULV ayrışımını kullanarak yeni terim-doküman matrisinin kesik ULV ayrışımı blok güncelleme algoritması ile hesaplanması hedeflenmektedir.

KAYNAKLAR

[1] Manning, C.D., Raghavan, P., Schütze, H., An Introduction to Information Retrieval. Cambridge University Press, Cambridge, 2009.

[2] Raghavan, V. V., Wong, S. M., A critical analysis of vector space model for information retrieval. Journal of the American Society for information Science.

37(5): 279, 1986.

[3] Furnas, G. W., Landauer, T. K., Gomez, L. M., Dumais, S. T., The vocabulary problem in human-system communication. Communications of the ACM. 30 (11): 964-971, 1987.

[4] Dumais, S. T., Latent semantic analysis. Annual review of information science and technology. 38 (1): 188-230, 2004.

[5] Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., Harshman, R., Indexing by latent semantic analysis. Journal of the American society for information science. 41 (6): 391, 1990.

[6] Dumais, S. T., Latent semantic indexing (LSI) and TREC-2. NIST SPECIAL PUBLICATION SP, 1994.

[7] Dumais, S. T., Improving the retrieval of information from external sources.

Behavior Research Methods, Instruments, & Computers. 23 (2): 229-236, 1991.

[8] O'Brien, G. W., Information management tools for updating an SVD-encoded indexing scheme.MS Thesis. University of Tennessee, Knoxville, 1994.

[9] Berry, M.W., Fierro, R. D., Low-rank orthogonal decompositions for information retrieval applications. Numerical linear algebra with applications.

3 (4): 301-327, 1996.

[10] Kolda, T. G., O'leary, D. P., A semidiscrete matrix decomposition for latent semantic indexing information retrieval. ACM Transactions on Information Systems (TOIS). 16 (4): 322-346, 1998.

[11] Alexandrov, V. N., Dimov, I. T., Karaivanova, A., Tan, C. J., Parallel Monte Carlo algorithms for information retrieval. Mathematics and Computers in Simulation. 62 (3): 289-295, 2003.

[12] Gao, J., Zhang, J., Text retrieval using sparsified concept decomposition matrix. International Conference on Computational and Information Science, December 2004, Berlin, s. 523-529, 2004.

[13] Jessup, E. R., Martin, J. H., Taking a new look at the latent semantic analysis approach to information retrieval. Computational information retrieval. 121-144, 2001.

[14] Ozsoy, M. G., Cicekli, I., Alpaslan, F. N., Text summarization of turkish texts using latent semantic analysis. 23rd international conference on computational linguistics. Association for Computational Linguistics, August 2010, Beijing, s. 869-876, 2010.

[15] E. Duman, Web Sayfalarının Gizli Anlam Analizi Yaklaşımıyla Otomatik Olarak Sınıflandırılması. Yüksek Lisans Tezi. Kırıkkale Üniversitesi, Kırıkkale, 2013.

[16] Berry, M. W., Large-scale sparse singular value computations. International Journal of Supercomputer Applications. 6 (1): 13-49, 1992.

[17] Golub, G. H., Van Loan, C. F., Matrix computations. JHU Press, 2012.

[18] Björck, A., Numerical methods for least squares problems. Siam, 1996.

[19] Barlow, J., Erbay, H., Modifiable low‐rank approximation to a matrix.

Numerical Linear Algebra with Applications. 16 (10): 833-860, 2009.

[20] Erbay, H., Varcin, F., Horasan, F., Alternate Low Rank Approximatıon In Latent Semantic Analysis. 21th International Conference Mathematical Modelling and Analysis, June 2016, Tartu, 2016.

[21] Landauer, T. K., Foltz, P. W., Laham, D., An introduction to latent semantic analysis. Discourse processes. 25 (2-3): 259-284, 1998.

[22] Anonim, Stop Words List - English,

http://www.ranks.nl/resources/stopwords.html (Erişim tarihi: 16.01.2016) [23] Porter, M., Porter Stemmer. http://www.tartarus.org/~martin/PorterStemmer.

(Erişim tarihi: 20.01.2016)

[24] Ozsoy, M. G., Gizil Anlamsal Analiz Yöntemi İle Doküman Özeti Çıkarma.

Yüksek Lisans Tezi. Orta Doğu Teknik Üniversitesi, Ankara, 2011.

[25] Berry, M. W., Browne, M., Understanding search engines: mathematical modeling and text retrieval, SIAM, 2005.

[26] Landauer, T. K., McNamara, D. S., Dennis, S., Kinstsch, W., Handbook of latent semantic analysis, Psychology Press, 2013.

[27] Varcin, F., Erbay, H., Horasan, F., Latent semantic analysis via truncated ULV decomposition. 24th Signal Processing and Communication Application Conference (SIU), Mayıs 2016, Zonguldak, s. 1333-1336, 2016.

[28] Berry, M. W., Dumais, S. T., O'Brien, G. W., Using linear algebra for intelligent information retrieval. SIAM review. 37 (4): 573-595, 1995.

[29] Lochbaum, K. E., Streeter, L. A., Comparing and combining the effectiveness of latent semantic indexing and the ordinary vector space model for information retrieval. Information Processing & Management. 25 (6): 665-676, 1989.

[30] Huang, A., Similarity measures for text document clustering. Proceedings of the sixth new zealand computer science research student conference (NZCSRSC2008), April 2008, New Zealand, s. 49-56, 2008.

[31] Voorhees, H., Poggio, T., Computing texture boundaries from images. Nature.

6171(333): 364-367, 1988.

[32] Baeza-Yates, R., Riberio-Neto, B., Modern information retrieval, New York:

ACM press, 1999.

[33] Grossman, D. A., Frieder, O., Information retrieval: Algorithms and heuristics, Springer Science & Business Media, 2012.

[34] Tapan, P., Routray, A., Kabi, B., Comparative Evaluation of Symmetric SVD Algorithms for Real-Time Face and Eye Tracking. Matrix information geometry, Berlin, s. 323-340, 2013.

Belgede Kesik ULV ayrışımı ile gizli anlamsal dizinleme (sayfa 56-61)