Türkçe Arama
Motorları Ne Kadar Türkçe?
Hayri Sever Hayri Sever
Başkent Üniversitesi (
Başkent Üniversitesi ( ) )
Yıltan
Yıltan Bitirim Bitirim
Doğu Akdeniz Üniversitesi ( )
sever@
sever@baskentbaskent.edu..edu.trtr
yiltan.bitirim@.bitirim@emuemu.edu..edu.trtr
Plan
Giriş
Araştırmanın amacı Bilgi erişim sistemleri Arama motorları
Yöntem ve tasarım
Bulgular ve yorum
Öneriler
Giriş
Internet: yarım milyar kullanıcı, 120M sunucu bilgisayar
Web: 3TB yer tutan en az 1 milyar belge
Arama motorları:Yüzey web’in
%16’sını, derin web’in onbinde
üçünü kapsıyor
Yüzey web – 1,5 milyar belge
Derin Web – 550 milyar belge
Amaç
Türkçe arama motorlarının
bilgi erişim performanslarını
ölçmek
Bilgi Erişim Sistemleri
Arama Motorları
Klasik bilgi erişim sistemlerinden farklı Veri tabanları büyük ve dinamik
Dizinleme örümcekler aracılığıyla Belge kalitesi düşük
Belgelerin %30’u ikileniyor Kullanıcılar çok çeşitli
Sorular çoğunlukla tek sözcükten oluşuyor
Araştırma Soruları
Türkçe arama motorlarının duyarlık, normalize sıralama, kapsama, yenilik ve ölü bağlantı
oranlarının birbirinden farklı olup olmadığı Arama motorları hangi tür sorularda daha başarılı
Arama motorları üst veri alanlarından yararlanıyor mu
Türkçe karakter sorunu
Gövdeleme sorunu
Arama Motorları
Arabul ( http://www.arabul.com ) Arama ( http://www.arama.com ) Netbul (http://www.netbul.com)
Superonline (http://www.superonline.com)
Sorular
Çeşitli türde 17 soru En sık aranan sorular
– “mp3”
– “oyun”
– “sex”
– “erotik”
– “porno”
Üst verilerle ilgili iki deney
17 Soru
1. internet ve etik 2. barok müzik
3. prozac
4. arama motorları 5. baris manco'nun
mp3'leri
6. barış manço'nun mp3'leri
7. dpt
10. demirel ve sezer 11. demirel veya sezer 12. demirel veya sezer
ve tema 13. uzay
14. evren
15. uzay veya evren
16. atatürk ve fikriye
Ölçümler
Ölü bağlantı oranı
– Adreslere erişilebilirlik oranı
Duyarlık oranı
– Erişilen ilgili belgelerin erişilen tüm belgelere oranı
Normalize sıralama oranı
– İlgili belgelere ilk sıralarda erişilebilme oranı
Kapsama oranı
– İlgili belgeleri kapsama oranı
Yenilik oranı
– Erişilen tekil ilgili belgelerin oranı
İlgililik Değerlendirmeleri
ilgili
ilgisiz
ölü
bağlantı
Veri Analizi
Arama motorlarının duyarlık, normalize sıralama, kapsama, yenilik, ölü
bağlantı oranları arasında fark var mı?
Ölü Bağlantı Oranları
Soru başına ortalama ölü bağlantı sayısı
1,4 5,1 0,7 2,8
Ort. her 6 adresten
1’i ölü
sever>
http://www.arama.com/search.php3?q=hayri+sever&weborcat=web:
ilk 15 belgeden 14’i ilgili; fakat 14’de ölü bağlantı (iki yıl önce kaldırılan adresler).
http://kapi.netbul.com/internet/internet.asp?b=2&tr=&sayfa=1&keyword=
hayri+sever:
28. kayıtta hayri sever’in ev sayfası yanlış yönlendiriliyor; fakat en azından çalıştığı kurum doğru ☺
http://www.arabul.com/sonuc.asp: 1 ilgili belge; fakat iki yıl önce
kaldırılan belge.
Erişilen İlgili Belge Sayıları
Erişilen toplam belge sayısı
971
Ortalama her 6 belgeden
5’i ilgisiz
%40
%27
%24
%21
%25
%21 %19
%16
%16 %14 %16 %15
%13 %12 %10
%9
Kesme Noktaları
Aram a
Arabul Netbul Supero nline
Altavista
5 40 16 13 25 36
10 27 14 12 21 36
15 24 16 10 19 35
20 21 15 9 16 32
%50
%58
%52 %54
%33 %37 %39
%39
%21
%32 %31
%34
%16
%22 %19 %21
Kesme Noktaları
Aram a
Arabul Netbul Supero nline
Altavista
5 50 16 21 33 35
10 58 22 32 37 38
15 52 19 31 39 42
20 54 21 34 39 56
Ortalama 54 20 30 37 41
Sorgu-Çifti No Gövdeli Gövdesiz
1 çiçek çiçekler
2 çiçek çiçekleri
3 oyun oyunlar
4 gazete gazetesi
5 kitap kitaplar
6 kitap kitapta
7 resim resimler
Gövdeleme
En Sık Aranan Beş Soru İçin
Kapsama Oranları
Alanlarından Yararlanması I
Alanlarından Yararlanması II
Dizinler daha sık güncelleştirilmeli İlgili belgelere erişememe nedenleri araştırılmalı
İlgili belgeler daha üst sıralarda gösterilmeli Türkçe karakter sorunu çözülmeli
Gövdeleme algoritması kullanılmalı
Daha fazla Türkiye adresli belge
dizinlenmeli
Symposium on Computer and Information Sciences (ISCIS’03), November 3-5, Antalya, TR.
2. H. Sever and Y. Bitirim. The Analysis and Evaluation of Stemming algorithms for Turkish.
10th International Symposium on String Processing and Information Retrieval (SPIRE’03).
Manaus, Brazil, October 8-10, 2003. Lecture Notes in Computer Science (LNCS), Springer, 2857: 238-51.
3. H. Sever ve Güven Köse (Eylül 2003). Skor Dağılımlı Üst Arama Modeli. TBD 20. Ulusal Bilişim Kurultayı, İstanbul.
4. H. Sever and M.Z. Bolat. A Text Filtering Method for Digital Libraries. (IATUL’03). The 24th Annual Conference on International Association of Technological University Libraries
(http://www.iatul.org/conference/proceedings/vol13/papers/SEVER_fulltext.pdf) June 2-5, 2003. Ankara, Turkey.
5. H. Sever and M. Tolun. Comparison of Normalization Techniques for Metasearch.
ADVIS'02, Lecture Notes in Computer Science, Springer Verlag, Vol. 2457, pp. 133-143, 2002.
6. Y. Bitirim, Y. Tonta, and H. Sever. Information Retrieval Effectiveness of Turkish Search Engines. ADVIS'02, Lecture Notes in Computer Science, Springer Verlag, Vol. 2457, pp.
93-103, 2002.
7. Y. Tonta, Y. Bitirim, and H. Sever. Turkce Arama Motorlarinda Performans Degerlendirme, pp. 1-152, Damla Publisher Ltd., 2002.
8. R. Manmatha and H. Sever. A Formal Approach to Score Normalization for Metasearch, Human Language Technology Conference (HLT'02), March 24-27, 2002, San Diego, CA.
9. Yıltan Bitirim, Hayri Sever ve Yaşar Tonta, " Türkçe arama motorlarında performans değerlendirme" Akademik Bilişim '02, 6-8 Şubat 2002, Konya.