Tarama Süreci (Crawling Process) : - Tarama, İndeksleme ve Sorgulama Süreçleri

2. Tarama, İndeksleme ve Sorgulama Süreçleri

2.1. Tarama Süreci (Crawling Process) :

Tarayıcı modülü, küçük yazılım programları ile talimatlandırılmış örümcekler veya robotlar içeren arama mimarisinin ilk bölümüdür. Bu örümcek ve robotlara verilen talimatlar web sayfalarının nasıl taranması gerektiği bilgilerini içerir. Tarayıcı modülü bu örümcek ve robotlara bir URL uzantısı verir. Örümcekler de aldıkları bu uzantıdan başlayarak sayfaları ziyaret etmeye başlar ve sayfalar üzerinde bulunan linkleri de hafızalarına alarak yeni sayfalara erişirler. Bu işlemi tarayıcı modülünün verdiği talimatlar doğrultusunda maksimum sayfa sayısına ulaşıncaya kadar devam ederler.

Tarayıcılar için birkaç önemli husus bulunur. Bunlardan birincisi, her tarayıcının her sayfayı taraması gerektiği gibi bir zorunluluk yoktur. Bazı arama motorları sadece belirli konular çerçevesinde tarama işlemini gerçekleştirirler. Örneğin sadece .net uzantılarını taraması, sadece resim barındıran web sayfalarını taraması ya da sadece kişisel web sayfalarını taraması gibi belirli bir alana yönelik çalışabilirler.

Tarayıcılar için bir önemli hususta, web sayfalarını hangi sıklıkla tarayacaklarıdır. Web dünyasının dinamik olmasından dolayı, web sayfaları devamlı güncellenmektedir. Bu durum tarayıcıların işini epey zorlaştırmaktadır. Bu yüzden tarayıcıların işi tam bir sirkülasyon işidir. Yani sonsuz bir döngü içinde çalışıyorlar diyebiliriz. Şöyle ki yeni ve güncellenmiş sayfaları getiren örümcekler her defasında verilen yeni bir URL uzantısı ile yeniden işe başlarlar. Bir bakıma işçi arıların polenleri toplayıp, kovana getirip yeniden polen toplamak için kovandan uçması gibi bir şeydir. Bu benzetmeden dolayı olsa gerek ki Google web robotlarına “web arısı” ismini vermektedir. Tarayıcıların web sayfalarını devamlı kontrol etmesi yerine

geliştirilen algoritmalar sayesinde zamanla oluşan, web sayfalarının birim zamanda gerçekleşen güncelleme sayısını belirleyerek, bazı web sitelerini daha sık tararken bazı web sitelerini haftada bir ya da ayda bir taramaktadırlar. Özellikle haber siteleri saatlik, günlük taranırken; kişisel web sayfaları haftada bir ya da ayda bir taranmaktadır. Ayrıca bazı arama motorları bu tarama işini demokratik yöntemlerle yapsa da, bazı arama motorları sitelerin popülaritesine göre yapmaktadırlar. Tarama işleminde yaşanan bu sıkıntıdan dolayı günümüzde çok farklı yöntemler geliştirilmiştir. Bazen site sahipleri güncellenen sayfalarını kendileri manüel olarak arama motorlarına bildirir. Bazen de sayfalarının güncellenme sıklığını, güncellenme zamanını yada güncellenen sayfalarını geliştirilen programlar sayesinde (robot.txt) arama motorlarına kendileri bildirirler. Programlar ile yapılan güncellemelerde tarayıcılar web sayfanıza geldiğinde eğer bir önceki tarama işleminden bu yana bir güncelleme yoksa sayfanızı taramayıp bir sonraki web sayfasına geçerler. Böylece hem tarayıcıların zamandan kazanması sağlanırken, hem de tarayıcıların web sayfanızı tararken trafiğinizi engellemesinden kurtulmuş olursunuz. Çünkü tarayıcılar web sayfanızı tararken bulunduğunuz portun bant genişliğini işgal ederler, bu durumdan dolayı da kullanıcılarınız sitenize erişmekte sorun yaşarlar. Bu durum da doğal olarak web site sahiplerini fena halde kızdırır.

2.1.1. Tarayıcı Politikaları:

Web arama motorları önceleri bir taraftan kullanıcının girdiği değerlere göre web sayfalarını tararken bir taraftan da ilgili web sayfalarının listesini oluşturmak için kullanıcıyı bekletirlerdi (Dündar, 2009). Zamanla web devasa boyutlara ulaşınca bu işleme alternatif yöntemler geliştirdiler. Arama motorları bu sorunun üstesinden gelmek için taradıkları web sayfalarını kendi veri tabanlarına kaydetmeye başladılar. Veri tabanlarına kaydettikleri bu web sayfalarını çeşitli yöntemlere göre indeksleyip, web sayfaları ile ilgili istatistikî bilgileri de hesaplayıp, sorgulamanın daha hızlı gerçekleştirilmesini sağladılar. Böylece kullanıcının girdiği sorgu daha önceden hesaplanmış değerlere göre eşleştirilerek daha hızlı ve daha etkin sonuçlar üretmeye başladılar.

Arama motorları, kullandıkları web robotları ile öncelikle ziyaret ettikleri web sayfalarının ana sayfalarından başlayarak siteyi kopyalamaya başlarlar. Ardından sitenin diğer sayfalarını da kopyalayıp, sitenin haritasını çıkarırlar. Bu işlemleri yaparken bir taraftan da web sayfası üzerinde bulunan linkleri de hafızaya alarak,

ziyaret edilecek bir sonraki web sayfasını belirlerler. Daha önce de belirttiğimiz gibi tarayıcılar web sayfalarında gezinirken, ilgili web sayfasını epey meşgul ederler. Bunu önlemek için ise kurallar oluşturulmuştur. Şimdi bu kurallara kısaca bir göz atalım.

Politeness Policy: Dediğimiz gibi tarayıcılar ilgili web sayfasını tararken eğer taranan site çok güçlü değil ise gerçek kullanıcılara hizmet vermekte aksaklıklar yaşar. Bunu önlemek için ise taramaya başlamadan önce ilgili web sunucuya tarama isteği göndermesi gerekir. İlgili web sunucuda bu isteği alıp taramanın başlayıp başlamayacağına karar verir. Bu cevap verme süresi saniyeler bazen dakikalar sürdüğü için tarayıcılar (crawlers) bekletilmek durumunda kalır. Tarayıcılar da bu bekletilme süresinden nefret ettiklerinden paralel programlama tekniğinde kullanılan thread’leri (aynı görev için programlanmış programcıklar) kullanırlar. Böylece bir thread beklerken bir diğeri başka bir web sayfasını tarar. Ayrıca bu ilkenin güzel bir uygulaması daha vardır. Şöyle ki bu kural gelen tarayıcıya birim zamanda ne kadar sayfa tarayacağını söyler. Misal bir web sunucusunun bir tarayıcıya izin verdiğini düşünelim. Ve tarayıcı saniyede 100 sayfa tarıyor fakat bu durumun trafiği aksattığını düşünelim. Bu ilke ile web sunucusu tarayıcıya web sunucusundan saniyede en fazla 10 sayfa tarayabilirsin diye uyarı verir. Böylece tarayıcıların trafiği aksatması önlenir. Bu durumu yüzlerce arama motoru üzerinden düşünürsek eğer, bazı önemli sitelerin devamlı web tarayıcılarına çalışması gerekirdi ki, bu durum da web sayfalarının anlamını yitirmesine sebep olurdu.

Re-visit Policy: Web sayfalarındaki değişikliklerin hangi aralıklarda yapıldığını bildirir.

Selection Policy: Web tarayıcıların hangi sayfaları tarayıp, hangi sayfaları tarayamayacağı belirtir.

Parallelization Policy: Yukarda bahsettiğimiz tarayıcıların paralel çalıma mantığına göre, her thread taradığı web sayfalarını diğer bütün thread’lere bildirir. Böylece taranmış sayfaların tekrar taranması önlenmiş olur.

2.1.2. Bilgilendirme Dosyası

Tanımlamaların ardından web masterların tarayıcıları bilgilendirmek için kullandıkları robot.txt mantığına bakalım. Web masterlar robot.txt ile tarayıcılara

tarama zamanını ve tarama frekansını bildirirler. Bunu yaparken de robot.txt’yi site adreslerinin kök dizinin de sunarlar. Örneğin, http://www.khas.edu.tr/robots.txt şeklinde tarayıcılara sunarlar. Daha iyi anlamak için Robot.txt’nin yapısına bir göz atalım.

User-agent: * Allow:

Yukarıdaki içerikte “User-agent” bölümü arama motorlarının tarayıcılarını belirtmektedir. “*” işareti ile de bütün tarayıcılar kastedilmektedir. Bir alt satırdaki “Allow” ise bütün web tarayıcılarına izin verildiği belirtilir. Daha açıklayıcı olması için somut bir örnek verelim.

User-agent: MsnBot Allow:

User-agent: Googlebot Disallow:

Yukarıdaki örnekte de web site yöneticisi sitesinin içeriğine MsnBot’un taramasına izin verirken, GoogleBot’un sitesini taramasına izin vermemektedir. Bir sitenin bütün içeriği sunucularda tutulduğu için, bazen sitenin bazı kısımlarının gizli kalması ve hem tarayıcılar hem de kullanıcılar tarafından ulaşılmaması gerekir. Eğer sitenin bazı sayfalarının tarayıcılar tarafından taranması istenmiyorsa bu durumda robot.txt kullanılabilir. Bu duruma da bir örnekle açıklık getirelim.

User-agent: * Disallow: /ozel/ Disallow: /gizli/ Disallow: /diger/ Allow: /diger/genel/

Yukarıdaki örnekte de bütün web tarayıcılarının “/ozel/”, “/gizli/”, “/diger/” klasörlerine erişimi yasaklanıyor. “Allow” bölümünde ise sadece “/diger/genel/” alt klasörüne erişim izni veriliyor.

29 2.1.3. Site Haritası

Hem arama motorlarının hem de site yöneticilerinin işini kolaylaştırmak için bir dizi işlemden birisi de site haritalarıdır. Site haritaları sayesinde arama motorları ile web site yöneticileri arasında iletişim sağlanmaktadır. Böylece hem arama motorlarının siteleri tararken yarattıkları trafik önlenmekte hem de site yöneticilerinin istediği gibi bir tarama sağlanmaktadır. Robot.txt’de olduğu gibi site haritası da genellikle kök dizininde tutulurlar. Örneğin, http://www.khas.edu.tr/sitemap/sitemap.xml ile tarayıcıya sunulurlar. Bu bölümde site haritasına bir örnek verip tarayıcılar konusunu kapatalım.

<? Xml version= “1.0” encoding= “UTF-8” ?>

< urlset xmlns="http://www.khas.edu.tr/schemas/sitemap/0.9"> <url> <loc>http:// www.khas.edu.tr/</loc> <lastmod>2012-06-06</lastmod> <changefreq>daily</changefreq> <priority>0.9</priority> </url> <url>

<loc>http:// www.khas.edu.tr /akademisyenler</loc> <lastmod>2012-01-01</lastmod>

<changefreq>monthly</changefreq> <priority>0.6</priority>

</url> <url>

<loc>http:// www.khas.edu.tr /duyurular</loc> <changefreq>hourly</changefreq>

</urlset>

Görüldüğü gibi site haritası çeşitli etiketler içermektedir. Bunların başında “loc” etiketi gelmektedir. “Loc” etiketi ile URL uzantısı verilir. “changefreq” etiketi ile de ilgili bölümün hangi sıklıkla değiştirildiği belirtilir. Bu sıklık değişkenleri “never”, “allways”, “hourly”, “daily”, “weekly”, “monthly” gibi değerler olabilir. “priority” etiketine geldiğimizde ise tarayıcıya bu sayfanın ne kadar değerli olduğunu belirtiniz. Yani “http://www.khas.edu.tr/” bölümünün değeri 0.9 iken “http://www.khas.edu.tr/akademisyenler” bölümünün değeri 0.6 olması, tarayıcıya “http://www.khas.edu.tr/” sayfasının bir diğer sayfa olan “http://www.khas.edu.tr/akademisyenler” sayfasından daha önemli olduğunu belirtir.

Ayrıca günümüzde siteler sayfalarını HTML (Hypertext Markup Language ) standardına göre hazırlamaktadırlar. Fakat HTML standardında kesin bir düzenin olmaması aynı kodlamanın farklı tarayıcılarda farklı yorumlanmasına yol açmaktadır. Bu durum HTML sayfalarının tarayıcılar tarafından işlenmesini zorlaştırmaktadır. Bu işlemin daha etkin olmasını sağlamak amacıyla XML’in (Extended Markup Language) standardı geliştirilmiştir (Dündar, 2009). XML’in en önemli özelliği olan ağaç yapısı tarayıcıların işini epey kolaylaştırmıştır. Bu yüzden tarayıcılar HTML düzensizliğinden arındırılmış bir yapıya ulaşmak için belirli programlar sayesinde HTML belgelerini XML’e dönüştürmektedirler. Böylece daha etkin bir indeksleme gerçekleştirmektedirler.

Belgede Arama motorları mimarisi, web sayfalarının içerik skoru ve google pagerank formülünün incelenmesi (sayfa 38-43)