• Sonuç bulunamadı

3.1.2 METİ N MADENCİ Lİ Ğİ 1 Giriş

3.1.3.1 Web Madenciliğ

Veri madenciliği ve Web son zamanların geçerli iki araştırma sahasıdır. Bu iki sahanın doğal kombinasyonu Web madenciliği olarak adlandırılır. Veri madenciliği uygulamalarından biri olan Web madenciliği, Web verileri üzerinde veri madenciliği fonksiyonlarınıyerine getirir (Özakar ve Püskülcü 2002).

Birçok yazara göre web madenciliği terimi ilk kez Etzioni tarafından 1996’da ortaya atılmıştır. Bu bildiride Etzioni Web madenciliğinin veri madenciliği tekniklerini kullanarak Word Wide Web’de bulunan dosya ve servislerden otomatik olarak paternler bulmak ve öngörülmeyen bilgiye ulaşmak olduğunu iddia etmektedir (Etzioni 1996). Araştırmacıların çoğu çalışmalarında bu tanımlamayıesas almışlardır Burada bu işlemlerden bazılarının rahatlıkla arama motorlarıtarafından yapılabileceği akla gelebilir. Bu durumda Web Madenciliğine ihtiyaç duyulmasının iki sebebi vardır. Bunlar:

1. Google, Yahoo gibi arama motorlarınıkullanıldığında genelde iki çeşit sorunla karşılaşılır: “Veri madenciliği” ile ilgili dokümanlar araştırılırken sonuç olarak çok fazla doküman listelenebilir ama bunların birçoğu araştırılan konuyla yeteri kadar ilgili değildir. Ayrıca dokümanlar sıralanırken araştırılan konuyla en çok ilgili olandan en az ilgili olana doğru sıralanmışdeğildir. Ancak dokümanlar incelendikten sonra istenilen sırada konuyla ilgili siteler bulunabilmektedir.

2. Arama motorlarında yine “veri madenciliği” konusunun araştırıldığı varsayılırsa, bu konu ile yakından ilgili olan makine öğrenmesi , bilgi keşfi ile ilgili dokümanlar içerisinde “veri madenciliği ” kelimeleri geçmediği için sonuç olarak listelenmeyecektir. Bu sebeple son zamanlarda araştırmacılar veri madenciliği kavramınıWeb’e uyarlamışlardır (Sakiroglu ve ark. 2003).

Web madenciliği kabaca Web’ten faydalıbilginin keşfi olarak da tanımlanabilir. Bu tanım içinde otomatik tarama, bilgi alma ve kullanılabilir kaynakların milyonlarca web sitesi veya online veritabanlarından seçilmesi web içerik madenciliği konusuna girerken bir veya birçok web sunucu veya online

servisten kullanıcıerişim desenlerinin analiz ve keşfi Web kullanım madenciliği konusuna girmektedir (Takcıve Sogukpınar, 2002).

Web üç tip veri bulundurur; içerik, Web log dosyalarıve Web yapıverisi. Sekil 3.8 ‘de madencilik yapılabilecek verinin sınıflandırmasıincelenmektedir. Bunlar Web içerik madenciliği, Web yapımadenciliği ve Web kullanım madenciliğidir.

Şekil 3.6: Web MadenciliğiSınıflandırması

1. Web içerik Madenciliği: Web içerik madenciliği temel olarak Internet de saklıbilgiyi bulma üzerine yoğunlaşmıştır (arama motorları, vs.). Kısaca konusu, site içeriğidir. Adından da anlaşılacağıgibi web dokümanlarının içeriklerini yorumlamak ile ilgilenir. Web içerik madenciliği akıllıyazılım ajanları(web robotları, web örümcekler vs.) daha doğrusu makine öğrenimi veya yapay zeka ile ilgilidir. Son zamanlarda dokümanlardan bilgi çıkarma için XML de kullanılmaya başlanmıştır. Burada; saniyede binlerce web sayfasınıinceleyen genişölçekli programlara “derleyici” (Crawler) denilmektedir (Belen ve ark. 2003). Web içerik verilerinin çoğu belli bir düzene sahip olmayan düz metinlerdir. Lycos, Alta Vista, Web Crawler gibi bilinen çeşitli arama motorlarıbu tekniklerden faydalanırlar.

Web içerik madenciliği, arama motorlarındaki yapının genişletilmişhali olarak düşünülebilir. Internet de arama yapılırken birçok teknik kullanılmaktadır.

Web Madenciliği Web İçerik Madenciliği Web Yapı Madenciliği Web Kullanım Madenciliği Web Sayfa İçerik Madencliği Arama Sonuç Madenciliğ Genel Web Kullanım Madenciliği Site Günceleme Sistemleri

Bu tekniklerden, klasik arama motorlarında en çok kullanılan kelime tabanlı arama yaklaşımıdır. Bunun dışında, içerik hiyerarşisi, kullanıcıdavranışlarıve sayfalar arasılink ilişkileri de kullanılan en temel yaklaşımlardandır.

Derleyicide, çekirdek URL adres setine bakarak değerlendirme başlamakta ve çekirdek URL adreslerindeki linkler kaydedilip arama bu linklerden devam etmektedir. Web’deki muazzam büyük yapı, özelleşmişderleyici yapılarının geliştirilmesine neden olmuştur. Sekil 3.9’da genel derleyici ve özelleşmiş derleyicilerdeki arama mantığıgörülmektedir. Şekildeki siyah gölgeli kısımlar derleyicinin değerlendirmeye aldığısayfalarıtemsil etmektedir. Buna göre özelleşmişderleyici bir sayfayıilgili bulduysa sayfanın linklerini değerlendirmeye almakta, aksi halde diğer sayfalarıdeğerlendirmeye geçmekte bir alt seviyeye inmemektedir (Dunham 2003).

Sekil 3.7: Web MadenciliğiSınıflandırması

2. Web YapıMadenciliği: Web yapımadenciliği sitenin yapısal dizaynını iyileştirmek için kullanılır. Web sayfalarıarasındaki bağlantılarını(hyperlink) ilişkilerini keşfetmekle ilgilenir. Yani HTML kodlarındaki <a href> </a> etiketleri arasında yer alan veriyi yorumlar. Web içerik madenciliği web sayfasının içeriği ile ilgilenirken, web yapımadenciliği doğrudan web sayfalarıarasındaki bağlantılar ile ilgilenir (Sakiroglu ve ark. 2003).

3. Web Kullanım Madenciliği: Web kullanım madenciliği; bir veya birçok web sunucudan kullanıcıerişim desenlerinin otomatik keşfinin ve analizin yapıldığıbir tip veri madenciliğietkinliğidir. Birçok organizasyon pazar analizleri için geliştirdikleri stratejileri ziyaretçi bilgilerine dayanarak yerine getirir.

Organizasyonlar günlük operasyonlarla her gün yüzlerce MB veri toplamaktadır. Bu bilgilerin çoğu web sunucuların otomatik olarak tuttuğu günlük dosyalarından elde edilir. Günlük dosyalarında, istemcinden sunucuya gönderilen her bir istek bir kayıt olarak tutulur (Takcıve Sogukpınar 2002).

Web verilerinin analizi sonucunda bir ziyaretçinin sitede kalma süresi, hizmet stratejileri, etkin kampanyalar ve diğerleri bulunabilir. Ayrıca siteye bağlanan bir kullanıcının hangi amaçla siteye bağlandığı, kötü niyetli bir kullanıcı olup olmadığıda bulunabilmektedir. Bir elektronik ticaret sitesi için en iyi müşteri veri madenciliği sayesinde bulunabildiği gibi bir “hacker” da aynıyöntemlerle bulunabilir.

Web kullanım madenciliği baslıca üç fazdan oluşmaktadır: (Belen ve ark. 2003)

1. Ön İsleme : Ön isleme veri kaynağından alınan verinin desen bulmaya hazır hale getirilmesi adımıdır. Belki de web kullanım madenciliğinin en önemli aşamasıdır. Çünkü etkili bir şekilde yapıldığından zaman ve kaynak tasarrufu sağlayacaktır. Bu adımda esas olarak veri gürültüden temizlenir.

2. Desen Bulma: Veri madenciliğinde desen bulmak için kullanılan bir çok yöntem ve algoritma vardır ve bunların çoğu web kullanım madenciliğinde de kullanılmaktadır.

3. Desen Analizi: Desen analizi web kullanım madenciliğinin son adımıdır. Desen analizinin amacıbulunan desenlerden ilginç olmayan desenleri elemektir. Desen analizinin en çok karşılaşılan sekli SQL gibi bilgi sorgulama dilleri ile yapılan uygulamalardır. Bir başka yöntem ise verilerin veri küplerine yüklenerek OLAP işlemlerinin yapılmasıdır.

Web içerik madenciliği dokümanların içinden bilgi çıkarırken web kullanım madenciliği kullanıcıların erişimlerinden bilgi çıkarmaktadır. Erişimlere dayalıbilgilerle kullanıcıdavranışlarıbulunabilmekte ve kişiye özel hizmet olanağısağlanabilmektedir.

3.1.4.1 BULANIK MANTIK

Benzer Belgeler