• Sonuç bulunamadı

Bilgi Erişim Sistemleri II

N/A
N/A
Protected

Academic year: 2021

Share "Bilgi Erişim Sistemleri II"

Copied!
29
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Bilgi Erişim Sistemleri II

Hayri Sever

Bilgisayar Mühendisliği Bölümü Başkent Üniversitesi

06530 Bağlıca Ankara sever@baskent.edu.tr

Yaşar Tonta

Bilge ve Belge Yönetimi Hacettepe Üniversitesi 06532 Beytepe, Anakara

tonta@hacettepe.edu.tr

(2)

Alt Başlıklar

Metin Teknolojileri

Bilgi Geri-Erişim Sistemi İşlevsel Mimarisi Dizinleme

Sorgulama

Bilgi Geri-Erişim Modelleri Arama Motorları

Üst Arama Motorlari

Konu Algılama ve İzleme

Bilgi Süzme

(3)

Metin-Tabanlı (Dil) Teknolojiler

¾Bilgi Geri-Erişim (BGE)

¾Soru Yanıt (SY)

¾Bilgi Çıkarma

¾Bilgi Süzme

¾Ulamlama

¾Özetleme

¾Konu Algılama ve İzleme (KAİ)

¾Makine Çevrimi

¾Ses Tanıma

(4)

Bilgi Geri-Erişim Meseleleri

Belge nedir ve boyu nasıl hesaplanır?

Bu belge ne hakkındadır?

Bu sorgu ne hakkındadır?

Bu sorgu ve belge aynı şey hakkında mıdır?

Bu belge verilen sorgu ile ilgili midir?

Bu belge sisteme sunulan bilgi ihtiyacı ile ilgili midir?

Bu belge ne kadar ilgilidir?

Bu veritabanı verilen sorgu ile ilgili midir?

Bu resim ne hakkındadır?

(5)

Bilgi Geri-Erişime İşlevsel Bakış

(6)

Belge İşleme ve Gösterimi

¾ Ön işlem: Noktalama işaretlerinin kaldırılması ve daha sonra durma listesinde bulunan kelimelerin belgeden

ayıklanması.

¾ Gövdeleme: bir kelimeden yapım eklerinin korunup çekim eklerinin atılması.

¾ Belge Gösterimi için içerik terimleri ve onların göreceli ağırlıkları. Bir terimin ağırlığı onun belge içindeki sıklığı ile doğru, fakat derlem sıklığı ile ters orantılıdır.

(7)

Dizinler

¾ Dizin ne içermelidir?

Veritabanı sistemi asıl ve ikincil anahtarları dizinler.

• BGE Problemi: anahtarları kestirebilmek?

• Çözüm: İçerik terimleri.

¾ Zip Kanunu: Terimlerin dağılımı ve sıraları arasındaki ilişki sabit bir değere yakınsar.

¾ İçerik terimlerin göreceliği ağırlığı ne olmalıdır?

•Sıklık Modeli: Terim sıklığı? Belge sıklığı?

•Ayrımsama Modeli: belge uzayının yoğunluğunu azaltan terim iyi bir terimdir.

•Dil modeli: Belgenin sözkonusu terimi üretme olasılığı ile derlemin üretme olasılığı arasındaki doğrusal ilişki ağırlığı belirler.

(8)

Zipf Kanunu

(9)

Ayrımsama Modeli

(10)

Sorgu İfadesi

¾ 2 temel sorgu dili türleri

•Boole, yapılı

•Serbest metin

¾ Bir çok sistem birisini ya da her ikisini birden desteklemektedir.

¾ Sorgu ifadesinin oluşturulmasında kullanıcı arayüzü önemlidir.

¾Sorgu ifadesinin oluşturulması için araçlar

•Sorgu işleme ve ağırlıklandırma

•Sorgu genişletme

•Sözlükler ve eşanlamlı sözlük

•İlgililik geri bildirme

(11)

Sorgu İşleme

¾ Sorgu işleme adımları otomatik belge dizinlemeninkilere çok benzemektedir.

• Durma Kelime Listesi farklı olabilir

• Metin daha az gramatik ve kısa olabilir

¾ Kullanacı etkileşimi mümkün ve istenebilir

¾ Sorgu-tabanlı gövdeleme ve durma kelimeleri

¾ Diğer olası adımlar

• Tamlamaların tanınması

• Negatiflerin tanınması

• İlgili kelimelerle sorguların genişletmesi

(12)

Geri-Erişim Modelleri

Boole model kesin eşleştirme yaklaşımına dayanmaktadır.

• Sorgular belge özelliklerini işlenenler olarak kabul eden mantık ifadeleridir.

• Geri getirilen belgeler genelde sıralanmaz.

• Acemi/Tecrübesiz kullanıcılara Boole sorgu ifadesi zor gelebilir.

• Boole geri-erişim modeli ile Boole sorguları birbirlerinden ayırma gereksinimi

• Saf Boole işleçleri: VE, VEYA, VE DEĞİL

• Bir çok sistem uzaklılık işleçlerine sahiptir

• Bir çok sistem basit düzenli ifadeleri desteklemektedir

(13)

Vektör Uzayı Bilgi Geri Erişim Modeli

¾ Belge, terimlerin bir vektörü olarak gösterilir.

¾ Sorgu, serbest metin veya terimlerin bir vektörü olarak gösterilir.

¾İki vektör arasındaki açı benzerlik ile ters orantılıdır.

¾ Belgeleri sorguya

benzerliklerine göre sıralar.

(14)

Vektör Uzayında Benzerlik:

Ortak Ölçümler

(15)

Arama Motorunun Merkezi Mimarisi

(16)

Web Örümceği ve Veri Toplama

¾Hiper-bağlantılı belgeler çizgedeki düğümler olarak görülebilir.

– İlginç altçizgeler: alan isimleri kesişen düğümler

– İzole altçizgeler: Dışardan referans almayan düğümler

¾Veri toplama meseleleri:

– Her bir düğüm nasıl bir kere ziyaret edilecek – Düğümlerin temsili örneklemi nasıl elde edilir

(17)

Web Örümceği İşlevsel Mimarisi

H T T P

Y ü k le H yp erlin k

A yrıştırıcı H yp e rlin k

Ç ık artıcı

G ezilen ve gezilecek olan

U R L’ler

K arşılaştırıcı

B elgeler İlin ge K ü tü ğü

G ezilecek U R L’ler k u yru ğu B aşlan gıç

U R L

(18)

Veri Toplama ve Sorgu Dili:

Ortak Sorunlar

¾Göreceli yollar: <A HREF=“../../../bil367/”>Yayınlar</A>

¾Tekrarlı sayfalar (%30): Aynı sayfa, farklı adres.

¾ Javascript: Dinamik HTML

¾Çok büyük sayfalar: 10 MB sayfayı gerçekten tümü ile dizinlemek istiyor musunuz?

¾ Dinamik içerik: Web kaynakları tahmini olarak ortalama 75 gün değişmeden kalmaktadırlar.

¾ Kaliteli Web sayfaları: Nasıl ölçülür?

¾ Meta öznitelikler: description, keywords, title, vs.

¾ Bir kaç kelimelik sorgular (ortalama 1.5)

(19)

Üst Arama Motorları

• Tekli Çerçeve Çalışmaları

– Sadece bir sorgu işleme motoru.

– Belge başlığı, özet, vücut ve kaynakça ağırlıkları.

• Çoklu Çerçeve Çalışmaları

– Birden fazla sorgu işleme motoru.

– Veri Birleştirme ve Kolleksiyon Birleştirme.

(20)

Üst Arama Motorları

(21)

Üst Arama Problemi

„„

Skor Normalleştirme Skor Normalleştirme Adımı

Adımı

‹‹

Farklı sistemler farklı Farklı sistemler farklı erişim çıktıları sunar.

erişim çıktıları sunar.

‹‹

Erişim çıktıları ortak Erişim çıktıları ortak bir ölçeğe çekilir.

bir ölçeğe çekilir.

„„

Birleştirme Adımı Birleştirme Adımı

‹‹

CombSUM CombSUM ve ve CombMNZ

CombMNZ en etkili en etkili yöntemler.

yöntemler.

YYöntemöntem İşlevİşlev CombMIN

CombMIN BağıBağımsmsıız skor dez skor değğerlerinin erlerinin en küçüen küçüğğüü

CombMA CombMA

XX

BağıBağımsmsıız skor dez skor değğerlerinin erlerinin en büen büyüğğüü

CombME CombME

DD

BağıBağımsmsıız skor dez skor değğerlerinin erlerinin ortancası

ortancası CombSU

CombSU MM

BağıBağımsmsıız skor dez skor değğerlerininerlerinin Toplam

Toplamıı CombANZ

CombANZ

CombSUM

CombSUM / sı/ sıfırdan farklrdan farklıı skor

skor

dedeğerlerinin sayğerlerinin sayıısı CombMN

CombMN ZZ

CombSUM

CombSUM * sı* sıfırdan farklrdan farklıı skor

skor

dedeğerlerinin sayğerlerinin sayıısı

(22)

Normalleştirme Yöntemleri

Yöntem Adntem Adıı Açııklamaklama Standart

Standart Minimum değMinimum değeri 0, eri 0, MaximumMaximum dedeğeri 1 olarak ğeri 1 olarak belirle.

belirle.

SumSum Minimum değMinimum değeri 0 , ve eri 0 , ve Sum’Sum’ıı 1 olarak belirle.1 olarak belirle.

ZMUVZMUV OrtalamayıOrtalamayı 0, varyans0, varyansıı 1 olarak belirle.1 olarak belirle.

„„ Belge skorlarının doğrusal olarak kaydırılması ve Belge skorlarının doğrusal olarak kaydırılması ve ölçeklenmesi.

ölçeklenmesi.

„„ Skorlar ilgili belgeler için doğru olasılıkları yansıtmalı.Skorlar ilgili belgeler için doğru olasılıkları yansıtmalı.

„„ 4 arama sisteminden sonra azalan bir performans 4 arama sisteminden sonra azalan bir performans oluşmakta.

oluşmakta.

(23)

ZMUV Normalleştirme

„„ Bu teknik iki Bu teknik iki GaussianGaussian dağılımın dağılımın varyansvaryans ve ortalama ve ortalama değerleninin

değerleninin normalleştirilmesidir.normalleştirilmesidir.

9 İlgili ve ilgisiz belge skorlarının dağılımları iki normal dağılımın birleşimi ile modellenemez.

(24)

Konu Algılama ve İzleme (KAİ)

„„

Haber yayınlarının izlenerek yeni ve ilginç bir Haber yayınlarının izlenerek yeni ve ilginç bir haber olduğunda ilgililerin uyarılmasını sağlayacak haber olduğunda ilgililerin uyarılmasını sağlayacak

teknolojilerin geliştirilmesi.

teknolojilerin geliştirilmesi.

„„

Amerika İleri Savunma Araştırma Projeleri Amerika İleri Savunma Araştırma Projeleri (DARPA),

(DARPA),

„„

Ulusal Standartlar ve Teknoloji Enstitüsü(NIST) Ulusal Standartlar ve Teknoloji Enstitüsü(NIST) tarafından desteklenen

tarafından desteklenen

„„

İlk çalışmalar 1997 yılında başlamıştır. İlk çalışmalar 1997 yılında başlamıştır.

(25)

İlk Hikaye Algılama

ABC AP NPR NBC

El Mundo

Sisteme yeni bir hikaye ulaştığında bunun tartıştığı Sisteme yeni bir hikaye ulaştığında bunun tartıştığı konunun daha önceden tanımlanmış konularla ilgili konunun daha önceden tanımlanmış konularla ilgili

değilse, yeni bir konu olduğunun belirlenmesi.

değilse, yeni bir konu olduğunun belirlenmesi.

(26)

Küme Algılama

ABC AP NPR NBC

El Mundo

...

Gelen hikaye bir ilk hikaye değilse ilgili kümeye Gelen hikaye bir ilk hikaye değilse ilgili kümeye yerleştirir, eğer ilk hikaye ise bunun için yeni bir yerleştirir, eğer ilk hikaye ise bunun için yeni bir

küme oluşturur (özellikler vektörünü kullanır).

küme oluşturur (özellikler vektörünü kullanır).

(27)

Haber İzleme

ABC AP NPR NBC

El Mundo

Haber kaynaklarından sisteme gelen haberleri Haber kaynaklarından sisteme gelen haberleri değerlendirilerek, bu haberlerin daha önceden değerlendirilerek, bu haberlerin daha önceden

belirlenmiş olan konularla ilgili olup olmadıklarını belirlenmiş olan konularla ilgili olup olmadıklarını

araştırır.

araştırır.

(28)

Hikaye Bağlantı Algılama

ABC AP NPR NBC

CNN

? ? ?

Sisteme ulaşan iki farklı hikayenin aynı konuyu Sisteme ulaşan iki farklı hikayenin aynı konuyu

tartışıp tartışmadıklarını anlamayı amaçlar.

tartışıp tartışmadıklarını anlamayı amaçlar.

(29)

Bilgi Erişim Sistemleri II

Hayri Sever

Bilgisayar Mühendisliği Bölümü Başkent Üniversitesi

06530 Bağlıca Ankara sever@baskent.edu.tr

Yaşar Tonta

Bilge ve Belge Yönetimi Hacettepe Üniversitesi 06532 Beytepe, Anakara

tonta@hacettepe.edu.tr

Referanslar

Benzer Belgeler

Lenfosit Aktivasyonu ve İmmün Cevaplar: Adaptif bağışıklık cevabı gelişimi;. Spesifik lenfositlerin aktivasyonu sonrası prolifere olmaları, effektör ve memory

Sisteme yeni bir hikaye ulaştığında bunun tartıştığı Sisteme yeni bir hikaye ulaştığında bunun tartıştığı konunun daha önceden tanımlanmış konularla ilgili

• John Coffey siyahi olduğu için Gardiyan Percy ve Mahkum Bill tarafından ırkçı söylemlere maruz kalması,. • Gardiyan Percy valinin yeğeni olduğu

• Güncel moda dergilerinden seçtiğiniz temanıza uygun tasarım fikirlerinizi destekleyen görselleri ve internetten aldığınız fotoğraf çıktılarınızı da ekleyin..

Adam bahçenin girişinde çok güzel bir kırmızı gül görmüş, eğilmiş, tam koparacakken az ileride başka bir gül görmüş, bu gül daha güzel demiş, tam koparmaya karar

(Afp) — For- moza meselesinin, Savunma Bakanı Louis Johnson ile General Mac Ar­ thur arasında cereyan eden konuşma­ ları^ başlıca konusunu teşkil ettiğine

Friedman yönetimindeki bir ekipçe yürütülen deneylerde, leptin hormonu olmad›¤› için afl›r› fliflman olan farelerin, SCD-1 eksikli¤ine yol açan bir genetik

kendisi ve refikasine ait Koma-İstanbul gidüp gelme biletlerinin Başvekâlet tarafından gönderil­ mekte olduğunu bildireceğim, Ayni zamanda, muhte­ rem Başvekilimi*