• Sonuç bulunamadı

BBY428 Metin Analitiği

N/A
N/A
Protected

Academic year: 2021

Share "BBY428 Metin Analitiği"

Copied!
10
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

BBY428 Metin Analitiği

Prof.Dr.Tülay Oğuz

(2)

Yapılandırılmış Veriler

• Kütüphane Kataloğu…….MARC yapısı

• Veri tabanları……alanlar, kayıt tipleri…

• Arama Motorları….dizin yapıları…metadata

• Sorgulama …..Arama Stratejileri(Boolean, eşleşme fonksiyonları vb)…Erişim

• BES…Hız, Maliyet, Etkililik

(3)

Yapılandırılmamış Veriler

Doküman içerikleri

Sosyal Medya Mesajları e-postalar

Dokümanları

BES

Hazırlama

Erişilebilirlik

(4)

Dokümanları Hazırlama/Önişleme

1. Niteleme / Varlıkların Temsil Unsurlarının Belirlenmesi

Kayıtların Oluşturulması

İçerik Tanıtaçları (dizin terimleri,

konu başlıkları vs)

(5)

Önişleme

2.İlişkilendirme

Kayıtlar (yazar)

İçerik Tanıtaçları (sınıflama sistemleri kodları, konu başlıkları, terim sınıfları =

tesaruslar)

Tesaruslar: Sözcük ilişkileri (geniş/dar, eş/zıt anlam vb) Kümele için LSA gibi teknikler

İşlevleri: Sorgu genişletme, yerden tasarruf,

(6)

Önişleme

• Depolama: Dizin yapılarının belirlenmesi

Inverted File

Positional Index

Hashing

(7)

ERİŞİLEBİLİK

• Amaç: sorgu-doküman eşleşmesini sağlamak

• Arama

Boolean operatörleri

Sözcükleri konumlarına göre arama Kesme işaretleri, tırnak kullanımı

Sınırlama

• Sonuç Listesi

Sıralama / İlgililik

(8)

İÇERİK TANITAÇLARI

• Belgeyi temsil ederler;

• Dizin için giriş unsurlarıdır;

• Belgeyi bir yönüyle temsil eder, o nedenle bir belgeyi temsil için birçok terim seçilir;

• Terimleri belirleme sürecine dizinleme denir;

Manuel Otomatik Denetimli Denetimsiz

Konu sözlükleri, tesaruslar

(9)

Önişleme

Terim listesini belirleme Hans Peter Luhn

Sözcük frekanslarının belirlenmesi F

ik,

TotFrek

i,=

F

ik

Dokfrek

i

• 1. Aşama

• Harf olmayan karakterler çıkarılır

• Tek harfli sözcükler elenir

• Bütün karakterler küçük harf yapılır

(10)

• 2. Aşama

• Terimlerin toplam frekansları hesaplanır;

bu değerler azalan doğrultuda listelenir.

• Dermeye duyarlı ikinci bir stopword list oluşturularak yüksek frekanslı sözcükler

buraya alınır. Bunlar tamlama üretmek için de kullanılabilir.

Doküman-Terim Matrisleri Oluşturulur.

Referanslar

Benzer Belgeler

leri oturmuş, sabitlenmiş kimliklerin karşıtı olarak görmüyor, bütün kimliklerin her zaman zaten kültürel ve tahayyül edilmiş olduklarını, sürekli

Çağdaş Türk sanatında 1990 sonrası disiplinlerarası çalışan sanatçıların ortaya koyduğu işler uzlaşımsal temsil ve yeni doğalcı temsil kuramları içerisinde

«Yedi Gün» ün parlak muvaffakiyetinden sonra «Hürriyet» i kurdu ve bunu kısa bir zamanda memleketin en çok okunan gazetesi derecesine çıkarmağa muvaffak

Bireysel olarak üretimi yapılacak olan tangram parçaları, 3D modelleme programı olan Solidwork’de ayrı ayrı tasarlanmıştır... Tasarlanan büyük boy

Porter orijinal çalışmasında 60 sonek, 2 yeniden kodlama kuralı ve tek tip bir bağlam duyarlılık kuralı kullanmıştır. •

• Terim Frekansı: Bir terimin dokümandaki görünüm sıklığı / frekansı küme kurallarını ihlal ettiği için bu değer matriste temsil edilemiyordu.. Bir başka deyişle

• Top-K dokümanı depolarken, bütün benzer dokümanları depolayıp sonra benzer top-k dokümanı içinden çekip almak yerine heap yapısını kullanmak daha iyidir..

ya cari işlemeler fazlasına eşit düzeyde bir sermaye hesabı açığı vardır, ya da resmi döviz rezervlerinde – cari işlemler fazlası ile sermaye hesabı açığı arasındaki