• Sonuç bulunamadı

Doğal dil metinlerini analiz etmeyi sağlayan metin madenciliği, nitelikli veri ve bilgi elde etme sürecinde veri madenciliğiyle benzer sistem mimarisine sahiptir. Her iki analiz, önişleme rutinleri, örüntü keşfi algoritmaları ve sonuçların yorumlanması için görselleştirme araçları gibi benzer özelliklere sahiptir. Yapılandırılmamış metin verilerini, veri madenciliği analizi yapılabilecek yapılandırılmış veriye dönüştürme aşaması haricindeki tüm aşamalar aynıdır. Başka bir ifade ile metinden bilgi keşfinde, sırasıyla metin ve veri madenciliği kullanılmaktadır.

Veri madenciliği süreci, birbirini izleyen beş adımdan oluşmaktadır (Şekil 6). İlk adım, verileri oluşturan dökümanlarının toplanmasıdır. Bu adımda çeşitli programlar ile analistin kararına göre metinsel veriler toplanmaktadır. İkinci adım; veri setinin metin dışındaki şekil, tablo, resim gibi formatlardan temizlenmesi; gereksiz sözcükleri temizleme; imla kurallarına veya farklı sözcük sıralaması olasılık hesaplama modeline göre sözcük işaretleme; kelime anlamlandırmayı sağlayan gövdeleme; sözlük oluşturma; kelime köklerini tespit etme gibi teknik işlemlerin yapıldığı metin ön işleme sürecidir. Bu süreci ise analizin verimini arttırmak amacıyla kullanılan, ilgisiz verilerin analizden çıkarıldığı veri-boyut indirgeme izlemektedir. Ardından yapılandırılmış metinler, veri madenciliği algoritmaları ile analiz edilmekte ve sonuçlar değerlendirilerek yorumlanmaktadır.

Şekil 6: Veri ve Metin Madenciliğinde Bilginin Keşfi Adımları

Kaynak: Han, J. ve Kamber M., Data Mining Concepts and Techniques, Morgan Kaufmann Publishers, 2001: 7.

Metin ön işleme sürecinde, dil ve algı yeteneği olmayan bilgisayar sistemlerinin, metin dilini ve anlamını çözümlemesi için günümüzde geliştirilen birçok teknik mevcuttur. Bu teknikler içerisinde metin madenciliği analizinde en çok kullanılanlar; bilgi çıkarımı, dilbilimsel analiz ve bilgi keşfidir. Üç tekniğin ortak noktası, bilgisayar sistemlerin insan beyni gibi metinleri çözümlemesini hedeflemeleridir. Bu sayede bilgisayar sistemleri, metin yığınlarını tek tek okumaya gerek olmadan, metin madenciliği teknikleriyle kişilerin karar verebilmesine yardımcı olabilmektedir. Veri Toplama Ön işleme Veri - boyut indirgeme Veri Madenciliği Yorumlama ve Doğrulama Bilgi

1.6.1.

Bilgi Erişimi (Information Retrieval - IR)

Bilgi erişimin amacı, büyük döküman kolleksiyonlarından araştırma konusundaki bilgi ihtiyacına göre ilgili dökümanları bulup ortaya çıkarmaktır. Erişilmek istenen bilgi, veri yığınları içinde gizlidir. Bilgi erişim sistemi, ihtiyacı karşılayacak bilgiyle ilgili tüm belgeleri erişime sunarken, ilgisiz belgeleri de ayıklamaktadır. Arama motorları, günümüzde kullanılan en gelişmiş bilgi erişim sistemlerindendir. İnternet ortamında milyarlarca belgenin arasından, ihtiyaç olan bilgi olarak sisteme girilen kelime/cümle ile ilgili tüm belgeleri kullanıcının erişimine hazır halde sıralamaktadır. Bilgi erişim sistemlerinin diğer bilinen örnekleri ise kütüphane veritabanları, görsel nesne arama sistemleri ve soru cevaplama sistemleridir.

Şekil 7: Bilgi Erişim Sistemi Mimarisi

Şekil 7’de, bilgi erişim sistemi mimarisi örneği yer almaktadır. Kullanıcı sorgusu ile başlayan süreç, geniş belge kolleksiyonunda çeşitli modellere göre tarama yapmaktadır. IR sistemi, kullanılan modele uygun sorgu sonuçlarını döküman puanlama işlemi ile listelemektedir. Son olarak, kullanıcı listelenen sonuçlardan bilyiye erişim sağlamaktadır.

Belge kolleksiyonu Sorgu cümlesi IR Sistemi Döküman listesi - Bilgiye Erişim

Bilgi erişim sisteminin, metni iyi temsil etmesi için vektör uzay modeli ve gizli anlamsal indeksleme modelleri kullanılmaktadır. Vektör uzay modeli (vektör space model), sorguları temsil eden nesnelerin, Öklid uzaklıklarını hesaplayarak iki vektör arasındaki mesafeyi sorgu kriterlerine göre listelemektedir. Kelimelerin (nesnelerin) bağımsızlığı varsayımı ile benzerlik hesaplamaktadır. Gizli anlamsal indeksleme (latent semantic indexing) ise eş veya çok anlamlı kelime problemlerini gideren bir modeldir. Döküman veri setlerini sorgu kelimelerinin geçmesi ve yakın anlam taşıması kriterlerine göre analiz etmektedir. Gizli anlamsal indeksleme, dökümanlar arasında ortak kelimeler olmadığı durumda, anlam yakınlığının olup olmadığını araştırmaktadır (Pirkola vd., 2001).

1.6.2.

Dilbilimsel Analiz (Doğal Dil İşleme)

Dilbilimsel analiz, doğal dildeki metinlerin veya seslerin bilgisayar sistemleri tarafından işlenmesini ifade eden bir dil bilim ve bilgisayar bilimleri dalıdır. Ses, biçim, sözdizilim, anlam çözümleme ve üretme yöntemlerini kullanmaktadır. Dilbilimsel analiz ile seslerin ve metinlerin bilgisayarlar tarafından anlaşılması, diller arası çeviriler yapılması amaçlanmaktadır.

Dilbilimsel analiz; yapay zeka, kuramsal dilbilim, psikoloji ve bilişim sistemlerinin geliştirdiği kuram, yöntem ve teknolojileri biraraya getiren doğal dil işleme çalışmalarının konusunu oluşturmaktadır. Doğal dil işleme; harfleri ve sesleri inceleyen sesbilim, sözcük oluşturma ve türetme yöntemlerini inceleyen biçimbilim, sözcükten cümle oluşturma ve sıralama konularını inceleyen sözdizimbilim, sözcüklerin gerçek ve mecaz olma durumlarını inceleyen anlambilim ve sözcüklerin kullanıldığı cümleye göre değişimini inceleyen kullanımbilim alt dallarından oluşmaktadır (Oğuzlar, 2011: 11-14).

Doğal dil işleme tekniklerinin en basit kullanım alanları; kelime işlemci programlarda uygulanan yanlış sözcüklerin otomatik düzeltilmesi, mobil telefonlarda aranacak kişinin adı söylendiğinde ilgili kişinin otomatik araması veya çağrı merkezlerinin ses ile ilgili menüye yönlendirme yapmasıdır. Bilinen en eski ve ünlü örneği ise 1966’da, Weizenbaum tarafından geliştirilen “ELIZA” dır. ELIZA

psikoterapist rolü yapan bir bilgisayardır. Bilgisayar, hastalarla soru cevap şeklinde konuşarak iletişim kurmakta, iletişim kurduğu kişilerin cümlelerinden anahtar sözcük veya örüntü tanımlayarak, gerçek insan gibi anlamlı sorular sormakta ve cevaplar vermektedir. ELIZA, doğal dil işlemenin en erken ve başarılı örneğidir (Pruijt, 2006).

1.6.3.

Bilgi Çıkarımı (Information Extraction - IE)

Bilgi çıkarımı (BÇ), döküman koleksiyonlarından belirlenen kalıplara uygun bilgiyi çıkarma işlemi olup, metin madenciliği ön işleme aşamasında kullanılan önemli bir tekniktir. BÇ, metin içerisindeki kelimelere göre arama yapmakta ve önceden belirlenen kelimelerin geçtiği metinleri ilgili sınıflara atama işlemi gerçekleştirmektedir. Ancak bilgi erişimden farklı olarak bilgiyi tam olarak belirlemektedir. Bilgi erişim sistemi olan arama motoruna yazılan kelimelere uygun tüm dökümanlar listelendikten sonra kullanıcının aradığı bilgiye ulaşabilmesi için tüm dökümanları incelemesi gerekirken, bilgi çıkarım sistemi, aranan bilginin tam karşılığını ortaya çıkarmaktadır. Örneğin; “Elif A. X bankası bankamatiğinden para çekerken kimliği belirsiz kişiler tarafından dolandırıldı” cümlesi, “Kurban: Elif A.; Olay: Dolandırıcılık; Zanlı: Belirsiz” şeklinde bilgi çıkarım sistemi ile yapılandırılmış formata dönüşmektedir. Varlık, ilişki, zaman, değer ve olay saptama veya tanımlama amacıyla kullanılmaktadır.

Bilgi çıkarımı, tanımladığı nesneyi anlam ve ilişkisi ile belirten bir dil teknolojisidir. Bu dil teknolojisi; hükümetler, işletmeler ve yayıncılar için bilgiye hızlı ulaşmayı sağladığı için çok önemli ve zaman tasarrufu sağlayan bir sistemdir. Bilgi çıkarım sistemleri; verilecek kararlar için belli bir zaman aralığında, devlet hangi işletmelerin zarar veya kar elde ettiği, işletme hangi ürünlerin e-ticaret sitesinde takip edildiği, yayıncı web ortamında hangi konuların popüler olduğu bilgilerine ulaşılmak istediğinde avantaj sağlamaktadır (Cowie ve Wilks, 1996).