• Sonuç bulunamadı

Metin Madenciliğinin Kullanım Alanları

1. VERİ OLARAK METİN

1.3. Metin Madenciliğinin Kullanım Alanları

Veri madenciliğinin özel bir alanı olan metin madenciliği, içinde metin geçen tüm verilerin işlenmesinde kullanılır. Metin madenciliğini veri madenciliğinden ayıran en temel özellik yapılandırılmamış veriyle de çalışmasıdır. Yapılandırılmamış veriye sahip olan tüm alanlar metin madenciliği için bir kaynak olabilmektedir. Başlıca kullanım alanları; bilgi çıkarma, konu izleme, özetleme, kategorizasyon, kümeleme, kavram bağlantısı, bilgi görselleştirme, soru cevaplama, tahminde bulunma olarak sayılabilir.68,69 Aynı şekilde son zamanlarda metin madenciliğinin en sık kullanım alanları arasında; müşteri ilişkileri yöntemleri, sahtekârlıkların tespiti, bilimsel

66 Akar Özlem ve Güngör Oğuz, ‘Rastgele Orman Algoritması Kullanılarak Çok Bantlı Görüntülerin Sınıflandırılması’, Jeodezi ve Jeoinformasyon Dergisi, Ankara, 2013, s141 .

67 Kuzucu.a,g,e,. s. 15

68 Weiguo Fan ve Diğerleri, "Tapping into the Power of Text Mining", Comminications of the ACM, New York, V.

49, 2006, s.77-80

69 Jelena Jovanovic.s.6

23

araştırmalar, güvenlik-istihbarat, pazar araştırmaları, biyomedikal çalışmalarını da sıralamak mümkündür.70

Kısaca açıklamak gerekirse;71,72

Bilgi çıkarma; bilgisayarların yapılandırılmamış veriden hareketle analiz yapma sürecindeki ilk aşaması bilgi çıkarmadır. Bunu yaparken metin içinde önceden tanımlı dizileri arar, desen eşleme adı verilen süreç sayesinde, metin içinde yer alan bilgi çıkarımında bulunur. Sistem bunu otomatik yaparken görüntü eşleme sayesinde bilgiye erişmektedir.

Konu izleme; bir kullanıcının profillerinden hareketle o kullanıcının ilgi duyabileceği diğer konular saptanmaya çalışılır. Günümüzde pek çok web sitesi bunu uygulamaya yönelik araçlar kullanıcılarına sunmaktadır. Örneğin youtube’da izlediğiniz videodan hareketle otomatik olarak size ilgi duyabileceğiniz benzer sınıftaki videolar önerilir. Konu izleme, makine öğrenmesinde denetimsiz öğrenmenin bir unsuru olarak karşımıza çıkmaktadır.

Özetleme; uzun bir belgenin, kullanıcının ihtiyacını karşılayıp karşılayamayacağını anlamak için özetlenmesi sürecidir. Buradaki amaç kullanıcının tüm metni okumadan sadece bir paragraf sayesinde, bu metnin ihtiyacını karşılayıp karşılayamayacağını görebilmesidir. Özetleme yapılırken dikkat edilmesi gereken husus, metnin ana temasının, bütünlüğünün korunabilmesidir. Burada temel amaç okuyucuya zaman kazandırmaktır. Bilgisayarlar özetleme yaparken kişi isimleri, yer isimleri, tarihler gibi bilgileri belirlemede başarılı iken, tüm metni analiz edip anlamlandırmakta yetersizdirler. Bilgisayarlar, insanlar gibi bir dil yeteneğine sahip olmadıklarından, henüz insanlar kadar başarılı özetleme yapamamaktadır. İnsanlar kadar başarılı olmasa da kazandırdığı zaman nedeniyle özetleme özelliği çok kullanışlı olabilmektedir.

Kategorizasyon; bilgisayarlar kategorizasyon yaparken, genellikle belgeyi sözcük paketi (bag of words) olarak değerlendirir. Kategorizasyon, gerçek bilgileri ortaya koymaktan ziyade, sadece kelimelerin frekanslarından hareketle belgenin ana

70 Jelena Jovanovic. s.51

71 Jelena Jovanovic.

72 Dolgun ve Özdemir.

24

konularını tanımlamaya çalışır. Yapılan bu işlem sayesinde belge, önceden tanımlanmış belli bir kümeye yerleştirilerek belgenin ana teması ortaya çıkarılmış olur. Terimlerin frekansları hangi kümeye belgenin yerleştirileceğini belirleyen temel unsurdur. Metinde sadece bir kez tekrarlanan terimler metinin kategorizasyonu için önemsizdir.

Kümeleme; amaç benzer belgelerin ortak gruplarda toplanmasıdır.

Kategorizasyondan temel farkı kümeler önceden belirlenmiş değildir, işlem anında ortaya konulmaktadır. Önemli bir yararı, belge içinde birden çok alt konu varsa bunların hepsinin görülebiliyor olmasıdır. Bu durum bizim için, işimize yarayan bir belgenin arama sonuçlarında atlanmamasını sağlamaktadır. Kümelemede vektör uzayı mantığıyla vektörler oluşturulur ve belgenin her bir kümeye ne kadar uyduğu bu şekilde belirlenir.

Belge uyum sağladığı tüm kümelerde kendine yer bulur. Bu sayede belge kendine sadece tek bir kümede değil de alakalı olan iki veya daha fazla kümede aynı anda yer bulabilir.

Kavram bağlantısı; belgelerdeki ortak kavramların tanımlanmasını sağlar. Bu sayede belki de araştırmacıya, geleneksel arama metotlarıyla bulamayacağı bilgileri bulmasında yardımcı olunabilir. Bilgiyi aramadan ziyade tarama yapılmasını sağlayan bir yöntemdir.

Bilgi görselleştirme; çok geniş metinsel kaynakların belli bir hiyerarşiyle basit bir harita vb. görselliğe kavuşturulmasını sağlar. Kullanıcı bu sayede; çok büyük miktardaki metnin eşleşmelerini ölçeklendirme, bölge haritalarını kurabilme gibi işlemler yapabilir. Bunun sonucunda, kullanıcı geniş bir dokümanı daraltarak ilgilendiği konuya yönelebilir. Bu alanda bilgi görselleştirme son derece yararlıdır. Özellikle sosyal ağ analizinde kullanımı geniş bir yere sahiptir.

Soru cevaplama; metin madenciliğinin kullanım alanlarından biri de verilen bir soruya en iyi cevabın nasıl bulunacağıdır. Soru cevaplama yönteminde birden fazla teknik bir arada kullanılabilir. Örneğin bilgi çıkarma tekniği ile insanları, yerleri, olayları ayıklayabilir, sınıflandırma tekniği ile kim, nerede, ne zaman vb. soru özellikleri sınıflandırabilir. Tüm bu süreçlerden hareketle sistem sorulara en doğru yanıtı vermeye çalışır.

25

Tahminde bulunma; kullanıcı profili ve geçmiş işlemlerinden hareketle kullanıcıya özel, o kişinin ilgisini çekebileceği düşünülen diğer dokümanlar tahmin edilmeye çalışılır. Sosyal paylaşım siteleri bu uygulamaya çok sık başvurarak kişiye tanıyor olabileceği kişileri önermekte veya ilgi alanına uygun olduğu tahmin edilen reklamlar sık sık karşısına çıkarılmaktadır.

Müşteri ilişkileri yönetimi; tüm müşterilere ait erişilebilecek tüm bilgiler;

iletişim bilgileri, kişisel bilgiler, anket verileri, alışveriş hareketleri gibi verilerden hareketle, nitelikli bilgi elde edilip, müşterilere, çapraz satışları tahmin etmek gibi süreçlerde kullanılır. Müşterilerin ihtiyaçları tespit edilip satışın cazip hale getirilmesi için müşteri bazlı kampanyalar düzenlenebilmektedir.

Sahtekârlık tespiti; sağlık, sigorta gibi sektörlerde toplanmış olan büyük hacimdeki verilerden hareketle çeşitli kalıpların ve anormalliklerin saptanarak sahtekârlıkların tespit edilmesinde kullanılır. Özellikle sigorta şirketlerinin çok sık karşılaştıkları sahtekârlıkların önüne geçilebilmesi için modeller oluşturulmaya çalışılmaktadır. Modellerden hareketle hasar kayıtları incelenip sahte işlem yapılıp yapılmadığı saptanabilmektedir.

Güvenlik – istihbarat; kişiler, gruplar arasındaki bağlantılar incelenerek, terör olaylarının tahmin edilmesi, bunların engellenmesi için çalışmalar yapılır. Bunun için çok büyük miktardaki suç ve suçlu profili, kriminal verilerden faydalanılır. Bu verilerden hareketle aralarında bağlantı olan veya bağlantılı olma olasılığı olan kişiler tespit edilmeye çalışılır.

Pazar araştırması; yayınlanmış belgeler, makaleler, internet siteleri, basında çıkan haberler, bültenler, dergiler, anket sonuçları pazar etkisini ölçmek için sürekli olarak takip edilir. Satış rakamları, pazar payları, pazarlama için çok büyük veriler oluşturmaktadır. Bu verilerden hareketle pazar ve pazarlama sürecine ilişkin çeşitli tahminlerde bulunulur.