• Sonuç bulunamadı

Yapısal özellikleri bakımından çeşitlendirilen veritabanlarının ortak işlevi veri depolamaktır. Depolanan veriler, veri madenciliği analizi için önemli veri kaynaklarıdır. VM analizinin ana amacı; veri kaynaklarından bilgiye ulaşmaktır. Veri setinden elde edilen bilgi, örüntü veya desen olarak da adlandırılmaktadır.

Örüntü veya desen, verinin içerisinde farklı türlerde yer alabilmektedir. Bir veri setinde elde edilen desen, veri sınıfı iken bir diğer veri setinde elde edilen desen, olağandışı bir durum/nesne olabilmektedir. VM analizi, elde edilen desenlere göre incelendiğinde; karakterize etme, ayırma, sıklık belirleme, birliktelik, ilişkilendirme, tahminde bulunma, gruplama, aşırılık belirleme, grafik tanımlama olarak sıralanabilmektedir. Bu desenlerin ortaya çıkışına göre veri madenciliği yedi başlık altında incelenmiştir.

1.3.1.

Kavram Çıkarsama/ Sınıf Tanımlama

Kavram çıkarsama veya sınıf tanımlama, veri setini özetlemekte ve veri setine özgü terimlerle ifade edilmektedir. Bu VM türünde veriler, sınıflar ve kavramlarla ilişkilendirilmektedir. Kavram ve sınıf, veri setinin tanımlanmasıdır. Bu tanımlama; incelenen verinin nitelendirilmesi veya genel terimlerle özetlenmesi şeklindedir. Örneğin; ürün çeşitleri, sınıf; ürün hedef kitlesi ise kavram olarak tanımlanmaktadır.

Kullanıcı tarafından belirtilen sınıfa karşılık gelen veriler genellikle veritabanında, çeşitli SQL sorguları çalıştırılarak toplanmaktadır. Ortaya çıkan sonuçlar, genelleştirilmiş ilişkiler şeklinde açıklanabilmektedir. Örneğin, bir önceki yılda satışları artan banka, ihtiyaç kredisi ürünlerinin özelliklerini incelemek için satış veritabanında çeşitli SQL sorguları çalıştırarak, bu krediyi alan müşterilerin özelliklerini ortaya çıkarabilmektedir. VM analizi ile müşteri özellikleri arasında ilişki kurulabildiğinde ise elde edilen bilgi (desen), bu ürünü satın alan kişilerin genel profilini özetlemektedir (Shaw vd., 2001: 129).

1.3.2.

Sıralı Örüntü Keşfi, Birliktelik Kuralları ve

Korelasyon Tanımlama

Sıralı örüntü keşfi ve birliktelik kuralları, veride sık rastlanan kalıplardan oluşturulan kuralları belirlemektedir. İki VM türünün ortak noktası, sık rastlanan kurallardan, örüntü/desen olarak adlandırılan önceden analistin belirlediği bir model oluşturmaktır. Sıralı örüntü keşfini, birliktelik kurallarından ayıran özellik ise sık rastlanan kalıpları oluşturan işlemlerde belli bir sıra olmasıdır. Örüntü tanımlamada öncelikle varolan veriden bir takım çıkarımlarda bulunulur. Örneğin; bir bankanın son bir yılın verilerinden ev kredisi alanların ardından, ihtiyaç kredisine başvurduğunu belirlemesi, bir sıralı örüntü tanımlama işlemidir. Gen araştırmaları, tıbbi tedaviler, doğal afetler gibi çalışmalar da işlem sırasının veya zamanının önemli olması nedeniyle sıralı örüntü keşfi tercih edilmektedir.

Sık kullanılan örüntülerin taranması, veri içindeki ilginç birlikteliklerin ve kolerasyonların keşfedilmesine yol açmaktadır. Kolerasyon, tahmin modellerinden farklı olarak, veri setindeki herbir verinin veya veri grubunun ilişkisini ortaya çıkarmaktadır. Herhangi bir öğrenme ya da model olmadan, bu işlemi gerçekleştirmektedir. Birliktelik kurallarında ise kullanılan algoritma, önce sık rastlanan kuralları belirlemekte, ardından bunun güvenilir olup olmadığını test etmektedir (Masseglia vd., 2005).

1.3.3.

Tahminde Bulunma

Tahminde bulunma, eldeki verilerin analizi sonucu oluşan modele, yeni eklenen verilerin benzerliğine göre kestirim yapmaktır. Sınıflandırma ve istatistiksel tahmin tekniklerini kullanmaktadır. Karar ağaçları, genetik algoritmalar, yapay sinir ağları, sınıflandırma tahmin modellerinden geliştirilmiştir. Karar ağaçları, kök ve dal yapısına göre veri setini modellemekte ve eklenen her yeni verinin, bu ağaç yapısına göre ait olduğu dalı belirlemektedir. Genetik algoritmalar ve yapay sinir ağları da benzer prensipte farklı hesaplama teknikleriyle tahminde bulunmaktadır. İstatistiksel tahmin modellerden ise en fazla kullanılanlar regresyon, diskriminant analizi ve lojistik regresyon analizidir.

Teknik, hedef müşteri kitlesi belirleme, trend analizi, çapraz satış, müşteri ilişkileri yönetimi alanlarında kullanılmaktadır. Örneğin; işletme, müşterilerinin her bölgedeki satışlarından oluşturulan modele göre bölgelerin gelecek yıl ürün tercihleri ve ihtiyaçları tahmin edilebilir ve bu sonuca göre üretim kapasitesi belirleyebilir (Bounsaythip ve Rinta-Runsala, 2001).

1.3.4.

Gruplara Ayırma

Gruplara ayırma, belirlenen grup sayısına göre, verileri ortalama özelliklerinin yakınlığına veya uzaklığına göre ilgili gruplara atama olarak tanımlanmaktadır. Grup özelliklerinin önemli farklarının olup olmadığı belirlenmekte, verilerin bulunduğu gruba katkısı hesaplanmakta ve gruplar arasındaki

farkı oluşturan veriler saptanmaktadır. Gruplara ayırmada kümeleme, yapay sinir ağları ve görselleştirme teknikleri kullanılmaktadır.

Kümeleme analizi, veriyi indirgeme ve özetleme amacıyla çeşitli uzaklık hesaplama teknikleriyle gruplar oluşturmaktadır. Yapay sinir ağları tekniklerinden biri olan “kendini düzenleyen haritalar-kohonen ağları”, gruplara ayırma ve boyut indirgeme için kullanılmaktadır. Görselleştirme ise veri bağlantılarını koruyarak boyut indirgemeyi gerçekleştirmektedir (Taşkın ve Emel, 2010: 400).

1.3.5.

Aşırılık Analizi

Veri analizlerinde öngörülmeyen, istisnai olarak yer alan değerler, aşırı değerlerdir. Aşırı değerler, birçok analiz uygulamasında veri setinden çıkarılmakta ve değerlendirilmemektedir. Ancak bazı durumlarda aşırı değerler çok değerli bilgileri içerebilmektedir. Örneğin; bir işletmenin yüksek tutarlarda banka havalesi gerçekleştirirken, zaman zaman 100 TL gibi nispeten düşük tutarlarda banka havalesi yapması, analizden çıkarılabilecek aşırı değerler olarak değerlendirilebilir. Aynı işletmenin belirli bir zamanda, ardı ardına 0,5 TL gibi düşük tutarlarda banka havalesi yapması, incelenmesi gereken aşırı değerler olarak nitelendirilebilir.

İşletmeler, müşteri profillerine göre satış stratejileri geliştirmektedir. Beklenmedik müşteri davranışları, strateji geliştirme amacıyla kullanılmaktadır. Aşırılık analizinde, ilk olarak aşırı değer içeren veriler toplanmaktadır. Ardından müşteri davranışlarındaki aşırı değerlerin, ortalama müşteri davranışından hangi durumlarda farklılaştığı belirlenmektedir. Belirlenen farklılıkların kaynak nedeni araştırılarak, işletmenin yeni duruma uygun stratejiyi uygulaması önerilmektedir.

Dolandırıcılık tespiti, aşırılık analizinin en bilinen kullanım alanıdır. Dolandırıcılık tespitinde denetimli makine öğrenmesi kullanılmaktadır. Var olan dolandırıcılık verilerine göre oluşturulan model ile yeni gelen veriler arasındaki benzeliklerin bulunması temeline dayanmaktadır (Berkhin, 2006: 42-43). Bilgisayar ve ağ sitelerine sızıntıların ve doğal felaket olaylarının belirlemesi ise aşırı değerler analizinin diğer önemli kullanım alanlarıdır.

1.3.6.

Görsel Veri Madenciliği

Görsel veri madenciliği, etkileşim ve bozulma teknikleriyle verinin algılanabilirliğini arttırmak amacıyla kullanılan bir tekniktir. VM ve görselleştirme teknikleri birlikte kullanılmaktadır. Dinamik izdüşümler, etkileşimli filtreleme, etkileşimli mesafe ayarlama, etkileşimli bozulma, etkileşimli birleştirme ve temizleme gibi görselleştirme teknikleri ile veriyi, VM uygulamaları için daha kullanışlı hale getirmektedir. Çok boyutlu veriyi iki ya da üç boyuta indirgeyip, veriler arasındaki ilişkiyi koruyarak yeni örüntü çıkarımı elde etmektedir.

Görsel veri madenciliği süreci sırasıyla; ham verinin toplanması, görselleştirme tekniklerinin uygulanması, VM tekniklerinin uygulanması, bilgi çıkarımı şeklinde gerçekleşmektedir. Görsel bilgi çıkarımı sezgiseldir ve bilgisayar sistemleri ile insan algılama sistemleri arasında bir köprü oluşturmaktadır. Gürültülü ve heterojen yapıdaki görsel veri setlerinden, kalitatif çıkarımlar elde etmeye elverişlidir (Keim, 2002).

1.3.7.

Web Madenciliği

Web madenciliği; web dökümanları, içerikleri, siteleri, sayfaları, logları, kullanıcı kayıtları, oturum bilgileri, hareket bilgileri ve servislerinden otomatik olarak bilgi çıkarma amacıyla kullanılan veri madenciliği türüdür. Web’in küresel bilgi kaynağı olması, veri madenciliğinde büyük veri kullanımı bakımından önemli yere sahiptir.

Büyük, dağınık ve karmaşık yapıdaki web verisinin etkin analiz edilmesi dört aşamalı bir süreç gerektirmektedir. Bu süreç; online veya offline çeşitli kaynaklardan veri toplama, dağınık ve karmaşık yapıdaki veriyi ön işlemden geçirerek işleme, oluşturulan modele göre çıkan sonuçtan genel-geçer kurallar üretme ve elde edilen kurallar yardımıyla anlamlı sonuçlar çıkararak geleceğe yönelik tahminde bulunma aşamalarını kapsamaktadır.

Web madenciliğinin web yapı madenciliği, web içerik madenciliği ve web kullanım madenciliği olmak üzere üç farklı çeşidi mevcuttur. Web yapı madenciliği, web siteleri ve sayfaları arasındaki linklerden bilgi çıkarma işlemidir. Web sitelerinin benzerliklerini ve ilişkilerini link mimarisine göre ortaya çıkarmaktadır. Web yapı madenciliğini hiperlink analiz düzeyinde yapan Google, birçok arama motorundan farklı olarak, arama yapılan sayfayı getirirken benzer sayfaları da sıralama özelliğine sahiptir. Web içerik madenciliği, yapay zeka gibi akıllı yazılım programları ve otomatik bilgi tarama tekniklerini kullanmaktadır. Web kaynakları metin, ses, resim, görüntü, link ve meta veri gibi yapılandırılmış ve yapılandırılmamış veri barındırmaktadır. Bu nedenle web içerik madenciliği, hem veri hem de metin madenciliği tekniklerini kullanmaktadır. Arama motorları, web içerik madenciliğinin en bilinen örneğidir (Guidici, 2009). Web kullanım madenciliği, internet sunucularınında, kullanıcının izni dışında ziyaret edilen sayfalar nedeniyle oluşan verilerden bilgi çıkarımı ile ilgilenmektedir. Genellikle promosyon kampanyaları, kişiselleştirme, sistem geliştirme, web sitesi yenileme, iş zekası uygulamaları, internet kullanım profili belirleme konularında kullanılmaktadır (Liu, 2007: 532).