• Sonuç bulunamadı

Veri Madenciliği Tanımlar ve Temel Kavramlar

BÖLÜM 2: VERİ MADENCİLİĞİ

7. Bilgi Sunumu (Knowledge Presentation): Veri madenciliği ile elde edilen bilginin kullanıcıya aktarımı için görselleştirme ve sunum tekniklerinin

2.1.2 Veri Madenciliği Tanımlar ve Temel Kavramlar

Verinin bol olduğu ve güçlü veri analiz araçlarının kıt olduğu duruma veri zengini fakat bilgi yoksulu durumu denir. Bu kavramı biraz daha açacak olursak pek çok sayıda büyük veri havuzlarında toplanmış ve depolanmış, hızla büyüyen, muazzam miktardaki veri güçlü araçlar olmadan insanların anlamasının mümkün olmadığı hale gelmiştir. Karar vericilerin büyük miktardaki veri içinde gömülü olan değerli bilgiyi açığa çıkaracak donanıma sahip olmamaları önemli kararların veri havuzlarında depolanmış bilgi yönünden zengin veriye bağlı olmaktan ziyade karar vericinin önsezisine bağlı olmasına neden olmaktadır. Bunun sonucunda, verilerin toplandığı büyük veri havuzları nadiren ziyaret edilen “veri mezarları” haline gelmişlerdir. Buna ek olarak uzman sistem13 teknolojilerinin, kullanıcının veya ilgili alanın uzmanlarının bilgi tabanlarına bilgiyi elle girmelerine dayandığını düşünün.

Ne yazık ki bu durumda karar alma süreci önyargılara ve hatalara meyilli ve son derece masraflı ve zaman alıcıdır. Bu ihtiyaçlar ve veri ve bilgi arasındaki giderek büyüyen uçurum veriyi analiz eden ve iş stratejilerine, bilimsel ve tıbbi araştırmalara katkıda bulunan önemli veri örüntülerinin ortaya çıkarılmasını sağlayan veri madenciliği kavramını ortaya çıkarmıştır.

Madencilik, gerçek anlamda, yer altındaki madenlerin araştırılması, çıkarılması ve işletilmesiyle ilgili teknik ve yöntemlerin uygulanma süreçlerinin bütününü tanımlayan bir terimdir. Veri madenciliği ise farklı çevreler tarafından çeşitli şekillerde tanımlanmıştır.

13 Kullanıcılarına, uzmanların bilgi ve muhakeme yeteneklerine ulaşma ve bu yeteneklerden faydalanma olanağı veren bir bilgisayar paketidir

Gartner Group’a14 göre veri madenciliği “Depolama ortamlarında saklanmış büyük boyutlu verilerin örüntü tanıma teknolojilerinin yanı sıra istatistiksel ve matematiksel teknikler kullanılarak elenmesiyle anlamlı yeni korelasyonları, örüntüleri ve eğilimleri keşfetme sürecidir”. Diğer tanımlar ise şunlardır:

“Veri üzerinde, veri örüntülerin (veya modellerin) özel bir sıralamasını ortaya çıkaran veri analizi ve keşif algoritmalarından oluşan VTBK sürecinin bir adımıdır”

(Fayyad ve diğ., 1996).

“Veri madenciliği, önceden bilinmeyen, geçerli ve etkin bilginin büyük veri tabanlarından çekilmesi ve daha sonra bu bilginin son iş kararlarını almak için kullanılmasını kapsayan bir süreçtir” (Cabenave diğ., 1998).

“Veri madenciliği, büyük miktarda veri içinden gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların bilgisayar programları kullanılarak aranmasıdır” (Gürsoy, 2009).

“Veri madenciliği, büyük ölçekli veriler arasından değeri olan bir bilgiyi elde etme işlemidir. Bu sayede veriler arasındaki ilişkileri ortaya koymak ve gerektiğinde ileriye yönelik kestirimlerde bulunmak mümkün görülmektedir” (Özkan, 2013).

“Veri madenciliği (genellikle büyük) gözlemsel veri15setlerinin, önceden akla gelmeyen ilişkileri bulmak ve kullanıcıya göre hem anlaşılabilir hem de kullanışlı yeni yollarla özetlemek için analiz edilmesidir” (Hand ve diğ., 2001).

“Bir hipotezi ispatlamak (yukarıdan aşağıya veri madenciliği) veya kesin istatistiksel korelasyonlar üzerine kurulmuş yeni hipotezler üretmek amacıyla çok büyük veri tabanlarını sorgulama işlemidir” (Sullivan, 2012).

“Veri madenciliği, bilgisayar teknolojilerinin sağlamış olduğu çok hızlı veri işleme ve yüksek hacimde veri depolama imkanları yardımıyla ve farklı disiplinlerin (yapay zeka, makine öğrenmesi, uzman sistemler, veri tabanı teknolojileri, paralel bilgi işleme, dağıtık veri işleme, görselleştirme, optimizasyon, veri ambarcılığı, istatistik,…) katkısıyla sağlanan araçlarla, sahip olunan çok büyük hacimlerdeki veriden, karar vericinin etkin ve daha fazla bilgiye dayalı karar vermesinde kullanılabilmesi amacıyla önceden bilinmeyen, gizli, örtük, klasik metotlarla ortaya çıkarılması güç, faydalı, ilginç, anlaşılabilir ilişki, örüntü, bağıntı veya trendlerin

14 Gartner Group, Inc, merkezi Birleşmiş Milletler ’in Connecticut Eyaleti’nin Stamford Şehri’nde olan bir bilgi teknolojileri araştırma ve danışma firmasıdır.

15 “Gözlemsel veri” kavramı deneysel verinin zıttı anlamında kullanılmıştır.

otomatik veya yarı otomatik bir şekilde ortaya çıkarılması işlemidir” (Şentürk, 2006:

3).

Şekil 2.2: Veri madenciliği disiplinler arası bir çalışma alanıdır.

Esas itibarıyla modeller oluşturmak ve örüntüler bulmak amacıyla olmak üzere iki tip veri madenciliği yaklaşımı vardır. Model oluşturma ile ilgili olan yaklaşım, veri setlerinin büyük boyutlarından kaynaklanan problemler dışında, geleneksel istatistiksel araştırma yöntemlerine benzer. Örneğin, ileriki bölümlerde göreceğimiz, bir veri setinin ayrılması için kümeleme analizi; öngörüde bulunmak için regresyon analizi, vb. yöntemler. Model oluşturma yaklaşımında işlemsel ve mekanik modeller olmak üzere de bir ayrım yapılır. İşlemsel (deneysel) modeller model ilişkilerini, ilişkileri herhangi bir teoriye dayandırmadan araştırır. Mekanik (görüngüsel16) modeller ise temel veri üretme sürecinde bir teoriye veya mekanizmaya dayanır. Veri madenciliği, tanımı gereği, daha çok işlemsel modellerle ilgilenir (Jackson, 2002).

16 Olayları, iç yüzünü ve temelindeki nedenleri düşünmeksizin dış görünümleri ile incelemeye ilişkin.

Örüntü tespiti ile ilgili olan ikinci tip veri madenciliği yaklaşımı; sahtekârlık tespiti için bir kredi kartı kullanımındaki olağan dışı harcamalar, EEG17 işaretlerindeki düzensiz dalgalanmalar ve diğerlerinden farklı örüntü özelliklerine sahip nitelikler gibi alışılmadık örüntü davranışlarını tespit etmek için standart örüntüdeki küçük ama muhtemelen önemli sapmaları belirlemek ister. Bu tip yaklaşımlar veri madenciliğinin, veri yığınları içinden değerli bilgiyi araştırması kavramının ortaya çıkmasına yol açmıştır (Fayyad ve diğ., 1996).

Örüntü tespiti için kullanılan pek çok veri madenciliği algoritması esas örüntüyü tarayarak anlamsız özelliklerin etkilerini ayırt edebilirken, veri tabanlarının içerdikleri verilerin süreksiz, gürültülü, muğlak ve eksik olması gibi anormalliklerin sayısı arttığında madencilik algoritmalarının öngörü gücü azalabilir. Bu anlamda ticari veri tabanları karmaşıklıklarından dolayı örüntü çıkarımında benzersiz bir problem arz eder.