Veri
madenciliği nedir?
Veriyi yönetmek için “Veri Ambarı”
oluşturulmuş ve 90’lı yıllarda veri ambarından verileri çözümleyerek “yararlı bilgiye” erişilmesini sağlayan “Veri Madenciliği” kavramları ortaya çıkmıştır.
Veri madenciliği; “veri ambarlarındaki
tutulan çok çeşitli ve çok miktarda veriye
dayanarak daha önce keşfedilmemiş bilgileri
Veri madenciliği kavramına getirilen farklı tanımları vardır:
Han ve Kamber :
“Büyük veri yığınlarından beklenmedik/bilinmedik, ilginç, anlamlı ve kullanışlı bilgilerin çıkarılmasıdır ”
William Frawley ve Gregory Piatetsky-Shapiro :
“Verideki gizli, önceden bilinmeyen ve potansiyel olarak faydalı enformasyonun önemsiz olmayanlarının açığa çıkarılması”
Solid State Technology :
“Bir ya da daha fazla cevap değişkeninin davranışını açıklamak için veritabanlarında mevcut geniş kümelerdeki gizli örüntüleri bulan bir metodolojidir”.
Hand :
“İstatistik, veritabanı teknolojisi, örüntü tanıma,
makine öğrenme ile etkileşimli yeni bir disiplin
SAS Şirketi:
“İşletme avantajına yönelik olarak önceden bilinmeyen örüntüleri keşfetmek için büyük miktarlarda verinin seçilmesi, incelenmesi ve modellenmesi süreci.”
Jacobs :
“Ham verinin tek başına sunamadığı bilgiyi çıkaran veri analizi süreci”
Alexander:
“OLAP’ın bir sonraki aşaması.” olarak tanımlanmıştır.
Neden Veri Madenciliği?
Her alanda, verilen kararların doğruluğu, kararı veren kişinin sadece sahip olduğu yeteneklerine ve deneyimine değil aynı zamanda bilginin yeterliliğine de bağlıdır.
Bu nedenle günümüzde artık “bilgi”, mal ve hizmetin yanında üçüncü üretim faktörü olarak değerlendirilmektedir.
Dolayısıyla karar vericiler doğru kararları alabilmek için daha çok veri depolamaya çaba göstermektedirler. Gelişen teknoloji ile artık günümüzde verilerin toplanması oldukça kolaydır.
Asıl zorluk büyük miktarlarda toplanan ve devamlı çoğalmakta olan ham veriyi, anlamlı ve kullanılabilir bir bilgiye dönüştürebilmektir.
Kurum, kuruluş ve şirketler hem ulusal hem de uluslararası rekabet ile karşı karşıya kaldıkları için bu noktada başarının anahtarı; var olan müşterileri korumak ve yenilerini elde etmek olmaktadır.
Veri madenciliği, şirketlerin bu konuları etkileyen faktörleri analiz edebilmelerine izin veren teknolojileri içermektedir.
Hangi müşteri, hangi ürünü, ne zaman satın alabilir, kimler tedarikçilerinden vazgeçmekte ve bu tür müşterileri vazgeçirmek/geri kazanmak için neler yapılabilir, ürünün değerini yitirmesine hangi değişkenler neden olmaktadır, vb.
soruların cevapları veri yığınlarının altındadır ve cevapları bulabilmek için veri madenciliği çözümleri gereklidir.
Veri madenciliği teknolojileri, ilk önce sadece akademik çevrede kabul görmüş; zamanla olgunlaşarak günümüz endüstrisinde kullanılmaya başlanmıştır.
Veri Madenciliğinin Tarihçesi
Veri madenciliğinin kökeni, ilk sayısal bilgisayar olan ENIAC (Electrical Numerical Integrator And Calculator)’a kadar dayanmaktadır.
1946 yılında geliştirilen ve bugün kullandığımız kişisel bilgisayarların atası olan ENIAC, ABD’li bilim adamları John Mauchly ve J. Presper Eckert tarafından, II. Dünya Savaşı sırasında ABD ordusu için geliştirilmiştir.
30 tonluk ağırlığıyla 170 m2lik bir alanı kaplayan bu
“ilk” bilgisayarın 70 sene içerisinde geçirmiş olduğu evrimin nihai boyutlarını şu anda masa üstünüzdeki bilgisayarlara yada elimizdekilere bakarak anlamanız mümkündür.
Bu evrim tabii ki belli bir süreç ve şartlar altında gerçekleşmiştir.
Donanımsal olarak hazırlanan bilgisayarların, yazılımlar vasıtasıyla hayat bulması ve kullanıcılara ulaştırılması, bilgisayar evrim döngüsünün anahtarıdır.
Bilgisayar ve yazılım uzmanlarının geliştirdikleri ürünler, kullanıcıların istekleri doğrultusunda zamanla şekillenerek bugünkü halini almış durumdadır.
Döngü, donanımın geliştirilmesinin ardından
yazılımın bu donanıma entegre edilerek
kullanıcıya ulaştırılmasıyla başlar.
Kullanıcı ihtiyaçları doğrultusunda yazılımda bulunan eksiklikleri belirler.
Yazılım uzmanları bu eksiklikleri göz önünde bulundurarak yeni yazılımlar geliştirirler.
Bu yazılımların çalışabilmesi için gerekli donanım güncellenmesinin yapılması için donanım uzmanları uyarılır.
Güncellenen bilgisayarlar tekrar kullanıcılara ulaştırılır ve döngü bu şekilde devam eder.
Döngünün anahtar elemanı kullanıcıdır.
Kullanıcılar, ihtiyaçları, istekleri belirler.
Dolayısıyla bu istekler bu sektörü doğrudan
etkiler ve gelişmenin kapıları açılır.
Bilgisayarların etkin kullanımı verilerin depolanması ile başlamaktadır.
İlk haliyle karmaşık hesaplamaları yapmaya yönelik geliştirilen bilgisayarlar, kullanıcı ihtiyaçları doğrultusunda veri depolama işlemleri için de kullanılmaya başlanılmıştır.
Bu sayede veri tabanları ortaya çıkmıştır.
Veri tabanlarının genişleme trendi içinde olması donanımsal olarak bu verilerin tutulacakları ortamların da genişlemesini gerektirmiş ve Veri ambarı kavramı ortaya çıkmıştır.
Saklanmak istenen veriler, bir ambar misali fiziksel sürücülerde tekrar kullanılmak üzere saklanmaya başlanmıştır.
Gittikçe büyüyen veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de buna paralel olarak güç bir hal almaya başladı.
Bu safhada veri modelleme kavramı ortaya çıkmıştır.
İhtiyaçlar doğrultusunda şekillenen veri tabanları ve veri modelleme çeşitleri hızla yaygınlaşırken, donanımlar da bu sürece ayak uydurdular.
Günümüzde milyarlarca bit veriyi ufacık belleklerde tutmak mümkün hale gelmiştir.
Verilerin saklanması, düzenlenmesi, organize edilmesi her ne kadar bir sorun gibi görünmese de bu kadar çok veri ile istenilen sonuca ulaşmak başlı başına bir sorun halini almıştır.
Veri madenciliği, kavramsal olarak 1960lı yıllarda, bilgisayarların veri analiz problemlerini çözmek için kullanılmaya başlamasıyla ortaya çıkmıştır.
O dönemlerde, bilgisayar yardımıyla, yeterince uzun bir tarama yapıldığında, istenilen verilere ulaşmanın mümkün olacağı gerçeği kabullenilmiştir.
Bu işleme veri madenciliği yerine önceleri veri taraması (data dredging), veri yakalanması (data fishing) gibi
isimler verilmiştir.
1990lı yıllara gelindiğinde veri madenciliği ismi, bilgisayar mühendisleri tarafından ortaya atılmıştır.
Bu camianın amacı, geleneksel istatistiksel yöntemler yerine, veri analizinin algoritmik bilgisayar modülleri tarafından değerlendirmesini vurgulamak olmuştur.
Bu noktadan sonra bilim adamları veri madenciliğine çeşitli yaklaşımlar getirmeye başlamışlardır.
Veri Madenciliğinin Uygulama Alanları
Veri madenciliğinin günümüzde hem özel hem de kamu işletmelerinde yaygın bir kullanım alanı bulunmaktadır.
aşağıdakiler sayılabilir;
Pazarlama
Bankacılık
Sigortacılık
Perakendecilik
Borsa
Telekomünikasyon
Sağlık ve İlaç
Endüstri
Lojistik
Bilim ve Mühendislik
Pazarlama
Müşteri segmentasyonunda,
Müşterilerin demografik özellikleri arasındaki bağlantıların kurulmasında,
Çeşitli pazarlama kampanyalarında,
Mevcut müşterilerin elde tutulması, yeni müşterileri kazanılmasında,
Pazar sepeti analizinde,
Çapraz satış analizleri,
Müşteri değerleme,
Müşteri ilişkileri yönetiminde,
Sigortacılık
Yeni poliçe talep edecek müşterilerin tahmin edilmesinde,
Sigorta dolandırıcılıklarının tespitinde,
Riskli müşteri tipinin belirlenmesinde.
Perakendecilik
Satış noktası veri analizleri,
Alışveriş sepeti analizleri,
Tedarik ve mağaza yerleşim optimizasyonu
Bankacılık
Farklı finansal göstergeler arasındaki gizli korelasyonların bulunmasında,
Kredi kartı dolandırıcılıklarının tespitinde,
Müşteri segmentasyonunda,
Kredi taleplerinin değerlendirilmesinde,
Usulsüzlük tespiti,
Risk analizleri,
Hisse senedi fiyat tahmini,
Genel piyasa analizleri,
Alım-satım stratejilerinin optimizasyonu, Telekomünikasyon
Kalite ve iyileştirme analizlerinde,
Hisse tespitlerinde,
Hatların yoğunluk tahminlerinde,
Sağlık ve İlaç
Test sonuçlarının tahmini,
Ürün geliştirme,
Tıbbi teşhis,
Tedavi sürecinin belirlenmesinde, Endüstri
Kalite kontrol analizlerinde, Lojistik,
Veri Madenciliğinin Faydaları
Veri madenciliği, piyasalarda var olma ve ayakta kalmanın güç olduğu; rekabetin oldukça güçlendiği ve kâr marjlarını düşürdüğü; firmaları konumlarını sağlamlaştırmak adına değişik arayışlara ittiği bir ortamda işletmelerin sağlam bir şekilde ayakta kalmalarını sağlamada, karlılıklarını belirli bir seviyenin üstünde tutmada ve birtakım değerlerinin yönetilmesinde büyük rol oynamaktadır.
Bu değerlerin başında müşteri bilgileri gelmektedir.
Kaybedilen müşteri analizinde,
Kaybedilen müşteri analizine bağlı olarak gelecek dönemde kaybetme olasılığı olan müşterileri tahmin etmede,
Kaybedilen müşteri analizine bağlı olarak geri kazanma stratejileri geliştirmede,
Müşteri profilinin ortaya çıkarılmasında,
Müşteri profiline bağlı olarak satış stratejilerinin oluşturulmasında,
Müşteri memnuniyetini belirlemede,
ARGE faaliyetlerini geliştirmede,
Müşteri kazanımı maliyetlerini düşürmede,
VM nin Diğer Disiplinler ile İlişkisi
Veri madenciliği, veritabanı teknolojisi, istatistik,
makine öğrenimi, bilgi teknolojileri gibi farklı
disiplinlerde yer alan tekniklerin birleşimini
içermektedir. Kuşkusuz bunlar içerisinde en büyük
katkıyı istatistik, makine öğrenimi ve veritabanı
teknolojisi sağlamaktadır.
İstatistik ve veri madenciliği verinin yapısını keşfetmeyi amaçlayan iki disiplindir.
Örtüşen amaçlar söz konusu olduğu için veri madenciliği, istatistiğin bir alt dalıymış gibi düşünülmektedir.
Ancak iki disiplin ortak yönleri olmakla birlikte birbirinden farklıdır.
İstatistik, süre gelen zaman içerisinde verilerin değerlendirilmesi ve analizleri konusunda hizmet veren bir yöntemler topluluğudur.
Daha çok teoriye dayalıdır ve bir varsayımın doğruluğunu araştır.
Bilgisayarların veri analizi için kullanılmaya başlamasıyla istatistiksel çalışmalar hız kazandı.
1990 lardan sonra istatistik, veri madenciliği ile ortak bir platforma taşındı. Verinin, yığınlar içerisinden çekip çıkarılması ve analizinin yapılarak kullanıma hazırlanması sürecinde veri madenciliği ve istatistik sıkı bir çalışma birlikteliği içine girmiş bulundular.
Bunun yanı sıra veri madenciliği, veri tabanları ve makine öğrenimi disipliniyle birlikte yol aldı.
Veri tabanı, bilgisayar ortamında büyük boyutlu düzenli veri kümelerinin yönetimi için yaygın biçimde kullanılan bir araçtır.
Makine öğrenimi, bilgisayarların bir olay ile ilgili bilgileri ve tecrübeleri öğrenerek, gelecekte oluşacak benzeri olaylar hakkında kararlar verebilmesi ve problemlere çözümler üretebilme teknolojisidir.
Günümüzdeki Yapay Zeka çalışmalarının temelini oluşturan makine öğrenimi kavramı, bilgisayarların bazı işlemlerden çıkarsamalar yaparak yeni işlemler üretmesidir.
Daha çok sezgisel yaklaşımlara dayalıdır ve öğrenme işleminin başarısını arttırmaya çalışır. Önceleri makineler, insan öğrenimine benzer bir yapıda inşa edilmeye çalışıldı.
Ancak 1980lerden sonra bu konuda yaklaşım değişti ve makineler daha spesifik konularda kestirim algoritmaları üretmeye yönelik inşa edildi.
Bu durum ister istemez uygulamalı istatistik ile makine öğrenim kavramlarını, veri madenciliği altında bir araya getirdi.