• Sonuç bulunamadı

Veri madenciliği nedir?

N/A
N/A
Protected

Academic year: 2022

Share "Veri madenciliği nedir?"

Copied!
20
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Veri

madenciliği nedir?

Veriyi yönetmek için “Veri Ambarı”

oluşturulmuş ve 90’lı yıllarda veri ambarından verileri çözümleyerek “yararlı bilgiye” erişilmesini sağlayan “Veri Madenciliği” kavramları ortaya çıkmıştır.

Veri madenciliği; “veri ambarlarındaki

tutulan çok çeşitli ve çok miktarda veriye

dayanarak daha önce keşfedilmemiş bilgileri

(2)

Veri madenciliği kavramına getirilen farklı tanımları vardır:

Han ve Kamber :

“Büyük veri yığınlarından beklenmedik/bilinmedik, ilginç, anlamlı ve kullanışlı bilgilerin çıkarılmasıdır ”

William Frawley ve Gregory Piatetsky-Shapiro :

“Verideki gizli, önceden bilinmeyen ve potansiyel olarak faydalı enformasyonun önemsiz olmayanlarının açığa çıkarılması”

Solid State Technology :

“Bir ya da daha fazla cevap değişkeninin davranışını açıklamak için veritabanlarında mevcut geniş kümelerdeki gizli örüntüleri bulan bir metodolojidir”.

Hand :

“İstatistik, veritabanı teknolojisi, örüntü tanıma,

makine öğrenme ile etkileşimli yeni bir disiplin

(3)

SAS Şirketi:

“İşletme avantajına yönelik olarak önceden bilinmeyen örüntüleri keşfetmek için büyük miktarlarda verinin seçilmesi, incelenmesi ve modellenmesi süreci.”

Jacobs :

“Ham verinin tek başına sunamadığı bilgiyi çıkaran veri analizi süreci”

Alexander:

“OLAP’ın bir sonraki aşaması.” olarak tanımlanmıştır.

Neden Veri Madenciliği?

Her alanda, verilen kararların doğruluğu, kararı veren kişinin sadece sahip olduğu yeteneklerine ve deneyimine değil aynı zamanda bilginin yeterliliğine de bağlıdır.

Bu nedenle günümüzde artık “bilgi”, mal ve hizmetin yanında üçüncü üretim faktörü olarak değerlendirilmektedir.

(4)

Dolayısıyla karar vericiler doğru kararları alabilmek için daha çok veri depolamaya çaba göstermektedirler. Gelişen teknoloji ile artık günümüzde verilerin toplanması oldukça kolaydır.

Asıl zorluk büyük miktarlarda toplanan ve devamlı çoğalmakta olan ham veriyi, anlamlı ve kullanılabilir bir bilgiye dönüştürebilmektir.

Kurum, kuruluş ve şirketler hem ulusal hem de uluslararası rekabet ile karşı karşıya kaldıkları için bu noktada başarının anahtarı; var olan müşterileri korumak ve yenilerini elde etmek olmaktadır.

Veri madenciliği, şirketlerin bu konuları etkileyen faktörleri analiz edebilmelerine izin veren teknolojileri içermektedir.

(5)

Hangi müşteri, hangi ürünü, ne zaman satın alabilir, kimler tedarikçilerinden vazgeçmekte ve bu tür müşterileri vazgeçirmek/geri kazanmak için neler yapılabilir, ürünün değerini yitirmesine hangi değişkenler neden olmaktadır, vb.

soruların cevapları veri yığınlarının altındadır ve cevapları bulabilmek için veri madenciliği çözümleri gereklidir.

Veri madenciliği teknolojileri, ilk önce sadece akademik çevrede kabul görmüş; zamanla olgunlaşarak günümüz endüstrisinde kullanılmaya başlanmıştır.

(6)

Veri Madenciliğinin Tarihçesi

Veri madenciliğinin kökeni, ilk sayısal bilgisayar olan ENIAC (Electrical Numerical Integrator And Calculator)’a kadar dayanmaktadır.

1946 yılında geliştirilen ve bugün kullandığımız kişisel bilgisayarların atası olan ENIAC, ABD’li bilim adamları John Mauchly ve J. Presper Eckert tarafından, II. Dünya Savaşı sırasında ABD ordusu için geliştirilmiştir.

30 tonluk ağırlığıyla 170 m2lik bir alanı kaplayan bu

“ilk” bilgisayarın 70 sene içerisinde geçirmiş olduğu evrimin nihai boyutlarını şu anda masa üstünüzdeki bilgisayarlara yada elimizdekilere bakarak anlamanız mümkündür.

(7)

Bu evrim tabii ki belli bir süreç ve şartlar altında gerçekleşmiştir.

Donanımsal olarak hazırlanan bilgisayarların, yazılımlar vasıtasıyla hayat bulması ve kullanıcılara ulaştırılması, bilgisayar evrim döngüsünün anahtarıdır.

Bilgisayar ve yazılım uzmanlarının geliştirdikleri ürünler, kullanıcıların istekleri doğrultusunda zamanla şekillenerek bugünkü halini almış durumdadır.

Döngü, donanımın geliştirilmesinin ardından

yazılımın bu donanıma entegre edilerek

kullanıcıya ulaştırılmasıyla başlar.

(8)

Kullanıcı ihtiyaçları doğrultusunda yazılımda bulunan eksiklikleri belirler.

Yazılım uzmanları bu eksiklikleri göz önünde bulundurarak yeni yazılımlar geliştirirler.

Bu yazılımların çalışabilmesi için gerekli donanım güncellenmesinin yapılması için donanım uzmanları uyarılır.

Güncellenen bilgisayarlar tekrar kullanıcılara ulaştırılır ve döngü bu şekilde devam eder.

Döngünün anahtar elemanı kullanıcıdır.

Kullanıcılar, ihtiyaçları, istekleri belirler.

Dolayısıyla bu istekler bu sektörü doğrudan

etkiler ve gelişmenin kapıları açılır.

(9)

Bilgisayarların etkin kullanımı verilerin depolanması ile başlamaktadır.

İlk haliyle karmaşık hesaplamaları yapmaya yönelik geliştirilen bilgisayarlar, kullanıcı ihtiyaçları doğrultusunda veri depolama işlemleri için de kullanılmaya başlanılmıştır.

Bu sayede veri tabanları ortaya çıkmıştır.

Veri tabanlarının genişleme trendi içinde olması donanımsal olarak bu verilerin tutulacakları ortamların da genişlemesini gerektirmiş ve Veri ambarı kavramı ortaya çıkmıştır.

Saklanmak istenen veriler, bir ambar misali fiziksel sürücülerde tekrar kullanılmak üzere saklanmaya başlanmıştır.

(10)

Gittikçe büyüyen veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de buna paralel olarak güç bir hal almaya başladı.

Bu safhada veri modelleme kavramı ortaya çıkmıştır.

İhtiyaçlar doğrultusunda şekillenen veri tabanları ve veri modelleme çeşitleri hızla yaygınlaşırken, donanımlar da bu sürece ayak uydurdular.

Günümüzde milyarlarca bit veriyi ufacık belleklerde tutmak mümkün hale gelmiştir.

(11)

Verilerin saklanması, düzenlenmesi, organize edilmesi her ne kadar bir sorun gibi görünmese de bu kadar çok veri ile istenilen sonuca ulaşmak başlı başına bir sorun halini almıştır.

Veri madenciliği, kavramsal olarak 1960lı yıllarda, bilgisayarların veri analiz problemlerini çözmek için kullanılmaya başlamasıyla ortaya çıkmıştır.

O dönemlerde, bilgisayar yardımıyla, yeterince uzun bir tarama yapıldığında, istenilen verilere ulaşmanın mümkün olacağı gerçeği kabullenilmiştir.

Bu işleme veri madenciliği yerine önceleri veri taraması (data dredging), veri yakalanması (data fishing) gibi

isimler verilmiştir.

(12)

1990lı yıllara gelindiğinde veri madenciliği ismi, bilgisayar mühendisleri tarafından ortaya atılmıştır.

Bu camianın amacı, geleneksel istatistiksel yöntemler yerine, veri analizinin algoritmik bilgisayar modülleri tarafından değerlendirmesini vurgulamak olmuştur.

Bu noktadan sonra bilim adamları veri madenciliğine çeşitli yaklaşımlar getirmeye başlamışlardır.

Veri Madenciliğinin Uygulama Alanları

Veri madenciliğinin günümüzde hem özel hem de kamu işletmelerinde yaygın bir kullanım alanı bulunmaktadır.

(13)

aşağıdakiler sayılabilir;

Pazarlama

Bankacılık

Sigortacılık

Perakendecilik

Borsa

Telekomünikasyon

Sağlık ve İlaç

Endüstri

Lojistik

Bilim ve Mühendislik

Pazarlama

Müşteri segmentasyonunda,

Müşterilerin demografik özellikleri arasındaki bağlantıların kurulmasında,

Çeşitli pazarlama kampanyalarında,

Mevcut müşterilerin elde tutulması, yeni müşterileri kazanılmasında,

Pazar sepeti analizinde,

Çapraz satış analizleri,

Müşteri değerleme,

Müşteri ilişkileri yönetiminde,

(14)

Sigortacılık

 Yeni poliçe talep edecek müşterilerin tahmin edilmesinde,

 Sigorta dolandırıcılıklarının tespitinde,

 Riskli müşteri tipinin belirlenmesinde.

Perakendecilik

 Satış noktası veri analizleri,

 Alışveriş sepeti analizleri,

 Tedarik ve mağaza yerleşim optimizasyonu

Bankacılık

 Farklı finansal göstergeler arasındaki gizli korelasyonların bulunmasında,

 Kredi kartı dolandırıcılıklarının tespitinde,

 Müşteri segmentasyonunda,

 Kredi taleplerinin değerlendirilmesinde,

 Usulsüzlük tespiti,

 Risk analizleri,

(15)

Hisse senedi fiyat tahmini,

Genel piyasa analizleri,

Alım-satım stratejilerinin optimizasyonu, Telekomünikasyon

Kalite ve iyileştirme analizlerinde,

Hisse tespitlerinde,

Hatların yoğunluk tahminlerinde,

Sağlık ve İlaç

Test sonuçlarının tahmini,

Ürün geliştirme,

Tıbbi teşhis,

Tedavi sürecinin belirlenmesinde, Endüstri

Kalite kontrol analizlerinde, Lojistik,

(16)

Veri Madenciliğinin Faydaları

Veri madenciliği, piyasalarda var olma ve ayakta kalmanın güç olduğu; rekabetin oldukça güçlendiği ve kâr marjlarını düşürdüğü; firmaları konumlarını sağlamlaştırmak adına değişik arayışlara ittiği bir ortamda işletmelerin sağlam bir şekilde ayakta kalmalarını sağlamada, karlılıklarını belirli bir seviyenin üstünde tutmada ve birtakım değerlerinin yönetilmesinde büyük rol oynamaktadır.

Bu değerlerin başında müşteri bilgileri gelmektedir.

Kaybedilen müşteri analizinde,

Kaybedilen müşteri analizine bağlı olarak gelecek dönemde kaybetme olasılığı olan müşterileri tahmin etmede,

Kaybedilen müşteri analizine bağlı olarak geri kazanma stratejileri geliştirmede,

Müşteri profilinin ortaya çıkarılmasında,

Müşteri profiline bağlı olarak satış stratejilerinin oluşturulmasında,

Müşteri memnuniyetini belirlemede,

ARGE faaliyetlerini geliştirmede,

Müşteri kazanımı maliyetlerini düşürmede,

(17)

VM nin Diğer Disiplinler ile İlişkisi

Veri madenciliği, veritabanı teknolojisi, istatistik,

makine öğrenimi, bilgi teknolojileri gibi farklı

disiplinlerde yer alan tekniklerin birleşimini

içermektedir. Kuşkusuz bunlar içerisinde en büyük

katkıyı istatistik, makine öğrenimi ve veritabanı

teknolojisi sağlamaktadır.

(18)

İstatistik ve veri madenciliği verinin yapısını keşfetmeyi amaçlayan iki disiplindir.

Örtüşen amaçlar söz konusu olduğu için veri madenciliği, istatistiğin bir alt dalıymış gibi düşünülmektedir.

Ancak iki disiplin ortak yönleri olmakla birlikte birbirinden farklıdır.

İstatistik, süre gelen zaman içerisinde verilerin değerlendirilmesi ve analizleri konusunda hizmet veren bir yöntemler topluluğudur.

Daha çok teoriye dayalıdır ve bir varsayımın doğruluğunu araştır.

Bilgisayarların veri analizi için kullanılmaya başlamasıyla istatistiksel çalışmalar hız kazandı.

(19)

1990 lardan sonra istatistik, veri madenciliği ile ortak bir platforma taşındı. Verinin, yığınlar içerisinden çekip çıkarılması ve analizinin yapılarak kullanıma hazırlanması sürecinde veri madenciliği ve istatistik sıkı bir çalışma birlikteliği içine girmiş bulundular.

Bunun yanı sıra veri madenciliği, veri tabanları ve makine öğrenimi disipliniyle birlikte yol aldı.

Veri tabanı, bilgisayar ortamında büyük boyutlu düzenli veri kümelerinin yönetimi için yaygın biçimde kullanılan bir araçtır.

Makine öğrenimi, bilgisayarların bir olay ile ilgili bilgileri ve tecrübeleri öğrenerek, gelecekte oluşacak benzeri olaylar hakkında kararlar verebilmesi ve problemlere çözümler üretebilme teknolojisidir.

Günümüzdeki Yapay Zeka çalışmalarının temelini oluşturan makine öğrenimi kavramı, bilgisayarların bazı işlemlerden çıkarsamalar yaparak yeni işlemler üretmesidir.

(20)

Daha çok sezgisel yaklaşımlara dayalıdır ve öğrenme işleminin başarısını arttırmaya çalışır. Önceleri makineler, insan öğrenimine benzer bir yapıda inşa edilmeye çalışıldı.

Ancak 1980lerden sonra bu konuda yaklaşım değişti ve makineler daha spesifik konularda kestirim algoritmaları üretmeye yönelik inşa edildi.

Bu durum ister istemez uygulamalı istatistik ile makine öğrenim kavramlarını, veri madenciliği altında bir araya getirdi.

Referanslar

Benzer Belgeler

Çalışma da Knime veri madenciliği yazılımı kullanarak geçmişteki veriler; öncelikleri, konuları, faaliyet tipleri ve bir faaliyetin süresi ele alınarak Naive Bayes algoritması

Bu işleme veri madenciliği yerine önceleri veri taraması (data dredging), veri yakalanması (data fishing) gibi isimler verilmiştir.?. Veri Madenciliğinin Tarihçesi

5 Peynir, Makarna, Şeker,Bira.. Destek ve güven ölçütleri için eşik değerleri belirlenir.  b) Beş müşterinin alışveriş yaptığı ürünlerin kümesi {şeker, çay,

 Bilginin Dünya üzerinde dağıtık ve çok büyük boyutlarda bulunmasından dolayı bilgiyi bulmak ve erişmek daha önemli hale gelmeye başladı..  Çok büyük bir alanda

 Aynı veri madenciliği sonuçları elde edilecek şekilde veri miktarını azaltma.. Veriyi

 Büyük veri kümesini daha küçük bir alt küme ile temsil etme.  Alt küme

 Modelin doğruluğu, doğru sınıflandırılmış sınama kümesi örneklerinin toplam sınama kümesi örneklerine oranı olarak belirlenir.  Sınama kümesi

Physical abuse is more common in children under three years of age (Koç et al., 2014; Ayvaz and Aksoy, 2004); 12-20% of fractures observed in this age group are due to physical