• Sonuç bulunamadı

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

N/A
N/A
Protected

Academic year: 2022

Share "HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ"

Copied!
38
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

HAM VERİNİN NİTELİKLİ BİLGİYE DÖNÜŞTÜRÜLME SÜRECİ

Cenk BALKAN

(2)

Kavramlar…

HAM VERİ

• İngilizcesi “raw data” olan, düzenlenmemiş veri olarak ifade edilebilir.

VERİ

• Satır ve kolonlar bazında ifade edilmiş, bir formata sahip olan verileri ifade etmektedir.

• Veriler ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler de nitel veriler olarak adlandırılmaktadır.

• Kategorik ve sürekli olarak ayrımını yapacağımız bu yapı daha da derin bir bileşen yapısına sahiptir.

(3)

Kavramlar…

BİLGİ

• İngilizcesi “information” olan olgudur.

• Sorgu ve raporlama fonksiyonları sayesinde, veritabanındaki verinin çekilerek bilgiye dönüşümü sağlanır. Örneğin, ürün, miktar ve fiyat toplamları, satılan ürünlerle bunların miktar ve hacimleri bilgiyi sağlar.

NİTELİKLİ BİLGİ

• İngilizcesi “knowledge” olan olgudur.

• Veri madenciliği teknolojisi içeren uygulamalar sayesinde, veri içerisindeki gizli eğilim ve örüntülerin belirlenmesi olarak düşünülebilir.

(4)

Veritabanı ve Veri Ambarı Bakış Açısı

(5)

Veritabanı ve Veri Ambarı Bakış Açısı

(6)

Kavramlar…

VERİ KAYNAKLARI

•Verinin tutulduğu alanları ifade eder. Veritabanları, text dosyaları, excel dosyaları, XML dosyaları, sav dosyaları, sas dosyaları gibi kaynaklar veri kaynakları olabilir.

VERİ DÖNÜŞTÜRME (ETL)

•ETL harfleri İngilizce karşılığı olan “veriyi çıkar, değiştir ve yükle” işlemlerini ifade eder.

(7)

Kavramlar…

• Projelerde veri her zaman aynı biçimlerde ve istediğiniz detay veya özet durumunda bulunmayabilir. Zaman zaman ihtiyaca göre aynı verinin kullanım amacına bağlı olarak, farklı düzenlerde kullanılması gerekir.

• ETL araçları ile verilerinin kaynaklarından ham olarak işlenecek kaynağa çevrilmesi yapılır. Bu aşamada farklı erişim protokolleri (ODBC, JDBC, doğal), dosya biçimleri kullanır. Elde edilen veriler incelenir, çeşitli filtreleme, temizlik, eşleme, sıralama, ek bilgiler ile zenginleştirme, ayrıştırma gibi işlemler uygulanır.

(8)

Kavramlar…

VERİ AMBARI

•Veri ambarı, iş hedefleri doğrultusunda sorgulamalar ve analiz yapmak için özelleşmiş bir veritabanıdır. Temel amacı, işletmeye ait güncel olmayan kayıtları saklamak ve bu kayıtlar üzerinde daha kolay analizler yapılmasını sağlayarak iş ihtiyaçlarını anlamaya ve işletme fonksiyonlarını yenilemeye yardımcı olmak, yani iş zekasına kolaylık sağlamaktır.

•Bildiğimiz ilişkisel veritabanları, olaylar ve işlemlerle(transaction) ilgili verileri saklar, bu yüzden devamlı bir veri giriş çıkışı içerisindedirler ve en güncel veriyi taşırlar. Veri ambarları ise, bu veritabanlarındaki verilerle diğer dış kaynaklardan alınan verilerin belirli periyodlarda derlenip arşivlenmesi ile oluşturulan, bu sayede dönemsel analizlerin yapılmasına olanak sağlayan yapılardır.

(9)

Kavramlar…

• Veri ambarları, veri saklama işlevinin dışında ETL, veri madenciliği, raporlama, tahminleme çözümleri sunan uygulamalar tarafından da kullanılarak, ham verilerin kullanışlı bilgilere dönüştürülmesine olanak tanır.

(10)

Kavramlar…

DATA MART

•Data Mart’lar veri ambarlarının alt kümeleridir. Veri ambarları bir iş probleminin tamamına yönelik bir bakış sağlarken, data mart'lar sadece belli bir kısma bakış sağlarlar.

•İşletme üzerindeki karar vericilerin, işe ait tüm veriler üzerinde analiz yapmasına gerek olmayabilir. Bu kişiler sadece kendi birimleriyle ilgili verilere ulaşarak bunlara bağlı analizler yapmayı isteyebilirler, bu durumda veri ambarındaki tüm karmaşıklıklık içinde boğulmalarına gerek yoktur. Veri ambarlarının sadece bir konu kapsamında alt kümesini temsil eden data mart'lar, veri ambarları kadar ayrıntılı veri de barındırmazlar. Bu yüzden kolay anlaşılabilir ve yönlendirilebilirlerdir.

(11)

Kavramlar…

OLAP ve OLTP Kavramları

•OLAP(On-Line Analytical Processing), veriler üzerinde çok boyutlu analizler yapılmasına olanak sağlayan bir yaklaşımdır.

•Doğal olarak OLAP veri ambarlarına ait sorgulama ve oluşturma işlemlerini de kapsar. Çok boyutlu veritabanı olarak tasarlanmış bir veri ambarında, sözgelimi satışlarla ilgili bilgilerin yer aldığı bir tabloda, "zaman" boyutunun elemanlarına denk gelen gün- hafta-ay-yıl gibi sütunlar bulunabilir, bu da OLAP'ın boyut modellemesine olanak sağlar.

(12)

Kavramlar…

• Fakat veri ambarı ve OLAP terimlerinin birbirleri yerine kullanılması yanlıştır, veri ambarı üstte bahsettiğim gibi özelleşmiş bir veritabanını belirtirken, OLAP eldeki veriler üzerinde çok boyutlu sorgular yapmayı kolaylaştıran bir analiz yaklaşımıdır. Yani OLAP istemci uygulamaların veri ambarını kullanmasını kolaylaştıran teknolojidir.

• OLAP küpü, boyut, fact gibi kavramlar da aslında veri ambarı ile doğrudan bağlantılı değildir; OLAP süreçleri veri ambarı gerektirmeyebilir, her veri ambarı da OLAP sürecine sokulmayabilir. OLAP konuları ayrı bir derya, şimdilik değinmeyeceğim. Ama OLAP denince akla veri ambarları üzerinde yapılan boyutsal analiz işlemleri akla gelse yeterli.

(13)

Kavramlar…

İŞ ZEKASI

•Literatürdeki tüm kavram karmaşasına rağmen İş Zekası, işletmelerin karar verme süreçlerini etkileyen ve optimize eden tüm araçların kullanımını, verilerin toplanmasını, saklanmasını, düzenlenmesini, analiz edilmesini ve görselleştirilmesini, verilerin en etkin ve kolay biçimde yönetilmesini sağlayan tüm süreçleri kapsayan bir anlayıştır. Verilerden bilgiye geçiş sürecinde İş Zekası bir takım yöntem ve teknolojilerle bütünleşik bir yapı sunmaktadır.

(14)

Kavramlar…

İSTATİSTİKSEL ANALİZLER

•17. Yüzyıla kadar sadece ham veri kaydetme şeklinde gerçekleşen istatistiksel çalışmalar, 18. ve 19. Yüzyıllarda J.

Bernoulli ve K. Gauss’un katkılarıyla matematik temelleri üzerine oturtulmuş, olasılık teorisi geliştirilmiştir. Dar anlamda istatistik;

geçmiş ve şimdiki durumla ilgili toplanmış sayısal verileri geliştirilmiş olan bazı yöntemler ile analiz ederek gelecek hakkında karar vermemizi kolaylaştıran bilim dalıdır. İstatistiksel analizler temelde iki amaç doğrultusunda gerçekleştirilmektedir.

•Tanımlayıcı,

•Tahmin Edici.

(15)

Kavramlar…

VERİ MADENCİLİĞİ

•Veri madenciliği ile ilgili farklı tanımlar yapılmıştır. Bu tanımlardan bazılarına aşağıda yer verilmiştir.

•Piatetsky-Shapiro’ya göre, veriden anlamlı ilişkiler ve örüntüler (patterns) çıkarma sürecine, “veri madenciliği”, “bilgi çıkarımı”,

“bilgi keşfi”, “veri arkeolojisi” ve “veri şablon işleme” gibi isimler verilmektedir. Veri madenciliği tanımını daha çok istatistikçiler, veri analizcileri ve yönetim bilişim sistemleri kullanıcıları kullanmaktadır. İlk olarak 1989 yılında bir atölye çalışmasında, veri işleme sürecinde bilginin son ürün olduğunu vurgulamak için

“veri tabanlarında bilgi keşfi” tanımlaması kullanılmıştır.

(16)

Kavramlar…

• Adrians ve Zantinge’e göre veri tabanlarında zengin bilgiye sahip olan pek çok organizasyon, bu bilgiyi yönetmenin çok zor olması sebebiyle, bilgisayarları kullanmaktadır. Bilgisayarların kullanılarak veriler içerisinden anlamlı bilgilerin çıkarılması, veri madenciliği olarak tanımlanmıştır.

• Veri madenciliği, gelecekteki kararlara yardımcı olmak için veritabanlarından eğilimler (trends), örüntüler ve iliskiler bulur. VM, sadece uzmanlara veriyi anlamada ve iyi karar vermede yardımcı olur.

(17)

DİKKAT!!!

• Veri madenciliği, ham veriden nitelikli bilgiye ulaşmada kullanılan bir süreçtir. Buna rağmen VM sihir değildir. Bu işlemin bizi iyi sonuçlara götüreceğini hiç kimse garanti edemez. VM, araştırma ve çözümlemenin birden fazla disiplin kullanılarak yapılmasıdır. Makine öğrenimi, istatistik, veritabanı teknolojisi ve verilerin görüntülenmesi (data visualization) gibi yöntemlerin birlikte kullanıldığı bir yöntemdir. Her bir disiplin bu veri kesfine kendi özünü katmaktadır.

(18)

Kavramlar…

(19)

Kavramlar - Karışıklık

• VM ile benzer ve tamamen farklı anlamlar taşıyan buna eş değer başka kullanımlar da literatüre geçmiştir.

Veritabanlarından Bilgi Madenleme (knowledge mining from databases), Bilgi Çıkarımı (knowledge extraction), Veri ve Örüntü Çözümlemesi (data/pattern analysis), Veri Arkeolojisi ve Veri Tarama gibi terimler literatürde kullanılmaktadır.

• Bunların arasındaki en popüler kullanım Veritabanlarında Bilgi Kesfi (VTBK, Knowledge Discovery From Databases, KDD)'dir ve birçok insan VM’yi en çok VTBK ile eş anlamda kullanmaktadır.

(20)

VM Proje Safhaları

• Veri madenciliğinin bir çok disiplini barındıran yapısı ve farklı uygulama alanlarındaki görevlerle prosedürlerin çeşitliliği, veri büyüklüğünden dolayı farklı ve kirli veri kaynakları ile çalışmadaki zorluklardan dolayı standart bir metodolojiye ihtiyaç duymaktadır.

• CRISP-DM (Cross Industry Standard Process for Data Mining) projesi, bir süreç modeli tanımlayarak bu problemlere hitap eder. CRISP-DM süreç modeli, Daimler Chrysler AG, SPSS, NCR ve OHRA gibi lider veri madenciliği kullanıcıları ve tedarikçilerinden oluşan bir konsorsiyum tarafından geliştirilmiştir.

(21)

VM Proje Safhaları

(22)

Veri Madenciliği Modelleri

• VM’de kullanılan modeller, tahmin edici (predictive) ve tanımlayıcı (descriptive) olmak üzere iki ana baslık altında incelenmektedir.

• Tanımlayıcı modellerde ise karar vermeye rehberlik etmede kullanılabilecek mevcut verilerdeki örüntülerin tanımlanması sağlanmaktadır. X/Y aralığında geliri, evi ve arabası olan, ayrıca çocukları okul çağında olan aileler ile, çocuğu olmayan ve geliri X/Y aralığından düşük olan ailelerin satın alma örüntülerinin birbirlerine benzerlik gösterdiğinin belirlenmesi tanımlayıcı modellere bir örnektir.

(23)

Veri Madenciliği Modelleri

• Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç değerlerin tahmin edilmesi amaçlanmaktadır.

VM modellerini gördükleri islevlere göre,

• Sınıflama (Classification) ve Regresyon,

• Kümeleme (Clustering),

• Birliktelik Kuralları (Association Rules) ve Ardısık Zamanlı Örüntüler (Sequential Patterns)

üç ana başlıkta toplanabilir.

(24)

Veri Madenciliği Modelleri

(25)

Kullanılan Programlar

(26)

Kullanılan Programlar

(27)

Kullanılan Programlar

(28)

Kullanılan Programlar

(29)

Kullanılan Programlar

(30)

Veri Madenciliği Projesi Bileşenleri

Bir veri madenciliği projesi için ihtiyaç duyulan

4 temel bileşen vardır.

(31)

İş Bilgisi

Veri Tabanı Bilgisi

Entegrasyon Bilgisi

Veri Madenciliği Bilgisi

(32)

Veri Tabanı Bilgisi

Entegrasyon Bilgisi

Veri Madenciliği Bilgisi

•Veri Madenciliği ile cevaplanacak iş probleminin çerçevesinin çizilmesi

•Elde edilen sonuçların iş hedefleri doğrultusunda değerlendirilmesi

•İş alanı ve organizasyon yapısı hakkında bilgi ve tecrübe gerektiren öneriler ve yönlendirmelerde

bulunulması

•Organizasyonun yüzleştiği kritik konuları iyi bilen iş kullanıcısı veri madenciliğinin adres göstereceği kritik soruları cevaplamak için yardımcı

olacaktır.

İş bilgisi

(33)

Veri Tabanı Bilgisi

Entegrasyon Bilgisi

Veri Madenciliği Bilgisi

•Bu bileşen olmadan bir veri madenciliği projesi, aslında iş açısından önemsiz olan

problemler için teknik açıdan iyi bir çözümler üretme

riskine sahip olacaktır.

İş bilgisi

(34)

İş Bilgisi

Entegrasyon Bilgisi

Veri Madenciliği Bilgisi

•Bir veri madenciliği projesi elde iyi bir veri olmadığı sürece başarılı olamaz.

•Hangi veri tabloları ve dosyalar ulaşılabilir durumda?

•Birbirleri ile nasıl ilişkilendirilmişler?

•Alanlar nasıl kodlanmış? Hangi alanların düzenlenmeye ihtiyacı var?

•Hangi değerler açıklanabilir? Hangileri hatalı, uç ya da ekstrem değerler?

•Sadece analiz edilecek verilere aşina, organizasyonun veri sistemleri

hakkında kapsamlı bilgiye sahip birisi bu ve diğer soruları cevaplayabilecektir.

Veri Tabanı Bilgisi

(35)

İş Bilgisi

Entegrasyon Bilgisi

Veri Madenciliği Bilgisi

•Bu bileşen olmadan en iyi yöntem kullanıldığı halde doğru iş problemine yanlış çözüm bulma ya da ulaşılabilir bir çözüm bulamama riski ile karşı karşıya kalınacaktır.

Veri Tabanı Bilgisi

(36)

İş Bilgisi

Veri Tabanı Bilgisi

Entegrasyon Bilgisi

•Belirlenen iş problemi için

•en uygun veri madenciliği aracının tespit edilmesi

•Bir tekniğin optimum ayarlarınıntespit edilmesi

•Tuhaf ve kayıp değerlerin Analiz üzerindeki etkilerinin ölçülmesi

Veri Madenciliği Bilgisi

(37)

İş Bilgisi

Veri Tabanı Bilgisi

Entegrasyon Bilgisi

•Bu bileşen olmadan önemli bir iş problemi elde faydalı bir veri olduğu halde

cevaplanamayabilir ya da yanlış cevaplanabilir.

Veri Madenciliği Bilgisi

(38)

İş Bilgisi

Veri Tabanı Bilgisi

Veri Madenciliği Bilgisi

•Bir modelin yeni veri setine entegrasyonu Clementine’ın dışından, veri tabanı tarafında yapılabilir.

•Clementine tarafından yaratılmış bir model kullanılabilir fakat farklı bir uygulamaya gömülebilir.

•Bu tip implementasyonlar için spesifik uzmanlıklara ihtiyaç duyulmaktadır.

Programlama bilgisi gibi bir veri madenciliği uzmanının sahip olmayabileceği uzmanlıkların diğer takım arkadaşları tarafından sağlanmasına ihtiyaç duyulabilir.

Entegrasyon Bilgisi

Referanslar

Benzer Belgeler

Sınırlı kamu kaynaklarıyla farklı hizmet alanlarında büyük boyutlarda, farklı türlerde ve değişik çözünürlüklerde veri üreten kamu kurum ve kuruluşları;

Tahıl ambarı ve gazhane olarak kullanılan ancak zaman içerisinde özgün işlevini yitiren yapı, Meram Belediyesi tarafından 2018-2019 yılları arasında yapılan

Sözcük ya da sembollerle ifade edilen değişkenlere 'nitel (qualitative)', sayılarla ifade edilen değişkenler ise 'nicel (quantitative)' değişken olarak

The theory regarding mechanism of hematocrit in CHD is limited. Hematocrit, the proportion of the total blood volume occupied by red blood cells, is a major determinant

Eğitim durumu farklılık gösteren seçmenlerin, beledi- yenin hizmet kalitesini göz önüne alarak belediye se- çimlerinde oy kullanma durumuna etkisinin olduğu,

Murillo ve Neve’nin dostluğunun ilk ürünü olan yapıtlar, 1664 yılında tadilatı yeni bitmiş olan Santa Maria la Blanca kilisesi için yapılan dört resim

But in societies where authoritarianism prevails, local executives and bodies, even if elected by local people, fulfill the duties and authorities dictated by

Söğütlü Barınma Yeri-Merkez Soğuksu Çekek Yeri-Pazar İslampaşa Barınma Yeri-Merkez Şenyurt Köyü Çekek Yeri-Ardeşen Gülbahar Mahallesi Barınma Yeri-Merkez