• Sonuç bulunamadı

Büyük Veri Analitiği (Big Data Analytics)

N/A
N/A
Protected

Academic year: 2021

Share "Büyük Veri Analitiği (Big Data Analytics)"

Copied!
33
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

(Big Data Analytics)

M. Ali Akcayol Gazi Üniversitesi

Bilgisayar Mühendisliği Bölümü

Bu dersin sunumları, “Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011.” kitabı kullanılarak hazırlanmıştır.

2

Değerlendirme

Arasınav : 25%

Ödevler : 15%

Final Projesi : 30%

Final Sınavı : 30%

Ders kaynakları

Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011.

Real-Time Big Data Analytics: Emerging Architecture, Mike Barlow, O’Reilly Media, 2013.

Big Data, Data Mining, and Machine Learning: Value Creation for Business Leaders and Practitioners, Jared Dean, Wiley, 2014.

Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data, EMC Education Services, 2015.

e-posta : akcayol@gazi.edu.tr

web : http://w3.gazi.edu.tr/~akcayol

Genel bilgiler

(2)

3

Araştırma ödevleri

Haftalık konu ile ilgili bir makale incelenerek detaylı rapor hazırlanacaktır.

İncelenen makalede ilgili yöntemin/algoritmanın/yaklaşımın

kullanılmasının gerekçeleri, elde edilen sonuçları değerlendirilecektir.

İncelenen makale son 3 yılda yayınlanmış olacaktır.

Makale SCI-E tarafından taranan bir dergide yayınlanmış olacaktır.

SCI-E tarafından tarandığını gösterir bilgi ödeve eklenecektir.

Hazırlanan rapora makalenin tam metni de eklenecektir.

Final Projeleri

Bir yöntemin/algoritmanın bir alana uygulamasını içerecektir.

Geliştirilecek uygulamanın algoritma kısmında hazır araç, fonksiyon veya kütüphane kullanılmayacaktır.

Hazırlanan projenin tüm dokümanları CD ile, proje raporu ise çıktı ile teslim edilecektir.

Genel bilgiler

(3)

5

Ders içeriği

1. Büyük Veri Madenciliği 2. MapReduce

3. Benzer elemanların bulunması 4. Uzaklık ölçütleri

5. Data stream madenciliği 6. Link analizi

7. Frequent itemset’ler 8. Öbekleme

9. Web reklamcılığı

6

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

İndeksler

İkincil depolama birimi

(4)

7

Bilgi, insanoğlu için vazgeçilmez unsurların başında gelir.

Günümüzde bilginin elde edilmesi, paylaşılması ve oluşturulması üzerinde teknolojik gelişmeler oldukça etkilidir.

Yeni teknolojilerin ortaya çıkması toplumsal yaşamın değişmesine, yeni ilişkiler ağının ortaya çıkmasına ve bilgilerin sürekli olarak yenilenmesine neden olmaktadır.

Sözlük anlamıyla bilgi;öğrenme, araştırma ve gözlem yoluyla elde edilen her türlü gerçek ve kavrayışın tümüdür.

Bilgi, önceden belirlenen bir dizi sistematik kural ve prosedüre uygun bir biçimde işlenmiş enformasyondur.

Veri ve bilgi arasındaki ilişki aşağıda görülmektedir*.

Veri ve Bilgi

(5)

9

Türk Dil Kurumuna göre;

Veri (data):olgu, kavram veya komutların, iletişim, yorum ve işlem için elverişli biçimde gösterimi,

Enformasyon (Information): haber alma, haber verme, haberleşme,

Bilgi (knowledge): veriye yöneltilen anlam, insan aklının erebileceği olgu, gerçek ve ilkelerin bütünü,

Anlayış (understanding): görüş ve inanış etmenlerinin etkisiyle beliren düşünme yolu, düşünüş biçimi, zihniyet, mantalite,

Bilgelik (wisdom): herkesin ulaşamadığı derin, kapsamlı, bütünsel bilgi

olarak tanımlanmaktadır.

10

Veri ve bilgelik arasındaki ilişki aşağıda görülmektedir*.

*https://medium.com/@Iyer/strive-to-get-higher-on-the-data-information-knowledge-understanding-and-wisdom-continuum-c5ccb96438

Veri ve Bilgi

(6)

11

Veri (Data):sayılar, rakamlar, sözcükler, metinler, resimler, olaylar vb.

biçiminde temsil edilen ham gerçekliklerdir. (Örn: 54000, 01/22/2006)

Enformasyon (Information): herhangi bir konu ile ilgili bir bilinmeyeni giderme konusunda yardımcı olan tanımlayıcı ifadelerdir (Örn: Nazlı’nın bankada 54.000 TL’si var, Kemal’in doğum tarihi 01/22/2006).

Bilgi (Knowledge): işlenmiş enformasyondur (Örn: Nazlı’nın bankada biriken 54.000 TL’si beklediğinden fazladır).

Anlayış (Understanding): sonuç veya bilgi ile ilgili neden bulma veya kavrama sürecidir (Örn: Nazlı banka işlemlerine bakınca tanımadığı birisinin 4.000 TL yatırdığını farketti. Bu nedenle bankadaki parası yüksekmiş.).

Bilgelik (Wisdom): başka bir bakış açısıyla, değişen şartlar çerçevesinde ileriyi görebilme veya gözlem etkilerine göre prensipler ortaya koyma yeteneğidir (Bankaya para transferinde kişiden onay istenmelidir.).

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

(7)

13

Büyük veri,kendine özgü özelliklere sahip olan ve genellikle yüksek hacimlerde ve çok farklı kaynaklardan elde edilen veridir.

Büyük veri analiz yöntemleri, farklı kaynaklardan elde edilen düzenli veya düzensiz verileri anlamlı ve işlenebilir hale dönüştürür.

Dünyadaki verilerin %90’ı son 3-4 yılda oluşturulmuştur.

Sosyal medya, blog, fotoğraf, müzik, video, IoT, log dosyaları, …

14

Büyük veri terimi ilk ortaya çıktığından itibaren farklı sayıdaki özellikler ile ifade edilmiştir.

Büyük veri özellikleri 3V, 5V, 7V, 10V ve hatta 42V olarak ifade edilmiştir.

Yaygın kullanılan 10V:

1. Volume 2. Velocity 3. Variety 4. Variability 5. Veracity 6. Validity 7. Vulnerability 8. Volatility 9. Visualization 10. Value

Büyük Veri Analitiği

(8)

15

Volume

Büyük verinin en çok bilinen karakteristiğidir.

YouTube’a her bir dakikada 300 saatlik video yüklenmektedir.

2016 yılında 1,1 trilyon fotoğraf çekildiği tahmin edilmektedir.

2016 yıllında cep telefonu veri trafiğinin 6,2 exabyte olduğu tahmin edilmektedir (Byte, Kilobyte, Megabyte, Gigabyte, Terabyte, Petabyte, Exabyte, Zettabyte, Yottabyte, Xenottabyte, Shilentnobyte,

Domegemegrottebyte, Icosebyte).

Twitter kullanıcıları her bir dakikada 277.000 tweet atmaktadır.

Apple kullanıcıları her bir dakikada 48.000 uygulama indirmektedir.

Facebook kullanıcıları her bir dakikada 2.460.000 içerik paylaşmaktadır.

Her bir dakikada 204.000.000 e-posta mesajı gönderilmektedir.

Google her bir dakikada 4.000.000 arama sorgusu almaktadır.

Velocity

Büyük verinin üretilme, tüketilme, oluşturulma ve güncellenme hızını ifade eder.

Facebook günde 600 terabyte verinin geldiğini ifade etmektedir.

Google her saniyede 40.000 sorguya cevap ürettiğini ifade etmektedir.

Günde 3,5 milyar sorguya cevap verdiği söylenebilir.

Variety

Büyük verideki çeşitliliği ifade eder.

Büyük veride yapılandırılmış, yarı yapılandırılmış ve çoğunlukla yapılandırılmamış veri bulunur (ses, video, görüntü, sosyal medya güncellemeleri, log dosyaları, click verileri, makine ve sensör verileri vb.).

Büyük Veri Analitiği

(9)

17

Variability

Büyük veride bazı farklı verilerde olabilir. Bunlar, veride tutarsızlıklara neden olabilir.

Bu verilerin anomaly veya outlier algılama yöntemleri ile bulunup yapılan analizlerin daha anlamlı hale getirilmesi gereklidir.

Veracity

Veri kaynaklarının güvenilirliğini ifade eder.

Büyük veride yukarıda bahsedilen özellikler artarken verinin güvenilirliği ve doğruluğu düşer.

Verinin kim tarafından oluşturulduğu, hangi metodoloji ile toplandığı, aynı türdeki kaynaklardan mı toplandığı, veriyi toplayanın özetleme yapıp yapmadığı, veri başka birisi tarafından değiştirildi mi gibi sorulara cevap aranır.

18

Validity

Verinin nasıl doğrulandığı ve geçerliliğinin nasıl test edildiğiyle ilgilenir.

Verinin analiz işleminden önce doğrulanması gereklidir.

Vulnerability

Büyük veri yeni güvenlik konularını da beraberinde getirir.

Verinin hack’lenmemesi, kaynağından elde edildikten sonra

bozulmadan ve güvenlik saldırısı sonucu değişmeden alınması gereklidir.

Volatility

Verinin, güncel olup olmadığı, kullanılabilir olup olmadığı ile ilgilenir.

Güncel veriyle istenen sonuçlar elde edilebilir.

Kurumlarda veya büyük şirketlerde veri sürekli saklanır ve elde edilen büyük verinin önemli bir kısmı güncelliğini yitirebilir.

Büyük Veri Analitiği

(10)

19

Visualization

Büyük verinin görselleştirilmesi sonuçların kolay anlaşılması ve analiz edilmesi için gereklidir. Günümüzde büyük veri görselleştirmeyle ilgili hafıza kısıtları gibi teknik kısıtlar halen bulunmaktadır.

Klasik grafik araçları ve yöntemleriyle büyük verideki milyarlarca noktanın görselleştirilmesi mümkün değildir.

Bunun için kümeleme, ağaç haritaları, dairesel ağ diyagramları gibi görselleştirme yöntemlerinin kullanılması gereklidir.

Value

Büyük veriden anlamlı ve değerli bilgiyi çıkarmadıkça diğer bütün karakteristikleri anlamsızdır.

Anlamlı ve değerli bilgiyi elde etmek için veri madenciliği yöntemleri gibi karmaşık süreçlerin uyarlanıp kullanılması gereklidir.

Büyük veri analitiği, büyük ve çeşitli veri setleri üzerinde işlem yaparak gizli örüntüleri çıkarma, bilinmeyen ilişkileri keşfetme sürecidir.

Kullanılan yöntemlerle elde edilen bilgi, firmalara, kurumlara veya ticari girişimlere yönelik önemli bilgiler sağlamaktadır.

Büyük veri analitiği uygulamaları veri bilimcilere modelleri tahmin etme, istatistikçilere ve diğer analiz alanında çalışan profesyonellere büyüyen verileri kolay analiz yapma yeteneği kazandırır.

Büyük veri analitiği klasik yöntemlerle yönetilmesi çok zor olan çok büyük, yapılandırılmamış ve çok hızlı değişen veriyle uğraşır ve anlamlı örüntüler elde eder.

Büyük veri analitiği yöntemleri veriyi saklamak, veriyi elde etmek ve analiz etmek için gelişmiş teknolojiyi kullanır.

Büyük Veri Analitiği

(11)

21

Büyük veri;

analiz türü, işleme yöntemi, veri frekansı, veri türü, içerik biçimi, veri kaynağı, veri tüketicisi ve donanıma göre sınıflandırılabilir.

https://www.ibm.com/developerworks/library/bd-archpatterns1/index.html

22

Büyük verinin kullanım alanları

Büyük veri günümüzde, veri madenciliği, makine öğrenmesi, örüntü tanıma, istatistik, görselleştirme, yüksek performanslı hesaplama, veritabanı teknolojisi, algoritma gibi çok farklı disiplinlerde yaygın bir şekilde kullanılmaktadır.

Büyük Veri Analitiği

(12)

23

Büyük verinin kullanım alanları

Büyük veri uygulamaları farklı uygulama alanlarında başarılı bir şekilde kullanılmaktadır.

İşletme

Özellikle büyük ölçekli işletmeler müşteri analizi, müşteriye özel tavsiye, reklam veya öneri oluşturma, ürün dağıtımı ve lojistik optimizasyonu gibi çok sayıdaki alanda büyük veri analiz yöntemlerini kullanmaktadır.

Perakende Satış

Personel gelir optimizasyonu, müşteri davranış analizi, müşteri ilişkileri analizi, ürün çeşitliliği, kampanya yönetimi ve fiyat optimizasyonu gibi uygulamalarda büyük veri analiz yöntemleri kullanılmaktadır.

Kamu

Verilere kolay ve güvenli erişebilirliği sağlama, gizlilik ve şeffaflık oluşturma, uygun ürün ve hizmetlerin sunumu, risk ve sahtekarlığı azaltmaya yönelik alanlarda büyük veri analiz yöntemleri

kullanılmaktadır.

Teknoloji

Gerçek zamanlı analiz ve işlem (menü) özelleştirme, işlem süresini azaltma, riskleri azaltma, otomatik sistemler ile karar verme gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır.

Eğitim

Eğitimde öğrenci analizi, ders planlaması gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır.

Büyük Veri Analitiği

(13)

25

Kişisel Konum Verileri

Konum tabanlı reklam, akıllı yönlendirme, acil müdahale gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır.

Sağlık

Hastalık tespiti, hasta izlenmesi, kişisel DNA analizi gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır.

Bankacılık

Geçmiş verinin, nakit hareketlerinin, öngörülebilen felaketlerin, soygunların ve müşteri davranışlarının anlaşılmasında büyük veri analiz yöntemleri kullanılmaktadır.

26

Akış verisi

Akış verisi geldiği anda işlem yapılmazsa (depolama, data process vs.) kalıcı şekilde kaybedilebilir.

Veriyi işleme hızından daha hızlı veri gelmesi durumunda da kaybedilebilir.

Akış verisinde işlem yapan algoritmalar akış verisini genellikle özetleyerek kullanırlar.

Akış verisi madenciliği algoritmaları, faydalı örnekleri seçer ve istenmeyen örnekleri filtreler.

Özetleme yaklaşımında ise, sabit boyutlu bir pencere içerisindeki elemanlarla (belirli bir süre için geçmiş veri) özetleme yapılmaktadır.

Büyük Veri Analitiği

(14)

27

Akış verisi

Akış verisinin özetlenmesiyle birlikte daha küçük alanda saklanması da sağlanmış olur.

Akış işlemcisi bir tür veri yönetim sistemi olarak görülebilir.

Sisteme çok sayıda farklı stream’den veri gelebilir.

Veri türleri, veri oranları ve veri gelme aralıklarının dağılımları farklı olabilir.

Akış verisi

Büyük Veri Analitiği

(15)

29

Akış verisi kaynakları Sensor data

Bir okyanus yüzeyindeki ısı sensörü her saat ölçtüğü ısı değerini reel sayı olarak bir istasyona gönderirse, veri oranı çok düşük olduğundan günümüz teknolojisinde tüm veri ana hafızada tutulabilir.

GPS birimindeki sensör yüzeydeki yükseklik değişimini ölçüp bir istasyona gönderirse, bu durumda veri oranı yüksektir ve ancak ana hafızada veya ayrı bir diskte tutulabilir.

Bir okyanusun tüm davranışını ölçmek istersek, milyonlarca sensör kullanılır ve günlük birkaç terabyte veri alınabilir.

30

Akış verisi kaynakları Image data

Uydulardan sürekli dünyaya ilişkin görüntüler alınıp yeryüzündeki istasyonlara gönderilir.

Bu görüntü verilerinin boyutları günlük birkaç terabyte düzeyinde olabilir.

Şehirlerdeki güvenlik kameraları uyduya göre düşük çözünürlüktedir, ancak her birisi akış verisi oluşturur.

Londra’da 6 milyon kamera olduğu belirtilmektedir ve her birisi akış verisi oluşturur.

Büyük Veri Analitiği

(16)

31

Akış verisi kaynakları İnternet ve Web trafiği

İnternet anahtarlama düğümleri (router) IP paketlerinden oluşan stream’leri alır ve çıkış portlarına yönlendirme yapar.

Anahtarlama elemanlarının görevi sorgulama veya saklama değildir.

Günümüzde anahtarlama elemanlarının kapasitesinin artırılmasına (DOS ataklarının algılanması, tıkanıklık denetimi yapılması) yönelik eğilim vardır.

Web siteleri her gün milyonlarca sorgu almaktadır (Google her gün yüzlerce milyon arama sorgusu almaktadır, Yahoo milyarlarca click almaktadır.).

Bu tür verilerden faydalı bilgiler elde edilebilir (sorgulardaki ani yükselme, click sayısındaki ani yükselme veya düşme).

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

(17)

33

Veri madenciliğininen yaygın kabul edilen tanımı, bilgi için model keşfetmek şeklindedir.

Bilgi keşfi için oluşturulan modeller farklı şekillerde ve farklı amaçlar için oluşturulabilir.

Veriden elde edilmek istenen sonuca göre model oluşturma süreçleri farklıdır.

Oluşturulan modellerin istenen amaca uygunluğunun test edilerek doğrulanması gereklidir.

34

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

İndeksler

İkincil depolama birimi

(18)

35

Veri madenciliği terimini ilk defa istatistikçiler kullanmıştır.

Veri madenciliği, veri tarafından doğrudan desteklenmeyen bilginin çıkartılması olarak ifade edilmiştir.

İstatistiksel model, veriden elde edilen bir dağılımı ifade eder.

İstatistikçiler veri madenciliğini istatistiksel model oluşturma olarak görürler.

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

(19)

37

Makine öğrenmesinde, veri bir eğitim kümesi olarak alınır ve bir algoritmanın öğrenmesi için kullanılır.

Makine öğrenmesi, Bayes ağları, destek vektör makinesi, yapay sinir ağları, karar ağaçları gibi modelleri kullanır.

Makine öğrenmesi yöntemleri çok az bilgi kullanarak istenen amaca yönelik sonuçlar oluşturabilir.

38

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

İndeksler

İkincil depolama birimi

(20)

39

Bilgisayar bilimlerinde, veri madenciliğine bir algoritmik problem olarak bakılır.

Verilerden birtakım parametreler elde edilir.

Makine öğrenmesi yöntemleri çok az bilgi kullanarak istenen amaca uygun sonuçlar oluşturabilir.

Veri, kesin olarak veya yaklaşık olarak özetlenebilir.

Verideki bazı önemli özellikler çıkartılır diğerleri göz ardı edilir.

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

(21)

41

Web madenciliğindeki özetleme yöntemlerinde, Web’in karmaşık yapısı her sayfa için basit verilerle özetlenebilir.

Kullanıcıların arama yaptıkları sorgulara göre sayfaların önemi belirlenebilir (PageRank).

Özetlemenin diğer bir uygulama alanı ise öbeklemedir (clustering).

Veriler çok boyutlu uzayda birer nokta olarak alınır ve birbirine yakın olanlar aynı kümeye atanır.

Oluşturulan cluster, merkez nokta veya başka bir özellik hesaplanarak elde edilen özet veri tarafından ifade edilebilir.

42

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

İndeksler

İkincil depolama birimi

(22)

43

Büyük ölçekli veridekielemanlar arasındaki ilişki, aralarındaki bağlantı kullanılarak ifade edilir.

Frequent itemset, veri içerisindeki elemanların birlikte bulunma oranlarına göre özellik çıkarımı yapar.

Örneğin, market alışverişinde, belirli oranın üzerinde aynı alışverişte birlikte alınan ürünler.

Similar items, büyük veri kümesi içerisinde birbirine benzeyen elemanları bularak özellik çıkarımı yapar.

Örneğin, benzer ürün grubuyla ilgilinen kullanıcılar kümesi.

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

(23)

45

2002 yılında Amerika hükümeti, kredi kartı makbuzları, otel kayıtları, seyahat verileri ve diğer çok farklı türdeki verilerin tamamında veri madenciliği yöntemlerini uygulayarak terörist aktiviteleri izlemeyi planladığını duyurmuştur (Total Information Awareness (TIA) isimli proje).

Bu proje kongre tarafından gizlilik ve güvenlik nedenlerinden ötürü iptal edilmiştir.

Bu kadar büyük veri içerisindeki bazı davranışlar terörist aktivite olmamasına rağmen terörist gibi algılanabilir.

Gerçekten bazı şüpheli davranışların da terörizmle ilgisi olmayabilir.

Terörist aktiviteyi tam olarak tanımlayıp ilgili olanların polis tarafından izlenmesi güvenlik, gizlilik ve maliyet açısından gereklidir.

46

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

İndeksler

İkincil depolama birimi

(24)

47

Bir veri tamamen rastgele bile olsa aranan olayın olma olasılığı vardır.

Verinin boyutu arttıkça aranan bu olayın olma sıklığı da artar.

Beklenmediği kadar çok tekrar eden (önemli görünen) bu olay gerçekte önemli olmayabilir.

Bonferroni prensibi, sanki gerçekmiş gibi görünen rastgele tekrar eden bu olayları belirlemeyi sağlar.

Eğer bir olayın veri içerisindeki tekrarlanma sayısı, gerçek örneklerden ve beklenenden çok fazla ise sahtedir.

Örneğin büyük bir veri içerisinde kişilerin belirlenmiş davranışlarına göre terörist sayısı çok az olmalıdır.

Bu sayı beklenenden çok fazla çıkarsa elde edilen sonuçlar gerçek dışıdır.

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

(25)

49

Verilerin standartlaştırılması bazı uygulamalarda gereklidir.

Öklid uzaklığına dayalı kümelemede veri standartlaştırma zorunludur.

Örnek

İki nitelik değerinden birisi 0-1, diğeri ise 0-1000 aralığında olsun.

xi= (0.9, 720) ve xj= (0.1, 20) ise aralarındaki uzaklık,

olur.

İki nitelik değerleri de 0-1 aralığında ölçeklenirse,

20 -> 0,02 ve 720 -> 0,72 olur. Uzaklık değeri 1,063 olur.

50

Interval-scaled attributes

Aralık ölçeklendirme yönteminde en yaygın olarak aşağıdaki yöntemler kullanılır:

range (min-max)

z-score

Veri Standartlaştırma

(26)

51

range (min-max)

Her nitelik için değerler minimum ve maksimum değerler arasındaki değere göre, 0-1 arasında değer alır.

Burada, min(f) f niteliğinin minimum değerini, max(f) f niteliğinin maksimum değerini ve xifise i. gözlemin f. nitelik değerini ifade eder.

z-score

Her nitelik için ortalama değerden uzaklığa ve nitelik

değerlerindeki standart sapmaya göre yeni değeri hesaplanır.

Burada, f f niteliğinin standart sapması, µf f niteliğinin ortalama değeri ve z(xif) ise i. gözlemin f. nitelik değerinin yeni

Veri Standartlaştırma

(27)

53

Ratio-scaled attributes

Bazı uygulamalarda nitelik değeri üssel değişebilir.

Burada, A ve B katsayılar ve t nitelik değeridir.

Bu tür durumlarda logaritmik değer ile standartlaştırma yapılır.

( )

Bt

f tAe

54

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

İndeksler

İkincil depolama birimi

(28)

55

Çoğu veri madenciliği uygulamasında, dokümanların konularına göre gruplandırılması gerekir.

Dokümanların konuları belirli anahtar kelimelere göre belirlenebilir.

Bir dokümanda sık geçen kelimelerin o doküman için önemli olduğu tahmin edilebilir.

Bazen sık kullanılan kelimeler konu belirlemek için uygun olmayabilir.

‘the’, ‘and’ gibi kelimeler (stop words) İngilizce dokümanlarda çok sık kullanılır.

Bir dokümanda bir kelimenin az kullanılması da konu belirlemek için tek başına yeterli değildir.

Kelimelerin bir dokümanda bulunma sıklığı (term frequency) ile diğer tüm dokümanlarda bulunma sıklığı (inverse document frequency) birlikte daha anlamlı sonuç vermektedir.

Burada, fijile i.kelimenin j.dokümandaki frekansı gösterilmektedir.

maxk fkjile j.dokümanda en sık geçen kelimenin frekansı ifade edilmektedir.

Burada, Ntüm doküman sayısını, niise i.kelimenin geçtiği doküman sayısını ifade etmektedir

Bu iki değerin çarpımı ile bir kelimenin bir doküman için önemi hesaplanır.

Dokümanlardaki kelimelerin önemi

(29)

57

Örnek

Veritabanında 220doküman olsun.

Bir w kelimesi 210dokümanda geçiyorsa IDFw= log2(220/ 210) = 10 olur.

Bir j dokümanında w kelimesi 20 kez geçiyorsa ve bu en sık geçen kelime ise TFwj= 1 olur.

TF.IDFwj= 10 olur.

Bir k dokümanında w kelimesi 1 kez geçiyorsa ve en sık geçen başka bir kelime ise 20 kez geçiyorsa TFwk= 1/20 olur.

TF.IDFwk= 10 x (1 / 20) = 1/2 olur.

58

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

İndeksler

İkincil depolama birimi

(30)

59

Hash fonksiyonu, bir h anahtarını alır ve bir sonuç değer üretir.

Bu sonuç değer, 0 ile B-1 arasında bir tamsayı olabilir. Burada, B maksimum değer aralığını gösterir.

Anahtar sayısı ile sonuç sayısı birbirine eşit olabilir.

Bu durumda, her anahtar sadece bir sonuç üretebilir veya her sonuç için sadece bir anahtar olabilir.

Anahtar sayısı ile sonuç sayısı birbirinden farklı olabilir.

Bu durumda, her sonuç için birden fazla anahtar vardır (birden fazla anahtar aynı sonucu üretir).

h (x) = x mod B

Konular

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

(31)

61

İndeks, nesnelere (kayıtlara) etkin bir şekilde ulaşmak için kullanılan veri yapısıdır.

İndeks, genellikle kayıt içerisindeki bir alan (field)kullanılarak oluşturulur.

Hash tablosu ile indeks oluşturulabilir.

Field, hash fonksiyonu için anahtar değeri ifade eder ve hash fonksiyonunun sonucu kullanılarak kaydın tamamı elde edilir.

Sonuç değer, hafızada bir adres, diskte bir blok, vb. olabilir.

62

800-555-1212 telefon numarası hash key olarak kullanılarak kayda ulaşılıyor.

İndeksler

(32)

63

Veri ve Bilgi

Büyük Veri Analitiği

Veri Madenciliği

İstatistiksel model

Makine öğrenmesi

Modellemede hesaplamalı yaklaşımlar

Özetleme

Özellik çıkarımı

Veri Madenciliğinde İstatistiksel Limitler

Toplam bilgi farkındalığı

Bonferroni prensibi

Temel Bilgiler

Veri standartlaştırma

Dokümanlardaki kelimelerin önemi

Hash fonksiyonları

İndeksler

İkincil depolama birimi

Disk üzerindeki veriye ulaşma süresi hafızaya göre çok uzundur.

Disk üzerindeki bir bloğa erişim hızı hafızaya göre 10.000 kez daha yavaştır.

Her hash anahtarıyla hesaplanan sonuç değere göre ayrı ayrı okuma yapmak performansı çok düşürür.

Diskler mantıksal olarak silindir şeklinde organize edilir ve çok sayıdaki track üzerindeki sektör farklı okuma kafaları ile aynı anda okunur.

İkincil depolama birimi

(33)

65

Doküman özetleme hakkında bir araştırma ödevi hazırlayınız.

Referanslar

Benzer Belgeler

 s bir eşik destek değeri (minimum support value) ve I item kümesi iken, I item kümesinin alt kümesi olduğu sepet sayısı, s değerine eşit veya büyükse I frequent

 B firması ¨chesterfield¨ ve ¨sofa¨ kelimeleri için 20 krş teklif vermiş olsun.. Her iki firmada aylık 100 TL bütçeye

◼ Makine öğrenmesinde, veri bir eğitim kümesi olarak alınır ve bir algoritmanın öğrenmesi için kullanılır.. ◼ Makine öğrenmesi, Bayes ağları, destek vektör

 Büyük veri analitiği yöntemleri veriyi saklamak, veriyi elde etmek ve analiz etmek için gelişmiş teknolojiyi kullanır. Büyük

 İstatistiksel yöntemler, makine öğrenmesi yöntemleri veya yapay sinir ağları sınıflandırma problemleri için kullanılmaktadır..

 Son olarak sınıf niteliğinin entropisinden tüm özellik vektörlerinin entropisi çıkartılarak her özellik için kazanç ölçütü hesaplanır.  En büyük kazanca

Bu dersin sunumları, “The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer, 2017.“ ve “Mining

 K-means algoritması başlangıç merkez noktalarına bağlı kümeler oluşturur.