Büyük Veri Analitiği (Big Data Analytics)

(1)

(Big Data Analytics)

M. Ali Akcayol Gazi Üniversitesi

Bilgisayar Mühendisliği Bölümü

Bu dersin sunumları, “Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011.” kitabı kullanılarak hazırlanmıştır.

2

Değerlendirme

Arasınav : 25%

Ödevler : 15%

Final Projesi : 30%

Final Sınavı : 30%

Ders kaynakları

Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011.

Real-Time Big Data Analytics: Emerging Architecture, Mike Barlow, O’Reilly Media, 2013.

Big Data, Data Mining, and Machine Learning: Value Creation for Business Leaders and Practitioners, Jared Dean, Wiley, 2014.

Data Science and Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data, EMC Education Services, 2015.

e-posta : [email protected]

web : http://w3.gazi.edu.tr/~akcayol

Genel bilgiler

(2)

3

Araştırma ödevleri

 Haftalık konu ile ilgili bir makale incelenerek detaylı rapor hazırlanacaktır.

 İncelenen makalede ilgili yöntemin/algoritmanın/yaklaşımın

kullanılmasının gerekçeleri, elde edilen sonuçları değerlendirilecektir.

 İncelenen makale son 3 yılda yayınlanmış olacaktır.

 Makale SCI-E tarafından taranan bir dergide yayınlanmış olacaktır.

 SCI-E tarafından tarandığını gösterir bilgi ödeve eklenecektir.

 Hazırlanan rapora makalenin tam metni de eklenecektir.

Final Projeleri

 Bir yöntemin/algoritmanın bir alana uygulamasını içerecektir.

 Geliştirilecek uygulamanın algoritma kısmında hazır araç, fonksiyon veya kütüphane kullanılmayacaktır.

 Hazırlanan projenin tüm dokümanları CD ile, proje raporu ise çıktı ile teslim edilecektir.

Genel bilgiler

(3)

5

Ders içeriği

1. Büyük Veri Madenciliği 2. MapReduce

3. Benzer elemanların bulunması 4. Uzaklık ölçütleri

5. Data stream madenciliği 6. Link analizi

7. Frequent itemset’ler 8. Öbekleme

9. Web reklamcılığı

6

Konular

 Veri ve Bilgi

 Büyük Veri Analitiği

 Veri Madenciliği

 İstatistiksel model

 Makine öğrenmesi

 Modellemede hesaplamalı yaklaşımlar

 Özetleme

 Özellik çıkarımı

 Veri Madenciliğinde İstatistiksel Limitler

 Toplam bilgi farkındalığı

 Bonferroni prensibi

 Temel Bilgiler

 Veri standartlaştırma

 Dokümanlardaki kelimelerin önemi

 Hash fonksiyonları

 İndeksler

 İkincil depolama birimi

(4)

7

 Bilgi, insanoğlu için vazgeçilmez unsurların başında gelir.

 Günümüzde bilginin elde edilmesi, paylaşılması ve oluşturulması üzerinde teknolojik gelişmeler oldukça etkilidir.

 Yeni teknolojilerin ortaya çıkması toplumsal yaşamın değişmesine, yeni ilişkiler ağının ortaya çıkmasına ve bilgilerin sürekli olarak yenilenmesine neden olmaktadır.

 Sözlük anlamıyla bilgi;öğrenme, araştırma ve gözlem yoluyla elde edilen her türlü gerçek ve kavrayışın tümüdür.

 Bilgi, önceden belirlenen bir dizi sistematik kural ve prosedüre uygun bir biçimde işlenmiş enformasyondur.

 Veri ve bilgi arasındaki ilişki aşağıda görülmektedir*.

Veri ve Bilgi

(5)

9

Türk Dil Kurumuna göre;

 Veri (data):olgu, kavram veya komutların, iletişim, yorum ve işlem için elverişli biçimde gösterimi,

 Enformasyon (Information): haber alma, haber verme, haberleşme,

 Bilgi (knowledge): veriye yöneltilen anlam, insan aklının erebileceği olgu, gerçek ve ilkelerin bütünü,

 Anlayış (understanding): görüş ve inanış etmenlerinin etkisiyle beliren düşünme yolu, düşünüş biçimi, zihniyet, mantalite,

 Bilgelik (wisdom): herkesin ulaşamadığı derin, kapsamlı, bütünsel bilgi

olarak tanımlanmaktadır.

10

 Veri ve bilgelik arasındaki ilişki aşağıda görülmektedir*.

*https://medium.com/@Iyer/strive-to-get-higher-on-the-data-information-knowledge-understanding-and-wisdom-continuum-c5ccb96438

Veri ve Bilgi

(6)

11

 Veri (Data):sayılar, rakamlar, sözcükler, metinler, resimler, olaylar vb.

biçiminde temsil edilen ham gerçekliklerdir. (Örn: 54000, 01/22/2006)

 Enformasyon (Information): herhangi bir konu ile ilgili bir bilinmeyeni giderme konusunda yardımcı olan tanımlayıcı ifadelerdir (Örn: Nazlı’nın bankada 54.000 TL’si var, Kemal’in doğum tarihi 01/22/2006).

 Bilgi (Knowledge): işlenmiş enformasyondur (Örn: Nazlı’nın bankada biriken 54.000 TL’si beklediğinden fazladır).

 Anlayış (Understanding): sonuç veya bilgi ile ilgili neden bulma veya kavrama sürecidir (Örn: Nazlı banka işlemlerine bakınca tanımadığı birisinin 4.000 TL yatırdığını farketti. Bu nedenle bankadaki parası yüksekmiş.).

 Bilgelik (Wisdom): başka bir bakış açısıyla, değişen şartlar çerçevesinde ileriyi görebilme veya gözlem etkilerine göre prensipler ortaya koyma yeteneğidir (Bankaya para transferinde kişiden onay istenmelidir.).

Konular

 Veri ve Bilgi

 Özetleme

 Temel Bilgiler

(7)

13

 Büyük veri,kendine özgü özelliklere sahip olan ve genellikle yüksek hacimlerde ve çok farklı kaynaklardan elde edilen veridir.

 Büyük veri analiz yöntemleri, farklı kaynaklardan elde edilen düzenli veya düzensiz verileri anlamlı ve işlenebilir hale dönüştürür.

 Dünyadaki verilerin %90’ı son 3-4 yılda oluşturulmuştur.

 Sosyal medya, blog, fotoğraf, müzik, video, IoT, log dosyaları, …

14

 Büyük veri terimi ilk ortaya çıktığından itibaren farklı sayıdaki özellikler ile ifade edilmiştir.

 Büyük veri özellikleri 3V, 5V, 7V, 10V ve hatta 42V olarak ifade edilmiştir.

 Yaygın kullanılan 10V:

1. Volume 2. Velocity 3. Variety 4. Variability 5. Veracity 6. Validity 7. Vulnerability 8. Volatility 9. Visualization 10. Value

Büyük Veri Analitiği

(8)

15

Volume

 Büyük verinin en çok bilinen karakteristiğidir.

 YouTube’a her bir dakikada 300 saatlik video yüklenmektedir.

 2016 yılında 1,1 trilyon fotoğraf çekildiği tahmin edilmektedir.

 2016 yıllında cep telefonu veri trafiğinin 6,2 exabyte olduğu tahmin edilmektedir (Byte, Kilobyte, Megabyte, Gigabyte, Terabyte, Petabyte, Exabyte, Zettabyte, Yottabyte, Xenottabyte, Shilentnobyte,

Domegemegrottebyte, Icosebyte).

 Twitter kullanıcıları her bir dakikada 277.000 tweet atmaktadır.

 Apple kullanıcıları her bir dakikada 48.000 uygulama indirmektedir.

 Facebook kullanıcıları her bir dakikada 2.460.000 içerik paylaşmaktadır.

 Her bir dakikada 204.000.000 e-posta mesajı gönderilmektedir.

 Google her bir dakikada 4.000.000 arama sorgusu almaktadır.

Velocity

 Büyük verinin üretilme, tüketilme, oluşturulma ve güncellenme hızını ifade eder.

 Facebook günde 600 terabyte verinin geldiğini ifade etmektedir.

 Google her saniyede 40.000 sorguya cevap ürettiğini ifade etmektedir.

Günde 3,5 milyar sorguya cevap verdiği söylenebilir.

Variety

 Büyük verideki çeşitliliği ifade eder.

 Büyük veride yapılandırılmış, yarı yapılandırılmış ve çoğunlukla yapılandırılmamış veri bulunur (ses, video, görüntü, sosyal medya güncellemeleri, log dosyaları, click verileri, makine ve sensör verileri vb.).

Büyük Veri Analitiği

(9)

17

Variability

 Büyük veride bazı farklı verilerde olabilir. Bunlar, veride tutarsızlıklara neden olabilir.

 Bu verilerin anomaly veya outlier algılama yöntemleri ile bulunup yapılan analizlerin daha anlamlı hale getirilmesi gereklidir.

Veracity

 Veri kaynaklarının güvenilirliğini ifade eder.

 Büyük veride yukarıda bahsedilen özellikler artarken verinin güvenilirliği ve doğruluğu düşer.

 Verinin kim tarafından oluşturulduğu, hangi metodoloji ile toplandığı, aynı türdeki kaynaklardan mı toplandığı, veriyi toplayanın özetleme yapıp yapmadığı, veri başka birisi tarafından değiştirildi mi gibi sorulara cevap aranır.

18

Validity

 Verinin nasıl doğrulandığı ve geçerliliğinin nasıl test edildiğiyle ilgilenir.

 Verinin analiz işleminden önce doğrulanması gereklidir.

Vulnerability

 Büyük veri yeni güvenlik konularını da beraberinde getirir.

 Verinin hack’lenmemesi, kaynağından elde edildikten sonra

bozulmadan ve güvenlik saldırısı sonucu değişmeden alınması gereklidir.

Volatility

 Verinin, güncel olup olmadığı, kullanılabilir olup olmadığı ile ilgilenir.

 Güncel veriyle istenen sonuçlar elde edilebilir.

 Kurumlarda veya büyük şirketlerde veri sürekli saklanır ve elde edilen büyük verinin önemli bir kısmı güncelliğini yitirebilir.

Büyük Veri Analitiği

(10)

19

Visualization

 Büyük verinin görselleştirilmesi sonuçların kolay anlaşılması ve analiz edilmesi için gereklidir. Günümüzde büyük veri görselleştirmeyle ilgili hafıza kısıtları gibi teknik kısıtlar halen bulunmaktadır.

 Klasik grafik araçları ve yöntemleriyle büyük verideki milyarlarca noktanın görselleştirilmesi mümkün değildir.

 Bunun için kümeleme, ağaç haritaları, dairesel ağ diyagramları gibi görselleştirme yöntemlerinin kullanılması gereklidir.

Value

 Büyük veriden anlamlı ve değerli bilgiyi çıkarmadıkça diğer bütün karakteristikleri anlamsızdır.

 Anlamlı ve değerli bilgiyi elde etmek için veri madenciliği yöntemleri gibi karmaşık süreçlerin uyarlanıp kullanılması gereklidir.

 Büyük veri analitiği, büyük ve çeşitli veri setleri üzerinde işlem yaparak gizli örüntüleri çıkarma, bilinmeyen ilişkileri keşfetme sürecidir.

 Kullanılan yöntemlerle elde edilen bilgi, firmalara, kurumlara veya ticari girişimlere yönelik önemli bilgiler sağlamaktadır.

 Büyük veri analitiği uygulamaları veri bilimcilere modelleri tahmin etme, istatistikçilere ve diğer analiz alanında çalışan profesyonellere büyüyen verileri kolay analiz yapma yeteneği kazandırır.

 Büyük veri analitiği klasik yöntemlerle yönetilmesi çok zor olan çok büyük, yapılandırılmamış ve çok hızlı değişen veriyle uğraşır ve anlamlı örüntüler elde eder.

 Büyük veri analitiği yöntemleri veriyi saklamak, veriyi elde etmek ve analiz etmek için gelişmiş teknolojiyi kullanır.

Büyük Veri Analitiği

(11)

21

Büyük veri;

analiz türü, işleme yöntemi, veri frekansı, veri türü, içerik biçimi, veri kaynağı, veri tüketicisi ve donanıma göre sınıflandırılabilir.

https://www.ibm.com/developerworks/library/bd-archpatterns1/index.html

22

Büyük verinin kullanım alanları

 Büyük veri günümüzde, veri madenciliği, makine öğrenmesi, örüntü tanıma, istatistik, görselleştirme, yüksek performanslı hesaplama, veritabanı teknolojisi, algoritma gibi çok farklı disiplinlerde yaygın bir şekilde kullanılmaktadır.

Büyük Veri Analitiği

(12)

23

Büyük verinin kullanım alanları

 Büyük veri uygulamaları farklı uygulama alanlarında başarılı bir şekilde kullanılmaktadır.

İşletme

 Özellikle büyük ölçekli işletmeler müşteri analizi, müşteriye özel tavsiye, reklam veya öneri oluşturma, ürün dağıtımı ve lojistik optimizasyonu gibi çok sayıdaki alanda büyük veri analiz yöntemlerini kullanmaktadır.

Perakende Satış

 Personel gelir optimizasyonu, müşteri davranış analizi, müşteri ilişkileri analizi, ürün çeşitliliği, kampanya yönetimi ve fiyat optimizasyonu gibi uygulamalarda büyük veri analiz yöntemleri kullanılmaktadır.

Kamu

 Verilere kolay ve güvenli erişebilirliği sağlama, gizlilik ve şeffaflık oluşturma, uygun ürün ve hizmetlerin sunumu, risk ve sahtekarlığı azaltmaya yönelik alanlarda büyük veri analiz yöntemleri

kullanılmaktadır.

Teknoloji

 Gerçek zamanlı analiz ve işlem (menü) özelleştirme, işlem süresini azaltma, riskleri azaltma, otomatik sistemler ile karar verme gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır.

Eğitim

 Eğitimde öğrenci analizi, ders planlaması gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır.

Büyük Veri Analitiği

(13)

25

Kişisel Konum Verileri

 Konum tabanlı reklam, akıllı yönlendirme, acil müdahale gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır.

Sağlık

 Hastalık tespiti, hasta izlenmesi, kişisel DNA analizi gibi alanlarda büyük veri analiz yöntemleri kullanılmaktadır.

Bankacılık

 Geçmiş verinin, nakit hareketlerinin, öngörülebilen felaketlerin, soygunların ve müşteri davranışlarının anlaşılmasında büyük veri analiz yöntemleri kullanılmaktadır.

26

Akış verisi

 Akış verisi geldiği anda işlem yapılmazsa (depolama, data process vs.) kalıcı şekilde kaybedilebilir.

 Veriyi işleme hızından daha hızlı veri gelmesi durumunda da kaybedilebilir.

 Akış verisinde işlem yapan algoritmalar akış verisini genellikle özetleyerek kullanırlar.

 Akış verisi madenciliği algoritmaları, faydalı örnekleri seçer ve istenmeyen örnekleri filtreler.

 Özetleme yaklaşımında ise, sabit boyutlu bir pencere içerisindeki elemanlarla (belirli bir süre için geçmiş veri) özetleme yapılmaktadır.

Büyük Veri Analitiği

(14)

27

Akış verisi

 Akış verisinin özetlenmesiyle birlikte daha küçük alanda saklanması da sağlanmış olur.

 Akış işlemcisi bir tür veri yönetim sistemi olarak görülebilir.

 Sisteme çok sayıda farklı stream’den veri gelebilir.

 Veri türleri, veri oranları ve veri gelme aralıklarının dağılımları farklı olabilir.

Akış verisi

Büyük Veri Analitiği

(15)

29

Akış verisi kaynakları Sensor data

 Bir okyanus yüzeyindeki ısı sensörü her saat ölçtüğü ısı değerini reel sayı olarak bir istasyona gönderirse, veri oranı çok düşük olduğundan günümüz teknolojisinde tüm veri ana hafızada tutulabilir.

 GPS birimindeki sensör yüzeydeki yükseklik değişimini ölçüp bir istasyona gönderirse, bu durumda veri oranı yüksektir ve ancak ana hafızada veya ayrı bir diskte tutulabilir.

 Bir okyanusun tüm davranışını ölçmek istersek, milyonlarca sensör kullanılır ve günlük birkaç terabyte veri alınabilir.

30

Akış verisi kaynakları Image data

 Uydulardan sürekli dünyaya ilişkin görüntüler alınıp yeryüzündeki istasyonlara gönderilir.

 Bu görüntü verilerinin boyutları günlük birkaç terabyte düzeyinde olabilir.

 Şehirlerdeki güvenlik kameraları uyduya göre düşük çözünürlüktedir, ancak her birisi akış verisi oluşturur.

 Veri ve Bilgi

 Özetleme

 Temel Bilgiler

 İndeksler

(24)

47

 Bir veri tamamen rastgele bile olsa aranan olayın olma olasılığı vardır.

 Verinin boyutu arttıkça aranan bu olayın olma sıklığı da artar.

 Beklenmediği kadar çok tekrar eden (önemli görünen) bu olay gerçekte önemli olmayabilir.

 Bonferroni prensibi, sanki gerçekmiş gibi görünen rastgele tekrar eden bu olayları belirlemeyi sağlar.

 Eğer bir olayın veri içerisindeki tekrarlanma sayısı, gerçek örneklerden ve beklenenden çok fazla ise sahtedir.

 Örneğin büyük bir veri içerisinde kişilerin belirlenmiş davranışlarına göre terörist sayısı çok az olmalıdır.

 Bu sayı beklenenden çok fazla çıkarsa elde edilen sonuçlar gerçek dışıdır.

Konular

 Veri ve Bilgi

 Özetleme

 Temel Bilgiler

(25)

49

 Verilerin standartlaştırılması bazı uygulamalarda gereklidir.

 Öklid uzaklığına dayalı kümelemede veri standartlaştırma zorunludur.

Örnek

 İki nitelik değerinden birisi 0-1, diğeri ise 0-1000 aralığında olsun.

 x_i= (0.9, 720) ve x_j= (0.1, 20) ise aralarındaki uzaklık,

olur.

 İki nitelik değerleri de 0-1 aralığında ölçeklenirse,

20 -> 0,02 ve 720 -> 0,72 olur. Uzaklık değeri 1,063 olur.

50

Interval-scaled attributes

 Aralık ölçeklendirme yönteminde en yaygın olarak aşağıdaki yöntemler kullanılır:

 range (min-max)

 z-score

Veri Standartlaştırma

(26)

51

range (min-max)

 Her nitelik için değerler minimum ve maksimum değerler arasındaki değere göre, 0-1 arasında değer alır.

 Burada, min(f) f niteliğinin minimum değerini, max(f) f niteliğinin maksimum değerini ve x_ifise i. gözlemin f. nitelik değerini ifade eder.

z-score

 Her nitelik için ortalama değerden uzaklığa ve nitelik

değerlerindeki standart sapmaya göre yeni değeri hesaplanır.

 Burada, _f f niteliğinin standart sapması, µ_f f niteliğinin ortalama değeri ve z(x_if) ise i. gözlemin f. nitelik değerinin yeni

Veri Standartlaştırma

(27)

53

Ratio-scaled attributes

 Bazı uygulamalarda nitelik değeri üssel değişebilir.

 Burada, A ve B katsayılar ve t nitelik değeridir.

 Bu tür durumlarda logaritmik değer ile standartlaştırma yapılır.

( )

^Bt

f t  Ae

54

Konular

 Veri ve Bilgi

 Özetleme

 Temel Bilgiler

 İndeksler

(28)

55

 Çoğu veri madenciliği uygulamasında, dokümanların konularına göre gruplandırılması gerekir.

 Dokümanların konuları belirli anahtar kelimelere göre belirlenebilir.

 Bir dokümanda sık geçen kelimelerin o doküman için önemli olduğu tahmin edilebilir.

 Bazen sık kullanılan kelimeler konu belirlemek için uygun olmayabilir.

 ‘the’, ‘and’ gibi kelimeler (stop words) İngilizce dokümanlarda çok sık kullanılır.

 Bir dokümanda bir kelimenin az kullanılması da konu belirlemek için tek başına yeterli değildir.

 Kelimelerin bir dokümanda bulunma sıklığı (term frequency) ile diğer tüm dokümanlarda bulunma sıklığı (inverse document frequency) birlikte daha anlamlı sonuç vermektedir.

 Burada, f_ijile i.kelimenin j.dokümandaki frekansı gösterilmektedir.

 max_kf_kjile j.dokümanda en sık geçen kelimenin frekansı ifade edilmektedir.

 Burada, Ntüm doküman sayısını, n_iise i.kelimenin geçtiği doküman sayısını ifade etmektedir

 Bu iki değerin çarpımı ile bir kelimenin bir doküman için önemi hesaplanır.

Dokümanlardaki kelimelerin önemi

(29)

57

Örnek

 Veritabanında 2²⁰doküman olsun.

 Bir w kelimesi 2¹⁰dokümanda geçiyorsa IDF_w= log₂(2²⁰/ 2¹⁰) = 10 olur.

 Bir j dokümanında w kelimesi 20 kez geçiyorsa ve bu en sık geçen kelime ise TF_wj= 1 olur.

 TF.IDF_wj= 10 olur.

 Bir k dokümanında w kelimesi 1 kez geçiyorsa ve en sık geçen başka bir kelime ise 20 kez geçiyorsa TF_wk= 1/20 olur.

 TF.IDF_wk= 10 x (1 / 20) = 1/2 olur.

58

Konular

 Veri ve Bilgi

 Özetleme

 Temel Bilgiler

 İndeksler

(30)

59

 Hash fonksiyonu, bir h anahtarını alır ve bir sonuç değer üretir.

 Bu sonuç değer, 0 ile B-1 arasında bir tamsayı olabilir. Burada, B maksimum değer aralığını gösterir.

 Anahtar sayısı ile sonuç sayısı birbirine eşit olabilir.

 Bu durumda, her anahtar sadece bir sonuç üretebilir veya her sonuç için sadece bir anahtar olabilir.

 Anahtar sayısı ile sonuç sayısı birbirinden farklı olabilir.

 Bu durumda, her sonuç için birden fazla anahtar vardır (birden fazla anahtar aynı sonucu üretir).

h (x) = x mod B

Konular

 Veri ve Bilgi

 Özetleme

 Temel Bilgiler

(31)

61

 İndeks, nesnelere (kayıtlara) etkin bir şekilde ulaşmak için kullanılan veri yapısıdır.

 İndeks, genellikle kayıt içerisindeki bir alan (field)kullanılarak oluşturulur.

 Hash tablosu ile indeks oluşturulabilir.

 Field, hash fonksiyonu için anahtar değeri ifade eder ve hash fonksiyonunun sonucu kullanılarak kaydın tamamı elde edilir.

 Sonuç değer, hafızada bir adres, diskte bir blok, vb. olabilir.

62

 800-555-1212 telefon numarası hash key olarak kullanılarak kayda ulaşılıyor.

İndeksler

(32)

63

 Veri ve Bilgi

 Özetleme

 Temel Bilgiler

 İndeksler

 Disk üzerindeki veriye ulaşma süresi hafızaya göre çok uzundur.

 Disk üzerindeki bir bloğa erişim hızı hafızaya göre 10.000 kez daha yavaştır.

 Her hash anahtarıyla hesaplanan sonuç değere göre ayrı ayrı okuma yapmak performansı çok düşürür.

 Diskler mantıksal olarak silindir şeklinde organize edilir ve çok sayıdaki track üzerindeki sektör farklı okuma kafaları ile aynı anda okunur.

İkincil depolama birimi

(33)

65

 Doküman özetleme hakkında bir araştırma ödevi hazırlayınız.