• Sonuç bulunamadı

Büyük Veri İşlemede Kullanılan Teknolojiler ve Veri Analiz Teknikleri Analiz Teknikleri

BÜYÜK VERİ VE GÜNDEM BELİRLEME İLİŞKİSİ 2.1. Büyük Veri ve Sosyal Büyük Veri

2.2. Büyük Veri İşlemede Kullanılan Teknolojiler ve Veri Analiz Teknikleri Analiz Teknikleri

Bir önceki bölümde büyük veri; “tipik ve standart veri tabanı yazılım araçları ile yakalanması, saklanması, yönetilmesi ve analizi mümkün olmayan veri” olarak tanımlanmıştı. Bu tanımdan yola çıkar böyle bir

193

verinin eski yazılım, veri tabanı ve sistemler ile analiz edilmesinin mümkün olamayacağı, verinin toplanması, sınıflandırılması, kümelenmesi, analiz edilerek anlamlandırılması, içinde barındırdığı gizli desenlerin belirlenmesi, bu desenler ile çalışan ve bu desenlerden verimli sonuçlar elde edilecek algoritmaların üretilmesi, bu üretilen algoritmalar ile modeller oluşturulması ve bu modellerin sonradan tahminleme modelleri olarak uygulanması için mevcudun dışında birçok yeni teknolojiye ihtiyaç duyulmuştur. Bu yeni teknolojiler sayesinden büyük verinin işlenmesi olanaklı hale gelmiştir.

Büyük veri öncesinden elde edilen veriler ilişkisel veri tabanlarında tutulmaktaydı. Tablo şeklinde dikey düzeyde birbiri ile bağlantılı yapılar Yapılandırılmış Sorgu Dili (SQL) ile yönetilirdi (Çakır, 2013). Büyük veri öncesi gayet iş gören bu sistem ile veriler toplanır, saklanır, sorgulanır, aralarında ortak paydalar ile ilişkiler kurulurdu. Büyük veri kavramı ile birlikte, özellikle sosyal medyanında etkisi ile farklı hızlarda, farklı boyutlarda, farklı kaynaklardan gelen farklı formatta veri setlerinin işlenmesi gerekmekteydi. Mevcut SQL ilişkisel veri tabanları ise farklı formatta veri setleri için çözüm sunmaktaydı. Ayrıca bu veri tabanlarına yeni bilgi ekleme ve tablolara yeni sütün ekleme büyük bir sorun olarak ortaya çıkmaktaydı (Davaz, 2014). Bu neden ile büyük firmaların ilişkisel veri tabanı yöntemlerine alternatif olacak yeni çözümler araması bir zorunluk olarak karşımıza çıkmıştır. Dikey olarak tablolar ile saklanan veri yerine, yatay olarak ölçeklendirilebilen bir veri toplama sistemi bir çözüm olarak NoSQL geliştirilmiştir. NoSQL verileri tablo olarak tutmamakta doküman tabanlı saklamakta

194 R STUDIO İLE ÇOK ULUSLU MEDYALAR ARASI GÜNDEM BELİRLEME ANALİZİ

ve ihtiyaç halinde çağırmaktadır. Açık kaynak kodlu NoSQL firmalara maliyet avantajı sunarak, hızın ve işlemin önemli olduğu, sistem güvenliğinin ise göreceli önemsiz olduğu durumlarda bir çözüm olarak sağlamaktadır.

Büyük veri için geliştirilen bir diğer çözüm ise Hadoop’tur. Hadoop “sıradan sunuculardan oluşan kümeleme sistemi ile veri setlerini işlemek için geliştirilen uygulamaları çalıştıran ve HDFS olarak adlandırılan dağıtık dosya sistem ile MapReduce özelliklerini kaynaştıran Java yazılımı ile geliştirilmiş açık kaynaklı bir kütüphane olarak karşımıza çıkmaktadır”. HDFS dağıtık dosya sistemini önemli kılan sıradan sunucuların sabit disketlerini birleştirerek, büyük paralel tek bir sanal disk oluşturmasıdır. Bu özelliği sayesinde büyük veri setlerinin okunması olanaklı hale gelmiştir. Okunan verinin işlenmesinde ise MapReduce devreye girmektedir. Map ile veri seti üzerinden filtreleme işlemi yapılırken Reduce işlemi ile bu filtrelen verilerden sonuç elde edilmektedir. Paralel işlem sayesinde ise ağ trafiği en aza indirgenerek birden fazla görev aynı anda işlenebilmektedir. Şu anda Facebook, Ebay, Yahoo ve Amazon gibi bir çok sosyal medya devi sistem olarak Hadoop kullanmaktadır (Devveri.com, 2016). Günümüzde Hadoop teknolojisi ile birlikte birçok yan çözümlerde ortaya çıkmıştır. Cassandra bir NoSQL çözümü olarak, Google Big Tables, dağıtık veriyi ölçekleyebilen HBase, büyük hacimli (Moorthy ve diğ., 2015, s. 77; Devveri.com, 2016).

Büyük veri sayesinde ortaya çıkan bu teknolojiler ve artan yeni yazılımlar ile birçok yeni veri analiz tekniği geliştirilmiştir. Geliştirilen

195

yeni analiz teknikleri ile daha önce keşfedilememiş gizli örüntüler keşfedilmeye ve bu verilerin firmalar tarafından anlamlandırılmaya başlanmıştır. Aşağıda kullanılmaya başlanan yeni veri analiz teknikleri listelenmiştir (Manyika ve diğ., 2011; ss.27-31) :

1. Bir değişkenin iki farklı sürümünden hangisinin daha etkili olduğunu araştıran A/B testleri

2. Pazarlamada sepet analizinde, ürün patikasında ve satış tahminlemede kullanılan Birliktelik Kuralları (Timor ve Şimşek, 2008)

3. Benzer özellikteki verileri bir araya getiren Kümeleme Analizleri

4. Açık kaynak olarak değerlendirilen kitleler üzerine yapılan Kitle Kaynaklı çalışmalar

5. Çoklu kaynaktan gelen verilerin birleştirilerek yapıldığı Veri Füzyon veya Veri Entegrasyon Çalışmaları (Biroğul ve Güvenç, 2007)

6. Birden çok tahmin modeli kullanılarak en iyi modeli ve performansı tahmin etmede kullanılan Grup Öğrenme Analizleri 7. Uygun olanın hayatta kalması üzerinde kurgulanan Genetik Algoritmalar

8. Dil analizlerinde bilgisayar algoritmalarının kullanıldığı Doğal Dil İşleme Analizleri (NLP)

9. Bilgisayar aracılığı ile metinler üzerinden duygusal analizlerin yapıldığı Duygu Analizleri

196 R STUDIO İLE ÇOK ULUSLU MEDYALAR ARASI GÜNDEM BELİRLEME ANALİZİ

10. Toplanan büyük veri setleri ile öğrenime olanak sağlayan algoritmaların kullanılması ve bu algoritmaların geliştirilmesi, bu sayede veri seti içindeki karmaşık desenlerin ortaya çıkarılıp tahminlerinde sunulduğu akıllı kararlarda verebilen Makine Öğrenmesi Analizleri ve Desen Tanıma Analizleri

11. Biyolojik sinir ağları ve beyinin yapısı taklit edilerek katman mantığı çalışan, gizli veri desenlerini keşfetmekte kullanılan Yapay Sinir Ağları Analizi

12. Bir ağ içindeki kaynakları ve oluşan düğümleri varsa aralarındaki ilişkinin tanımlanmasını amaçlayan Ağ Analizleri 13. Tarihsel veri setleri kullanılarak veri setini açıklamada veya ileri bir tarih için tahminleme yapmada kullanılan Zaman Serisi Analizleri

14. Büyük veri ile elde edilen bilgilerin sonuçların daha iyi anlaşılması için grafiklerin, animasyonların ve ileri diyagramlarında kullanıldığı Veri Görselleştirme Analizleri 15. Mevcut performans, etkinlik ve verimliği arttırmak için kullanılan Optimizasyon Analizleri

16. Büyük veriden elde edilen bilgiler ışığında öngörülerin yapılması ve bu öngörülerin ışığında belli davranış modellerinin tasarımı ve bu verilerin ışığında belli senaryoların planlandığı Simülasyonlar

17. Topolojik, geometrik veya coğrafi özelliklerin analizinde uygulanan kullanılan Mekânsal Analiz

18. En iyi matematiksel modeli oluşturarak en iyi sonucu tahminlemeye dayalı Tahmin Modelleme Analizleri

197

19. Bağımsız değişkenlerin hedef değişken üzerindeki etkisini ölçmek için geliştirilen Regresyon Analizleri

20. Resim, Ses ve Videolardan anlamlı sonuçlar çıkarmaya yarayan, parmak izi tanıma, yüz tanıma ve ses tanıma sistemlerinin yaratılmasına olanak sağlayan Derin Öğrenme Analizleri

21. Sinyal ve görüntü arasındaki ayrımı anlamak ve modellemek ile ilgilenen Sinyal İşleme Analizleri

22. İnsan zekasını taklit eden ve topladıkları verilere kendisini geliştirebilen sistemlerin ve makinelerin oluşması için geliştirilen Yapay Zekâ Analizleri

Yukarıda açıklanan teknolojik gelişmeler, yeni veri saklama ve analiz etme yöntemleri ile büyük veri kavramı kavramsal alandan çıkıp uygulamada birer ürün olarak da kendisini göstermektedir.

Şu ana kadar belirtilen büyük veri kavramı içinde cevaplanması gereken felsefi, kavramsal, etik ve ahlaki sorunlar da bulunmaktadır. Aşağıdaki bölümde bu sorulara cevap aranmıştır.

2.3. Büyük Veri ile İlgili Üzerinde Düşünülmesi Gereken