• Sonuç bulunamadı

Büyük Verinin İşlenmesi ve Teknolojik Çözümler

Büyük veri terimi sadece verinin kendisini değil aynı zamanda bu alandaki teknolojileri, sorunları ve yöntemleri de içermektedir. Bu kapsamda, verilerin sahip olduğu büyüklük, hız ve karmaşıklık gibi özellikleri nedeniyle depolanması ve analiz edilebilmesi bakımından geleneksel yöntemlerin ötesinde bir teknolojiye ihtiyaç duyulmaktadır.

Genellikle birbirlerinden farklı veri kaynaklarından toplanan geniş veri kümelerinin depolanması, işlenmesi ve analizi ile ilgili büyük veri çözüm ve

14 Ünal, 2015: 10

15 Ganz ve Reinsel, 2011: 2

12

uygulamalarının karakteristik, başka bir deyişle kendine özgü olması gerekmektedir. Özel olarak büyük veri, çoklu ilişkisiz veri kümelerinin birleştirilmesi, büyük miktarda yapısal olmayan verinin işlenmesi ve gizli bilginin kısıtlı zaman içinde toplanması gibi

farklı gereksinimleri bünyesinde barındırmaktadır.17

Büyük veriyle ilgili sorunların çözümüne iki büyük teknolojik gelişmenin katkı sağladığı ifade edilmektedir.

Bu teknolojik gelişmelerden birincisi, bulut tabanlı çözümlerin ortaya çıkmasıyla veri depolama maliyetlerinin önemli ölçüde düşmesi ve ticari veri tabanlarının kullanımının yaygınlaşmasıdır. Açık kaynaklı veya belirli firmalara ait sanal dosya sistemleri şeklinde yönetilen yapılardan bilişim ihtiyaçlarının karşılanması ile hizmet tabanlı işletmeciliğe geçiş hızlanmıştır.18

İkincisi ise, büyük hacimli verilerin analizi amacıyla basit donanımların dağıtık dosya sistemleri ile birleşiminden oluşan yeni teknolojik çözümlerin oluşturulmasıdır. Bu çözümlerin başında; Google tarafından sorunları farklı birimlere bölerek hızlı işlemek için geliştirilen MapReduce, Facebook tarafından kullanılan Hadoop kümesi, Twitter’ın gerçek zamanlı veri işleme olanağı sağlayan Storm’u ve SAP firması tarafından geliştirilen ve verileri disk ortamında saklamak yerine ana bellekte daha hızlı işlemeye olanak sağlayan Hana gelmektedir. Söz konusu teknolojiler arasında Hadoop ve NoSQL (Not only SQL) günümüzde en yaygın olarak kullanılanlardır.

Gün geçtikçe etkinliği artan bulut bilişim ve dağıtık veri işleme teknolojileri aşağıda ayrıntılı olarak açıklanmakta olup, söz konusu teknolojilere ek olarak nesnelerin interneti, yapay zekâ, veri madenciliği, makina öğrenmesi, yapay sinir ağları gibi kavramlar büyük verinin saklanması ve analizine zemin hazırlayarak büyük veri setlerinin ortaya çıkmasını mümkün kılmıştır.

1.2.1. Bulut bilişim

Büyük verinin işlenmesiyle yakından ilişkili gelişmelerin başında, devasa büyüklükteki verilerin depolanabilmesi için gerekli olan depolama aygıtları gelmektedir. Veri miktarındaki artışın üstel olması dolayısıyla bu artıştaki veriyi

17 Erl ve ark., 2016: 19 18 Altunışık, 2015: 45

13

depolamak için teknolojik gelişmelerin de süreklilik arz etmesi gerektiği ifade edilmektedir. Zira özellikle fotoğraf, ses ve videolar veri hacmini genişletmekte ve depolama alanına olan ihtiyacı artırmaktadır.

2000'li yılların başındaki veri depolama ve işleme teknolojileri, gerek etkinlik gerekse maliyet açısından işletmelerin veri işleme ve analizini zahmetli ve pahalı hale getirmekteydi. Google, Amazon, Facebook ve Twitter gibi büyük BİT firmaları, karşılaştıkları bu sorunlara yönelik geçici çözümler bulmak zorunda kalmıştır. Bu aşamada ortaya çıkan bulut tabanlı çözümler, veri depolama maliyetlerini önemli ölçüde düşürmüş ve ticari veri tabanlarının kullanımına imkân sağlamıştır. Bu özelliğiyle bulut bilişim büyük veri teknolojilerini yakından ilgilendiren önemli bir teknolojik gelişimdir. Zira bulut bilişimin, depolama ve bilişim gücü konusunda sınırları büyük ölçüde esnetmesi büyük veriyi desteklemektedir. Son yıllarda verilerin, boyut, çeşitlilik ve karmaşıklık anlamında sürekli büyümesi ve büyümeye devam edecek olması, bulut bilişimle birlikte büyük veri konusunu bir sorun olmaktan çıkarıp bir çözüm odağı haline getirmektedir.

1.2.2. Büyük veri işleme platformları

Büyük veri uygulamaları, büyük verinin kendine has özellikleri nedeniyle, veri işleme ve saklama için yeni yöntem, araç ve tekniklere ihtiyaç duymaktadır. Zira yüksek hızlı verinin değerini yitirmeden işlenerek üretim süreçlerinde kullanılması verimlilik açısından kritik öneme sahiptir. Günümüzde, veri üzerinde daha hızlı ve daha verimli işlemler yapabilmesi için özellikle dağıtık mimarileri kullanabilen yeni araçlar üretilmesi ihtiyacı ortaya çıkmıştır. Bu doğrultuda, büyük verinin hacim, hız ve çeşitlilik karakteristiklerine göre işlenme ihtiyaçlarına yönelik farklı platformlar geliştirilmeye devam edilmektedir.19 Bu platformlar ağırlıklı olarak BİT firmaları

tarafından geliştirilmekte ve analiz araçlarının büyük bir kısmı açık kaynak kodlu olarak endüstrinin kullanımına sunulmaktadır.

Büyük veride üç temel uygulama mimarisinden bahsedilmektedir: yığın işleme, eş zamanlı akan veri işleme ve melez işleme mimarisi. Bunlardan yığın ve eş

zamanlı veri işleme mimarileri en yaygın kullanılanlardır.20

19 Kayabay ve ark., 2016: 3 20 A.g.e.: 4

14

Yığın veri işlemek için günümüzde en çok tercih edilen teknoloji Eşleİndirge (MapReduce) yöntemini kullanan Hadoop’tur. Hadoop, verileri dağıtık ortamda saklamak için Hadoop Dağıtık Dosya Sistemini (Hadoop Distributed File System- HDFS) kullanmaktadır. HDFS, dağıtık ortamda bulunan disklerin tek bir sanal disk gibi çalışmasını sağlayan temel dosya sistemidir. Hadoop üzerinde büyük veri işlemek, anlamlandırmak, sorgulamak ve kaynak yönetimi için birçok araç ve teknoloji

bulunmaktadır.21

Hadoop ve üzerinde çalışan teknolojiler ile büyük hacimli verileri birden çok bilgisayara dağıtmak ve Eşleİndirge ile işlemek mümkündür. Hadoop yığın veri işlemek üzere tasarlandığı için mimari öncelikleri ölçeklenebilirlik ve güvenilirliktir. Bu yüzden eş zamanlı akan veri işleme uygulamalarında örneğin; IoT, Sanayi 4.0 ve benzeri alanlarda yüksek hızda akan verileri eş zamanlı işlemek için tasarlanmış teknolojilere ihtiyaç duyulmaktadır. Akan verinin işlenmesibakımından günümüzde yaygın olarak kullanılan en önemli teknolojiler ise Storm, S4, Samza, Flink Streaming

ve Spark Streaming olarak kabul edilmektedir.22

1.2.3. NoSQL veritabanları

NoSQL (Not Only SQL) veritabanları günümüzde kullanılan ilişkisel

veritabanlarına alternatif olarak, gelişen ihtiyaçlar dolayısıyla ortaya çıkmıştır.Sistem

temel olarak, verilerin farklı sunucularda yedeklemesini yapan dağıtık mimariyi kullanmaktadır. Klasik ilişkisel veri tabanı yönetim sistemlerinden farklı olarak yatay ölçeklemeye göre veri saklanmaktadır. Bu sistemde klasik veri tabanları alt küme

olarak görülmektedir.Tasarımın basitliği, yatay büyüme ve erişilebilirlik konusunda

daha iyi kontrol sağlaması sayesinde NoSQL veritabanları ilişkisel veritabanları içinde

çözmenin zor olduğu problemleri çözebilmektedir.23 Ayrıca sistem, kolayca yeni

sunucular eklenerek büyütülebilmekte ve herhangi bir sunucunun arızalanması gibi olumsuzluklardan etkilenmemektedir.

21 A.g.e.: 5 22 A.g.e.: 5 23 Özbilgin, 2015: 4

15

1.3. Büyük Verinin Uygulama Alanları, Zorlukları ve Riskleri