MAKĠNE ÖĞRENMESĠ SÜRECĠ - MAKĠNE ÖĞRENMESĠ

2. MAKĠNE ÖĞRENMESĠ

2.5. MAKĠNE ÖĞRENMESĠ SÜRECĠ

Literatürde makine öğrenmesi algoritmaları kullanılarak çözülebilecek bir problem için bazı yaklaĢımlar mevcuttur. Shearer (2000: 14) tarafından, veri madenciliği görevlerine çerçeve geliĢtirmek için Avrupa Birliği tarafından finanse edilen çalıĢmalarda kullanılmak üzere makine öğrenmesine uygulanabilir bir süreç geliĢtirmiĢtir:

1. Problemi Anlama 2. Veriyi Anlama 3. Veri Hazırlama

28 4. Modelleme

5. Değerlendirme 6. Uygulama

Brink, Richards ve Fetherolf (2016: 17), makine öğrenmesi iĢ akıĢı Ģöyledir: 1. Veri Hazırlama

2. Model OluĢturma

3. Model Performansını Değerlendirme

4. Model Performansını Optimize etme ve Yeni Tahminler

Ramasubramanian ve Singh (2017: 426), makine öğrenmesi süreci akıĢı dört ana baĢlıkta incelemiĢtir:

1. Plan

1.1. Veri Toplama 1.2. Veri Hazırlama 2. KeĢfet

2.1. Veri Analizi

2.2. Ayrıntılı Veri AraĢtırması 3. Yapı

3.1. Model OluĢturma 3.2. Model oluĢturma Ürünü 4. Değerlendirme

4.1. Model Değerlendirmesi 4.2. Model Revize Etme

Harrington (2012: 12) ise bir makine öğrenmesi uygulama geliĢtirme adımlarını Ģu Ģekilde incelemiĢtir:

1. Veri toplanma 2. Veri hazırlama 3. Model

4. Algoritma eğitimi 5. Algoritmayı test etme 6. Uygulama

Tez çalıĢmasında makine öğrenmesi uygulama geliĢtirme adımları olarak Harrington (2012: 12) modeli baz alınmıĢtır.

2.5.1. Veri toplama

Veri toplama aĢamasında farklı kaynaklardan yararlanılabilmektedir. Bunlardan biri bir web sitesini kazıyarak ve veri çıkararak örnekleri toplamak ya da bir cihazın verileri toplamasını sağlamaktır. Biraz zaman ve emekten tasarruf etmek için ise herkese açık veriler kullanılabilir (Harrington, 2012: 13). Bir diğeri hazır veri setleridir. Bu hazır veri setleri, eriĢimi ve kullanımı kolay olması sebebiyle makine öğrenmesi çalıĢmalarında avantaj sağlamaktadır (Kartal, 2015: 15).

2.5.2. Veri Hazırlama

Verinin analizlerden önce hazır hale getirilmesi önemlidir. Burada algoritmaya özgü bazı biçimlendirmelerin yapılması gerekebilir. Bazı algoritmalar bir formattaki özelliklere ihtiyaç duyar, bazı algoritmalar hedef değiĢkenleri ve özellikleri dizeler olarak ele alabilir ve bazıları tamsayı olmaya ihtiyaç duyarlar (Harrington, 2012: 14). Veri hazırlama sürecindeki iĢlemlerin standardı yoktur, kullanılacak veri setine göre değiĢiklik göstermektedir (Kartal, 2015: 16).

Veri hazırlama, literatürde Han, Kamber ve Pei (2011: 83) tarafından veri temizleme, veri entegrasyonu, veri indirgeme ve veri dönüĢümü olarak detaylı Ģekilde incelenmiĢtir:

2.5.2.1. Veri Temizleme

Gerçek dünya verileri eksik, gürültülü ve tutarsız olma eğilimindedir. Veri temizleme iĢlemi, eksik değerleri doldurmaya, farklıları tanımlarken gürültüyü düzeltmeye ve verilerin tutarsızlıklarını düzeltmeye çalıĢır (Han, Kamber ve Pei, 2011: 83).

2.5.2.2. Veri Entegrasyonu

Veri madenciliği, çoğu zaman birden fazla veri deposundan veri birleĢtirilmesi için veri bütünleĢtirmesini gerektirir. Dikkatli yapılan entegrasyon, ortaya çıkan veri kümesindeki fazlalıkları ve tutarsızlıkları azaltmaya ve önlemeye yardımcı olabilir. Bu, sonraki veri madenciliği iĢleminin doğruluğunu ve hızını

arttırılmasına yardımcı olabilir. Verilerin anlamsal heterojenliği ve yapısı, veri entegrasyonunda büyük zorluklar oluĢturmaktadır (Han, Kamber ve Pei, 2011: 83).

2.5.2.3. Veri Ġndirgeme

KarmaĢık veri analizi ve büyük miktarlarda veri madenciliği, bu tür bir analizin pratik olmaması veya uygulanabilir hale getirilmesi uzun zaman alabilir. Veri azaltma metotları, boyut olarak küçültülmüĢ fakat içerik olarak orjinalliği koruyarak verilerin daha alt boyutta gösterimini sağlamak için kullanılabilir. Böylece küçülmüĢ veri boyutu iĢlem verimliliğini arttırırken önceki çıktılara benzer sonuçlar bulunmalıdır (Han, Kamber ve Pei, 2011: 83).

2.5.2.4. Veri DönüĢümü

Bu ön iĢleme aĢamasında veriler, verimli olacak Ģekilde dönüĢtürülür ve örneklerin daha kolay anlaĢılması amaçlanır. Veri dönüĢümünde, veriler modele uygun biçime dönüĢtürülür veya birleĢtirilir. Veri dönüĢümü stratejileri Ģunları içerir: düzeltme, özellik oluĢturma, birleĢtirme, normalizasyon, ayırma, nominal veriler için kavramsal hiyerarĢi üretimi (Han, Kamber ve Pei, 2011: 83).

2.5.3. Model

Model geliĢtirme baĢlamadan önce, genellikle veriler iki kategoriye bölünür: Eğitim veri seti: Bu veri seti, makineyi eğitmek için kullanılır. Literatürde eğitim için tüm veri setinin 1:1, %70, %80 ve %90 oranlarında kısımları kullanılır. Eğitim veri seti kullanılarak makine öğrenme algoritması ile modele uyumu yansıtan bazı iyi tanımlanmıĢ performans ölçütleri optimize edilir.

Test veri seti: Test veri seti, makine öğrenmesi algoritmasının daha önce görmediği veri noktalarını içerir. Modelin yeni verilere nasıl performans gösterdiğini görmek için bu veri kümesini kullanılır. Model performansı ve değerlendirmesi bu aĢamada önceden belirlenmiĢ parametrelere göre hesaplanır ve değerlendirilir. Burada modelleyici, modelin iyileĢtirme gerektirip gerektirmediğine karar verebilir ve değiĢiklikleri yapabilir ve model buna göre uyarlanabilir.

Makine öğrenmesi alanında çalıĢanlar, karmaĢık ve büyük miktarda olan veri kümesini çeĢitli yöntemlerle modellerler. Veri kümesinin içindeki gömülü olan örüntüyü keĢfedebilmek için seçilen makine öğrenmesi modeli kullanılır (Vellido

vd., 2012: 164). Her makine öğrenme sistemi, model oluĢturmak ve tahminler yapmak için modelleri kullanmakla ilgilenir (Brink, Richards ve Fetherolf, 2016: 20). Makine öğrenmesinde model, bir görevin niteliklerle tanımlanan veriyi çıktılara uygun ihtiyaç duyulan haritalamadır. Görevler modeller tarafından yönlendirilirken, öğrenme problemleri modelleri üreten öğrenme algoritmaları tarafından çözülmektedir (Flach, 2012: 20). Bu noktada, makine öğrenmesi algoritması girdi özelliklerinden çıktı verisine eĢlemeyi gerçekleĢtiren büyülü bir kutu olarak düĢünülebilir. Makine öğrenme algoritmalarının diğer yaygın olarak kullanılan yöntemlerle karĢılaĢtırıldığında sağladığı avantajlardan birisi, birçok özelliği barındırabilmesi açısından esnek olmasıdır (Brink, Richards ve Fetherolf, 2016: 19).

Bu tez çalıĢmasında kullanılmıĢ olan YSA, DVM, K-EYK, Naive Bayes, Karar Ağaçları, Doğrusal Diskiriminant Analizi ve Lojistik Regresyon model algoritmaları Bölüm 2‟de ayrıntılı bir Ģekilde anlatılmıĢtır.

2.5.4. Algoritma Eğitimi

Makine öğrenimi burada yapılır. Bu adım ve bir sonraki adım, algoritmaya bağlı olarak "çekirdek" algoritmalarının bulunduğu yerlerdir. Algoritmayı ilk iki adımdan itibaren iyi verilerle beslersek bilgi ya da bilgileri sistemden öğrenebilir. Bu bilgi sıklıkla bir sonraki iki adım için bir makine tarafından kolaylıkla kullanılabilecek bir biçimde saklanır. DanıĢmansız öğrenme durumunda, bir eğitim adımı yoktur, çünkü hedef bir değer yoktur. Her Ģey bir sonraki adımda kullanılır (Harrington, 2012: 12).

2.5.5. Algoritmayı Test Etme

Bu, önceki adımda öğrendiği bilgilerin kullanıma sunulduğu yerdir. Bir algoritmayı değerlendirirken, algoritmanın ne kadar iyi olduğunu görmek için test edilir. Test verileri kullanılarak yapılan iĢlem ile algoritmanın tahmin sonuçları bulunur. DanıĢmanlı öğrenme durumunda, algoritmayı değerlendirmek için kullanabilen bazı bilinen değerler vardır. DanıĢmansız öğrenmede baĢarıyı değerlendirmek için baĢka metrikler kullanmak zorunluluğu ortaya çıkar (Han, Kamber ve Pei, 2011: 112).

32 2.5.6. Uygulama

Sınıflandırma probleminin çözümünde kullanılan veri kümesi probleme uygun hazırlanır. Veri kümesindeki ön-iĢleme adımları yapılarak veri seti öğrenme stratejileri ile eğitime ve test etmeye uygun olarak düzenlenir. Veriyi değerlendiren performans metotları ile öğrenme algoritmalarının optimal baĢarıyı yakalayan tahmin yöntemi seçilir. Makine öğrenmesi süreci adımları sırayla tamamlandıktan sonra model uygulamaya geçirilir (Han, Kamber ve Pei, 2011: 112).

2.6. MAKĠNE ÖĞRENMESĠNDE MODEL DEĞERLENDĠRME VE

Belgede Borsa Endeksi Hareket Yönünün Tahmininde Sınıflandırma Yöntemlerinin Performanslarının Karşılaştırılması: Bist 100 Örneği (sayfa 48-53)