KARAR AĞAÇLARI - MAKĠNE ÖĞRENMESĠ - Borsa Endeksi Hareket Yönünün Tahmininde Sınıflandırma Yönt

2. MAKĠNE ÖĞRENMESĠ

1.3. KARAR AĞAÇLARI

Karar Ağacı (KA), ayırma ve budama stratejisini uygulayan hiyerarĢik bir veri yapısıdır. Hem sınıflandırma hem de regresyon için kullanılabilecek etkin bir parametrik olmayan yöntemdir.

1979 yılında Quinlan tarafından KA algoritması olarak bilinen ID3 algoritması geliĢtirildi. Daha sonra Quinlan ID3‟ün devamı olan ve birçok baĢka algoritma ile performans karĢılaĢtırmalarında kullanılan C4.5'i önermiĢtir. 1984 yılında ise Friedman, Olshen ve Stone tarafından “Classification and Regression Trees (CART)” isimli yeni bir karar ağacı algoritmasını tanımlayan kitap yayınlanmıĢtır. KA oluĢumu için benzer yaklaĢımlar izleyen ID3 ve CART algoritmaları aynı dönemde birbirlerinden bağımsız olarak yazılımları yapılmıĢtır. Bu algoritmalar karar ağaçları çalıĢmalarında yeni bir ivme kazandırmıĢtır. ID3, C4.5 ve CART, KA‟nın yukarıdan aĢağıya tekrar eden ayırma ve budama Ģeklinde oluĢturulan bir yaklaĢımı benimsemektedir (Han, Kamber ve Pei, 2011: 332).

Ġstatistik tekniklerine dayanan diğer makine öğrenmesi algoritmalarından farklı olarak, KA varsayımları olmayan bir modeldir. Parametrik tahminlerde, tüm giriĢ alanı üzerinde bir model tanımlar ve tüm eğitim verilerinden parametrelerinin öğrenilmesini sağlar. Daha sonra aynı model ve herhangi bir test giriĢi için aynı parametre seti kullanılır. Parametrik olmayan tahminlerde ise giriĢ uzayı, Öklid uzaklığı gibi bir mesafe ölçüsü ile tanımlanan yerel bölgelere ayırılır ve her bir girdi için, o bölgedeki eğitim verisinden hesaplanan ilgili yerel model kullanılır.

KA, danıĢmanlı öğrenme için hiyerarĢik bir model olup, daha az adımda tekrarlayan bölünmeler dizisi Ģeklinde tanımlanır. KA‟nın yorumlama ve anlama

kolaylığı, tarımdan, çeĢitli çevresel değiĢkenler ve yağmur olasılığını tahmin edebildiğimiz pek çok uygulamada kullanım alanı bulmuĢtur (Ramasubramanian ve Singh, 2017: 297). Yıllar boyunca, ağaç temelli yaklaĢımlar, uygulanabilirliğin yanı sıra geliĢmiĢlik konusunda daha geniĢ bir alana dönüĢmüĢtür. Hem sınıflandırma hem de regresyon problemleri için uygun bir çözüm haline getiren, hem ayrı hem de sürekli cevap değiĢkenleri durumunda kullanılabilirler. Bu nedenlerle KA en yaygın kullanılan sınıflandırma tekniklerinden biridir (Harrington, 2012: 38).

1.3.1. Karar Ağacının Yapısı

KA bir dizi düğüm ve dal oluĢturmak için farklı durumlara bağlı bir ağaç yapısına sahiptir. Ağaç yapısı düğüm ve dallardan oluĢur. Kullanılan her özellik bir düğüm, düğümler arasındaki olaylar ise dal ile temsil edilir (Öztürk, 2015: 215). Her düğüm bir çıktı/hedef sınıfı sunar ve her dal sınıflandırma için bir süreç/karar sunar. Uç düğüm, bir tahmin sonucunu verir (Tsai ve Wang, 2009: 60).

Her düğüm, dalları etiketleyen ayrık sonuçlarla f(x) test fonksiyonunu uygular. Bir girdi verildiğinde, her düğümde, bir test uygulanır ve sonuca bağlı olarak dallardan biri alınır. Bu iĢlem kökte baĢlar ve bir yaprak düğümü kalana kadar ardı ardına tekrarlanır, bu noktada yaprakta yazılan değer çıkıĢı oluĢturur (Alpaydın, 2014: 213). ġekil 17‟de bir KA gösterilmiĢtir.

ġekil 17.Karar Ağacı Yapısı (Ramasubramanian ve Singh, 2017: 298).

1.3.2. Karar Ağacı Ġle Sınıflandırma

Karar ağaçları, makine öğrenimi algoritmalarının bir alt kümesi olan sınıflandırma ve tahmin için kullanılan en güçlü, iyi bilinen ve yaygın araçlardan

biridir. KA, geniĢ bir veri kümesini özelliklerini koruyarak daha küçük veri kümelerine bölmek için kullanılabilecek bir makine öğrenimi algoritmasıdır (Rostami vd., 2015: 164).

Sınıflandırma ağacı kategorik veya ayrık cevap değiĢkenleri için daha uygundur. Sınıflandırma ağaçları ve regresyon ağaçları arasındaki temel farklar Ģunlardır (Ramasubramanian ve Singh, 2017: 300):

 Sınıflandırma ağaçlarındaki bölünmeleri yapmak için sınıflandırma hata oranı kullanılır.

 Belirli bir bölgedeki tepki değiĢkeninin ortalamasını tahmin için almak yerine, burada en yaygın olarak ortaya çıkan eğitim gözlemi sınıfı bir tahmin yöntemi olarak kullanılır.

Yine, gözlemleri farklı sınıflara ayırmanın en iyi özelliğini veya niteliğini seçmek için Gini indeksi veya Entropi bir ölçü olarak kullanılabilir (Flach, 2012: 134).

KA mimarisi oluĢturulurken aĢağıda verilen birçok teknik kullanılmaktadır. 1.3.3. Karar Ağacı OluĢturma

Algoritma tarafından karar ağaçları oluĢturulurken, eğitim veri setindeki sınıf etiketlerini yukarıdan baĢlayarak aĢağıya doğru dağıtan bir strateji izlenir. Eğitim veri seti karar ağacı inĢa edilirken, daha küçük alt kümelere tekrar tekrar bölümlendirilir (Han, Kamber ve Pei, 2011: 332). Ağaç iki aĢamada inĢa edilir. Bu iki aĢama ağaç yapımı ve budamadır (Lavanya ve Rani, 2011: 2). Karar ağaçları, bunu yapmak için bir dizi soru ve çok basit karar kuralları kullanır (Rostami vd., 2015: 164).

KA iki tip düğümden oluĢur (Ramasubramanian ve Singh, 2017: 298):

 Yanıt değiĢkeni tarafından tanımlanan sınıf/bölgeyi gösteren bir yaprak düğümü,

 Testin olası her bir sonucu için tek bir öznitelik ve bir alt ağacı olan tek bir öznitelik üzerinde bazı testleri belirten bir karar düğümü.

KA, üst karar düğümünden baĢlayarak ve bir özdeĢ ayırma ve budama yaklaĢımı kullanılarak bir yaprak düğümü kalana kadar diğer karar düğümlerinden

aĢağı doğru hareket ederek bir gözlemi sınıflandırmak için kullanılabilir (Ramasubramanian ve Singh, 2017: 298).

1.3.4. Ayırma – Budama

Maksimum ağaçlar çok yüksek karmaĢıklığa sahip olabilir ve yüzlerce seviyeden oluĢabilir. Bu nedenle, yeni verilerin sınıflandırılması için kullanılmadan önce optimize edilmeleri gerekmektedir. Ağaç optimizasyonu, önemsiz düğümleri ayırma ve hatta alt dalları budayarak doğru ağacın boyutunu seçmeyi gerektirir (Timofeev, 2004: 16).

Ayırma: Ağaç inĢa edilirken hangi özelliklerin kullanılacağının saptanması iĢlemidir. Özellik seçimi ve sıralaması uzman görüĢü alınarak yapılan ayırma iĢlemi algoritmanın performansını arttırır.

Budama: Veriyi ağaç algoritmasına yerleĢtirme problemini ele alır. Budama aĢaması, gürültüyü ve aykırı değerleri çıkararak ağacı genelleĢtirir. Sınıflandırma doğruluğu budama aĢamasında artar. Budama aĢaması sadece tamamen inĢa edilmiĢ ağaçlara uygulanır. Eğitim verileri üzerinde birden fazla geçiĢ gerektirir. KA‟yı budamak için gereken süre KA‟yı inĢa etmekten çok daha azdır (Lavanya ve Rani, 2011: 2).

1.3.5. Karar Ağacı Algoritmaları 1.3.5.1. ID3

Yinelemeli Dikotomiser-3 (ID3), karar ağacı oluĢturmak için kullanılan bir algoritmadır. Bununla birlikte, her zaman en küçük ağacı üretmez ve bu nedenle bir sezgiseldir (Vasudevan, 2014: 1152).

ID3, bölme özniteliğini seçmek için bilgi kazancı ölçüsünü kullanır. Bir ağaç modeli oluĢtururken sadece kategorik nitelikler kabul eder. Gürültü olduğunda doğru sonuç vermez. Gürültülü durumları algoritmadan çıkarmak için ön iĢleme tekniğini kullanılmalıdır. Sürekli öznitelikler, öznitelik değerleri üzerinde bir eĢik alarak en iyi ayırma noktası t değerini bulmak için ID3 algoritması doğrudan veya ayrıĢtırılarak kullanılabilir (Lavanya ve Rani, 2011: 2).

Bilgiyi nitelemek ve veri setindeki rassallığı ölçmek için entropi kavramı kullanılır. Bilgi teorisinde Shannon entropisi ya da bilgi entropisi, rastgele bir değiĢkenle iliĢkili belirsizliğin bir ölçütüdür (Ankerst vd., 1999: 393).

ID3, entropiyi düğümleri ayırma iĢlemi için kullanır. Burada t düğümünün i sınıfı olasılığı pi ile ifade edilir. Olası değer aralığını alabilen ayrı bir rasgele değiĢken S‟nin bilgi entropisi Ģöyle Denklem 36 ve 37‟deki gibi tanımlanır (Shannon, 1948: 386): 2 1 ( ) log ( ) n i i i Entropi H S p p    



(36) 1 ( , ) ( ) n i i i T H X T H T T  



(37) Burada Ti hedef niteliği olmakla beraber Ti‟nin sınıfının belirlenmesinde ağırlıklı ortalama H(X,T) kullanılır. En iyi kazancı veren Ti seçilirken maksimum Kazanç(X,T) amaçlanır ve Denklem 38 ile bulunur.

( , ) ( ) ( , )

Kazanç X T H T H X T ₍₃₈₎

1.3.5.2. C4.5

Bu algoritma, Quinlan tarafından geliĢtirilen ID3'ün bir uzantısıdır. C4.5 (Karar Ağacı Eğitme Algoritması) karar ağacını oluĢturmak için kategorik ve sürekli öznitelikleri ele alır. Sürekli özniteliklerin üstesinden gelmek için C4.5 öznitelik değerlerini seçilen eĢiğe göre iki bölüme ayırır, böylece eĢiğin üzerindeki tüm değerler bir grup ve diğer grup olarak kalır. Ayrıca eksik özellik değerlerini de iĢler. C4.5 bir karar ağacı oluĢturmak için bir özellik seçim ölçüsü olarak Kazanç Oranını kullanır. Bir özelliğin birçok sonuç değeri olduğunda bilgi kazancıyla ilgili önyargıyı ortadan kaldırır (Quinlan, 1992: 28).

C4.5 algoritması tarafından oluĢturulan karar ağaçları, sınıflandırma için kullanılabilir ve bu nedenle, C4.5 ayrıca bir istatistiksel sınıflandırıcı olarak adlandırılır (Adhatrao, 2013: 42). C4.5 algoritması, ID3 algoritmasını geliĢtirmek için bir dizi değiĢiklik yapmıĢtır (Dunham, 2003: 126).

 Eğitim verilerinin özniteliklerin eksik değerleri ile ele alınmıĢtır.  Farklı maliyet özelliklerini ele almıĢtır.

 Karar ağacını oluĢturduktan sonra budama yapılmıĢtır.

Budama iĢleminde ilk olarak, her bir özelliğin kazanç oranı hesaplanır. Kök ile düğüm için kazanma oranı maksimum olan özellik olur. C4.5 sınıflandırma doğruluğunu artırmak için karar ağacındaki gereksiz dalları kaldırmak için kötümser budama kullanır (Lavanya ve Rani, 2011: 2).

1.3.5.3. CART (C&RT)

1984 yılında CART (Sınıflandırma ve Regresyon Ağaçları) algoritması Breiman vd. tarafından önerilmiĢtir. Sınıflandırma ve regresyon ağaçları, veriden tahmin modelleri oluĢturmak için kullanılan makine öğrenmesi yöntemidir. Modeller, veri alanının yinelenen bölümlenmesi ve her bölüm içinde basit bir tahmin modelinin yerleĢtirilmesiyle elde edilir (Loh, 2011: 14).

CART algoritmasında sınıflandırma ağaçları, bağımlı değiĢkenin kategorik olduğu modelleri içerirken regresyon ağaçları sürekli olanları içerir (Wilkinson, 2004: 35). CART parametrik olmayan bir algoritmadır. Bu nedenle, bu yöntem herhangi bir fonksiyonel formun spesifikasyonunu gerektirmez. CART önceden seçilecek değiĢkenler gerektirmez (Timofeev, 2004: 20). Bölünme iĢlemi CART algoritmasında bir kriter uygulanarak düğümde yapılır. Bu nedenle tüm özellikler dikkate alınarak eĢleĢmeler yapılır ve iki bölümleme gerçekleĢtirilir. Seçme iĢlemi için ise Gini Endeksi ve Twoing Algoritması yapılandırılır (Timofeev, 2004: 10).

1.3.6. Karar Ağacı Uygulamaları

KA yöntemi sınıflandırma, tahmin, yorumlama ve veri iĢleme gibi çeĢitli potansiyel uygulamalar için güçlü bir makine öğrenmesi yöntemidir. Uydu görüntülerinin sınıflandırılması, medikal veri iĢleme, biliĢim altyapı tasarımı, imalat sektöründe veri sınıflandırma gibi alanlarda KA yönteminin pratik uygulamaları yapılmıĢtır.

Belgede Borsa Endeksi Hareket Yönünün Tahmininde Sınıflandırma Yöntemlerinin Performanslarının Karşılaştırılması: Bist 100 Örneği (sayfa 92-97)