• Sonuç bulunamadı

Teknolojinin hızla geli¸smesiyle birlikte çe¸sitli kaynaklardan gelen verilerdeki muazzam büyüme, ek bilgi i¸slem gücü gerektirmi¸s, bu da büyük veri setlerini analiz etmek için istatistiksel yöntemlerin geli¸stirilmesini te¸svik etmi¸stir [1]. Makine ö˘grenmesi, basit analizin ötesine geçen verilerdeki kalıpları ve e˘gilimleri otomatik olarak ke¸sfetme sürecidir. Makinelerin görevleri yerine getirirken kazanılan deneyimlerle görevlerde geli¸smesini sa˘glayan derin istatistiksel teknikler içeren yapay zekanın bir alt kümesi olarak da tanımlanabilir [2]. Sistemik, uygulaması kolay makine ö˘grenmesi çözüm yı˘gınları aracılı˘gıyla gözlemlenen verilerden gerçek dünya süreçlerinin altında yatan karma¸sık modelleri ö˘grenme yetene˘gi ile anlamlı i¸s de˘gerinden yararlanma konusunda i¸sletmelerin cazibe merkezi haline gelmi¸stir [3]. Web araması, spam filtreleri, tavsiye sistemleri, kredi puanlama, dolandırıcılık tespiti, ilaç tasarımı ve di˘ger birçok uygulamada kullanılmaktadır [2].

Makine ö˘grenmesi, ö˘grenme türlerine göre genel olarak denetimli ö˘grenme ve denetimsiz ö˘grenme olmak üzere iki kategoride sınıflandırılmaktadır. Denetimli ö˘grenme terimi, bir modelin bazı etiketli verilerden formüle edildi˘gi makine ö˘grenmesi görevini tanımlamak için kullanılır [4]. En yaygın kullanılan denetimli ö˘grenme yöntemleri regresyon ve sınıflandırmadır. Etiketin veri türü kategorik ise, bir sınıflandırma problemi haline gelir ve sayısal ise regresyon problemi olarak bilinir [5]. Regresyonun amacı, gözlemlenen bir dizi de˘gi¸skenden belirli bir sonucu tahmin etmektir. Gelir, laboratuvar de˘gerleri, test puanları, bir ¸sehrin sıcaklı˘gı, hisse senedi fiyatı veya nesnelerin sayısı gibi sayısal verileri tahmin etmek için yaygın olarak kullanılmaktadır [1, 6]. Denetimsiz ö˘grenme teknikleri ise, etiketlenmemi¸s verilerde örüntüler bularak modelleri tahmin ederler [4]. Denetimsiz ö˘grenmenin en temel örne˘gi, kümelemedir, yani bir dizi nesneyi benzerli˘ge göre gruplama görevidir

[7].

Makine ö˘grenmesinde kullanılan yöntemler sürekli olarak ara¸stırılmakta ve çe¸sitli alanlardan alınan gerçek hayat verileriyle birlikte bu yöntemleri uygulamak için gerekli olan bilgisayar teknolo-jilerine göre de˘gerlendirilmektedir [8]. IBM Watson, Amazon Web Service (AWS), Google Ten-sorFlow ve Microsoft Azure Machine Learning Studio gibi bulut bilgi i¸slem ve analitik hizmetleri, di˘gerlerinin yanı sıra, daha geni¸s kullanıcılar için karma¸sık bulut tabanlı makine ö˘grenmesi yetenek-lerine kolay eri¸sim sa˘glayarak çe¸sitli sektörleri etkileme potansiyeline sahiptir [9]. Microsoft Azure Machine Learning Studio (Azure ML Studio) veri bilimi, tahmine dayalı analitik, bulut bilgi i¸slem ve verilerin bulu¸sabilece˘gi bir ortam sa˘glar [6]. Bir geli¸stiricinin tahmine dayalı analitik modelleri (çe¸sitli veri kaynaklarından e˘gitim veri kümelerini kullanarak) olu¸sturmak ve ardından bu modelleri bulut web hizmetleri olarak tüketimi amacıyla kolayca da˘gıtmak için kullanabilece˘gi bir hizmettir [10]. Regresyon, sınıflandırma ve kümeleme gibi yaygın senaryolar için önceden olu¸sturulmu¸s birçok algoritma dahil edilmi¸stir ve özel kodların eklenebilece˘gi ve di˘ger modüllere ba˘glanabilece˘gi R ve Python komut dosyası modülleri aracılı˘gıyla geni¸sletilebilirlik sa˘glanmı¸stır [11].

Güçlü makine ö˘grenmesi uygulamaları olu¸sturmak ve tutarlı, eyleme dönü¸stürülebilir sonuçlar elde etmek amacıyla geli¸stirilen sa˘glam bir makine ö˘grenmesi çözümü, makine ö˘grenmesinin etkile-¸simli modellemesine uygun olmasının yanı sıra, veri alımı, görselle¸stirme ve analiz etme, öni¸sleme, sistem entegrasyonu ve çalı¸sma zamanında da˘gıtım ve bakım için güçlü ekosistem deste˘ginde mükemmel olan bir geli¸stirme platformu gerektirir [3]. Bu çalı¸smada, Azure ML Studio’ya kısa bir giri¸s yapılmakta ve Azure ML Studio kullanımı için makine ö˘grenmesi yöntemlerinden biri olan regresyon açıklanmaktadır. Regresyonun Azure ML Studio üzerinde uçtan uca bir örne˘ginin gösterilmesi amacıyla konut fiyatı tahmini veri seti üzerinde çe¸sitli veri ön i¸sleme i¸slemleri gerçek-le¸stirildikten sonra Do˘grusal Regresyon ve Güçlendirilmi¸s Karar A˘gacı Regresyon algoritmaları kullanılarak iki model geli¸stirilmektedir. Modellerin performansları kar¸sıla¸stırıldıktan sonra örnek olarak en iyi performansı gösteren modelin Azure ML Studio üzerinde bir web hizmeti olarak da˘gıtılması gösterilmektedir.

3.2 Regresyon

Regresyon, ba˘gımlı bir de˘gi¸sken ile bir veya daha fazla ba˘gımsız de˘gi¸sken arasındaki ili¸skiyi modellemek ve analiz etmek için kullanılan denetimli bir ö˘grenme yöntemidir [12]. Yanıt de˘gi¸sken, ba˘gımlı de˘gi¸sken veya hedef de˘gi¸sken tahmin edilmek istenilen de˘gi¸sken için kullanılırken, açıklayıcı de˘gi¸skenler, ba˘gımsız de˘gi¸skenler, özellikler veya nitelikler yanıtı tahmin etmek için kullanılan de˘gi¸skenler için kullanılmaktadır [13]. Birkaç hedef de˘geri üretmek için bir dizi parametrenin bir ¸sekilde birle¸stirildi˘gi bazı verilerden regresyon modelleri olu¸sturulur. Model aslında hedef de˘ger ile modelin parametreleri arasındaki ili¸skiyi açıklar ve modelin parametreleri için de˘gerler verildi˘ginde bir hedef de˘geri tahmin etmek için kullanılabilir [4]. Regresyon modelleri için girdi de˘gi¸skenleri sayısal veya kategorik olabilir. Bununla birlikte, bu algoritmalarda ortak olan, çıktının (veya yanıt de˘gi¸skeninin) sayısal olmasıdır [6, 12].

Pek çok regresyon türü bulunmaktadır. Yalnızca bir açıklayıcı de˘gi¸sken varsa ve yanıt de˘gi¸skeni ile ba˘gımsız de˘gi¸sken arasındaki ili¸ski do˘grusal ise, do˘grusal bir model uygulanabilir. Bununla birlikte, birden fazla açıklayıcı de˘gi¸sken varsa, çoklu do˘grusal regresyon yöntemi kullanılmalıdır. ˙Ili¸ski do˘grusal olmadı˘gında, açıklayıcı ve yanıt de˘gi¸skenleri arasındaki ili¸skiyi modellemek için do˘grusal olmayan bir model kullanılabilir [12]. En yaygın kullanılan regresyon tekniklerinden bazıları do˘grusal regresyon, karar a˘gaçları, sinir a˘gları ve güçlendirilmi¸s karar a˘gacı regresyonunu içerir. Bu bölümde konut fiyatı tahmininde kullanılan do˘grusal regresyon ve güçlendirilmi¸s karar

3.2 Regresyon 45 a˘gacı yöntemleri incelenmektedir.

3.2.1 Do˘grusal Regresyon

En eski tahmin tekniklerinden birisidir. Regresyon yöntemleri, ili¸skinin hem büyüklü˘gü hem de belirsizli˘gi dahil olmak üzere girdiler ve hedef arasındaki ili¸skiyi kesin terimlerle ölçtü˘günden tahmin için yaygın olarak kullanılmaktadır [1]. Model basit ve yorumlanabilir oldu˘gundan, de˘gi¸skenler arasındaki çıkarsama ili¸skilerini anlamaya olanak tanır [13]. Basit bir do˘grusal regresyon modeli, do˘grusal bir fonksiyondur. Yalnızca bir girdi de˘gi¸skeni varsa, do˘grusal regresyon modeli verilere uyan en iyi çizgidir. ˙Iki veya daha fazla girdi de˘gi¸skeni için, regresyon modeli, temeldeki verilere uyan en iyi hiper düzlemdir [6]. ˙Ikiden fazla ba˘gımsız de˘gi¸skene sahip çoklu do˘grusal regresyon modeli, Denklem 1’de verilen yapıda bir formüldür [6, 13]:

Y = b1X1+b2X2+... + bnXn+α + ε (3.1) Burada, Y yanıt de˘gi¸skeni yani tahmin edilmek istenilen de˘gi¸sken, X1, X2, ..., Xnçe¸sitli ba˘gımsız de˘gi¸skenler ve b1, b2, ..., bn, bu ba˘gımsız de˘gi¸skenlerle ili¸skili e˘gimler yani ba˘gımsız de˘gi¸skenlerin katsayılarıdır. α, regresyon çizgisinin kesi¸sme noktası olan bir sabittir. ε ise X1, X2, ..., Xnba˘gımsız de˘gi¸skenleri tarafından açıklanamayan, yanıt de˘gi¸skeniyle ili¸skili hata veya gürültüdür.

Do˘grusal regresyon, belirli bir veri seti için en iyi model katsayılarını bulmak amacıyla en küçük kareler veya gradyan ini¸s yöntemlerini kullanır [6]. 100’den az özellik ve birkaç bin veri noktası oldu˘gunda tahmin elde etmeye çalı¸smak için uygun bir yöntemdir [5]. Ancak, aykırı de˘gerlere ve çapraz korelasyonlara kar¸sı çok hassastır [12]. E˘ger çok büyük aykırı de˘gerler varsa, do˘grusal regresyon gerçekle¸stirilmeden önce bu de˘gerler i¸slenmelidir [5].

3.2.2 Güçlendirilmi¸s Karar A˘gaçları Regresyonu

Güçlendirilmi¸s karar a˘gaçları regresyonu, genel girdi-çıktı verileri ile girdi de˘gi¸skenlerinin yorumla-nabilirli˘gi arasındaki karma¸sık ili¸skileri tanımlama becerisi nedeniyle popüler bir makine ö˘grenmesi yöntemi olan karar a˘gacı modeline dayanmaktadır [14]. Güçlendirilmi¸s karar a˘gaçları, bir topluluk modeli biçimidir [6]. Güçlendirme adı verilen istatistiksel bir tekni˘gi birle¸stirerek geleneksel karar a˘gacı yakla¸sımını geli¸stirir. Bu tekni˘gin ana fikri, optimize edilmi¸s bir model olu¸sturmak yerine tek bir "güçlü" fikir birli˘gi modeli olu¸sturmak için bir dizi "zayıf" modeli bir araya getirmektir [14].

Bireysel karar a˘gaçlarının her biri zayıf tahmin unsurları olabilir. Bununla birlikte, birle¸sti-rildiklerinde üstün sonuçlar üretirler [6]. Güçlendirilmi¸s karar a˘gaçları regresyonunda, mevcut artıkları en aza indirerek yeni karar a˘gaçları sırayla olu¸sturulur [14]. Her yinelemeli adımda, en dik gradyanla tanımlanan belirli kayıp fonksiyonunu optimize etmek için yeni bir regresyon a˘gacı e˘gitilir. Di˘ger makine ö˘grenme algoritmalarının sahip olmadı˘gı özel kayıp fonksiyonları aracılı˘gıyla belirli niteliklere sahiptir [15].

Güçlendirilmi¸s karar a˘gacında izlenilmesi gereken iki temel parametre bulunmaktadır: modeldeki a˘gaç sayısını ifade eden güçlendirme yinelemelerinin sayısı ve modeldeki de˘gi¸skenler arasında izin verilen etkile¸sim miktarını belirleyen her bir karar a˘gacındaki yaprak sayısı. Her a˘gaçtaki yaprak sayısı 2 olarak ayarlanırsa, herhangi bir etkile¸sime izin verilmez. 3 olarak ayarlanırsa, model en fazla iki de˘gi¸skenin etkile¸siminin etkilerini içerebilir. Üzerinde çalı¸sılan veri seti için en uygun olanı bulmak amacıyla farklı de˘gerler denenmesi gerekmektedir. Di˘ger taraftan, çok sayıda a˘gaç, hataları azaltır, ancak a¸sırı uydurmaya neden olabilir. Tüm sınıflandırıcıları e˘gittikten sonra, son adım, son bir tahminde bulunmak için sonuçlarını birle¸stirmektir. Sonuçları birle¸stirmek için basit ço˘gunluktan a˘gırlıklı ço˘gunluk oylamasına kadar de˘gi¸sen birkaç yakla¸sım vardır [6].

Benzer Belgeler