• Sonuç bulunamadı

2.7. ÖĞRENMEYİ GERÇEKLEŞTİRME (APPLY LEARNING)

2.7.1. ML Algoritmasının Modellenmesi

2.7.1.2. Ağaçların Artırılması (Tree Boosting)

Model, öğrenmesi gereken her ağaç yapısındaki ve her yapraktaki puanları

içeren bir fi fonksiyonunu bulmaktadır. Model için ağaç yapısını öğrenmek, basit

gradyanda yapıldığı gibi geleneksel en uygun şekle sokma probleminin çözümü gibi yapılsaydı öğrenme süreci imkânsızlaşacaktı yani tüm ağaçları bir kerede öğrenmeyi başaramayacaktı. Ancak bunun yerine, öğrenileni düzeltip her seferinde

yeni bir ağaç ekleyerek t adımındaki öngörü değerini ŷi(t)’ye yazılmaktadır. Bu

durum aşağıdaki gibi formüle edilebilmekte:

ŷi(t) t. adımda modelin öğrenmesi, ŷ

i(t-1) yani (t – 1). anıdaki öğrenme ile

yeni gelen ağaç ve yaprak puanı olan ƒt i) fonksiyonu ile toplanması ile elde

edilmektedir. Sonuç olarak tüm sabitleri kaldırdıktan sonra, t adımındaki formülün son hali aşağıdaki gibi olmaktadır:

obj(𝛉𝛉) = ∑ 𝑙𝑙(𝑦𝑦𝑖𝑖, 𝑦𝑦̂𝑖𝑖) + ∑ 𝛺𝛺(𝑓𝑓𝑘𝑘) 𝐾𝐾 𝑘𝑘=1 𝑛𝑛

𝑖𝑖

Bu formülün ilk kısmı eğitim kaybını hesaplarken ikinci kısmı ise ağaçların karmaşıklığını hesaplamaktadır. Bu iki kısmın toplamı ise modelin amacını vermektedir.

2.7.1.2. Ağaçların Artırılması (Tree Boosting)

Model, öğrenmesi gereken her ağaç yapısındaki ve her yapraktaki puanları içeren bir fi fonksiyonunu bulmaktadır. Model için ağaç yapısını öğrenmek, basit gradyanda

yapıldığı gibi geleneksel en uygun şekle sokma probleminin çözümü gibi yapılsaydı öğrenme süreci imkânsızlaşacaktı yani tüm ağaçları bir kerede öğrenmeyi başaramayacaktı. Ancak bunun yerine, öğrenileni düzeltip her seferinde yeni bir ağaç ekleyerek t adımındaki öngörü değerini 𝑦𝑦̂𝑖𝑖(𝑡𝑡)’ye yazılmaktadır. Bu durum aşağıdaki

gibi formüle edilebilmekte: 𝑦𝑦̂𝑖𝑖(0)= 0 𝑦𝑦̂𝑖𝑖(1)= 𝑓𝑓1(𝑥𝑥𝑖𝑖) = 𝑦𝑦̂𝑖𝑖(0)+ 𝑓𝑓1(𝑥𝑥𝑖𝑖) 𝑦𝑦̂𝑖𝑖(2)= 𝑓𝑓1(𝑥𝑥𝑖𝑖) + 𝑓𝑓2(𝑥𝑥𝑖𝑖) = 𝑦𝑦̂𝑖𝑖(1)+ 𝑓𝑓2(𝑥𝑥𝑖𝑖) … 𝑦𝑦̂𝑖𝑖(𝑡𝑡)= ∑ 𝒇𝒇𝒌𝒌(𝒙𝒙𝒊𝒊) 𝑡𝑡 𝑘𝑘 = 𝑦𝑦̂𝑖𝑖(𝑡𝑡−1)+ 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)

𝑦𝑦̂𝑖𝑖(𝑡𝑡) t. adımda modelin öğrenmesi, 𝑦𝑦̂𝑖𝑖(𝑡𝑡−1) yani (t – 1). anıdaki öğrenme ile yeni gelen ağaç ve yaprak puanı olan 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) fonksiyonu ile toplanması ile elde

edilmektedir. Sonuç olarak tüm sabitleri kaldırdıktan sonra, t adımındaki formülün son hali aşağıdaki gibi olmaktadır:

obj𝑡𝑡= ∑ 𝑙𝑙(𝑦𝑦𝑖𝑖, 𝑦𝑦̂ 𝑖𝑖𝑖𝑖(𝑡𝑡)) + ∑ 𝛺𝛺(𝑓𝑓𝑖𝑖) 𝑡𝑡 𝑖𝑖=1 𝑛𝑛 𝑖𝑖=1 = ∑ 𝑙𝑙 (𝑦𝑦𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)+ 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)) + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛 𝑖𝑖=1 + 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 41 obj(𝛉𝛉) = ∑ 𝑙𝑙(𝑦𝑦𝑖𝑖, 𝑦𝑦̂𝑖𝑖) + ∑ 𝛺𝛺(𝑓𝑓𝑘𝑘) 𝐾𝐾 𝑘𝑘=1 𝑛𝑛 𝑖𝑖

Bu formülün ilk kısmı eğitim kaybını hesaplarken ikinci kısmı ise ağaçların karmaşıklığını hesaplamaktadır. Bu iki kısmın toplamı ise modelin amacını vermektedir.

2.7.1.2. Ağaçların Artırılması (Tree Boosting)

Model, öğrenmesi gereken her ağaç yapısındaki ve her yapraktaki puanları içeren bir fi fonksiyonunu bulmaktadır. Model için ağaç yapısını öğrenmek, basit gradyanda yapıldığı gibi geleneksel en uygun şekle sokma probleminin çözümü gibi yapılsaydı öğrenme süreci imkânsızlaşacaktı yani tüm ağaçları bir kerede öğrenmeyi başaramayacaktı. Ancak bunun yerine, öğrenileni düzeltip her seferinde yeni bir ağaç ekleyerek t adımındaki öngörü değerini 𝑦𝑦̂𝑖𝑖(𝑡𝑡)’ye yazılmaktadır. Bu durum aşağıdaki

gibi formüle edilebilmekte: 𝑦𝑦̂𝑖𝑖(0)= 0 𝑦𝑦̂𝑖𝑖(1)= 𝑓𝑓1(𝑥𝑥𝑖𝑖) = 𝑦𝑦̂𝑖𝑖(0)+ 𝑓𝑓1(𝑥𝑥𝑖𝑖) 𝑦𝑦̂𝑖𝑖(2)= 𝑓𝑓1(𝑥𝑥𝑖𝑖) + 𝑓𝑓2(𝑥𝑥𝑖𝑖) = 𝑦𝑦̂𝑖𝑖(1)+ 𝑓𝑓2(𝑥𝑥𝑖𝑖) … 𝑦𝑦̂𝑖𝑖(𝑡𝑡)= ∑ 𝒇𝒇𝒌𝒌(𝒙𝒙𝒊𝒊) 𝑡𝑡 𝑘𝑘 = 𝑦𝑦̂𝑖𝑖(𝑡𝑡−1)+ 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)

𝑦𝑦̂𝑖𝑖(𝑡𝑡) t. adımda modelin öğrenmesi, 𝑦𝑦̂𝑖𝑖(𝑡𝑡−1) yani (t – 1). anıdaki öğrenme ile yeni

gelen ağaç ve yaprak puanı olan 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) fonksiyonu ile toplanması ile elde

edilmektedir. Sonuç olarak tüm sabitleri kaldırdıktan sonra, t adımındaki formülün son hali aşağıdaki gibi olmaktadır:

obj𝑡𝑡= ∑ 𝑙𝑙(𝑦𝑦 𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡)) + ∑ 𝛺𝛺(𝑓𝑓𝑖𝑖) 𝑡𝑡 𝑖𝑖=1 𝑛𝑛 𝑖𝑖=1 = ∑ 𝑙𝑙 (𝑦𝑦𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)+ 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)) + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛 𝑖𝑖=1 + 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 41 obj(𝛉𝛉) = ∑ 𝑙𝑙(𝑦𝑦𝑖𝑖, 𝑦𝑦̂𝑖𝑖) + ∑ 𝛺𝛺(𝑓𝑓𝑘𝑘) 𝑘𝑘=1 𝑖𝑖

Bu formülün ilk kısmı eğitim kaybını hesaplarken ikinci kısmı ise ağaçların karmaşıklığını hesaplamaktadır. Bu iki kısmın toplamı ise modelin amacını vermektedir.

2.7.1.2. Ağaçların Artırılması (Tree Boosting)

Model, öğrenmesi gereken her ağaç yapısındaki ve her yapraktaki puanları içeren bir fi fonksiyonunu bulmaktadır. Model için ağaç yapısını öğrenmek, basit gradyanda yapıldığı gibi geleneksel en uygun şekle sokma probleminin çözümü gibi yapılsaydı öğrenme süreci imkânsızlaşacaktı yani tüm ağaçları bir kerede öğrenmeyi başaramayacaktı. Ancak bunun yerine, öğrenileni düzeltip her seferinde yeni bir ağaç ekleyerek t adımındaki öngörü değerini 𝑦𝑦̂𝑖𝑖(𝑡𝑡)’ye yazılmaktadır. Bu durum aşağıdaki

gibi formüle edilebilmekte: 𝑦𝑦̂𝑖𝑖(0)= 0 𝑦𝑦̂𝑖𝑖(1)= 𝑓𝑓1(𝑥𝑥𝑖𝑖) = 𝑦𝑦̂𝑖𝑖(0)+ 𝑓𝑓1(𝑥𝑥𝑖𝑖) 𝑦𝑦̂𝑖𝑖(2)= 𝑓𝑓1(𝑥𝑥𝑖𝑖) + 𝑓𝑓2(𝑥𝑥𝑖𝑖) = 𝑦𝑦̂𝑖𝑖(1)+ 𝑓𝑓2(𝑥𝑥𝑖𝑖) … 𝑦𝑦̂𝑖𝑖(𝑡𝑡)= ∑ 𝒇𝒇𝒌𝒌(𝒙𝒙𝒊𝒊) 𝑡𝑡 𝑘𝑘 = 𝑦𝑦̂𝑖𝑖(𝑡𝑡−1)+ 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)

𝑦𝑦̂𝑖𝑖(𝑡𝑡) t. adımda modelin öğrenmesi, 𝑦𝑦̂𝑖𝑖(𝑡𝑡−1) yani (t – 1). anıdaki öğrenme ile yeni

gelen ağaç ve yaprak puanı olan 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) fonksiyonu ile toplanması ile elde

edilmektedir. Sonuç olarak tüm sabitleri kaldırdıktan sonra, t adımındaki formülün son hali aşağıdaki gibi olmaktadır:

obj𝑡𝑡= ∑ 𝑙𝑙(𝑦𝑦 𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡)) + ∑ 𝛺𝛺(𝑓𝑓𝑖𝑖) 𝑡𝑡 𝑖𝑖=1 𝑛𝑛 𝑖𝑖=1 = ∑ 𝑙𝑙 (𝑦𝑦𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)+ 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)) + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛 𝑖𝑖=1 + 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠

41

Öğrenme sürecinde yaşanmış olan hatalı tespitler için ortalama kare hatası (MSE) kullanıldığı takdirde formül aşağıdaki şekli almaktadır:

MSE formu, birinci dereceden bir terim(artık) ve ikinci dereceden terimler ile

daha iyi uygunluk göstermektedir. Aşağıdaki formül gi ve hi değerleri yazılacak

olursa daha anlaşılır bir formül elde edilmiş olacaktır.

gi ve hi’nin tam karşılıkları şu şekildedir:

Tüm sabitleri kaldırdıktan ve gi ile hi yerine yazıldıktan sonra t adımındaki formül son şeklini almıştır (Chen 2014, 23):

Sonuç olarak artık algoritmayı hedefe götürecek olan formül elde edilmiştir. Buradaki formülün önemli kazanımı da nesnel fonksiyonun değerinin yalnızca gi ve hi değişkenlerine bağlı halde getirilmesidir. Böylelikle kullanılan XGBoost özel kayıp fonksiyonlarını da destekleyecek şekle getirilmiştir.

Bu bilgiler ışığında model, Airbnb uygulamasında fiyat tahmini yaptıktan sonra MSE eğitim değerini 509,979 ve test değerini de 519,532 olarak bulmuştur.

42 Öğrenme sürecinde yaşanmış olan hatalı tespitler için ortalama kare hatası (MSE) kullanıldığı takdirde formül aşağıdaki şekli almaktadır:

obj𝑡𝑡= ∑(𝑦𝑦 𝑖𝑖− (𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)+ 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)))2+ ∑ 𝛺𝛺(𝑓𝑓𝑖𝑖) 𝑡𝑡 𝑖𝑖=1 𝑛𝑛 𝑖𝑖=1 = ∑[2(𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)− 𝑦𝑦𝑖𝑖)𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)2] + 𝛺𝛺(𝑓𝑓𝑖𝑖) + 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑛𝑛 𝑖𝑖=1

MSE formu, birinci dereceden bir terim(artık) ve ikinci dereceden terimler ile daha iyi uygunluk göstermektedir. Aşağıdaki formül gi ve hi değerleri yazılacak olursa daha anlaşılır bir formül elde edilmiş olacaktır.

obj𝑡𝑡= ∑[𝑙𝑙(𝑦𝑦

𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)) + 𝑔𝑔𝑖𝑖𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 12 ℎ𝑖𝑖𝑓𝑓𝑡𝑡2(𝑥𝑥𝑖𝑖)] + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛

𝑖𝑖=1

+ 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 gi ve hi'nin tam karşılıkları şu şekildedir:

𝑔𝑔𝑖𝑖= 𝜕𝜕𝑦𝑦̂𝑖𝑖(𝑡𝑡−1)𝑙𝑙(𝑦𝑦𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1))

ℎ𝑖𝑖= 𝜕𝜕𝑦𝑦̂ 𝑖𝑖(𝑡𝑡−1) 2 𝑙𝑙(𝑦𝑦

𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1))

Tüm sabitleri kaldırdıktan ve gi ile hi yerine yazıldıktan sonra t adımındaki formül son şeklini almıştır (Chen 2014, 23):

∑ [𝑔𝑔𝑖𝑖𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 12 ℎ𝑖𝑖𝑓𝑓𝑡𝑡2(𝑥𝑥𝑖𝑖)] + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛

𝑖𝑖=1

Sonuç olarak artık algoritmayı hedefe götürecek olan formül elde edilmiştir. Buradaki formülün önemli kazanımı da nesnel fonksiyonun değerinin yalnızca gi ve hi değişkenlerine bağlı halde getirilmesidir. Böylelikle kullanılan XGBoost özel kayıp fonksiyonlarını da destekleyecek şekle getirilmiştir.

Bu bilgiler ışığında model, Airbnb uygulamasında fiyat tahmini yaptıktan sonra MSE eğitim değerini 509,979 ve test değerini de 519,532 olarak bulmuştur. Daha sonra R^2 hesaplandığında ise eğitim 0,954 ve test: 0,952 ile bire çok yakın bir değer

42 Öğrenme sürecinde yaşanmış olan hatalı tespitler için ortalama kare hatası (MSE) kullanıldığı takdirde formül aşağıdaki şekli almaktadır:

obj𝑡𝑡= ∑(𝑦𝑦 𝑖𝑖− (𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)+ 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖))) 2 + ∑ 𝛺𝛺(𝑓𝑓𝑖𝑖) 𝑡𝑡 𝑖𝑖=1 𝑛𝑛 𝑖𝑖=1 = ∑[2(𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)− 𝑦𝑦𝑖𝑖)𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)2] + 𝛺𝛺(𝑓𝑓𝑖𝑖) + 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑛𝑛 𝑖𝑖=1

MSE formu, birinci dereceden bir terim(artık) ve ikinci dereceden terimler ile daha iyi uygunluk göstermektedir. Aşağıdaki formül gi ve hi değerleri yazılacak olursa daha anlaşılır bir formül elde edilmiş olacaktır.

obj𝑡𝑡= ∑[𝑙𝑙(𝑦𝑦

𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)) + 𝑔𝑔𝑖𝑖𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 12 ℎ𝑖𝑖𝑓𝑓𝑡𝑡2(𝑥𝑥𝑖𝑖)] + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛

𝑖𝑖=1

+ 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 gi ve hi'nin tam karşılıkları şu şekildedir:

𝑔𝑔𝑖𝑖= 𝜕𝜕𝑦𝑦̂𝑖𝑖(𝑡𝑡−1)𝑙𝑙(𝑦𝑦𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1))

ℎ𝑖𝑖= 𝜕𝜕𝑦𝑦̂ 𝑖𝑖(𝑡𝑡−1) 2 𝑙𝑙(𝑦𝑦

𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1))

Tüm sabitleri kaldırdıktan ve gi ile hi yerine yazıldıktan sonra t adımındaki formül son şeklini almıştır (Chen 2014, 23):

∑ [𝑔𝑔𝑖𝑖𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 12 ℎ𝑖𝑖𝑓𝑓𝑡𝑡2(𝑥𝑥𝑖𝑖)] + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛

𝑖𝑖=1

Sonuç olarak artık algoritmayı hedefe götürecek olan formül elde edilmiştir. Buradaki formülün önemli kazanımı da nesnel fonksiyonun değerinin yalnızca gi ve hi değişkenlerine bağlı halde getirilmesidir. Böylelikle kullanılan XGBoost özel kayıp fonksiyonlarını da destekleyecek şekle getirilmiştir.

Bu bilgiler ışığında model, Airbnb uygulamasında fiyat tahmini yaptıktan sonra MSE eğitim değerini 509,979 ve test değerini de 519,532 olarak bulmuştur. Daha sonra R^2 hesaplandığında ise eğitim 0,954 ve test: 0,952 ile bire çok yakın bir değer

42 Öğrenme sürecinde yaşanmış olan hatalı tespitler için ortalama kare hatası (MSE) kullanıldığı takdirde formül aşağıdaki şekli almaktadır:

obj𝑡𝑡= ∑(𝑦𝑦 𝑖𝑖− (𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)+ 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)))2+ ∑ 𝛺𝛺(𝑓𝑓𝑖𝑖) 𝑡𝑡 𝑖𝑖=1 𝑛𝑛 𝑖𝑖=1 = ∑[2(𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)− 𝑦𝑦𝑖𝑖)𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)2] + 𝛺𝛺(𝑓𝑓𝑖𝑖) + 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑛𝑛 𝑖𝑖=1

MSE formu, birinci dereceden bir terim(artık) ve ikinci dereceden terimler ile daha iyi uygunluk göstermektedir. Aşağıdaki formül gi ve hi değerleri yazılacak olursa daha anlaşılır bir formül elde edilmiş olacaktır.

obj𝑡𝑡= ∑[𝑙𝑙(𝑦𝑦

𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)) + 𝑔𝑔𝑖𝑖𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 12 ℎ𝑖𝑖𝑓𝑓𝑡𝑡2(𝑥𝑥𝑖𝑖)] + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛

𝑖𝑖=1

+ 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 gi ve hi'nin tam karşılıkları şu şekildedir:

𝑔𝑔𝑖𝑖= 𝜕𝜕𝑦𝑦̂𝑖𝑖(𝑡𝑡−1)𝑙𝑙(𝑦𝑦𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1))

ℎ𝑖𝑖= 𝜕𝜕𝑦𝑦̂ 𝑖𝑖(𝑡𝑡−1) 2 𝑙𝑙(𝑦𝑦

𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1))

Tüm sabitleri kaldırdıktan ve gi ile hi yerine yazıldıktan sonra t adımındaki formül son şeklini almıştır (Chen 2014, 23):

∑ [𝑔𝑔𝑖𝑖𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 12 ℎ𝑖𝑖𝑓𝑓𝑡𝑡2(𝑥𝑥𝑖𝑖)] + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛

𝑖𝑖=1

Sonuç olarak artık algoritmayı hedefe götürecek olan formül elde edilmiştir. Buradaki formülün önemli kazanımı da nesnel fonksiyonun değerinin yalnızca gi ve hi değişkenlerine bağlı halde getirilmesidir. Böylelikle kullanılan XGBoost özel kayıp fonksiyonlarını da destekleyecek şekle getirilmiştir.

Bu bilgiler ışığında model, Airbnb uygulamasında fiyat tahmini yaptıktan sonra MSE eğitim değerini 509,979 ve test değerini de 519,532 olarak bulmuştur. Daha sonra R^2 hesaplandığında ise eğitim 0,954 ve test: 0,952 ile bire çok yakın bir değer

42 Öğrenme sürecinde yaşanmış olan hatalı tespitler için ortalama kare hatası (MSE) kullanıldığı takdirde formül aşağıdaki şekli almaktadır:

obj𝑡𝑡= ∑(𝑦𝑦 𝑖𝑖− (𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)+ 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)))2+ ∑ 𝛺𝛺(𝑓𝑓𝑖𝑖) 𝑡𝑡 𝑖𝑖=1 𝑛𝑛 𝑖𝑖=1 = ∑[2(𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)− 𝑦𝑦𝑖𝑖)𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖)2] + 𝛺𝛺(𝑓𝑓𝑖𝑖) + 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑛𝑛 𝑖𝑖=1

MSE formu, birinci dereceden bir terim(artık) ve ikinci dereceden terimler ile daha iyi uygunluk göstermektedir. Aşağıdaki formül gi ve hi değerleri yazılacak olursa daha anlaşılır bir formül elde edilmiş olacaktır.

obj𝑡𝑡= ∑[𝑙𝑙(𝑦𝑦

𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1)) + 𝑔𝑔𝑖𝑖𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 12 ℎ𝑖𝑖𝑓𝑓𝑡𝑡2(𝑥𝑥𝑖𝑖)] + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛

𝑖𝑖=1

+ 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 gi ve hi'nin tam karşılıkları şu şekildedir:

𝑔𝑔𝑖𝑖= 𝜕𝜕𝑦𝑦̂𝑖𝑖(𝑡𝑡−1)𝑙𝑙(𝑦𝑦𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1))

ℎ𝑖𝑖= 𝜕𝜕𝑦𝑦̂ 𝑖𝑖(𝑡𝑡−1) 2 𝑙𝑙(𝑦𝑦

𝑖𝑖, 𝑦𝑦̂𝑖𝑖𝑖𝑖(𝑡𝑡−1))

Tüm sabitleri kaldırdıktan ve gi ile hi yerine yazıldıktan sonra t adımındaki formül son şeklini almıştır (Chen 2014, 23):

∑ [𝑔𝑔𝑖𝑖𝑓𝑓𝑡𝑡(𝑥𝑥𝑖𝑖) + 12 ℎ𝑖𝑖𝑓𝑓𝑡𝑡2(𝑥𝑥𝑖𝑖)] + 𝛺𝛺(𝑓𝑓𝑡𝑡) 𝑛𝑛

𝑖𝑖=1

Sonuç olarak artık algoritmayı hedefe götürecek olan formül elde edilmiştir. Buradaki formülün önemli kazanımı da nesnel fonksiyonun değerinin yalnızca gi ve hi değişkenlerine bağlı halde getirilmesidir. Böylelikle kullanılan XGBoost özel kayıp fonksiyonlarını da destekleyecek şekle getirilmiştir.

Bu bilgiler ışığında model, Airbnb uygulamasında fiyat tahmini yaptıktan sonra MSE eğitim değerini 509,979 ve test değerini de 519,532 olarak bulmuştur. Daha sonra R^2 hesaplandığında ise eğitim 0,954 ve test: 0,952 ile bire çok yakın bir değer

42

Daha sonra R^2 hesaplandığında ise eğitim 0,954 ve test: 0,952 ile bire çok yakın bir değer ile sonuçlandığı bu durumda fiyat tahminlerinin gerçeklerine çok yakın bir şekilde elde edildiği ve eğitimin başarılı bir şekilde sonuçlandığı anlaşılmıştır.

XGBoost modeli ile elde edilen bir diğer sonuç ise veri setinde bulunan sütunların fiyat tahmini için en çok etki edenlerin hangileri olduğunu göstermesidir (Bkz. Şekil 17).

Şekil 17: XGBoost Modeli Tarafından Belirlenen Sütunların Önem Derecesi

Kaynak: Tez kapsamında geliştirilen Airbnb uygulaması üzerinde yer alan bilgilerden elde

edilmiştir.

Airbnb konaklama fiyatlarının tahmini için ML algoritmalarıyla geliştirilmiş uygulama sonuçlarında yaklaşık iki yüz seksen bin konaklama fiyat tahmini yapılmıştır (Bkz. Şekil 18).

ile sonuçlandığı bu durumda fiyat tahminlerinin gerçeklerine çok yakın bir şekilde elde edildiği ve eğitimin başarılı bir şekilde sonuçlandığı anlaşılmıştır.

XGBoost modeli ile elde edilen bir diğer sonuç ise veri setinde bulunan sütunların fiyat tahmini için en çok etki edenlerin hangileri olduğunu göstermesidir (Bkz. Şekil 17).

Şekil 17: XGBoost Modeli Tarafından Belirlenen Sütunların Önem Derecesi

Kaynak: Tez kapsamında geliştirilen Airbnb uygulaması üzerinde yer alan bilgilerden elde edilmiştir.

Airbnb konaklama fiyatlarının tahmini için ML algoritmalarıyla geliştirilmiş uygulama sonuçlarında yaklaşık iki yüz seksen bin konaklama fiyat tahmini yapılmıştır (Bkz. Şekil 18).

43 Şekil 18: Airbnb Fiyat Tahmini

Kaynak: Tez kapsamında geliştirilen Airbnb uygulaması üzerinde yer alan bilgilerden elde

edilmiştir.

Fiyat tahmin çıktısı alındıktan sonra ikinci aşamaya geçilmiş ve tahmin için kullanılan fiyatların asıl değerlerinin de çıktısı alınmıştır (Bkz. Şekil 19). Bu iki farklı grafikte ilk dikkat çekici özellik hemen hemen bir birinin aynısı olması olmuştur.

Şekil 19: Airbnb Gerçek Fiyatlar

Kaynak: Tez kapsamında geliştirilen Airbnb uygulaması üzerinde yer alan bilgilerden elde

edilmiştir.

44 Şekil 18: Airbnb Fiyat Tahmini

Kaynak: Tez kapsamında geliştirilen Airbnb uygulaması üzerinde yer alan bilgilerden elde edilmiştir.

Fiyat tahmin çıktısı alındıktan sonra ikinci aşamaya geçilmiş ve tahmin için kullanılan fiyatların asıl değerlerinin de çıktısı alınmıştır (Bkz. Şekil 19). Bu iki farklı grafikte ilk dikkat çekici özellik hemen hemen bir birinin aynısı olması olmuştur. Şekil 19: Airbnb Gerçek Fiyatlar

Kaynak: Tez kapsamında geliştirilen Airbnb uygulaması üzerinde yer alan bilgilerden elde edilmiştir.

Son olarak gerçek fiyatlar ile tahmin fiyatları ayrı ayrı gösteren grafikler tekilleştirildiğinde tahmin edilen fiyatların gerçek fiyatlara çok yakın bir değerde

44 Şekil 18: Airbnb Fiyat Tahmini

Kaynak: Tez kapsamında geliştirilen Airbnb uygulaması üzerinde yer alan bilgilerden elde edilmiştir.

Fiyat tahmin çıktısı alındıktan sonra ikinci aşamaya geçilmiş ve tahmin için kullanılan fiyatların asıl değerlerinin de çıktısı alınmıştır (Bkz. Şekil 19). Bu iki farklı grafikte ilk dikkat çekici özellik hemen hemen bir birinin aynısı olması olmuştur. Şekil 19: Airbnb Gerçek Fiyatlar

Kaynak: Tez kapsamında geliştirilen Airbnb uygulaması üzerinde yer alan bilgilerden elde edilmiştir.

Son olarak gerçek fiyatlar ile tahmin fiyatları ayrı ayrı gösteren grafikler tekilleştirildiğinde tahmin edilen fiyatların gerçek fiyatlara çok yakın bir değerde

44

Son olarak gerçek fiyatlar ile tahmin fiyatları ayrı ayrı gösteren grafikler tekilleştirildiğinde tahmin edilen fiyatların gerçek fiyatlara çok yakın bir değerde olduğu ortaya çıkmıştır. Bunun daha önceden bahsedilen R^2 sonucu ile uygunluk gösterdiği anlaşılmıştır (Bkz. Şekil 20).

Şekil 20: Airbnb Gerçek Fiyatlar ile Tahmin Edilen Fiyatların Uygunluğu

Kaynak: Tez kapsamında geliştirilen Airbnb uygulaması üzerinde yer alan bilgilerden elde

edilmiştir.