Uç Gradyan Artırım Makineleri - In-silico Mutajenisite Tahmininde Ağaç Tabanlı Algoritmaların B

In-silico Mutajenisite Tahmininde Ağaç Tabanlı Algoritmaların Başarım Karşılaştırması

3.5 Uç Gradyan Artırım Makineleri

Uç gradyan artırım makineleri (xgboost) Tianqi Chen tarafından 2014 yılında geliştirilmiş bir artırım makinesi algoritmasıdır [13] Gradyan artırım makinesi (GAM) algoritmasının daha esnek, daha hızlı ve daha fazla parametreye sahip bir uyarlamasıdır. GAM algoritmasına ek olarak paralel işleme, düzenlileştirme, budama ve özel hata fonksiyonu tanımlama gibi pek çok avantajı vardır. Parametre sayısının fazlalığının neden olduğu dezavantaj ise parametre seçimi iyi yapılmadığında aşırı öğrenme ya da az öğrenmeye neden olmasıdır.

4. Uygulama

Çalışmada veri setindeki tüm değişkenler modelde kullanılmıştır. Her modelde 10 katlı çapraz geçerlilik yöntemi kullanılmıştır. Elde edilen sonuçlar Tablo 2 aracılığıyla hesaplanan doğruluk oranı (Denklem 1), duyarlılık oranı (Denklem 2) ve özgüllük oranı (Denklem 3) karşılaştırılmıştır.

Gerçek Sınıf/Tahmin Edilen Sınıf mutagen nonmutagen mutagen DP YN nonmutagen YP DN

Tablo 2. Karışıklık Matrisi

DP: Gerçekte mutagen olan ve mutagen olarak sınıflandırılan. DN: Gerçekte nonmutagen olan ve nonmutagen olarak sınıflandırılan.

In-silico Mutajenisite Tahmininde Ağaç Tabanlı Algoritmaların Başarım Karşılaştırması

107 YN: Gerçekte mutagen olan ve nonmutagen olarak sınıflandırılan.

YP: Gerçekte nonmutagen olan ve mutagen olarak sınıflandırılan.

Algoritmalara göre sınıflandırma sonuçları Tablo 3’teki gibidir.

𝐷𝑜ğ𝑟𝑢𝑙𝑢𝑘 = ^{𝐷𝑃 + 𝐷𝑁} 𝐷𝑃 + 𝐷𝑁 + 𝑌𝑃 + 𝑌𝑁⁽¹⁾ 𝐷𝑢𝑦𝑎𝑟𝑙𝚤𝑙𝚤𝑘 = ^𝐷𝑃 𝐷𝑃 + 𝑌𝑃⁽²⁾ Ö𝑧𝑔ü𝑙𝑙ü𝑘 = ^𝐷𝑁 𝐷𝑃 + 𝑌𝑃⁽³⁾ CART RF GBM xgboost Doğruluk (%) 71.67 84.6 77.91 84.21 Duyarlılı k (%) 70.99 85.6 73.98 82.11 Özgüllük (%) 81.47 83.6 3 81.32 86.04

Tablo 3. Doğruluk, Duyarlılık ve Özgüllük değerlerinin

karşılaştırılması

5. Sonuç ve Öneriler

Bu çalışmada kullanılan CART, rastgele orman, gradyan artırım makinesi ve uç gradyan artırım algoritmalarının performansları karşılaştırılmıştır. Bu modeller arasında en yüksek sınıflama başarımı gösteren algoritma rastgele orman algoritmasıdır. Gelecek çalışmalarda parametre eniyileme yöntemleri ya da değişken seçimi yöntemleri kullanılarak modellerin başarımı arttırılabilir.

6. Kaynaklar

[1] Abhik S., “In-Silico predictive mutagenicity model generation using supervised learning approaches.” Journal of Cheminformatics, Springer International Publishing, 15 May 2012, jcheminf.springeropen.com/articles/10.1186/1758-2946-4-10.

[2] Webb, S., et al. “Feature combination networks for the interpretation of statistical machine learning models: application to Ames mutagenicity.” Journal of Cheminformatics, Springer International Publishing, 25 Mar. 2014, jcheminf.springeropen.com/articles/10.1186/1758-2946-6-8.

[3] Moorthy, N.S., Kumar, S., Poongavanam, V., “Classification of carcinogenic and mutagenic properties using machine learning method.” Computational Toxicology, Elsevier, 6 July 2017,

[4] Zhang H., Kang Y., Zhu Y., Zhao K., Liang J., Ding L., Teng-Guo Zhang, Ji Zhang, Novel naïve Bayes classification models for predicting the chemical Ames mutagenicity, In Toxicology in Vitro, Volume 41, 2017, Pages 56-63

[5] R Core Team (2017). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria

[6] Therneau, T., Atkinson, B., Ripley, B., 2017, rpart: Recursive Partitioning and Regression Trees

[7] Liaw, A., Wiener, M.,. 2002, Classification and Regression by randomForest

[8] Greg Ridgeway with contributions from others, 2017,. gbm: Generalized Boosted Regression Models

[9] Chen, T., He, T., Benesty, M., Khotilovich, V., Tang, Y., 2017, xgboost: Extreme Gradient Boosting

[10] Breiman, L., Friedman, J. H., Olshen, R. A., Stone, C. J., ‘Classification and Regression Trees’, Chapman & Hall/CRC: Boca Raton, Florida, 2000.

[11] Breiman, L., ‘Random forests’, Maching Learning, 45(1):5– 32, Oct. 2001.

[12] Friedman, J., ‘Greedy function approximation: A gradient boosting machine’, Ann. Statist, 29 (2001), no. 5, 1189--1232. [13] Chen, T., Guestrin, C., ‘Xgboost: A Scalable Tree Boosting System’

108

Girişimcilerin Başarılı veya Başarısızlık Durumlarının Veri Madenciliği Yöntemleri ile Tahmini

Bekir POLAT1, Alptekin DURMUSOGLU2

1 KOSGEB Gaziantep Directorate

2 Gaziantep University Department of Industrial Engineering bekir.polat@kosgeb.gov.tr , durmusoglu@gantep.edu.tr ÖZET

Türkiye'deki işletmelerin % 99,8'i küçük ve orta ölçekli işletmelerdir ve ekonomide önemli bir yere sahiptirler. KOBİ'ler, özellikle de yeni kurulan KOBİ'lerin hayatta kalması önemlidir. Girişimcilerin başarısı için KOSGEB 3 yıl süreli destek vermektedir. Bununla birlikte, desteklenen girişimcilik projeleri hala başarısız olmakta ve bu projeler için ayrılan kaynağın israfına neden olmaktadır. Bu çalışma, veri madenciliği karar ağacı algoritması ile, önerilen girişimcilik projelerinin başarı ve başarısızlık olasılığını tahmin etmeyi amaçlamaktadır. Böylece, tahmin doğruluğu artacak ve REDDETMEK ve KABUL EDİLMESİ kararını bilimsel yaklaşıma dayandıracaktır. 2012-2014 yılları arasında KOSGEB Gaziantep Müdürlüğü tarafından değerlendirilen projeler, girişimcilerin yaş, cinsiyet, deneyim, eğitim, ortaklık yapısı, pazar, yer, sektör, personel ve sermaye özelliklerine göre analiz edilmiştir. Bu özelliklerin bir sonucu olarak, girişimci projelerinin başarılı olup olmadıklarına bakılmıştır. Girişimcilik projelerinden elde edilen veriler, ön işleme tabi tutularak WEKA 3.8.1 programına uyarlanmıştır. Veriler Karar ağacı algoritması ile sınıflandırılmıştır. Literatürdeki çalışmaların aksine, bu çalışmadaki başarılı ve başarısız özellikler, sınıflandırmada son derece tercih edilen Karar ağacı algoritması ile analiz edilmiştir. Literatürde C4.5 olarak bilinen karar ağacı algoritması ile veriler % 64 percentage-split ile eğitilmiştir ve algoritma %81 başarı ile tahminde bulunmuştur. Ortaya çıkan ağacı etkileyen özellikler sırasıyla sermaye, ortak, konum ve yaş olarak görülmüştür.Ağacı etkilemeyen özellikler cinsiyet, eğitim, pazar, sektör ve personel olarak görülmüştür.

Anahtar Kelimeler: Girişimcilik, KOBİ, Veri Madenciliği, Sınıflandırma, Karar Ağacı Algoritması, J48, C4.5 ABSTRACT

99.8% of the enterprises in Turkey are small and medium-sized enterprises, and they are considered to have an important place in the economy. It is important for SMEs, especially newly established SMEs, to survive. For the success of the entrepreneurs, KOSGEB provides support for 3 years. However, the supported entrepreneurship project may still fail and this causes waste of resources devoted for the project. In this study aims that estimate the success and failure probability of the proposed entrepreneurship projects, by data mining decision tree algorithm. Thereby the estimation accuracy will increase and REJECT and ACCEPT decision will be based on scientific approach. The projects evaluated by the KOSGEB Gaziantep Directorate between 2012-2014 were analyzed according to age, gender, experience, education, partnership, market, location, sector, staff, capital features of the entrepreneurs. As a result of these features, entrepreneur projects examined whether successful or not. The data obtained from the entrepreneurship projects have been pre-processed and adapted to the WEKA 3.8.1 program. The data is classified by the Decision tree algorithm. Unlike studies in the literature, successful and unsuccessful features in this study are analyzed with Decision tree algorithm, which is highly preferred in classification. The decision tree algorithm, known as C4.5 in the literature, was trained with 64% percentage split to reach 81.5% success. The features that affect the resulting tree are the capital, partnership, location and age respectively. The features that do not affect the tree are gender, education, market, sector and staff.

Keywords: Entrepreneurship, SMEs, Data Mining, Classification, Decision Tree Algorithm, J48, C4.5

1.GİRİŞ

Girişimcilik, ekonomik gelişmenin anahtarıdır, özellikle de tüm ekonomilerde önemli bir yapısal ve dinamik rol oynayan yenilikçi değişim açısından önemlidir. Girişimciliğin özendirilmesi, hükümetler tarafından etkili bir araç olarak giderek daha fazla tanınmaktadır: i) iş yaratmak; ii) üretkenliğin ve rekabet gücünün artırılması; ve iii) özellikle belirli nüfus gruplarının kendilerine yardım etmesine yardım ederek, yoksulluğun hafifletilmesi ve toplumsal hedeflerin gerçekleştirilmesi amacı taşımaktadır (OECD, 3-5 June 2004). Türkiye'deki Küçük ve Orta Ölçekli İşletmeler (KOBİ) toplam işletmelerin % 99,8'ini oluşturmaktadır (TUİK, 2016). Ekonominin sürdürülebilirliği ve kalkınmasında önemli rol oynayan KOBİ'ler, Türkiye'de KOSGEB tarafından desteklenmektedir. KOSGEB tarafından sağlanan en önemli desteklerden biri, yeni kurulan girişimcilere yeni girişimcilik

desteğidir. Bu desteği verirken karşılaşılan en önemli sorun girişimcinin başarılı olup olmadığı kararıdır. (Lussier, 1995) çalışmasında girişimcilerin başarılı mı başarısız mı olduğunu tahmin eden model sundu. Ayırma fonksiyon analizi, işletmeyi başarısız veya başarışı olarak tahmin etmek için kullanılmıştır. Lussier modeli S / F = f (sermaye, kayıt tutma ve mali kontrol, endüstri deneyimi, yönetim tecrübesi, planlama, profesyonel danışmanlar, eğitim, personel / ürün / hizmet zamanlaması, ekonomik zamanlama, sahibinin yaşı, ortakları, aileleri bir işletmenin sahibi , azınlık, pazarlama becerileri) parametrelerini incelemiştir. Model, ankete katılan 96 eşleşmiş çiftin % 75.00 'ini başarılı veya başarısız olarak doğru tahmin etti. Bu çalışmada, iş planı Lussier modeline benzer şekilde analiz edilmeye çalışıldığı için girişimcilerin yaş, cinsiyet, deneyim, eğitim, ortaklık, pazar, yer, sektör, personel ve sermaye özellikleri incelenmiştir. Veri setleri, 2012-1014 yılları arasında KOSGEB girişimcilik kurulunda değerlendirilen iş planlarının incelenmesi ile hazırlanmıştır. Elde edilen veri

Sürüş örüntülerinden cinsiyet tahmin edilebilir mi

109 seti veri madenciliği teknikleriyle hazırlanmış ve karar ağacı algoritması ile analiz edilmiştir. Bu çalışma sonucunda başarılı olması muhtemel girişimcilere destek verilmesi bilimsel verilere dayandırılmıştır.

2.METOD

Belgede i KARABÜK 2018 Necdet Yücel Attila Özgit Zeynel Cebeci Ufuk Çağlayan Ethem Derman Editörler – 02.02.2018 Karabük Üniversitesi 31.01.2018 A kademik Bilişim Konferansı 2018 Bildiriler Kitabı (sayfa 117-120)