Veri madenciliği ile üniversite bilişim teknik servis hizmetleri analizi

(1)

T.C.

DÜZCE ÜNİVERSİTESİ

FEN BİLİMLERİ ENSTİTÜSÜ

VERİ MADENCİLİĞİ İLE ÜNİVERSİTE BİLİŞİM TEKNİK

SERVİS HİZMETLERİ ANALİZİ

ABDURRAHMAN YAKUPOĞLU

YÜKSEK LİSANS TEZİ

ELEKTRİK-ELEKTRONİK VE BİLGİSAYAR MÜHENDİSLİĞİ

ANABİLİM DALI

DANIŞMAN

DR. ÖĞR. ÜYESİ SERDAR KIRIŞOĞLU

(2)

T.C.

DÜZCE ÜNİVERSİTESİ

FEN BİLİMLERİ ENSTİTÜSÜ

VERİ MADENCİLİĞİ İLE ÜNİVERSİTE BİLİŞİM TEKNİK

SERVİS HİZMETLERİ ANALİZİ

Abdurrahman YAKUPOĞLU tarafından hazırlanan tez çalışması aşağıdaki jüri tarafından Düzce Üniversitesi Fen Bilimleri Enstitüsü Elektrik-Elektronik ve Bilgisayar Mühendisliği Anabilim Dalı’nda YÜKSEK LİSANS TEZİ olarak kabul edilmiştir.

Tez Danışmanı

Dr. Öğr. Üyesi Serdar KIRIŞOĞLU Düzce Üniversitesi

Jüri Üyeleri

Dr. Öğr. Üyesi Serdar KIRIŞOĞLU

Düzce Üniversitesi _____________________

Doç. Dr. Pakize ERDOĞMUŞ

Düzce Üniversitesi _____________________

Doç. Dr. Devrim AKGÜN

Sakarya Üniversitesi _____________________

(3)

BEYAN

Bu tez çalışmasının kendi çalışmam olduğunu, tezin planlanmasından yazımına kadar bütün aşamalarda etik dışı davranışımın olmadığını, bu tezdeki bütün bilgileri akademik ve etik kurallar içinde elde ettiğimi, bu tez çalışmasıyla elde edilmeyen bütün bilgi ve yorumlara kaynak gösterdiğimi ve bu kaynakları da kaynaklar listesine aldığımı, yine bu tezin çalışılması ve yazımı sırasında patent ve telif haklarını ihlal edici bir davranışımın olmadığını beyan ederim.

5 Ağustos 2019

(4)

TEŞEKKÜR

Yüksek Lisans öğrenimimde ve bu tezin hazırlanmasında gösterdiği her türlü destek ve yardımdan dolayı çok değerli hocam Dr. Öğr. Üyesi Serdar Kırışoğlu’na en içten dileklerimle teşekkür ederim.

Tez çalışmam boyunca değerli katkılarını esirgemeyen Prof. Dr. Resul Kara’ya da şükranlarımı sunarım.

Bu çalışma boyunca yardımlarını ve desteklerini esirgemeyen Eşim Kübra YAKUPOĞLU ve çalışma arkadaşlarıma sonsuz teşekkürlerimi sunarım.

(5)

İÇİNDEKİLER

Sayfa No

ŞEKİL LİSTESİ ... vii

ÇİZELGE LİSTESİ ... viii

KISALTMALAR ... ix

SİMGELER ... x

ÖZET ... xi

ABSTRACT ... xii

1. GİRİŞ ... 1

2. VERİ MADENCİLİĞİ ... 5

2.1. VERİ MADENCİLİĞİ UYGULAMA ALANLARI ... 6

2.2. VERİ MADENCİLİĞİ UYGULAMA ÖRNEKLERİ ... 8

2.2.1. Medikal ve Tıp Alanında Yapılan Çalışmalar ... 8

2.2.2. Bankacılık ve Borsa Alanında Gerçekleştirilen Uygulamalar ... 8

2.2.3. Eğitim Alanındaki Uygulamalar ... 9

2.2.4. Mühendislik ve İş Alanında Gerçekleştirilen Uygulamalar ... 9

2.3. VERİ MADENCİLİĞİ SÜREÇLERİ ... 10

2.3.1. Veri Temizleme ... 10

2.3.2. Veri Bütünleştirme ... 11

2.3.3. Veri İndirgeme ... 11

2.3.4. Veri Dönüştürme ... 11

2.3.5. Veri Madenciliği Yöntemini Uygulama ... 11

2.3.6. Sunum ve Değerlendirme ... 11

2.4. VERİ MADENCİLİĞİ YÖNTEMLERİ ... 12

2.4.1. Denetimli Öğrenme (Supervised Learning) ... 12

2.4.2. Denetimsiz Öğrenme (Unsupervised Learning) ... 13

2.5. SINIFLANDIRMA YÖNTEMİ ... 13

2.5.1. Başlıca Sınıflandırma Algoritmaları ... 14

2.5.1.1. K-En Yakın Komşu(k-NN) ...14

2.5.1.2. Derin Öğrenme (Deep Learning) ...15

2.5.1.3. Basit Bayes Sınıflandırıcısı (Naive Bayes) ...17

2.5.1.4. Karar Ağaçları (Decision Trees) ...17

2.5.1.5. Rastgele Orman (Random Forest) ...18

3. METOD VE ANALİZ ... 20

3.1. VERİLER VE ÖZELLİKLERİ... 23

3.2. ÇALIŞMADA KULLANILAN PROGRAM ... 23

3.3. RAPİDMİNER İLE VERİLERİN ANALİZİ ... 24

(6)

3.4.1. Derin Öğrenme ile Sınıflandırma ... 27

3.4.2. k-NN ile Sınıflandırma ... 29

3.4.3. Karar Ağaçları ile Sınıflandırma ... 29

3.4.4. Modellerin Karşılaştırılması ... 30

4. SONUÇLAR VE ÖNERİLER ... 32

4.1. SONUÇLAR ... 32

4.2. ÇALIŞMANIN GETİRDİĞİ KATKILAR... 34

4.3. ÖNERİLER ... 34

5. KAYNAKLAR ... 35

(7)

ŞEKİL LİSTESİ

Sayfa No

Şekil 2.1. VM süreçleri [45]. ... 12

Şekil 2.2. k=3 için k-En yakın komşu çalışma prensibi. ... 14

Şekil 2.3. Sinir hücresi yapısı [46]. ... 15

Şekil 2.4. YSA hücresi. ... 16

Şekil 2.5. Örnek bir karar ağacı. ... 18

Şekil 3.1. Kullanıcı giriş ekranı. ... 21

Şekil 3.2. Talep giriş ekranı. ... 21

Şekil 3.3. Personel ekranı. ... 22

Şekil 3.4. Veritabanı şeması. ... 22

Şekil 3.5. RapidMiner’ın karşılama ekranı. ... 24

Şekil 3.6. RapidMiner’ın yeni proje oluşturma ekranı. ... 25

Şekil 3.7. RapidMiner’a veri setinin yüklenmesi. ... 25

Şekil 3.8. RapidMiner’da modelleme. ... 26

Şekil 3.9. RapidMiner’da tahmin ve gerçek veriler. ... 27

Şekil 3.10. Doğruluk oranları. ... 30

(8)

ÇİZELGE LİSTESİ

Sayfa No

Çizelge 3.1. Veri setindeki benzersiz kayıtlar. ... 23

Çizelge 3.2. Derin Öğrenme algoritması karşılaştırma çizelgesi. ... 28

Çizelge 3.3. Derin Öğrenme modeli için kullanılan parametreler. ... 28

Çizelge 3.4. k-NN En Yakın Komşu algoritması karşılaştırma çizelgesi. ... 29

Çizelge 3.5. Karar Ağaçları algoritması karşılaştırma çizelgesi. ... 29

(9)

KISALTMALAR

AHP Analitik Hiyerarşi Proses ALS Amyotrofik Lateral Skleroz

Ms-SQL Microsoft Structured Query Language T-SQL Transact- Structured Query Language

VM Veri Madenciliği

VTYS Veritabanı Yönetim Sistemi

(10)

SİMGELER

Π Pi

(11)

ÖZET

VERİ MADENCİLİĞİ İLE ÜNİVERSİTE BİLİŞİM TEKNİK SERVİS HİZMETLERİ ANALİZİ

Abdurrahman YAKUPOĞLU Düzce Üniversitesi

Fen Bilimleri Enstitüsü, Elektrik-Elektronik ve Bilgisayar Mühendisliği Anabilim Dalı Yüksek Lisans Tezi

Danışman: Dr. Öğr. Üyesi Serdar KIRIŞOĞLU Ağustos 2019, 38 sayfa

Bilgi teknolojilerindeki gelişmeler ve bu gelişmelerin getirdiği kolaylıklar sayesinde anlamlı verilerin boyutları ve saklama koşulları artmıştır. Geçmişte veriler günümüzdeki kadar büyük veri toplama merkezleri haricinde şirketlerin bünyesinde yerel veritabanlarında saklanmakta ve yöneticiler tarafından yorumlanmaktaydı. Ancak internet erişimindeki band genişliği artımı ve veri depolama sistemlerindeki genişleme ile veri tabanları artık birbirinden uzak lokasyonlarda olsa da büyük işletmeler ve kurumlar için tek noktadan erişilebilir ve yönetilebilir duruma gelmiştir. Veri büyüdükçe ve veri kümesinin özellikleri arttıkça mevcut veriden anlamlı olay ifade eden veriyi ayrıştırmak ve yorumlamak oldukça güç bir hal almıştır. Bu nedenle yeni bir bilim dalı olarak veri madenciliği (VM) ortaya çıkmıştır. Günümüzde VM verilerin analizinde ve verilerden anlamlı bilgi çıkarma işlemlerinde yaygın olarak kullanılmaktadır. Analiz işlemlerinin sonucunda elde edilen bilgiler karar destek sistemlerinde, gelecek dönem tahminlerinde ve uzman sistem girişlerinde kullanılmaktadır. Bilişim hizmetlerinin sürekliliği günümüzün vazgeçilmez teknolojilerinin insan hayatında önemli bir yer tutması nedeniyle daha fazla önem kazanmıştır. Bu tez çalışması kapsamında üniversitelerin bilişim teknik servisleri aracılığıyla yürütülen hizmetlerin sayısal analizi yapılmış, gelecek dönem tahminlerinde bulunulmuştur. İşlemleri gerçekleştirmek için Düzce Üniversitesi Bilgi İşlem Daire Başkanlığı Arıza ve Talep Bildirim Sisteminin 2013-2018 yılları arasındaki verileri kullanılmıştır. Birçok kamu kurumunda ve özel şirkette mevcut olan teknik servis ve destek sistemleri, bu tez çalışmasının sunduğu karar destek sistemine uygundur.

(12)

ABSTRACT

ANALAYSIS OF UNIVERSITY INFORMATICS TECHNICAL SERVICES DATAS WITH DATA MINING

Abdurrahman YAKUPOGLU Duzce University

Graduate School of Natural and Applied Sciences, Department of Electrical-Electronical and Computer Engineering

Master’s Thesis

Supervisor: Assist. Prof. Dr. Serdar KIRISOGLU August 2019, 38 pages

The size and storage conditions of meaningful data have increased through the developments in information technologies and the convenience of these developments. In the past, data was stored in local databases within companies instead of today’s large data collection centers and interpreted by managers. However, with the increase of bandwidth in internet access and the expansion of data storage systems, databases have become accessible and manageable from a single point for large enterprises and organizations even though they are now located in remote locations. The more the size and properties of data increased, the more it becomes very difficult to separate and interpret the data that expresses meaningful event from the existing data. Based on these improvements, a new branch of science called as data mining has been appeared. Today, data mining is widely used in data analysis and in extracting meaningful information from data. The obtained information at the end of the analysis process is used in decision support systems, future predictions and expert system entries. Because of the fact that present essential technologies occupy an important situation in human life, the continuity of information services has gained more importance. Within the scope of this MSc thesis, the numerical analysis of the services carried out through the information technology services of the universities has been performed and predictions for the next term have been made. To perform the aforementioned process, data between the years of 2013 and 2018 in Fault and Demand Notification System of Duzce University Information Technologies Department were used. The technical service and support systems existing in many public institutions and private companies are compatible with the decision support system offered by this thesis.

(13)

1. GİRİŞ

VM büyük ölçekli verilerden, anlamlı bilgi çıkarma veya geleceğe yönelik tahminlerde bulunma işi olarak adlandırılabilir. Birçok bilim dalına ait veriler üzerinde kullanılabilir. Bu bölümde VM’nin tez konusu ile ilgili, geçmişte yapılmış olan çalışmalar hususunda bilgiler verilecektir.

Kurumsal işletmelerde ve kamu kurumlarında personel performans analizi yapabilmek ve ileriye yönelik karar destek süreçlerinde kullanmak için çok sayıda veri bulunmaktadır. Ancak yöneticilerin bu verileri ham hali ile performans süreçlerinde kullanmaları çok zordur. Dolayısıyla, işletmelerin veritabanında saklanan verilerden faydalı bilgileri otomatik olarak çıkarabilen araçlara ihtiyaçları vardır. Xiaofan ve arkadaşlarının çalışması, temel VM teorisini ve insan kaynakları performans yönetiminin durumunu, performans analizindeki karar ağacının uygulanması yoluyla, çalışanların performansını etkileyen gerçek nedenleri bulur, performans düzenlemelerini keşfeder, işletmeyi yönetmede etkili bir yol sunar. Bu nedenle performans, performans yönetimi stratejisini ve personel verimliliğini arttırır, yönetimin karar vermesini destekler ve işletmelere sürdürülebilir kalkınma sağlamada yardımcı olarak, kurumsal verimliliği artırmayı hedeflemiştir [1].

Dan Hou ve arkadaşları insan gücü kullanımının artırılmasını hedefleyen çalışmasında, işletme personelinin performans değerlendirmesini analiz etmek, yapısını kavramak ve daha sonra yeni başlayacak personellerin performanslarını tahmin etmek için bulanık VM algoritmasını kullanmışlardır. Bu algoritma ayrıca deneysel olarak test edilmiş ve çok iyi sonuçlar verdiği ortaya konmuştur [2].

Eğitim kurumundaki gerçek olgular, eğitim verilerinin önemli bir şekilde büyümesidir. Temel olarak Kurniawan ve arkadaşı çalışmalarında okullardaki öğrenci performansını akademik olarak tahmin etmek için veri ambarı ve VM tekniklerinde uygulanabilecek bir model önermişlerdir. VM teknikleri, temel bilgileri veri ambarından çıkarmak ve veri ambarında depolanan değişkenler arasındaki ilişkileri araştırmak için kullanmaktır. Adı geçen çalışmada, başarısı düşük öğrencilere nasıl yardım edilebileceği, ders veya modül uygunluğunun nasıl değerlendirilebileceği ve okullardaki öğrencilerin akademik

(14)

performansını artırmak için yapılması gereken müdahaleler VM yöntemleri kullanılarak açıklanmaya çalışılmıştır [3].

VM uygulamaları, yükseköğretimdeki eğitimsel ve idari sorunları anlama ve çözmede daha yaygın bir araç haline gelmiştir. Genel olarak, eğitim madenciliği alanındaki araştırmalar, eğitmenlerin performansı yerine öğrencinin performansını modellemeye odaklanmıştır. Öğretim elemanlarının performansını değerlendirmek için kullanılan yaygın araçlardan biri, öğrencilerin algılarına dayanarak değerlendirmek üzere ders değerlendirme anketidir. Ağaoğlu M.’nin “Predicting Instructor Performance Using Data Mining Techniques in Higher Education” isimli çalışmasında sınıflandırma modelleri oluşturmak için dört farklı sınıflandırma tekniği (Karar Ağacı, Destek Vektör Makineleri, Yapay Sinir Ağları(YSA) ve Diskriminant Analizi) kullanılmıştır. Performansları, doğruluk, kesinlik, hatırlama ve özgüllük performans ölçütlerini kullanarak öğrencilerin gerçek ders değerlendirme anketine verdikleri yanıtlardan oluşan bir veri kümesi üzerinden karşılaştırmıştır. Tüm sınıflandırıcı modelleri nispeten yüksek sınıflandırma performansları gösterse de, C5.0 sınıflandırıcısı doğruluk, hassasiyet ve özgüllük açısından en iyisi olarak sonuç vermiştir. Ek olarak, her sınıflandırıcı model için değişken öneme sahip bir analiz yapmıştır. Buna göre, kurs değerlendirme anketindeki soruların çoğunun alakasız olduğu görülmüştür. Ayrıca, analizler, öğretmenlerin öğrencilerin algılarına dayalı başarılarının, temel olarak öğrencilerin derse ilgilerine bağlı olduğunu göstermiştir. Ağaoğlu’nun bulguları, VM modellerinin ders değerlendirme ve yükseköğretim madenciliğindeki etkililiğini göstermektedir. Ayrıca, bu bulgular ölçüm cihazlarını iyileştirmek için kullanılabilir [4].

Personelin performansının değerlendirilmesi ve motivasyonunun arttırılabilmesi için çeşitli yöntemler bulunmaktadır. Bunlardan bir tanesi Analitik Hiyerarşi Proses (AHP) yöntemidir. Bu yöntem diğer yöntemlerdeki değerlendiricilerin yargılarının oluşturduğu subjektifliği en aza indirgemeyi hedeflemiştir [5]. AHP yönteminin uygulanması için Basic programı yazılmış, 4 personel ve 4 değerlendirme kriteri üzerinden doğruluğu kanıtlanmaya çalışılmıştır.

Personelin kişiliği ve işlerindeki performansı arasında da bir ilişki vardır. Bu amaçla yapılmış olan çalışmalardan biri, beş faktörlü kişilik modelinin performansa etkisi, finans sektöründeki 177 kişilik özel bir firmada test etmek amacıyla “NEO Beş Faktör Kişilik Envanteri” kullanılmıştır [6]. Bu çalışmada Yelboğa tarafından geliştirilmiş olan ve

(15)

psikometrik özellikleri bakımından incelenen “Performans Değerlendirme Ölçeği” kullanılmıştır [7], [8].

VM aynı zamanda mevcut verileri, verilerin belirli özelliklerine göre kümelere ayırmak için de kullanılır. Bunun için belirli yöntemler ve algoritmalar vardır. K-Means algoritması bir kümeleme algoritmasıdır ve tüm kümeleme algoritmalarında olduğu gibi küme sayısının öndeğer olması gerekmektedir. Ancak Çolak ve arkadaşlarının önerdiği otomatik K-Means algortimasında bu öndeğer verilmeksizin kümeleme işlemi yapılmaya çalışılmıştır [9].

Veri sayısı ve verilerin özellikleri arttıkça kümelere ayırmak oldukça zorlaşmaktadır. Kümeleme analizleri mühendislik, tıp, sigortacılık ve bankacılık gibi çok çeşitli alanlarda kullanılmaktadır. VM üzerine Koltan ve arkadaşlarının çok sayıda çalışmaları vardır [10]. Avrupa ülkelerindeki intihar oranları üzerine çalışmış olan Giray ve arkadaşları Fuzzy C-Means algoritmasını kullanmıştır [11].

Aşan, banka müşterilerinin, kredi kartı kullanmaları durumunda sosyo-ekonomik olarak gruplandırılmalarını kümeleme analizi ile gerçekleştirmiştir. Bu çalışmada Aşan, müşterileri gruplandırırken yaş, cinsiyet ve kredi kartı tipi gibi özelliklerini dikkate almıştır, ve bu özelliklere göre müşterilerin hangi gruba dahil olabileceğini tahmin etmeye çalışmıştır [12].

Şişeci ve arkadaşları ise resimleri alt bloklara ayırarak segmentasyon yapmak için k-means algortimasını kullanmışlar ve diğer yöntemlerden daha iyi sonuçlar almışlardır [13].

Çelik ise Türkiye’deki illerin sınıflandırılması için sağlık göstergelerini kullanmıştır [14]. Fuzzy C-Means ve K-Means algoritmaları bu alandaki kullanılan birçok gözetimsiz kümeleme algoritmalarından en temelleridir [15].

VM konusu güncel ve uygulama alanı çok geniş bir disiplindir. Günümüzde veri toplama kaynakları ve bilişim teknolojisi oldukça gelişmiş ve yaygınlaşmıştır. Kurumlarda yapılan işlemler sayısal ortamlarda kayıt altına alınmakta böylece kurumların elinde büyük boyutlu veri yığınları oluşmaktadır. Geleneksel istatistiki yöntemlerle bu veri yığınlarından anlamlı ve yararlı veri üretmek zordur. VM yöntemleri kullanılarak bu veri yığınları anlamlı veriler haline dönüştürülerek, ileriye dönük karar destek mekanizmaları için ön bilgi temininde katkı sağlanır.

(16)

VM’de esas amaç, geçmiş verileri analiz ederek gelecekte olabilecek olan olayları tahmine yönelik karar verme şekillerini ve modellerini oluşturabilmektir.

Tez çalışmasının amacı VM ile üniversite bilişim teknik servis sistemi üzerinde analiz yaparak karar destek sistemi için altyapı oluşturmaktır. Teknik servis verileri kullanılarak hangi personel hangi işi hangi birime göre ne kadar sürede yapıyor ise bu konuda gelecek planlaması yapmak üzere birim yöneticisine karar vermesi aşamasında destek olmak amaçlanmış ve VM’nin alt hedeflerinden biri olan geçmiş veriden geleceğe yönelik tahmin (prediction) süreci kullanılmıştır.

Tez çalışmasının 2. bölümünde VM ile ilgili genel bilgiler sunulmuştur. VM’nin süreçleri, kullanıldığı alanlar gibi bilgilere yer verilmiştir.

3. bölümde ise VM’nin bilişim teknik servis alanında kullanımı incelenmiş ve RapidMiner Studio [16] VM programı ile VM sınıflandırma yöntemlerinin bu veriler üzerindeki çalışmaları analiz edilmiştir. Çalışma kapsamında Düzce Üniversitesi Bilgi İşlem Daire Başkanlığı Arıza ve Talep Bildirim Sistemi, 2013-2018 yılları arasındaki veriler, VM sınıflandırma yöntemlerinden olan Derin Öğrenme, k-En Yakın Komşu ve Karar Ağacı kullanılarak sınıflandırma başarıları ölçülmüş ve birbirleriyle karşılaştırılmıştır. Daha sonra veri seti RapidMiner programının Auto Model hazır şablonuna konulmuş ve diğer sınıflandırma yöntemleri olan Naive Bayes, Generalized Linear Model, Logistic Regression, Random Forest, Gradient Boosted Trees sınıflandırma yöntemleri kullanılarak sınıflandırılmış ve doğruluk yüzdeleri ve çalışma süreleri karşılaştırılmıştır.

(17)

2. VERİ MADENCİLİĞİ

VM, önceden bilinmeyen, geçerli ve uygulanabilir bilgilerin geniş veritabanlarından elde edilmesi ve bu bilgilerin işletme kararları verilirken kullanılmasıdır [17].

VM, büyük veri tabanlarındaki veriler arasında var olan, klasik yöntemlerle görülemeyen ilişkilerin, bilgisayar, istatistik, makine öğrenmesi, matematik bilimlerinin birleşimi olan tekniklerin kullanılarak ortaya çıkarılması sürecidir [18].

VM, kurumlarda toplanan veriden yararlı olanların bulunup ortaya çıkarılması işidir [19]. VM, büyük veri topluluklarından ileriye dönük tahmin yapılmasını sağlayacak bağıntı ve kuralların bilgisayarlar aracılığıyla yapılmasıdır [20].

Jacobs, VM’yi, işlenmemiş verinin tek başına sunamadığı yararlı bilgiyi ortaya çıkaran, verinin analiz edilmesi süreci olarak tanımlamıştır [21].

Doğan ve Türkoğlu, VM’yi büyük veri yığınlarındaki verileri kullanarak bilgisayar programları aracılığı ile gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağlantıların bulunması işemi olarak tanımlamıştır [22].

Hand, VM’yi istatistik, makine öğrenmesi, veritabanı, örüntü tanıma ile etkileşimli bir disiplin ve büyük veritabanlarında tahmin edilemeyen ilişkilerin ortaya çıkarılması olarak tanımlamıştır [23].

VM’nin bu denli gelişen, büyüyen ve internet hızı artan dijital dünyada kullanımını neredeyse zorunlu kılan sebepleri şu şekilde sırlayabiliriz.

1. Verilerin exponensiyel olarak artması.

2. Dünya çapında konum belirlemenin çok kolaylaşması.

3. Verilerin toplanması için merkezler kurulması ve verilerin bu merkezlere otomatik olarak aktarılması.

4. Genetik tıp biliminin gelişmesi.

5. Daha kabiliyetli teleskopların kullanılarak uzaydan daha fazla veri toplanması. 6. İş zekası uygulamalarının yaygınlaşması.

(18)

7. Verilerin gruplandırılmasında ve sınıflandırılmasında nicel ve nitel özelliklere dikkat edilmesi.

8. VM’nin bir çok alana uygulanması.

9. Sosyal ekonomik ve ticari alanlarda büyük verilerin hızla artması. 10. Bulut teknolojisinin büyük verilere kucak açması.

11. Ticari rekabetin artması ve büyümenin sürdürülebilir olması.

12. Geçmişe göre süper bilgisayarlara daha uygun maliyetlerle erişebilmek.

13. Müşterilerin tatmini ve memnuniyetleri kavramlarının önem kazanması [24],[25]. Kısaca ticari olarak veya kurumsal olarak başarının artması ve kalıcı olması için doğru karar verebilmek istiyorsak VM bilimini verilerimiz üzerinde kullanmak zorundayız [26].

2.1. VERİ MADENCİLİĞİ UYGULAMA ALANLARI

VM’nin pazarlama, parakendecilik, borsa, sigorta, banka, eğitim, sağlık, genetik, biyoloji, mühendislik, telekomünikasyon, endüstri, kriminoloji ve istihbarat gibi birçok uygulama alanı bulunmaktadır.

VM’nin kullanım alanları aşağıdaki gibidir.  Veri tabanı analizi ve karar destek sistemleri  Pazar Analizi

 Risk Analizi

 Kredi risk araştırmaları

 Kurum kaynaklarının verimli kullanımı

 Geçmiş veriler kullanılarak geleceğe yönelik tahminde bulunma  Bilim ve mühendislik alanları

 Sağlık sektörü  Ticaret sektörü  Alışveriş sektörü

 Bankacılık ve finans sektörü  Eğitim sektörün

(19)

 Belgeler arası benzerlik  Sigortacılık

VM’nin kullanım alanlarına kategorik olarak bakacak olursak;

Müşteri İlişkileri Yönetimi: Müşterilerin çağrı merkezi verilerinden, ziyaret ettikleri web sayfalarından, anket çalışmalarından elde edilen verilerden nitelikli bilgi çıkarılıp müşteri kayıp analizi ve çapraz satışları tahmin etmede kullanılır.

Sahte İşlemlerin Tespiti: Sağlık, bankacılık, sigorta, güvenlik, istihbarat gibi alanlarda oluşabilecek normal olmayan hareket ve işlemler aranarak sahtekarlıklar tespit edilir. En çok bankacılık sistemindeki kredi kartı ve ATM sahtekarlıklarının tespitinde ve sağlık sigortası sektöründe yapılan sahtekarlık analizlerinde kullanılmaktadır.

Bilimsel Yayınlar, Medikal ve Tıp Alanındaki Araştırmalar: Bilimsel yayınlar, hasta tahlil ve raporlarından metin madenciliği ile çıkarım yapılır. Sağlık alanı VM’nin Dünya’da en çok kullanıldığı alanların başında gelmektedir. Kanser tarama testlerinin verileri kullanılarak kanser türlerinin ön tanısı konulabilir. Kalbe ait veriler kullanılarak kalp krizi riski tespit edilebilir. Acil servislerde hasta bulgularına göre risk ve önceliklerin belirlenmesinde kullanılabilir [27].

Finans Sektörü: Müşteri profili belirlenir, kredi risk değerlendirmesi yapılır, ürünün hedef kitlesini belirlenir. Bankalar VM tekniklerini kredi kartı kullanan müşterisinin güvenilirliğini ölçmek ve ödemelerini aksatma ihtimali olan müşteriyi tahmin etmek için kullanabilir.

Güvenlik/İstihbarat: Örgüt ve bireyler arasındaki bağlantılar, terörist saldırılar, suç içeren davranışların tahmini ve engellenmesi için büyük çaptaki sosyal medya yazışmaları, internet siteleri, telefon konuşmaları arasında örüntüler aranır.

Eğitim Sektörü: Öğrenci bilgi sistemlerindeki verilerin analiz edilmesi ile öğrenci başarı durumları tespit edilir ve başarıyı arttıran argümanlar bulunarak eğitim kalitesi ve performansı arttırılabilir.

Pazar Araştırması: Web sayfaları, reklamların izlenme oranları, satış raporları, anketler pazar etkisinin ölçülmesi için aranır ve izlenir. İşletmenin karını arttırmak amacıyla satın alınan ürünler arasındaki ilişkileri bulmaya yönelik bir yöntem olan sepet analizi bu alanda en çok kullanılan VM yöntemidir. Ayrıca müşteri profili belirlemede hem pazar araştırması açısından, hem finansal risk değerlendirmesi açısından hem de ürün analizi

(20)

açısından VM, içinde yapısal olmayan verinin değerlendirildiği metin madenciliği yöntemi ile mülakatların, açık uçlu sorularının değerlendirilmesinde kullanılabilmektedir [28].

2.2. VERİ MADENCİLİĞİ UYGULAMA ÖRNEKLERİ

Aşağıda ülkemizde VM alanında yapılan çalışmalara birkaç örnekle değinilmiştir

2.2.1. Medikal ve Tıp Alanında Yapılan Çalışmalar

 Çelik VM yöntemlerini kullanarak; Amyotrofik lateral skleroz (ALS) hastası olan kişilerin klinik özellikleri ile mutasyon tipleri arasında bir ilişkinin olup olmadığının incelemesini yapılmıştır [29].

 Engin 2014 yılında Karadeniz Teknik Üniversitesi Farabi Hastanesi biyokimya laboratuvarında Ocak-Aralık 2010 ve Haziran 2011-Haziran 2012 süreleri arasında tutulan test sonuçlarını kullanılarak VM birliktelik kuralı analizi ile test seçiminde canlı arama tekniğinin kullanılması; kanser belirteci testlerin değerlendirilerek Destek Vektör Makineleri yöntemiyle jinekolojik kanserlerin tanı kontrolünün yapılması; lökosit, eritrosit ve hemoglobin değerlerinin Artırılmış Regresyon ağaçları yöntemiyle tahmin edilmesi; Potasyum ve Hemoliz İndeksi arasındaki ilişkinin kümeleme analizi yöntemi ile incelenmesi; yaşamsal tahmin yapılması konularını ele alınmıştır [30].

 Ulusoy tarafından 2017 yılında yapılan çalışmada, hastane veri tabanında VM ile bilgi keşfi çalışması yapılmıştır [31].

 Poyraz 2012 yılında bayanlarda sık görülen meme kanseri verilerini kullanarak, VM teknikleri olan Karar Ağacı, Lojistik Regresyon, Naive-Bayes, ve K-Star algoritmalarını kullanılarak modeller oluşturmuş ve oluşturulan modellerin başarım derecelerini karşılaştırmıştır [32].

2.2.2. Bankacılık ve Borsa Alanında Gerçekleştirilen Uygulamalar

 Çetin 2011 yılında standart VM yazılımlarında kullanılan VM teknikleri ile ilgili temel kavramları tanımlamış, geniş veri gruplarının etkili şekilde değerlendirilmesini sağlayan temel proseslerin önemini açıklamış ayrıca geniş veri gruplarını başarılı şekilde analiz edip karlı iş kararları verilmesini sağlayan VM teknikleri hakkında

(21)

 Uzar tarafından 2013 yılında Borsa İstanbul’da, VM teknolojisine hazır oluşluk ve kullanım derecesini incelenmiş, imalat sanayi ve mali kuruluşların VM teknolojisini anlama, algılama düzeyini araştırılmıştır [34].

 Aras tarafından 2008 yılında çeşitli VM teknikleri kullanılarak, bir bankaya ait veri tabanından elde edilen kredi kartı ve kredilerin statüsü verileri üzerinde müşteri profili ve müşteri segmentasyonu uygulamaları gerçekleştirilmiştir [35].

 Koyuncugil 2006 yılıda hisse senetleri piyasasında manipülasyon yapılan hisse senedini, hisse senedi üzerinde işlem yapan aracı kuruluşu ve ilgili yatırımcıları tespit etmek amacıyla, CHAID Karar Ağaçları algoritması, K-Ortalamalar Kümeleme Analizi, Önsel Birliktelik Kuralları algoritması ve FANNY Bulanık Kümeleme algoritmalarını kullanılarak erken uyarı sistemi geliştirilmiştir [36].

2.2.3. Eğitim Alanındaki Uygulamalar

 Yakupoğlu tarafından 2018 yılında bir akademik yıl boyunca özel bir okulun bilgi yönetim sisteminden alınan veriler kullanılarak, öğrencilerin 5 ana ders üzerindeki a-, aa-, ba-, c ve c+ yetkinlik sınıflarıa-, eğitimsel VM araştırmalarında en sık kullanılan 4 farklı algoritmayla tahmin edilmeye çalışılmış ve algoritmaların veri ön işleme öncesi ve sonrasında gösterdiği performanslar birbirleriyle karşılaştırılmıştır [37].  Kılınç tarafından 2015 yılında yapılan çalışmada 2011 yapılan atılma ile ilgi

yönetmelik değişikliği ile öğrencilerin parasal durumlarının ve demografik özelliklerinin etkileri VM yöntemleri ile incelenmiştir [38].

 Uçar 2013 yılında rastgele seçilmiş 25.000 öğrencinin Ortaöğretim Giriş Sınavı puanlarını Destek Vektör Makineleri, C4.5 Karar Kuralı Türetme algoritması, Regresyon Analizi, YSA, VM yöntemleri ile analiz ederek yerleştirme puanlarını tahmin etmek amacıyla bir sistem tasarlanmıştır. Bu VM yöntemlerinin doğruluk oranları karşılaştırılmış, en uygun yöntem bulunmaya çalışılmıştır [39].

 Kılıç tarafından 2014 yılında sınav kaygısı envanter sonuçlarına göre üniversiteye hazırlanan öğrencilerin sınav kaygı düzeyini etkileyen faktörleri Kümeleme, Karar Ağaçları ve Yapay Zeka yöntemleri kullanılarak incelenmiştir [40].

2.2.4. Mühendislik ve İş Alanında Gerçekleştirilen Uygulamalar

 Şekeroğlu tarafından 2010 yılında kümeleme analizi yöntemi kullanılarak yapılan uygulamada kuyumculuk sektöründe bir firmanın müşterileri segmentlere ayrılmış,

(22)

elde edilen sonuçlara göre, müşterilere yönelik politika ve kampanya önerileri oluşturulmuştur [41].

 Çetin tarafından 2009 yılında bir üretim işletmesinde, üretilen ürünlerin uygunsuz olarak ayrılmasının nedenleri belirlenerek, bu nedenlerin analizi ile uygunsuz ürünlerin sayısını azaltıcı stratejiler Karar Ağaçları ve YSA yöntemleri kullanılarak geliştirilmiştir [42].

 Albayrak tarafından 2008 yılında sınıflama ve kümeleme yöntemleri kullanılarak yapılan çalışmada elektroensefolagram verileri üzerinde, epileptik aktivitelerin varlığının belirlenip teşhis konulması amacıyla VM çalışması yapılmıştır [43].  Çınaroğlu tarafından 2015 yılında VM yöntemleri kullanılarak, havacılık için önem

arz eden meteorolojik parametrelerin birbirleri ile ilişkileri ortaya konulmuş, ilişkisel analizlerden faydalanılarak tahmin yapılmaya çalışılmıştır [44].

2.3. VERİ MADENCİLİĞİ SÜREÇLERİ

VM sürecinde kullanılacak olan veriler Şekil 2.1’de gösterilen ön işlemlerden geçirilmesi gerekmektedir. Aksi takdirde sağlıklı sonuçlar alınamaz.

2.3.1. Veri Temizleme

Üzerinde çözümleme yapılacak veri tabanında eksik ve uygun olmayan veriler bulunabilir. Bu tür verilere “gürültü” denir. Bu durumda verinin söz konusu sorunlardan temizlenmesi gerekir. Veri kümesinden gürültülü veriyi temizlemek için aşağıdaki yöntemler kullanılır [19].

 Eksik veri elle teker teker doldurulabilir.  Eksik kayıtlar silinebilir.

 Eksik kayıtlara, o kayda ait sabit bir değer atanabilir.

 Değişkenin bütün verilerini kullanarak ortalama hesaplanır ve eksik değer yerine bu değer yazılabilir.

 Karar ağacı, regresyon analizi yöntemleri kullanılarak diğer değişkenlerin yardımıyla eksik olan veri tahmin edilebilir.

(23)

2.3.2. Veri Bütünleştirme

Farklı veri tabanlarından elde edilen verilerin birlikte değerlendirilebilmesi için farklı tipteki verilerin aynı tipe dönüştürülmesi gerekir. Örneğin cinsiyet değişkeni bir veri tabanında erkek “E”, kadın “K” kodları ile tanımlanmış, başka bir veri tabanında ise “Erkek” ve “Kadın” olarak ifade edilmiş olabilir. Analizin başarılı olması için veri aynı tipe dönüştürülmelidir.

Örneğin uzunluk ölçüsü farklı veritabanlarında cm, inç, metre gibi farklı tipte kullanılmış olabilir. Bu tür veriler, analiz yapılmadan önce ortak bir uzunluk ölçüsüne dönüştürülmesi gerekir.

2.3.3. Veri İndirgeme

Verinin analiz edilmesinde sonucun değişmeyeceğine inanılıyorsa daha hızlı ve kolay sonuç elde etmek için veri sayısı ya da değişkenlerin azaltılma işlemidir.

2.3.4. Veri Dönüştürme

Veri setindeki sayısal değerleri VM çözümlemesine aynen katmak uygun olmayabilir. Sayısal değişkenlerin aralıkları birbirinden önemli oranda farklı olduğunda büyük aralığa sahip değişkenlerin diğerleri üzerindeki baskısı fazla olur ve sonuç üzerinde etkisi artar. En iyi sonucu elde etmek için bu tür veriler 0-1 aralığı, Z-dönüşümü, minimum-maksimum gibi bir dönüşüm yöntemi uygulanarak normalleştirilmesi gerekir.

2.3.5. Veri Madenciliği Yöntemini Uygulama

VM yöntemlerini uygulayabilmek için veri temizleme, veri bütünleştirme, veri indirgeme ve veri dönüştürme adımlarından ihtiyaç olanları veri üzerine uygulanır. Veri seti hazır hale gelince konu ile ilgili VM yöntemi uygulanır.

2.3.6. Sunum ve Değerlendirme

VM yöntemi veri seti üzerine uygulandıktan sonra sonuçlar grafiklerle desteklenerek düzenlenir ve ilgili yerlere sunulur.

(24)

Şekil 2.1. VM süreçleri [45].

2.4. VERİ MADENCİLİĞİ YÖNTEMLERİ

VM yöntemleri iki temel üzerine oturur.

2.4.1. Denetimli Öğrenme (Supervised Learning)

Denetimli öğrenmede amaç, öğrenme setinden oluşturulan fonksiyonla her bir girdi için alınan çıktı ile gerçek çıktı arasındaki farkı en küçüklemeye çalışmaktır. Eğer aradaki fark, daha önceden belirlenmiş hata değerinden daha fazla çıkarsa sistem eğitime devam eder. Fark istenilen aralığa ulaştığında eğitim tamamlanıp, sona erer. Model istenilen seviyeye ulaştıktan sonra da daha önce eğitim setinde olmayan yeni bir gözlem model tarafından işlenip, gerçeğe en yakın tahmin yapılamaya çalışılır [46].

Bu öğrenme sisteminde denetçi, öğrenilmesi istenen olayla ilgili her bir örnek için var olan girdileri ve o değerlere karşılık oluşturulması istenen çıktı değerleri sisteme gösterir. Girdileri denetçinin belirlediği çıktılara göre haritalamak sistemin görevidir. Böylece girdi-çıktı arasındaki ilişkiler öğrenilmektedir [47].

Denetimli öğrenmede bir veri seti sisteme öğretilip tanıtılır ve bu öğrenme sonucunda da daha önce hiç tanıtılmamış örnekler üzerinde tahminde bulunulur.

(25)

öğrenmede verinin başta kaç gruba dağıtılacağı verilmesi gerekmektedir. Ve bazı yöntemlerle (örn: k-means) verilerin hangi gruba ait olacağı belirlenmeye çalışılmaktadır. Denetimli öğrenme genel olarak sınıflandırma ve regresyona dayalı tahmin problemlerinde kullanılmaktadır. Karar Ağaçları, Destek Vektör Makineleri, k-En Yakın Komşu, YSA, Genetik Algoritmalar, Bayes Sınıflandırıcılar denetimli öğrenme yöntemlerindendir.

2.4.2. Denetimsiz Öğrenme (Unsupervised Learning)

Sadece girdi değişkenlerine sahip gözlemlerden oluşan ve herhangi bir denetçinin bulunmadığı öğrenme yöntemidir. Sisteme sadece girdi değişkenleri olan gözlemler verilir, hedef çıktısı veya daha önceden sınıfı belli olan eğitim setleri verilmez. Sistemin denetçi olmadan kendi kendine öğrenerek girdi değişkenleri arasındaki ilişkiyi bulmalarını sağlayan bir öğrenme yöntemidir [46].

Denetimsiz öğrenmenin amacı, gözlemler arasından yakın özellikteki örnekleri aynı kümeye toplayarak gruplamaktır.

Bu stratejiler verinin modellemesi aşamasında veriyi öğrenme, analiz etme ve modelleme metodolojilerini belirlemede de esastır. İyi tanımlanmış bir hedef olduğunda denetimli, elde edilmesi istenen sonuç için belirsizlik varsa denetimsiz öğrenmeden bahsedilir [48]. Denetimsiz yöntemlerde veriler gözlemlenmekte, bu veriler arasındaki benzerlikten hareket ederek sınıfların tanımlanması amaçlanmaktadır.

Kümeleme Analizi, Boyut Azaltma, Korelasyon Analizi, K-Ortalama algoritması denetimsiz öğrenme algoritmalarına örnek olarak verilebilir.

2.5. SINIFLANDIRMA YÖNTEMİ

Sınıflandırma VM’de çok kullanılan, veri tabanındaki gizli ilişkileri ortaya çıkarmada kullanılan bir yöntemdir [19].

Mevcut verileri istenen bir özelliğe göre sınıflara ayırma ve yeni verilerin hangi sınıfa dahil olacağını belirleme işidir [49].

Resim, örüntü tanıma, hastalık tanıları, dolandırıcılık tespiti, kalite kontrol çalışmaları ve pazarlama konuları sınıflandırma yönteminin bolca kullanıldığı alanlardır [17].

(26)

Sınıflandırma kurallarının oluşması amacıyla çalışmada kullanılacak veri setinin bir kısmı eğitim amacıyla kullanılır. Bu kurallar sayesinde veri setine yeni veri eklendiğinde hangi sınıfa dahil edileceği belirlenir..

Bu çalışma ile bilişim teknik servisleri aracılığıyla yürütülen hizmetlerin birim yöneticisine karar destek sürecinde yardımcı olması amaçlandığı için, modeller sınıflandırma algoritmalarıyla oluşturulmuştur.

2.5.1. Başlıca Sınıflandırma Algoritmaları

2.5.1.1. K-En Yakın Komşu(k-NN)

Fix ve Hodges tarafından 1951 yılında uzaklık ve benzerlik özelliklerini dikkate alarak sınıflandırma yapmak için oluşturulmuş bir algoritmadır. Öncelikle bir grup veri seti sınıfları oluşturmak için önceden eğitilir. Sınıfı belirlenmek istenen yeni veri setinin diğer tüm noktalara uzaklığı Simple Matching Distance, Öklid Uzaklığı, Jaccard Distance gibi farklı uzaklık ölçüm teknikleri ile hesaplanır. Hesaplanan uzaklıklar içerisinden önceden belirlenmiş k değeri kadar en küçük uzaklık değerine sahip noktalar tespit edilir. Araştırmacı tarafından k değeri verilirken tek sayı verilmesine dikkat edilir. Çift sayı veridiğinde aynı uzaklıkta çift sayıda komşu olduğunda yeni bireyin hangi sınıfa dahil edileceği bulunamaz. Örneğin; araştırmacı tarafından k=3 alındığında test edilen örneğe en yakın 3 komşu noktaya bakılarak sınıf belirlenmektedir. Belirlenen bu noktalar içerisinden en sık tekrar eden sınıf içerisine test edilen nokta atanarak k-En Yakın Komşu algoritmasıyla sınıflandırma gerçekleştirilmiş olur.

Şekil 2.2’de k=3 için k-En Yakın Komşu algoritmasının çalışma prensibi grafiksel olarak gösterilmektedir.

(27)

2.5.1.2. Derin Öğrenme (Deep Learning)

Derin Öğrenme temelde YSA’nın çalışma mantığı ile aynıdır. 1990’larda YSA’nın veriler üzerindeki başarı oranı çok düşüktü. Bunun sebepleri arasında, eğitim için kullanılan veri setlerinin küçüklüğü, bilgisayar işlem gücünün azlığı, kullanılan aktivasyon fonksiyonları gösterilebilir. Ancak günümüzde bu kısıtların aşılmasıyla YSA daha fazla katman, nöron ve aktivasyon fonksiyonlarına sahip olarak Derin Öğrenme adıyla popüler hale gelmiştir. Aşağıda Derin Öğrenme’nin temeli olan YSA açıklanmıştır. Tezin 3. bölümünde ise veri setinin büyüklüğü artınca Derin Öğrenme’nin diğer VM algoritmalarına olan üstünlüğü açıkça ortaya konulmuştur.

 Yapay Sinir Ağları (Artificial Neural Network)

YSA, insan beynindeki sinir hücrelerinin çalışma prensibini örnek alan, girdilerle çıktılar arasında matematiksel fonksiyonlarla örüntü kurarak öğrenebilen bir algoritmadır. YSA, tek yönlü iletişim kanallarıyla birbiriyle haberleşen, her biri kendi hafızasına sahip nöronlardan oluşmakta olup gerçek dünyaya ait ilişki tanıyabilir, kestirim, sınıflandırma ve işlev uydurma gibi görevleri yerine getirebilirler. Şekil 2.3’te bir sinir hücresi yapısı gösterilmektedir.

Şekil 2.3. Sinir hücresi yapısı [46]. Örnek bir YSA hücresi Şekil 2.4’te gösterilmektedir.

(28)

Şekil 2.4. YSA hücresi.

Şekil 2.4’te görülen Dendritleri Xm ve her bir dentritin ağırlık katsayısı (önem derecesi)

ise Wm ile gösterilmektedir. Xm girdi sinyallerini, Wm ise o sinyalin ağırlık katsayısını

göstermektedir. Σ ise tüm girdi sinyallerinin ağırlıklı toplamlarını elde etmektedir. Toplam sinyal ağırlığı eşiklenme fonksiyonuna girdikten sonra fonksiyondan çıkan sonuç sinyali (y) diğer hücreye beslenmek üzere iletilmektedir.

Her Xm ile y arasındaki ağırlıklar, her yeni girdi ve çıktı sinyallerine göre yeniden

ayarlanır. Bu ayarlanma sürecine öğrenme adı verilir. Öğrenme Wm ağırlıklarındaki

değişim kararlı bir duruma geldiğinde öğrenme tamamlanır. YSA hücresi aşağıdaki 5 bölümden oluşmaktadır.

 Girdiler  Ağırlıklar

 Toplama Fonksiyonu  Aktivasyon Fonksiyonu  Çıktılar

YSA’lar sahip oldukları nöronların bağlanış durumlarına göre ileri beslemeli veya geri beslemeli ağlar olmak üzere ikiye ayrılırlar.

İleri beslemeli YSA’da nöronlar katmanlara ayrılmıştır ve bir katmandaki nöronların çıktıları bir sonraki katmana ağırlık olarak girilir. Girdiler, girdi katmanından çıktı katmanına doğru tek yönlü bağlantılarla iletilir.

(29)

Geri Beslemeli YSA, çıkış ve gizli katmanlardaki çıktıların, girdi katmanına ya da önceki gizli katmanlara geri bağlandığı bir ağ yapısıdır.

2.5.1.3. Basit Bayes Sınıflandırıcısı (Naive Bayes)

Denklem 2.1’de eşitliği verilen Naive Bayes her bir değişkenin birbirinden bağımsız olduğunu varsayan basit olasılık sınıflandırıcısıdır. Kolay anlaşıldığı ve hızlı sonuç verdiği için sınıflandırma problemlerinde en çok tercih edilen algoritmalardan biridir. 𝑋=(x1, x2,…, xn) veri setindeki örnekler kümesi, 𝐶=(C1, C2,…, Cm) olmak üzere m adet

sınıf kümesi olsun. Basit Bayes Sınıflandırıcı da amaç, 𝑃(𝐶𝑖|𝑋)’i maksimize etmektir. P(X) değeri bütün sınıflar için eşit ve sabittir bu nedenle pay kısmının maksimize edilmesi istenmektedir. Bayes Teoremi’nden;

𝑃(𝐶𝑖|𝑋) =𝑃(𝐶𝑖)𝑃(𝑋|𝐶𝑖)

𝑃(𝑋) (2.1)

P(Ci): Örneğin i sınıfından olma olasılığı P(X): Herhangi bir örneğin X olma olasılığı

P(Ci|X): X olan bir örneğin i sınıfından olma olasılığı P(X|Ci): i sınıfındaki bir örneğin X olma olasılığı

Bu denklemde çok sayıda nitelik bulunduğu takdirde P(X|Ci)’nin hesaplaması zor olacağı için sınıflar arasında da koşullu bağımsızlık varsayımı kabul edilmektedir. Bu durumda P(X|Ci) Denklem 2.2’ye göre hesaplanabilmektedir.

2.5.1.4. Karar Ağaçları (Decision Trees)

Yukarıdan aşağıya doğru veri setindeki her bir verinin denetim işleminden geçerek uygun bir sınıf etiketine veya sayısal bir değere ulaştığı sınıflandırma algoritmasıdır. Örnek bir karar ağacı Şekil 2.5’te gösterilmiştir. En üstte yer alan başlangıç noktasına kök düğüm, daha sonra denetimin gerçekleştiği noktalara düğüm, en son oluşan çıktı kısmına yaprak, kök ile yaprak arasındaki yapıya da dal denilerek bir ağaca benzetilmiştir. Sınıflandırılacak veri önce kök düğüme gelir ve değerlendirilir. Değerlendirme sonucuna

𝑃(𝑋|𝐶𝑖) = ∏ 𝑃(𝑋𝑘|𝐶𝑖)

𝑛

𝑘=1

(30)

göre gideceği dal belirlenir ve ilgili dala yönlendirilerek o dal boyunca düğüm düğüm ilerler ve yaprakta örneklem için sınıf sonucu oluşur.

Şekil 2.5. Örnek bir karar ağacı.

Eğitim ve test işleminin hızlı, yorumlanmasın kolay, sonuçlarının görselliği anlaşılır olması Karar Ağaçlarının çok kullanılan bir sınıflandırma metodu olmasını sağlamıştır. Karar Ağaçları oluşturulurken ID3 VE C4.5, Twoing ve Gini algoritmaları, CART Karar Ağaçları ve bellek tabanlı sınıflandırma algoritmaları, ana algoritmalar olarak kullanılır. 2.5.1.5. Rastgele Orman (Random Forest)

Birden çok karar ağacının birleştirilmesiyle karar ormanı oluşturulur ve her bir karar ağacından elde edilen tahmin sonuçları birleştirilerek en son tahmin yapılmaktadır. Bu nedenle Rastgele Orman bir topluluk öğrenme yöntemidir.

Öncelikle bootstrap tekniği ile girdilerden bağımsız olarak örneklem oluşturulur, daha sonra ise Random Subspace yöntemiyle tüm değişkenlerin içinden rastgele seçilen az sayıdaki değişken ile her bir düğümde en iyi dallara ayrılan değişken seçilmektedir [50]. Rastgele orman tekniğini diğerlerinden ayıran ise değişkenlerin rastgele seçilmesidir. Diğer yöntemlerde belli kriterlere uyan değişkenler seçilirken rastgele ormanda ise araştırmacı tarafından istenilen herhangi bir değişken algoritmaya dahil edilmektedir. Her ağaçta veriler ve değişkenler farklı olduğu için rastgele orman yöntemi kolayca öğrenebilir. Çok girdi değişkeni olan büyük verilerde ve büyük kısmı eksik olan veri setlerinde rahatlıkla çalışır. İstenilen sayıda kadar ağaç oluşturabilmesi ve ağaçlarda farklı

(31)

duyulmaz. Bu da Rastgele Orman Yöntemi’ni Karar Ağaçları’ndan ayıran önemli bir özelliktir. Hızlı, aşırı uyumlu ve istenildiği kadar ağaçla çalışabilmesi nedeniyle rastgele orman algoritması şu ana kadarki algoritmalar arasında eşsiz bir doğruluğa sahip algoritma olarak tanımlanmaktadır.

Modeli oluştururken başlıca aşağıdaki adımlar takip edilmektedir [50].

 Veri seti; öğrenme verisi ve test verisi olarak ayrıldıktan sonra boostrap yöntemiyle n tane örneklem seçilir.

 Araştırmacı tarafından rastgele m tane değişken belirlenir. Bu değişkenler içerisinden en çok bilgi kazancı sağlanacak olan tahmin edilerek, o değişkenin dallanma işlemine geçilir.

 Dallanma kriteri Gini indeksi kullanılarak hesaplanır ve her düğüm çıkan değere göre 2 dala ayrılır. Düğümler homojen bir sınıf oluşuncaya kadar dallanmaya devam eder ve yaprak yapısına ulaştırılır.

 Rastgele seçilen diğer değişkenler içinde aynı işlemler tekrarlanarak oluşturulmak istenen n ağaç sayısına ulaşılır.

 Her bir ağaç içerisinden sınıflama problemleri için en çok oyu alan, regresyon problemleri içinse yapılan oylamanın ortalaması alınarak nihai tahmin yapılır.  Out of Bag (OOB) yani test verisiyle her ağacın OOB hata oranı tespit edilerek

hata oranı tahmin edilir.

(32)

3. METOD VE ANALİZ

Bu tez çalışmasında, VM yöntemi üniversite bilişim teknik servis verileri üzerinde uygulanmıştır. Veri tabanındaki veriler üzerinde VM yöntemleri uygulanarak gelecek dönem tahminlerinde bulunulmuştur.

Verilerin hazırlanması sürecinde Microsoft Structured Query Language (Ms-SQL) [51], veri tabanı yönetim sistemi ve Rapid Miner Studio 9.3 programından yararlanılmıştır. Düzce Üniversitesi Bilgi İşlem Daire Başkanlığı Arıza ve Talep Bildirim Sistemi 2013-2018 yılları arasındaki veriler kullanılmıştır. Veritabanı Yönetim Sisteminden (VTYS) alınan verilerden kayıp ve uygun olmayanlar silinmiş, eksik olanlar doldurulmuştur. Farklı veri tabanlarında aynı talep koduyla yazılan fakat veri tabanına kayıt edilirken farklı yazılan talep türlerine veri bütünleştirme işlemi uygulanmıştır. Örneğin VTYS’nin kullanılmaya başlandığı ilk dönemlerde 54 talep kodu ile ifade edilen “Teknik Servis, PC Bakım ve Onarım” talebi 2014 yılında veri tabanında yapılan güncelleme sonucunda “PC, Yazıcı Bakım ve Onarım” olarak sisteme kaydedilmiştir. Yine aynı şekide 65 talep kodu ile ifade edilen “Kablosuz Ağ Problemleri”, “Kablosuz Ağ (Wireless) Problemleri” olarak veri tabanına kaydedilmiştir. Bu oranlara göre veri seti içinden karışık olacak şekilde, RapidMiner programının shuffled sampling özelliği kullanılarak seçim yaptırılmıştır.

Temizlenen veriler RapidMiner VM programına aktarılıp bilişim personelinin performans analizi yapılmıştır. Verilerin %60’ı eğitim verisi olarak kalan %40’ı test verisi olarak kullanılmıştır.

Bu tez çalışmasında ASP.NET ortamı ile hazırlanmış Bilgi İşlem Talep Bildirim Sistemi üzerinden alınarak Ms-SQL VTYS’ye kaydedilmiş veriler kullanılmıştır. Talep bildirim sistemine ait arayüzler Şekil 3.1-Şekil 3.3’te gösterilmiştir.

Talep bildirim sistemine üniversite personeli olan kullanıcılar e-posta hesabı ve şifresi ile giriş yapabilmektedir.

(33)

Şekil 3.1. Kullanıcı giriş ekranı.

Sisteme giren birim personeli Şekil 3.2’deki program arayüzündeki alanları doldurup talebini açıklama kısmına yazarak kaydeder. Talep, seçilen talep türüne göre ilgili şube müdürlüğündeki teknik personele iletilir.

Şekil 3.2. Talep giriş ekranı.

Girilen bilgiler Ms-SQL ile tasarlanmış Şekil 3.4’te gösterilmiş olan veritabanı şemasına sahip tablolara kaydedilir.

Girilen arıza türüne göre ilgili bilişim personeline iletilen talepler Şekil 3.3’te ki arayüz vasıtası ile talebi sisteme giren birim personeli tarafından takip edilebilir.

(34)

Şekil 3.3. Personel ekranı.

Bu aşamada bilgi işlem personeli talebi, Bilgi İşlem Daire Başkanlığı Hizmet Standartları Envanteri’ndeki süreler dahilinde sonuçlandırır ve sistemde sonuçlandı olarak günceller. Kendi alanı ile igili olmayan arızaları ise ilgili bilgişlem birimine yönlendirir. Bu işlemlerin hepsi veritabanında tarih bilgileri ile tutulmaktadır.

(35)

Girilen arıza talebi talebe cevap veren birim personeli tarafından çözülemeyecek türden bir arıza ise VTYS’ye ikinci bir kayıt olarak başka personele yönlendirilme bilgiside kaydedilmektedir. Bu bilgiler tekil bir veri olması gerektiği için bu süreçte veri birleştirme işlemi yapılmıştır. Bunu yapabilmemizi sağlayan veri etiketi ise VTYS’de kod olarak geçen talep numarasının program tarafından tekil ancak veritabanında eşsiz olmayan alan olarak tanımlanmasıdır.

3.1. VERİLER VE ÖZELLİKLERİ

Veri setinde toplamda 5458 adet veri bulunmaktadır. Bu verilerden tahmin işlemine tabi tutulacak özellik ise arızanın giderilme süresidir. Bu süre program aracılığı ile ve Bilgi İşlem Daire Başkanlığı Hizmet Standartları Envanteri’nde yer alan arızanın türü için farklı farklı belirlenmiş olan arıza giderilme gün sayısına bağlı olarak Uzun-Kısa-Normal olmak üzere 3 farklı değer alabilir. Bu çalışma birim yöneticilerine karar destek sürecinde kullanılacağından Çizelge 3.1. gösterilmiş olan çizelgedeki sayılara sahip, arızanın hangi birimden geldiği arızanın türü ve talebe kimin cevap vereceği özellikleri ise tahmin yapılırken kullanılmıştır.

Çizelge 3.1. Veri setindeki benzersiz kayıtlar.

Talebe Cevap Veren Personel Sayısı Arıza Talep Türü Sayısı Talep Oluşturan Birim Sayısı

12 20 47

Verilerin veri tabanındaki alan türleri Şekil 3.4’te verilmiştir. Veri seti oluşturulurken uygun bir Transact-Structured Query Language (T-SQL) sorgu cümlesi ile cevaplanma süresi elde edilmiştir.

3.2. ÇALIŞMADA KULLANILAN PROGRAM

SPSS, WEKA, RapidMiner, Orange, SAS, KNIME, PSS Clementine, Angoss, KXEN, Sciptella ETL gibi programlar VM algoritmaları ile veri analiz etmek için geliştirilmiş birçok açık ve kapalı kaynak kodlu yazılımdan bazılarıdır. Bu tez çalışmasında RapidMiner adlı yazılım kullanılmıştır. RapidMiner’ın karşılama ekranı Şekil 3.5’te gösterilmiştir.

(36)

Şekil 3.5. RapidMiner’ın karşılama ekranı.

RapidMiner şirketi tarafından geliştirilen açık kaynak kodlu bir yazılımdır. İstemci/Sunucu mimarisini kullanabilen program bulut yapısı üzerinde çalışabilmekte olup akademik araştırmalar için ücretsiz olarak kullanılabilmektedir.

3.3. RAPİDMİNER İLE VERİLERİN ANALİZİ

Veritabanından alınarak VM süreçleri olan veri temizleme, veri bütünleştirme, veri indirgeme işlemlerinden geçirileren ve hazır hale getirilen veri, geçmiş veriden geleceğe yönelik tahmin (prediction) yapmak üzere RapidMiner programına aktarılır.

RapidMiner’da öncelikle File Menüsünden Şekil 3.6’da gösterildiği gibi yeni bir process oluşturulup açılır. Bu process’in kullanacağı veriler yerel bir bilgisayardan alınabileceği gibi uzak bir veritabanından da elde edilebilir. Bu tez çalışmasında veriler local repository seçilerek, VM temizleme, birleştirme vb. veri önişlemlerinden geçirilmiş ve bir Excell dosyası formatında kullanılmıştır.

(37)

Şekil 3.6. RapidMiner’ın yeni proje oluşturma ekranı.

Import Data butonu ile Şekil 3.7’de gösterildiği gibi ilgili veri seti local repository alanına yüklenir.

Şekil 3.7. RapidMiner’a veri setinin yüklenmesi.

Veri setinden istenen tablolar çekildikten sonra süreç (process) başlar. Veri seti sürükle bırak yöntemiyle Process alanına bırakılır. Set Role özelliği ile üzerinde tahmin

(38)

yürütülecek olan veri sütunu etiketlenir. Bu tez çalışmasında Set Role arızanın cevaplanma süresi olarak belirlenmiştir. Split Data özelliği ile verilerin %60’ı eğitim, %40’ı test verisi olarak ayrılmıştır. Select Attributes özelliği ile veri tabanında işleme girecek veriler seçilir. Bunlar talep türü, talebi oluşturan personelin çalıştığı birim ve talebe cevap veren personeldir. Daha sonra Şekil 3.8’de gösterildiği gibi Deep Learning, k-NN ve Decision Tree VM algoritmaları uygulanmıştır ve Şekil 3.9’da bir bölümü gösterilen tahmin verileri oluşmuştur.

(39)

Şekil 3.9. RapidMiner’da tahmin ve gerçek veriler.

Deep Learning VM algoritmasının ilgili veriler üzerindeki performansını ölçmek için process alanına Performance özelliği eklenmiştir.

3.4. VM SONUCU ELDE EDİLEN BULGULAR

Performans tahmininde daha önceden belirlenen Derin Öğrenme, k- En Yakın Komşu ve Karar Ağaçları algoritmaları ile bilişim teknik servis verileri RapidMiner yazılımıyla çalıştırılmıştır. Veri seti yazılımda çalıştırılırken verilerin %60’ı eğitim seti, %40’ı test seti olacak şekilde kullanılmıştır. Bu doğrultuda 3 algoritma karşılaştırılmıştır.

3.4.1. Derin Öğrenme ile Sınıflandırma

Çizelge 3.2’de veri setinin RapidMiner programında model olarak Derin Öğrenme kullanılmasıyla elde edilen sonuçları verilmiştir.

(40)

Çizelge 3.2. Derin Öğrenme algoritması karşılaştırma çizelgesi.

Gerçek Kısa Gerçek Normal Gerçek Uzun Kesinlik

Tahmin Kısa 628 7 25 95.15%

Tahmin Normal 10 629 57 90.37%

Tahmin Uzun 101 20 706 85.37%

Hassasiyet 84.98% 95.88% 89.59%

Bu çizelgede Tahmin Kısa ve Gerçek Kısa ile çakışan hücre veri setindeki arıza giderilme süresinin kısa değerlerinin, modelin tahmin ve gerçek verilerini göstermektedir. Buna göre 628 verisi veri setinde gerçekten kısa olup modelin kısa olarak tahmin ettiği sayıdır. Bu hücrenin altındaki 10 rakamı ise gerçekte kısa olup modelin normal olarak tahmin ettiği rakamdır. Bu bir başarısızlık olarak ifade edilebilir. Bu şekilde bütün tablodaki başarılı ve başarısız tahminleri oranlandığında VM’nin veri seti üzerindeki Derin Öğrenme modeli ile başarı oranı ortalama %89.92 olarak hesaplanmıştır. Tablodaki toplam veri miktarı ise test için ayrılmış olan 5458 adet veriden %40’ı oranında ve rasgele olarak seçilmiştir. Bu sonuçlar, model için Çizelge 3.3’te verilen parametreler kullanılarak elde edilmiştir.

Çizelge 3.3. Derin Öğrenme modeli için kullanılan parametreler.

Özellik Adı Değer

3 Adet Giriş Talebe cevap veren, Talep türü,

Talebin geldiği birim

1 Adet çıkış Talebin cevaplanma süresi

Gizli Katmanlarda Kullanılan Aktivasyon Fonksiyonu Rectifier

Gizli Katman Sayıs ve Katmanlardaki Nöron Sayısı 2 gizli katman, Her katmanda 50 adet nöron

Hata Fonksiyonu CrossEntropy

Dağılım Fonksiyonu Multinominal

Eğitim İçin Veri Setinin Tekrarlanma Sayısı 20

(41)

3.4.2. k-NN ile Sınıflandırma

RapidMiner’da karşılaştırma için aynı process altında eğitim ve test verilerinin oranları aynı şekilde verilmek kaydı ile model olarak k-NN en yakın komşu algoritması seçilmiş, en yakın 5 komşuya bakılmış ve Çizelge 3.3’teki sonuçlar elde edilmiştir.

Çizelge 3.4. k-NN En Yakın Komşu algoritması karşılaştırma çizelgesi.

Tahmin Kısa 734 106 185 71.61%

Tahmin Normal 4 537 66 88.47%

Tahmin Uzun 1 13 537 97.46%

Hassasiyet 99.32% 81.86% 68.15%

Buna göre k-NN modelinin başarı oranı %82.82 olarak hesaplanmıştır.

3.4.3. Karar Ağaçları ile Sınıflandırma

Test verileri ve eğitim verileri oranları ve seçim şekli aynı karşılaştırma yapılan önceki iki model ile aynı olacak şekilde seçilerek RapidMiner’da işleme konulmuş ve Çizelge 3.5’de verilen sonuçlar elde edilmiştir.

Çizelge 3.5. Karar Ağaçları algoritması karşılaştırma çizelgesi.

Tahmin Kısa 431 172 276 49.03%

Tahmin Normal 205 399 231 47.78%

Tahmin Uzun 103 85 281 59.91%

Hassasiyet 58.32% 60.82% 35.66%

Bu sonuçlara göre Karar Ağaçları modelinin ortalama doğruluğu %50.89 olarak hesaplanmıştır.

(42)

3.4.4. Modellerin Karşılaştırılması

3.4.1-3’te uygulanan modellerdeki sınıflandırma algoritması karşılaştırıldığında Derin Öğrenme’nin %89.92 ile en iyi performansa sahip olduğu, onu %82.82’lik performansla k-NN algoritmasının takip ettiği, daha sonra da %50.89 performansla Karar Ağaçları algoritmasının tahmin başarısı gösterdiği gözlemlenmiştir. Ayrıca eğitim ve tahmin için kullanılan oranların başarı oranını ne düzeyde etkilediği Çizelge 3.6’da verilmiştir.

Çizelge 3.6. Karar Ağaçları algoritması karşılaştırma çizelgesi.

Eğitim İçin Kullanılan Veri / Tahmin İçin Kullanılan Veri

Tahmin Oranları

Derin Öğrenme Karar Ağacı k-NN

%70 / %30 88,2 55,22 83,62

%60 / %40 89,92 50,89 82,82

%50 / %50 88,34 51,72 82,11

%40 / %60 87,32 51,28 80,67

Çizelge 3.6.’da en başarılı tahmin oranının %60 eğitim ve %40 test verisiyle oluştuğu açıkça görülmektedir.

Veri seti Auto Model dediğimiz ve RapidMiner içinde VM’de en çok kullanılan modelleri barındıran ortak bir işleme konulduğunda Şekil 3.10’daki tahmin oranları ve Şekil 3.11’deki tahmin için geçen süreler oluşmuştur.

(43)

Bu oranlara bakıldığında bu çalışmada kullanılan veri seti üzerinde en başarılı modellerin Deep Learning ve Gradient Boosted Tree algoritmaları en başarısız modelin ise Karar Ağaçları ile oluşturulan modeller olduğu görülmektedir.

Şekil 3.11. İşlem süreleri (ms).

Şekil 3.11’de verilen süreler ise bu veri seti üzerinde en yavaş çalışan algoritmanın Gradient Boosted Tree olduğu en hızlı modelin ise Karar Ağacı modeli olduğu görülmektedir.

(44)

4. SONUÇLAR VE ÖNERİLER

4.1. SONUÇLAR

Teknolojik gelişmelerin son yıllarda ivme kazanmasıyla bireysel ya da kurumsal anlamda verinin toplanması ve depolanması kolaylaşırken, veri büyüdükçe veri içinden anlamlı bilgilerin ortaya çıkarılması zorlaşmıştır. Bu durumun bir sonucu olarak VM kavramı ön plana çıkmıştır. VM, büyük ölçekli veri (Big Data) içinden gelecekle ilgili tahminde bulunmayı sağlayacak örüntülerin bilişim teknolojisinin olanaklarının kullanılarak ortaya çıkarılması işlemidir.

Performans değerlendirme, personelin işletme amaçlarının gerçekleşmesine yapmış olduğu katkının ölçülmesidir. Diğer bir deyişle personelin görev ve sorumluluklarını ne denli etkin olarak yerine getirip getirmediğinin ölçümlenmesidir. Yapılan araştırmalar, çalışanların işteki başarıları bakımından büyük farklılıklar gösterdiklerini, aynı kişinin başarısında da zaman içinde önemli değişmeler olabildiğini göstermiştir. İyi planlanmış bir performans değerlendirmesi yöneticiye, çalışana ve genel anlamda organizasyona fayda sağlar. Düzenli yapılan performans analizleri çalışanı daha verimli çalışmaya yöneltir.

Bu çalışmada Düzce Üniversitesi Bilgi İşlem Daire Başkanlığı Arıza ve Talep Bildirim Sistemi 2013-2018 yılları arasındaki verileri üzerine VM uygulanmıştır.

Bilgi İşlem yöneticisine, VM biliminin kullanım amaçlarından biri olan geleceğe yönelik tahmin süreci işletilerek arıza ve taleplerin daha hızlı ve etkin bir şekilde çözüme kavuşturulması için karar destek aşamasında yardımcı olmak amaçlanmıştır.

Aşağıda, yapılan çalışmalar, tezin sunumuna uygun olarak kısaca hatırlatılmış.

1. Bilgi İşlem Daire Başkanlığı Arıza ve Talep Bildirim Sistemi web tabanlı bir

uygulamadır ve Ms-SQL veritabanını kullanmaktadır.

2. VM süreçlerinin işlenmesinden önce bu uygulamanın bir yedeği kişisel

bilgisayarda kullanılan bir Ms-SQL sunucuya alınmıştır.

(45)

üzerinde birleştirme işlemleri uygulanarak Excell formatına aktarılmıştır.

4. Daha sonra bilgi işlem personeli kişisel hatalarından dolayı VM sürecini

etkileyecek olan veriler boyutlarına göre temizlenmiş veya tamamen silinmiştir. (Örneğin talebe cevap verilmesine rağmen süreci kapatılmayan talepler.)

5. Excel dosyası üzerinde isim kısaltmaları gibi önişlemler uygulanarak VM’nin veri

hazırlama süreçleri tamamlanmıştır.

6. Literatürde performans değerlendirmelerinde en çok kullanılan, Derin Öğrenme,

k- En Yakın Komşu ve Karar Ağaçları algoritmaları RapidMiner programı vasıtasıyla VM modeli olarak seçilmiştir.

7. Bununla yetinilmeyerek RapidMiner programında bulunan Auto model dediğimiz

ve geleceğe yönelik tahmin için kullanılan öntanımlı tüm algoritmalar uygulanarak doğru model seçimi için karşılaştırılmıştır.

8. Bilgi İşlem Daire Başkanlığı Hizmet Standartları Envanteri’nde yer alan arızanın

türü için farklı farklı belirlenmiş olan arıza giderilme gün sayısına bağlı olarak Uzun-Kısa-Normal olmak üzere 3 farklı değer alabilir. Bilgi işlem yöneticisine hizmet kalitesi için karar verme sürecinde en çok bu değer yardımcı olacağından, tahmin süreci için bu özellik seçilmiştir.

9. Tahmin için seçilen talebin cevaplanma süresini en çok etkileyen etmenler ise

talebe cevap veren personel, talep türü ve talebin geldiği birim olduğundan VM sürecinde bu alanlar özellik olarak seçilmiştir.

Elde edilen bulguları ise şu şekilde belirtebiliriz;

 Sonuç olarak detaylı inceleme için seçilen 3 algoritmadan geleceğe yönelik tahminde en başarılı model %89’luk doğruluk oranı ile Derin Öğrenme çıkmıştır.  Derin Öğrenme modelinde en yüksek başarı oranına, veri setinin %60’ı ile eğitim

ve %40’ı ile tahminde bulunma oranları ile ulaşılmıştır. Farklı oranlar ile kullanılan modellerin başarı oranları bölüm 3.4.4’te detaylı olarak verilmiştir.  Auto model’de ise Derin Öğrenme modeli diğer tüm algoritmaların doğruluk

oranlarına bakıldığında Gradient Boosted Trees algoritması ile aynı doğruluk oranına sahip olsa da, çok daha hızlı çalıştığı görülmüştür.

(46)

4.2. ÇALIŞMANIN GETİRDİĞİ KATKILAR

Düzce Üniversitesi Bilgi İşlem Daire Başkanlığı bünyesindeki toplam 14 personel ile Üniversitenin tüm birimlerine gerek yerinde gerekse uzaktan olmak üzere hizmet verdiği düşünüldüğünde, hizmet kalitesinin belirli standartlarda tutulması ve ölçülebilir olması hayati önem arz etmektedir.

Bu sebeple Bilgi İşlem Daire Başkanlığı müşterileri olan diğer üniversite personelinin memnuniyeti açısından, taleplerin en hızlı şekilde yerine getirilmesi gerekmektedir. Bu çalışma benzer veri setine sahip tüm kurumsal işletmelerde ve kamu kurumlarındaki gerek bilgi işlem gerekse buna benzer birimlerin teknik sevis verileri üzerinde kullanılabilir.

VM biliminin Derin Öğrenme modeli bilgi işlem teknik servis verileri üzerine uygulanarak analizler yapılarak çıkarımlarda bulunulmuş, müşteri memnuniyetinin arttırılması, personel performans değerlendirmesi ve yönetici karar destek süreçleri açısından literatüre katkıda bulunulmuştur.

4.3. ÖNERİLER

Bu çalışmada tahmin sürecinde taleplerin cevaplanma süreleri temel alınmış ve bu tahmini etkileyen faktörler olarak belirli kriterler özellik olarak seçilmiştir.

Gelecek dönemde sadece teknik servis verileri üzerinde değil, kamu kuruluşlarında çalışan tüm personel için performans analizinin değişken memnuniyet değerlerine ve yöneticilerin belirleyebileceği değerlendirme kriterlerine göre yapılması hedeflenmektedir.