Tahmin Edici Teknikler - Veri Madenciliği Teknikleri

1.4. Veri Madenciliği Teknikleri

1.4.1. Tahmin Edici Teknikler

Tahmin edici teknikler; sonuçları bilinen verilere göre bir model kurarak bu modelden hareketle sonuçları bilinmeyen yeni veri setinin sonuçlarının tahmin edilmesini sağlar. Değer tahmini yapmayı hedeflediği için bilgi keşfine dayalı bir tekniktir. Örneğin, hava sıcaklığı, nem ve rüzgar değerlerine göre golf oynanabilen ve oynanamayan günlerden oluşan veri seti baz alınarak gelecekteki bir dönemin hava tahminlerine göre golf oynanabilecek günlerin tahmini sağlabilmektedir.

Tahmin edici teknikler, denetimli (supervised) öğrenme olarak da tanımlanmaktadır. Denetimli öğrenme, veri setini, öğrenme (training set) ve deneme (test set) kümesi olmak üzere iki ayrı kümeye ayırmaktadır. Deneme kümesindeki nesne özelliklerinin öğrenme kümesine uyumu, başarı ölçütü olarak ifade edilmektedir. Sonuçları bilinen öğrenme kümesinden yararlanarak bilinmeyene ulaşmayı sağladığı için denetimli öğrenme olarak ifade edilmektedir. Denetimli öğrenme teknikleri, sınıflandırma ve regresyon olarak iki bölümde incelenmiştir.

1.4.1.1. Sınıflandırma

Sınıflandırma; en yaygın kullanılan veri madenciliği tekniklerinden biri olup makine öğrenmesi ve örüntü tanıma konularının temelini oluşturmaktadır (Muslu, 2009: 20). Örüntü tanıma analizi, sınıf tanımlama; makine öğrenmesi ise sınıf özelliklerini belirleme ve bunu yeni veriye uygulama fonksiyonlarını yerine getirmektedir. Bu teknik, veri setindeki yeni nesnenin özelliklerini açıklamak ve bu yeni nesnenin daha önceden tanımlanmış sınıf setlerinden hangisine ait olduğunu belirlemek için kullanılmaktadır.

Sınıflandırma tekniğinde ilk işlem, veri setindeki nesneleri ifade eden bir sınıf değişkeni atanmasıdır. Sınıf atanan nesnelerden, öğrenme kümesi (training set) adıyla bir model kurulur. Her sınıfı temsil eden öğrenme kümesi nesneleri belirlenir.

Öğrenme kümesi dışındaki nesneler, deneme kümesi (test set) olarak adlandırılır. Son olarak deneme kümesi, nesneleri modele uygun sınıflandırır. Bir verinin önceden belirlenmiş sınıflardan hangisine gireceği, sahip olduğu özelliklere göre tahmin edilmektedir (Kotsiantis, 2007: 253-254).

Öğrenme ve test kümelerinin belirlenmesininde farklı yöntemler kullanılabilmektedir. Kullanılan yöntem, kurulan modelin başarısını etkilediği için küme seçim yöntemleri önemlidir. Genellikle VM programları birden fazla seçenek sunmaktadır. Bunlar; küme bilgisinin farklı dosyalardan programa aktarılması, veri setinden belirli bir oranda deneme kümesi seçmek veya veri kümesini n sayıda parçaya ayırarak sırayla her parçayı test kümesi olarak kullanmasını sağlamaktır.

Tablo 2: Karışıklık Matrisi Örneği

Tahmin Edilen Sınıf

X Y

Doğru Sınıf

X Doğru pozitif Yanlış negatif

Y Yanlış pozitif Doğru negatif

Analizin sonucu, karış ıklık matrisi olarak adlandırılan doğru sınıf ve tahmin edilen sınıfları gösteren 2x2 bir matris ile açıklanmaktadır. Modelin başarısını değerlendirmede kullanılan kriterler; doğruluk, hata oranı, kesinlik, duyarlılık ve F- ölçütüdür. Doğruluk, doğru sınıflandırılan nesne sayısının, toplam nesne sayısına oranıdır. Hata oranı, doğruluk oranın 1’den farkıdır. Kesinlik, doğru sınıfa giren nesne sayısının, ilgili sınıfın doğru ve yanlış tahmin edilen nesne sayısına oranıdır. Duyarlılık; doğru sınıfa giren nesne sayısının, toplam doğru tahmin edilen nesne sayısına oranıdır. F-ölçütü, kesinlik ve duyarlılığın harmonik ortalamasıdır (Coşkun ve Baykal, 2011: 53).

Sınıflandırmada en önemli değerlendirme kriterleri; tahmini doğruluk ve anlaşılabilirliktir. Tahmini doğruluk yani genelleme, geliştirilen modelin performansının ne kadar iyi olduğunun bir ölçüsüdür. Anlaşılabilirlik ise geliştirilen modelin kullanıcılar tarafından anlaşılabilir olmasıdır (Akyol ve Alataş, 2016: 839).

Veritabanı sistemlerine kolay entegre olması ve kolay yorumlanması sebebiyle en çok kullanılan sınıflandırma yöntemleri; karar ağaçları ve mesafeye dayalı algoritmalardır. Karar ağaçları, basit öğrenme algoritmalarıyla karar modelinin sonuçlarını hiyerarşik bir yapıda göstermektedir. Veri setini belirli kurallara göre bölen düğüm ve yapraklardan oluşmaktadır. Kurallar, “eğer kurallarına-if rules” göre oluşturulmaktadır. Başlangıç düğümü, kök olarak belirlenmekte ve her düğümde test yapılarak karar verilmektedir. Yapraklarda ise sınıflar belirlenmektedir. Karar ağaçları kolay anlaşılan kurallar üretmesi sebebiyle tercih edilmektedir. Bölümlendirme, kategorilere ayırma, belli gruplara ait ilişkileri tanımlama gibi amaçlarla kullanılmaktadır (Emel ve Taşkın, 2005: 225). Mesafeye dayalı bir algoritma olan K-en yakın komşu (K-NN) ise verilerin birbirlerine olan uzaklıklarına ve benzerliklerine göre hesaplanmaktadır. Birbirine yakın olan nesnelere, aynı sınıfa atama mantığıyla hesaplanmaktadır. Veri setine eklenen her yeni veri, önceden sınıflandırılmış öğrenme kümesi verilerine göre sınıflandırılmaktadır. Diğer bir ifadeyle deneme kümesi nesnelerinin, öğrenme kümesindeki nesnelere uzaklıkları hesaplanarak, en yakındaki k adet nesne hangi sınıfta ise deneme kümesi nesnesi de o sınıfa eklenmektedir. Basit bir algoritma olması ve gürültülü verilerde de olumlu sonuç vermesi sebebiyle tercih edilmektedir. Ancak K-NN, hesaplama yaparken veri sayısı arttıkça bilgisayar hafızasında fazla yer kaplaması ve her yeni nesne için tek tek uzaklık hesaplamanın uzun zaman gerektirmesi gibi dezavantajlara sahiptir.

Bayes sınıflandırma, istatistiksel bir sınıflandırmadır. Bayes teoremini esas almakta ve olasılık hesaplamaktadır. Niteliğin, sınıftaki etkisinin diğer niteliklerin değerlerinden bağımsız olduğunu varsaymaktadır. Bağımsızlık, sınıf koşullu bağımsızlık olarak adlandırılmaktadır (Talebi, 2013: 9).

Yapay sinir ağları, genetik programlama ve destek vektör makineleri ise sınırlandırma olmadan sınıflandırma yapabilen sınıflandırma yöntemleri olup, geliştirilen modelle sınırlandırılmadığı için geleneksel istatistik yöntemlerine oranla daha doğru tahminler yapabilmektedir (Karakuş, 2009: 79).

Sınıflama algoritmaları, bir denetimli öğrenme biçimidir. Genel kullanım alanları arasında müşteri profili oluşturma, hastalık tanıları, örüntü tanıma, kredi kartı başvurusu değerlendirme, ses tanıma, el yazısı tanıma, gazete haberlerini kategorize etme ve dolandırıcılık tespiti yer almaktadır.

1.4.1.2. Regresyon Analizi

Temeli istatistiğe dayalı bir algoritma olan regresyon analizi; herhangi bir değişkenin, bir veya daha çok değişken ile arasındaki ilişkinin matematik fonksiyonu olarak tanımlanmasıdır (Lorcu, 2015: 240). Regresyon analizinde bir bağımlı, bir veya birden fazla bağımsız değişkenden oluşan bir matematiksel model kurulmaktadır. Tek bağımsız değişkenli model basit doğrusal regresyon, birden fazla değişkenli model ise çoklu regresyon modelidir.

Regresyon analizinin amacı, kestirim yapmak ve veriyi özetlemektir. Regresyon analizinin bazı varsayımları mevcuttur. Bunlar bağımlı değişkenin tesadüfi olması ve normal dağılım göstermesi, otokorelasyon olmaması, hata varyanslarının eşit olması ve çoklu regresyonda bağımsız değişkenler arasında ilişki olmamasıdır.

Sınıflandırma tekniği ve regresyon analizinin temel ayrım noktası; regresyon analizinde kullanılan bağımlı değişkenin kategorik olmayıp sayısal olmasıdır. Regresyon, süreklilik gösteren değerlerin tahmininde kullanılmaktadır. Regresyon bir durumu veya olayı etkileyen diğer durumları veya olayları belirlemeye çalışmaktadır. Bu durumlar veya olaylar farklı etki derecelerine sahip olabilmektedir.

Regresyon analizinde ilk olarak veriler, sınıflarına bağlı olarak bölünür ve daha sonra çıktı değerinin hesaplanması için formüller üretilerek tahminde bulunulur (Silahtaroğlu, 2013: 103). Nedensellik ilişkisinin belirlenmesini sağlayan analiz, karar verme sürecinde yol göstericidir. Örneğin; bir işletmenin reklam harcaması kararı, ürünlerinin hedef kitlesinin gelir düzeyi ile yüksek derecede ilişkili ise işletme tüm ürünler için reklama harcaması yapmayacak, hangi ürünü için reklam harcaması yapması gerektiğine karar verebilecektir.

Belgede Online müşteri şikayetlerinin veri madenciliği ile incelenmesi (sayfa 40-44)