• Sonuç bulunamadı

Günümüzde teknolojinin hayatın birçok alanına hızla girmesi ile beraber verilerin toplanması, depolanarak saklanması ve paylaşılması kolaylaşmıştır. Bu durum beraberinde veri yığınlarının oluşmasına ve bunların değerlendirilip anlamlı raporların oluşturulması ile bilgiye dönüştürülmesi zorunluluğunu ortaya çıkarmaktadır. Karmaşık olan veri yığınlarının anlamlı bilgiye dönüştürülmesi amacıyla ortaya çıkan veri madenciliği, veri ambarlarındaki gizlenmiş potansiyel olarak faydalı bilgileri ortaya çıkarma, daha sonra bu bilgileri karar verme ve uygulama aşamasında kullanma sürecidir.

Veri toplama kaynakları ve bilişsel teknoloji günümüz koşullarında oldukça gelişmiş ve yaygınlaşmış olmasına rağmen, veri değerlendirmeleri yapılmadığı sürece bir değer taşımamaktadır. Bu nedenle verileri işlemek ve çözümlemek için özel yöntemlere ihtiyaç duyulmaktadır.

Veri madenciliği yöntemleri bu ihtiyacı karşılamak üzere ortaya çıkmıştır (Özkan, 2013).

Kurumların ellerinde ciddi boyutta veriler toplanmakta ve değerlendirilmesi konusunda veri madenciliği metotlarından yararlanılmaktadır. Veri madenciliği, pazarlama, bankacılık, sigortacılık, elektronik ticaret gibi çeşitli alanlarda kullanılmaktadır ve temelde veriler arasındaki gizli örüntülerin ve ilişki seviyelerinin keşfedilmesi sürecidir.

Veri madenciliği teknikleri, tanımlayıcı ve tahmin edici teknikler olmak üzere ikiye ayrılır: Tanımlayıcı teknikler, karar vermeye yardım edecek verilerin tanımlanmasını sağlar. Birliktelik analizi (association rules) ve kümeleme (clustering) tanımlayıcı tekniklere örnek olarak verilebilir. Tahmin edici teknikler ise sonuçları bilinen verileri kullanarak, sonuçları bilinmeyen veri kümelerinin tahmin edilmesini sağlar. Regresyon, sınıflandırma (classification) ve sapma (deviation) tahmin edici tekniklerdendir.

Veri tabanında verilerin ortaya çıkarılması için gerekli adımlar şu şekilde sıralanabilir:

• Veri Seçimi: Veri kümeleri birleştirilerek sorguya uygun örneklem oluşturulmasıdır.

• Veri Temizleme ve Ön İzleme: Örneklemden hatalı bilgilerin ayıklanıp kalitenin artırılmasıdır.

• Veri indirgeme: Seçilen örneklemden ilgisiz niteliklerin atılmasıdır. Veri madenciliğinin süresini kısaltır.

• Veri Madenciliği: Verilen veri madenciliği sorgusunun (sınıflama, güdümsüz öbeklenme, eşleştirme, vb.) işletilmesidir.

• Değerlendirme: Keşfedilen bilginin geçerlilik, yenilik, yararlılık gibi basit kısıtlara göre değerlendirilmesidir.

Veri madenciliği konusunda yapılan çalışmaları kolaylaştırmak için birçok yazılım geliştirilmiştir.

4.1. Doğrusal Regresyon

Regresyon analizi, bağımlı değişkeni tahmin edecek en iyi modelin tahmin edilmesidir. Basit doğrusal regresyon modelinde bir bağımlı (Y) ve bir bağımsız değişken (X) vardır. Regresyon analizinde temel amaç bağımlı değişkendeki varyasyonu en iyi açıklayan denklemin oluşturulmasıdır. Regresyon modelindeki bağımsız değişkenin üs değeri 1 ise bu model doğrusal model olarak ifade edilir. Bağımlı değişken tahmin edilen bağımsız değişken ise açıklayıcı değişkendir. Bağımsız değişken araştırıcının elde ettiği verilerden oluşur fakat bağımlı değişkene araştırıcının bir etkisi yoktur. Regresyon analizinde yapılan varsayımlar aşağıda sıralanmıştır:

1. Bağımsız değişken X sabit değişkendir, şans değişkeni değildir. Yani araştırıcı tarafından peşim hükümlü olarak alınır. Ancak bazı durumlarda X şansa bağlı değişken de olsa regresyon analizi yapılabilir.

2. Ölçümlerde hata payı olabileceğinden en az hatayla ölçülmelidir.

3. Bağımsız değişkenlerin her bir değeri için bağımlı değişkenlerin bir alt popülasyonu vardır. Hipotez testlerinin ve tahminlerin sağlam yapılabilmesi için alt

popülasyonların normal dağılıma uygunluk göstermesi gerekir. Yani Y değerleri normal dağılıma uygun olmalıdır.

4. Bağımlı değişken Y’nin alt popülasyonlarının varyansları eşit ve ortalamaları doğrusal olmalıdır.

Bir basit doğrusal regresyon modelinde elemanlar; X: Bağımsız değişken

Y: Bağımlı değişken

α: Regresyon doğrusunun Y eksenini kestiği değer β: Regresyon doğrusunun eğimidir.

ε: Şansa bağlı hata değeridir.

Populasyon verileri için (Xi, Yi) gözlemlerine ait basit doğrusal regresyon modeli;

Yi =α+βXi+εi , i = 1,2, …., n (4.1)

şeklinde yazılır.

ε'nun ortalamasının sıfır, varyansının 𝜎" olduğu ve normal dağılım gösterdiği

varsayılır. Bu bir hata değerinin başka bir hata değerinden etkilenmediği anlamına gelir. Yani hata terimleri arasında otokorelasyon yoktur. ε, X ve Y değişkenleri arasında bulunduğu varsayılan doğrusal ilişkiyi bozduğu düşüncesiyle hata terimi olarak adlandırılır. ℇ değerleri kesin olarak bilinmeyen, pozitif veya negatif değerler alabilen rassal bir değişkendir (Günaşdı, 2014).

Basit doğrusal regresyon analizinde bir bağımlı ve bir bağımsız değişken arasındaki fonksiyonel ilişki incelenirken, çoklu doğrusal regresyon analizinde bir bağımlı ve birden fazla bağımsız değişken arasındaki fonksiyonel ilişki incelenmektedir. Çoklu doğrusal regresyonda araştırmacının iki genel amacı vardır. Bunlardan birisi bağımlı değişkeni etkilediği belirlenen değişkenler vasıtasıyla bağımlı değişkenin değerini tahmin etmek, bir diğeri; bağımlı değişkeni etkilediği düşünülen bağımsız değişkenlerden hangisinin veya hangilerinin bağımlı değişkeni daha çok etkilediğini tespit etmek ve aralarındaki ilişkiyi tanımlamaktır (Günaşdı, 2014). Yapılan araştırmalarda daha sağlam sonuç elde edebilmek için ele alınan faktörü etkileyen bütün faktörleri gözlemlemek ve bağımsız değişkenlerin bağımlı değişkeni ne yönde

ve nasıl etkilediğini tespit etmek önemlidir. Çoklu doğrusal regresyon modelinde en az iki bağımsız değişken bulunur. Y bağımlı değişkeni ile p sayıda bağımsız değişken arasındaki ilişki doğrusalsa ve Y ve X’lere ait n tane gözlem değeri varsa çoklu doğrusal regresyon modeli;

Y=b0+b1Xi1+b2Xi2+…+bnXin+ℇi i=1,2,…,n (4.2)

şeklindedir. Burada b1, …, bnbilinmeyenleri kısmı regresyon katsayıları veya kısaca regresyon katsayılarıdır.

4.2. Tahminlenen Regresyonun Duyarlılığı

Regresyon denklemi kurulduktan sonra bu denklemin ilişkiyi ne derece açıkladığı ve bu denklem kullanılarak yapılacak tahminlerin ne derece hassas olduğu önemlidir ve araştırılması gerekmektedir. Bunun için gözlenen değerler ile tahmini değerleri arasındaki fark incelenmelidir. Arasındaki fark Şekil 4.1’de gösterilmiştir.

Şekil 4.1. Gözlem değeri ve tahmin değeri farkı

Matematiksel olarak bu farkın ifadesi aşağıdaki denklem ile verilmiştir;

Y-Y = Y-Y - Y-Y (4.3)

Daha sonra her iki tarafın kareleri alınıp tüm gözlemler için toplanmalıdır;

Y-Y 2= Y-Y 2 - Y-Y 2 (4.4)

Y-Y 2= Y-Y 2+ Y-Y 2 (4.5)

Buradaki denkleme göre:

• Y-Y 2 : Ortalama etrafındaki kareler toplamı (Genel KT) • Y-Y 2 : Regresyon kareler toplamı

• Y-Y 2: Regresyondan sapmalar (hata) kareler toplamı

olarak ifade edilir.

Gözlenen değerlerin hepsi tahmin edilen doğru üzerinde olması durumunda, hata kareler toplamı “0” olacak ve uyumun çok iyi olduğu söylenebilecektir. Bu bilgiyi kullanarak, regresyon doğrusunun ne derece iyi tahminlenmiş olduğu regresyon kareler toplamının ortalama etrafındaki kareler toplamına oranına bakarak söylenebilir. Bu orana BELİRLİLİK KATSAYISI adı verilir ve R2 ile gösterilir;

R2= Y-Y

2

Y-Y2 (4.6)

Benzer Belgeler