Tanımlayıcı Teknikler - Veri Madenciliği Teknikleri

1.4. Veri Madenciliği Teknikleri

1.4.2. Tanımlayıcı Teknikler

Tanımlayıcı teknikler; mevcut verideki karar vermeye yardımcı, tekrar eden örüntüleri veya dolaylı anlatımları kullanarak verilerin gruplandırılmasını sağlar. (Özekes, 2003) . Örneğin; kredi kartı limiti X TL olan ve kamu okulunda öğrenim gören öğrencilerin, kredi kartı limiti Y TL olan ve özel okulda öğrenim gören öğrencilerin satın alma örüntülerinin birbirine benzerlik göstermesidir.

Tanımlayıcı teknikler, denetimsiz (unsupervised) öğrenme olarak da tanımlanmaktadır. Denetimsiz öğrenmede herhangi bir bilgi verilmediği için sonuçlar kesin doğruluk içermeyebilir. Denetimsiz öğrenme teknikleri, kümeleme ve birliktelik analizi olarak iki bölümde incelenmiştir.

1.4.2.1. Kümeleme Analizi

Kümeleme analizi, heterojen olan anakütleyi, homojen olan gruplara ayıran çok değişkenli bir istatistik yöntemdir. Bir başka ifade ile kümeleme analizi; gruplanmamış verileri benzerliklerine göre gruplandırarak araştırmacıya özet bilgi sunmaktadır. Kümeleme analizinin en yaygın kullanıldığı alan ise veri madenciliğidir (Akpolat vd., 2013: 23). VM, veri miktarının çok olması, verilerin anlamlandırılmasını güçleştirmektedir. Kümeleme analizi ile belirli kriterlere göre gruplandırma yapmak, verileri azaltarak özet bilgiler veren üst gruplar oluşturulmasını sağlamaktadır. Örneğin, sürekli alkollü içecek satın alanlar ile nadiren alkollü içecek alanların satın alma alışkanlıklarının birbirinden farklı olduğunu varsayarak, bu iki grubun demografik özelliklerinin benzerlik ve farklılıkları belirlenerek yeni varsayımlar oluşturulabilir (Kalaycı, 2010: 349).

Nesnelerin temel özelliklerine göre benzerlerini belirleyerek gruplandıran kümeleme analizi; gerçek tiplerin belirlenmesi, model oluşturmanın kolaylaşması, gruplar içi ön tahmin yapılması, hipotez testleri yapılması, veri yapısının belirlenmesi, verilerin indirgenmesi ve ayrık değerlerin bulunması gibi amaçlarla da kullanılmaktadır.

Analizin başarısı, anakütle yapısını doğru ifade eden güvenilir örnek seçimi yapılmasına bağlıdır. Kümeleme analizinin küme sayısı ve yapısına ilişkin varsayımları bulmamakta, sadece uzaklık değerlerinin normalliğini değerlendirmektedir. Analiz, veri ve benzerlik matrisi belirleme, kümelere ayırma ve yorum aşamalarından oluşmaktadır (Lorcu, 2008: 258-260).

Verilerin benzerliklerini saptamak amacıyla uzaklık ölçüleri, korelasyon ölçüleri, ortaklık ölçüleri ve Mahalanobolis uzaklığı kullanılmaktadır. Bu ölçülerden en az kullanılan korelasyon ve en sık kullanılan yöntem ise uzaklık ölçüleridir. Korelasyon ölçümlerinde benzerlik için değişkenler arasındaki korelasyon katsayısını dikkate alırken uzaklık ölçümlerinde yaygın olarak Öklit uzaklığı yöntemi kullanmakta ve uzaklık değerinin küçülmesi, benzerliğin arttığını ifade etmektedir. Mahalanobis uzaklığı, iki noktanın arasındaki mesafeyi hesaplamak için kovaryans matrisini kullanmaktadır. Ortaklık ölçümü ise metrik olmayan verilerde, uyuşma derecesi ile yüzdelik olarak ifade edilmektedir (Kalaycı, 2010: 355).

Kümeleme analizinde, diğer çok değişkenli tekniklerden farklı olarak bağımlı ve bağımsız değişken ayrımı yoktur (Orhunbilge, 2010). Genellikle verilerin gruplandırılmasında kullanıldığı için ayırma (diskriminant) analizine benzemektedir. Ancak ayırma analizinde gruplar önceden belirlenmekte ve gruplar analiz süresince değişmemektedir. Bağımlı/bağımsız değişken ayrımı olmaması ve nesneleri aralarındaki özellikler nedeniyle bir araya getirmesi gibi özellikleri ise faktör analizine benzemektedir (Alpar, 2011).

Nesnelerin benzerliklerine göre kümelere dahil edilmesinde kullanılabilecek çeşitli yöntemler vardır. Bu yöntemlerden biri olan hiyerarşik kümeleme, en çok benzer iki birimi aynı gruba atamakla başlayıp, tüm birimlerin aynı gruba atanması ile biten aşamalı kümeleme yöntemidir. Bir başka yaklaşım ise tüm verilerin, ortalama değerlerine en yakın değerlere sahip birimlerin, aynı kümeye atanmasını esas alan yöntemdir. Tüm yöntemlerde en önemli ölçüt, kümeler arası farklar ile kümeler içi benzerliklerin maksimum olmasını sağlamaktır (Çelik, 2013: 175).

Denetimsiz öğrenme uygulanması nedeniyle küme sayısının da önceden belirlenmemesi gerektiği halde birçok algoritma, kullanıcının küme sayısını analizden önce belirlemesini istemektedir. Dolayısıyla kullanıcı, her analiz öncesi bir küme sayısı belirlemekte, sonucun doğruluğunu test etmekte ve optimum küme sayısına ulaşmayı hedeflemektedir. Optimum küme sayısının hesaplanmasında kullanılan indekslerden bazıları şunlardır:

Dunn Geçerlilik İndeksi: Kümelerin yoğun ve iyi dağıtılması varsayımıyla hareket etmektedir. Hesapladığı D katsayısının büyümesi, kümeleme kalitesinin başarısını ifade etmektedir.

Davies–Bouldin Geçerlilik İndeksi: Bütün nesnelerin kümeden küme merkezlerine uzaklıklarının toplamının, küme merkezleri arasındaki uzaklığa oranın maksimum değerinin küme sayısına bölünmesi ile hesaplanmaktadır. Hesapladığı DB değerinin küçük olması, kümeleme kalitesinin iyi olduğunu göstermektedir.

Silhouette Geçerlilik İndeksi: Küme içi homojenliğin yüksek ve kümelerin birbirinden kopuk olduğu durumları belirlemek için kullanılmaktadır. Silhouette değerinin 1’e yakın olması, kümeleme kalitesini yansıtmaktadır.

C İndeksi: Küme içindeki her nesne çiftinin arasındaki mesafeyi hesaplayarak, en büyük ve küçük mesafelere göre C değerini hesaplamaktadır. C’nin küçük olması istenmektedir.

Jaccard İndeksi: Veri setinde ayırt edici bir sınıf belirleyerek, kümeleme ve sınıflandırmayı birlikte kullanmaktadır. Nesneleri çiftler halinde değerlendirmekte ve 0 ile 1 arasında değer almaktadır. Jaccard indeksinin 0 olması, nesne çiftleri arasında hiç ortak nokta olmadığını, 1 olması ise nesne çiftlerinin birebir aynı olduğunu göstermektedir (Silahtaroğlu, 2013: 208-215).

Kümeleme analizinin yaygın kullanıldığı alanlar için şu örnekleri vermek mümkündür:

 Pazarlama alanında, satın alma alışkanlıkları veya demografik özelliklerinin benzerliklerine göre kümelenen müşteri kitlesi belirleyerek, benzer müşteri kümelerine benzer pazarlama stratejileri sunmada,

 Sağlık alanında, benzer psikolojik göstergelere sahip hastalıkları belirme ve benzer tedavileri denemede,

 Arkeoloji alanında, benzer mineral kümeleri içeren toprakların tespiti ve köken araştırmaları vb.

Kümeleme analizi, örneklemden elde edilen bilgiler yardımıyla evren hakkında çıkarsamalar yapabilecek derecede istatistiksel temele sahip değildir. Analiz, birden çok farklı çözüme ulaşılabilmektedir ve tek bir çözümü olmadığı gibi kabul görmüş en iyi yöntem denilebilecek kesin bir ifade de kullanılamamaktadır. Kümeleme analizi yapılırken araştırmacının konuya hâkimiyeti oldukça önemlidir (Alpar, 2010).

1.4.2.2. Birliktelik Analizi

Birliktelik kuralı; veritabanlarında birlikte hareket eden verilerin, oluşturulan modele katkısını yine ikili veya çoklu olarak belirlemek için kullanılmaktadır. Veri miktarının fazla olduğu durumlarda, araştırmacıların kararlarını olumlu etkileyen (Melek, 2012: 17) birliktelik analizi, literatürde, “pazar sepet analizi” olarak da adlandırılmaktadır. Birliktelik kuralları, veri kümeleri arasındaki korelasyonları tespit ederek, ilgili ilişkiye göre kurallar oluşturmaktadır ve veri setindeki nesnelerin birlikte görülme sıklığını ifade etmektedir. E-ticaret yapan işletmeler, müşterilerine ürün önerisinde bulunmak için birliktelik kuralından yararlanmaktadır. Müşterilerinin satın aldığı üründen hareketle satın alma olasılığı yüksek olan ürün seçeneklerini sunmaktadır. Genellikle “x ürününü alanlar, y ürününü de aldı” şeklinde ifade edilmektedir.

Birliktelik kuralı, büyük veride diğer birçok yönteme göre kolay belirlenemeyen örüntüleri keşfedebilmekte ancak uyguladığı analizler güçlü bilgisayar kapasitesine ihtiyaç duyduğu için oldukça yüksek maliyetle karşı karşıya

kalmaktadır. Diğer önemli unsur ise veri setine özgü bazı kuralların tesadüfi olma olasılığıdır. Bu nedenle kurallar çıkarıldıktan sonra tekrar gözden geçirilmelidir.

Birliktelik kuralı ile çok sayıda kural üretebilmektedir. Bu kurallardaki ilişkinin gücü, destek (support), güven (confidence), kaldırma oranı (lift ratio) değerleri ile incelenir. Destek değeri, özelliklerin farklı nesnelerde birlikte görülme olasılığıdır. Güven değeri, birliktelik içeren özelliklerin koşullu olasılığıdır. Kaldırma oranı, neden sonuç ilişkisindeki gücü ifade etmektedir.

Birliktelik kuralı kısaca şu örnekle açıklanabilir: A1, A2, … , Am  B1, B2,

… , Bn ise, “A1, A2, ... Am” veri setinde A verileri görüldüğünde, sık olarak “B1, B2,

... Bn” verilerinin aynı durum içinde yer aldığını belirtmektedir. Örneğin çanta,

ayakkabı  saat olarak tanımlanan kuralda destek= 0,10 güven= 0,30 ise, çanta ve ayakkabı alanların % 10’u, % 30 olasılıkla saat alabilmektedir.

Apriori ve Apriori TID, en sık kullanılan birliktelik kuralı algoritmalarıdır. Algoritma, sık tekrarlanan veri kümelerini bulmak amacıyla birçok defa veri setini taramaktadır. Bu modelde, I={i1,i2,..,im} veri kümesini, D veri setindeki tüm

hareketleri, T ise I kümesindeki verilerin her bir hareketini göstermektedir. Öncelikle minimum destek eşik değerine göre veri seti taranmaktadır. İlk incelemede sık tekrarlanan veriler belirlenmekte, ardından sık tekrarlanan bir diğer veri kümesi belirlenmekte ve yeni veri kümesinin destek değeri hesaplanmaktadır. Bu işlemler yeni tekrarlanan veri kümesi oluşmayana kadar devam etmektedir (Özçakır ve Çamurcu, 2007).

Fp-growth algoritması ise 2000 yılında geliştirilmiş, Ais, Setm, Apriori – TID gibi diğer birliktelik kuralı algoritmalarına kıyasla daha performanslı çalışmaktadır. Veri setine, böl-yönet strateji uygulanmaktadır. Diğer algoritmalar veri setini defalarca tararken, Fp-growth, tarama işlemini yalnızca iki kez gerçekleştirmektedir. Kurallar ilk taramada destek değerlerine göre sıralanır, ikinci taramada sıkıştırılır ve ağaç veri yapısına yerleştirilir.

Şekil 5: Destek Değerlerine Göre Kurulan Ağaç Yapısı Örneği

Şekil 5’deki ağaç yapısı, yaygın olmayan verileri içermemektedir. Destek değeri büyük olan veriler, kök ve köke yakın olmaktadır. Ağaç yapısında yer alan veriler, tüm veri setinden daha az sayıdadır. Ağaç yapısı, aşağıdan yukarıya doğru her verinin koşullu örüntülerini göstermektedir (Birant vd., 2010: 258-261).

Belgede Online müşteri şikayetlerinin veri madenciliği ile incelenmesi (sayfa 44-49)