• Sonuç bulunamadı

3. KÜMELEME ANALİZİ

3.2. Kümeleme Analizi Nedir?

Kümeleme analizi, yakınlıkları ve nesneleri tanımlayan veri içinde bulunanan bilgiye dayanarak veri nesnelerini gruplara ayırma işlemidir. Bu grupların her birine küme denir. Kümeleme analizi literatürde kümeleme adıyla da geçmektedir. Kümelemede amaç; grup içindeki nesnelerin benzer olması ve bu nesnelerin diğer gruplar içindeki nesnelerden farklı ve başka olmasıdır. Grup içindeki benzerliğin (similarity) mükemmelliği ve gruplar arasındaki farklılığın (dissimilarity) mükemmelliği kümenin daha iyi ve daha açık olmasını sağlar [42].

Kümeleme analizinin psikoloji, biyoloji, istatistik, tıp ve mühendislik gibi bilim dalları ile ilişkili olması onun daha da gelişmesini sağlamıştır. Kümeleme analizinin doğal olarak birçok farklı adı ortaya çıkmıştır. Kullanılan adların başlıcaları; sayısal taksonomi (numerical taxonomy), otomatik sınıflandırma (automatic classification),

tipolojik analiz (typological analysis), denetimsiz sınıflandırma (unsupervised classification), veri parçalama (veri segmentation), kümeleme ve veri bölme (data partition)’ dır. Bu adlandırmalardan en çok kullanılan kümeleme ve kümeleme analizi olmuştur [42].

İnsanlar yaratışları gereği karmaşık konuları anlamaya çalışırken daha basit anlaşılacak şekilde konuları küçük parçalara ayırmaya çalışırlar. Birisinden orman içindeki ağaçların renklerini tanımlaması istendiğinde, cevap büyük olasılıkla yapraklarını döken ve dökmeyen ağaçlar arasında veya yaz, kış, sonbahar ve ilkbahar arasında olma durumuna göre değişiklik gösterecektir. Benzer renklere sahip ağaçların kümelerini oluşturmak için en iyi kullanılan faktörler, yaş ve yükselikten daha çok orman ile ilişkili yüzlerce değişken, mevsim ve yaprak çeşitleridir. İnsanlar bu faktörleri tahmin etmek için ormanlar hakkında yeterince bilgiye sahiptirler. Yapraklarını döken ağaçlar kışın yapraklara sahip değildir. Bu yüzden bu ağaçlar kışın kahverengi olmaya eğilimlidir. Yapraklarını döken ağaçların yaprakları tipik olarak sonbaharda kırmızı, turuncu ve sarı olacak şekilde renk değiştirirler. Bu bilgilere dayalı olarak ağaçlar renklerine göre gruplandırılabilmektedirler. Çok küçük çoçuklar bile sürekli bilinçaltı kümeleme şemalarını geliştirerek kedi ve köpekleri, hayvan ve bitkileri nasıl ayıracağını öğrenirler [41].

Kümeleme analizi, veri nesnelerini gruplara ayırmada kullanılan diğer tekniklerle ilişkilidir. Kümeleme sınıflandırmanın bir çeşidi olarak düşünülebilir. Kümeleme, denetimsiz sınıflandırma yöntemidir. Denetimli sınıflandırma yönteminde veriler önceden sınıflandırılmıştır. Bu yöntemde yeni ve hangi sınıfta olacağı bilinmeyen veri var olan sınıflardan uygun olanına yerleştirilmektedir. Denetimsiz sınıflandırma yönteminde yeni ve hangi sınıfta olacağı bilinmeyen veri herhangi bir özelliğe dayalı olmadan sadece eldeki veriler kullanılarak anlamlı alt kümeler oluşturacak şekilde gruplandırılmaktadır. Şekilde 3.1’ de 20 tane nokta vardır ve kümeler içine onları bölmenin 3 farklı yolu vardır. İşaretlerin şekilleri küme üyeliklerini belirtir. Sırasıyla veri kümesi 2, 4 ve 6 parçaya bölünmüştür. Bu şekil, kümeleme tanımının kesin olmadığını ve en iyi tanımın verinin doğasında ve istenen sonuçlara bağlı olduğunu gösterir.

Şekil 3.1: Aynı noktalar kümesini kümelemenin farklı yolları [42].

Veri kümeleme çok hızlı bir gelişim içindedir. Uygulama alanları hızlı bir şekilde artmaktadır. Analiz edilecek veri gün geçtikçe sürekli arttığı için çok kullanılacak bir yöntemdir. Kümeleme ile seyrek ve yoğun alanlar tanımlanabilir ve sonuçta veri nitelikleri arasındaki ilginç ilişkiler ve dağınık örüntüler keşfedilebilir. Kümeleme örüntü tanımlama (pattern recognition), veri analizi (data analysis), görüntü işleme (image processing), astronomi, kıyafet tasarımı ve pazar araştırması (market research), tıp, iklim gibi birçok alanda kullanılmaktadır. Bu alanlardan astronomi ve kıyafet tasarımıyla ilgili örnekler aşağıda belirtilmiştir.

20. yüzyılın başlarında, astronomlar yıldızların parlaklıklarıyla sıcaklıklıkları arasındaki ilişkiyi açıklamaya çalışıyorlardı. Şekil 15.1’ de dikey ölçümün güneşin parlaklığını, yatay ölçümün ise Kelvin derecesinde yüzey sıcaklığını göstermekte olduğu bir şekil çizmişlerdir. Enjar Hertzsprung ve Norris Russell adındaki 2 astronot yıldızların dağılım çiziminde 3 kümeye düştüğünü gözlemlemişlerdir. Bu gözlem daha ileriki çalışmaların yapılamasına ön ayak olmuş ve bu 3 kümenin yıldızların hayat döngülerinin farklı aşamalarını gösterdiği ortaya çıkmıştır. Parlaklık ve sıcaklık arasındaki ilişki her küme içinde sabittir. Fakat kümeler arasındaki ilişki farklıdır. Çünkü ışığı ve ısıyı üreten işlemler farklıdır. Yıldızların %80’ i hidrojeni helyuma çevirerek nükleer füzyonla enerji üretirler. Bu yıldızlar ana dizi(Main Sequence) adında olan yıldızlardır. Bu tüm yıldızların aktif hayatlarını nasıl

geçirdiklerini gösterir. Birkaç milyar sonra hidrojen tükenir. Kütlesine bağlı olarak daha sonra yıldız helyum füzyonuna başlar ya da füzyon durur. Füzyon durursa yıldızın çekirdeği çöker ve bu esnada büyük miktarda ısı açığa çıkar. Aynı zamanda dış yüzeyindeki gaz tabaka genişler ve kırmızı devler (Red Giants) oluşur. En sonunda, dış yüzeyindeki gaz tamamen kaybolur ve geride kalan çekirdek tamamen soğumaya başlar. Bu şekilde oluşan yıldıza da beyaz cüce (White Dwarf) denir. Google’ da “Hertzsprung-Russell Diyagramı” deyimiyle yapılacak bir arama, küme bulmaya yönelik olarak yapılan birçok geçerli araştırmanın linkini getirecektir. Günümüzde bile HR(Hertzsprung-Russell) diyagramına dayalı kümeler, ana dizi öncesi yıldız evrimini anlamak ve kahverengi cüceleri (Brown Dwarfs) yakalamak için kullanılırlar. Kahverengi cüceler, nükleer füzyonu başlatmak için yeterince kütlesi olmayan yıldız benzeri nesnelerdir. HR diyagramı kümeleye iyi bir örnektir. Çünkü sadece iki değişken kullanılarak kümeleri iyi bir şekilde göstermektedir. HR diyagramı Şekil 3.2’ de verilmiştir [41].

Şekil 3.2: Hertzsprung-Russell Diyagramı [41].

Şekil 3.3 insanların vücut şekilleri hakkında kabaca bir fikir vermektedir. Amaç bu insanları giydirmek olduğunda birkaç ölçüm daha gerekmektir. 1990 yıllarında

Amerikan ordusu, kadın askerlerinin üniformalarının yeniden tasarlanması için bir çalışma yürütmüştür. Ordunun amacı kayıt defterlerinden tutulması gereken farklı bedenlerdeki uniforma sayısını azaltmaktı. Bunu yaparken her askere iyi uyan uniformaların kalitesininde bozulmaması gerekiyordu. Daha önce kadın kıyafeti almış herkes, gereğinden fazla gruplama sisteminin(tek beden, çift beden, artı beden, minyon ve birçok beden) var olduğunu farkındadır. Bu sistemlerden hiçbiri Amerikan ordusunun ihtiyaçlarına göre dizayn edilmemiştir. Cornel üniversitesinde araştırmacı olan Susan Ashdown ve Beatrix Paal ordudaki kadınların vücut şekillerine göre yeni bedenler kümesi dizayn ettiler. Geleneksel kıyafet sisteminden farklı olarak, tüm boyutların birlikte artmadığı bir düzenleme getirmişlerdir. Belirli vücut yapılarına uyan bedenleri getirmişlerdir. Her vücut tipi, vücut ölçüm veritabanındaki kayıtlar kümesine karşılık gelmektedir. Bir küme kısa bacaklı, ince belli, büyük göğüslü, geniş omuzlu ve ince boğazlı özelliklerden oluşuyordu. Başka kümelerde farklı özelliklerden oluşmaktaydı. Veritabanı neredeyse 3.000 kadının her biri için 100 ölçümden daha fazlasını içeriyordu. Uygulanan kümeleme tekniği KM’ tir. Sonunda kümeleri tanımlamak için 10’ den fazla ölçüm gerekmekteydi. Değişkenlerin bu kadar küçük sayıda bulunması kümeleme işleminin diğer bir yararını da göstermektedir. Kümelemenin gerçek yaşamda uygulandığını ve iyi sonuçlar alınıldığını bu iki örnek açık bir şekilde belirtmektedir [41].

Benzer Belgeler