ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ YÜKSEK LİSANS TEZİ İMGE ARAMA SONUÇLARININ BASKIN KÜMELER KULLANILARAK GRUPLANDIRILMASI Evren Ferhat EMEKDAŞ ELEKTRONİK MÜHENDİSLİĞİ ANABİLİM DALI ANKARA 2010 Her hakkı saklıdır

(1)

ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ

YÜKSEK LİSANS TEZİ

İMGE ARAMA SONUÇLARININ BASKIN KÜMELER KULLANILARAK GRUPLANDIRILMASI

Evren Ferhat EMEKDAŞ

ELEKTRONİK MÜHENDİSLİĞİ ANABİLİM DALI

ANKARA 2010

(2)

TEZ ONAYI

Evren Ferhat EMEKDAġ tarafından hazırlanan “İmge Arama Sonuçlarının Baskın Kümeler Kullanılarak Gruplandırılması” adlı tez çalıĢması 11 / 02 / 2010 tarihinde aĢağıdaki jüri tarafından oy birliği ile Ankara Üniversitesi Fen Bilimleri Enstitüsü Elektronik Mühendisliği Anabilim Dalı‟nda YÜKSEK LİSANS TEZİ olarak kabul edilmiĢtir.

Danışman: Doç. Dr. Ziya TELATAR

Ankara Üniversitesi, Elektronik Mühendisliği ABD

Jüri Üyeleri:

Başkan: Doç. Dr. Ziya TELATAR

Üye: Doç. Dr. Ġsmail AVCIBAġ

BaĢkent Üniversitesi, Elektrik-Elektronik Mühendisliği ABD

Üye: Yrd. Doç. Dr. Asım Egemen YILMAZ

Yukarıdaki sonucu onaylarım

Prof. Dr. Orhan ATAKOL Enstitü Müdürü

(3)

i ÖZET

Yüksek Lisans Tezi

Ġmge arama sonuçlarının baskın kümeler kullanılarak gruplandırılması Evren Ferhat EMEKDAġ

Ankara Üniversitesi Fen Bilimleri Enstitüsü

Elektronik Mühendisliği Anabilim Dalı DanıĢman: Doç. Dr. Ziya TELATAR

Bu çalıĢmanın amacı, Google™ ve benzeri imge arama motoru sonuçları ve masaüstü arama motoru sonuçları üzerinde içeriğe dayalı çizge tabanlı bir gruplandırma çalıĢması yapmaktır. BaĢka bir deyiĢle, veri tabanını kendimizin oluĢturmamızdan ziyade, daha önceden oluĢturulmuĢ veri tabanlarının içindeki imgelerin gruplandırılması optimizasyonu bu çalıĢmanın vizyonunu oluĢturmaktadır. Bunun için imge bölütleme çalıĢmalarında baĢarılı sonuçlar elde edildiği görülmüĢ olan baskın kümeler yöntemi seçilmiĢtir. Yöntemin uygulanabilmesi için, imgelerin içerikleri hakkında bilgi veren histogramlar kullanılmıĢtır. Bir imgenin histogramı büyük bir veri kaybına rağmen halen imge hakkında önemli bilgiler içermektedir ve ihtiyaç duyduğumuz daha küçük veri yığınlarını bize sağlayabilmektedir. Gruplandırılacak imge kümeleri Google™

imge arama motoru kullanılarak “ocean”, “football” ve “sky” anahtar kelimeleriyle yapılan arama sonuçları ve Ġstanbul konulu kiĢisel imgelerden oluĢmaktadır. Baskın kümeler yönteminin uygulaması bu dört imge kümesi üzerinde çeĢitli uzaklık ölçütlerinin hesaplanarak, elde edilen sonuçlarla oluĢturulan benzerlik matrisleri üzerinde yapılan çizge kuramsal gruplandırmalar ile gerçekleĢtirilmiĢtir. Baskın kümelerle gruplandırma sonuçlarına bir kıyas oluĢturması açısından K-means gruplandırma yöntemiyle de uygulamalar yapılmıĢtır. K-means ile yapılan uygulamalarda da aynı imge kümeleri kullanılmıĢ, ancak uzaklık ölçütü olarak seçili bazı uzaklık ölçütleri kullanılmıĢtır. Elde edilen sonuçların baĢarımlarının hesaplanması, 12 kiĢilik bir test grubunun aynı imgeleri elle gruplandırması suretiyle elde edilen

“olması beklenen” sonuçlar kümeleriyle karĢılaĢtırma yapılarak F performans ölçütlerinin hesaplanması aracılığıyla gerçekleĢtirilmiĢtir. Baskın kümeler için uygulaması yapılan pek çok uzaklık ölçütü içinde en baĢarılı sonucun Soergel uzaklık ölçütünün kullanılmasıyla elde edildiği görülürken, K-means ile yapılan uygulamada City Block uzaklık ölçütünün diğer ölçütlere göre daha baĢarılı olduğu gözlenmiĢtir.

Şubat 2010, 100 sayfa

Anahtar Kelimeler: Baskın kümeler, gruplandırma, uzaklık ölçütleri, benzerlik matrisi, çizge kuramı, K-means

(4)

ii ABSTRACT

Master Thesis

Clustering of image search results using dominant sets Evren Ferhat EMEKDAġ

Ankara University

Graduate School of Natural and Applied Sciences Department of Electronics Engineering Supervisor: Assoc. Prof. Dr. Ziya TELATAR

The purpose of this thesis is to perform a graph based clustering over the contents obtained from Google™ and similar image search engines and desktop search engine results. In other words, instead of creating the database by ourselves, the vision of this work is the optimization of image clustering of previously created databases. For this purpose, the dominant sets method, which has given promisingly successful results on image segmentation, is chosen. To be able to apply the method, the histograms, which present information on the contents of the images, are used. A histogram of an image gives valuable information about the image even though there is some amount of loss of information and it provides small data blocks we need. The image sets, which will be clustered, are obtained by the results gathered from Google™ image search engine with the keywords “ocean”, “football‟, and “sky” and the personal images with the subject of Ġstanbul. The application of dominant sets method is implemented with graph theoretic clustering over these four image sets by calculating different distance metrics, and creating a similarity matrix from these calculations. To be able to compare the results obtained from dominant sets clustering, similar implementations are done for K-means clustering. For the implementation of K-means clustering, the same image sets are used, while only a few selected distance metrics are applied. To calculate the success of the results obtained, F performance metrics are used by comparing the results obtained and the results gathered from 12 people‟s manual clustering of images. The most successful results are obtained from dominant sets clustering with the use of Soergel distance metric over all the other distance metrics, while City Block distance metric is more successful over the metrics used for K-means clustering case.

February 2010, 100 pages

Key Words: dominant sets, clustering, distance metrics, similarity matrix, graph theory, K- means

(5)

Hayatımı şekillendirirken örnek aldığım, sevgili dayım ve meslektaşım Sinan ÇELİKBİLEK’in aziz anısına...

(6)

iii TEŞEKKÜR

ÇalıĢmalarımı yönlendiren, araĢtırmalarımın her aĢamasında bilgi, öneri ve yardımlarını esirgemeyerek engin fikirleriyle yetiĢme ve geliĢmeme katkıda bulunan danıĢman hocam ve değerli bölüm baĢkanımız sayın Doç. Dr. Ziya TELATAR‟a (Ankara Üniversitesi Mühendislik Fakültesi), çalıĢmalarım süresince bilgi ve deneyimlerini benimle paylaĢan ve elinden gelen her türlü yardımda bulunan iĢ arkadaĢım ve dostum AraĢ. Gör. Levent ÖZPARLAK‟a, referansların tercümesi sırasında bana kıymetli vaktini ayıran, yardımlarını esirgemeyen ve her konuda abilik yapan Okutman Okan ÖZLER‟e, çalıĢmalarım sırasında hayatlarımızın bir Ģekilde kesiĢtiği ve hayatımda izler bırakan tüm insanlara, bütün hayatım boyunca olduğu gibi çalıĢmalarım sırasında da her zaman yanımda olan, hiç bir fedakarlıktan kaçınmayan ve beni bütün kalpleriyle destekleyen sevgili aileme, anneme ve babama, mutlulukları, hüzünleri ve hayatı paylaĢtığım canım kardeĢime en içten ve derin duygularla sonsuz teĢekkürlerimi sunarım.

Evren Ferhat EMEKDAġ Ankara, ġubat 2010

(7)

iv

İÇİNDEKİLER

ÖZET ... i

ABSTRACT ... ii

TEŞEKKÜR ... iii

SİMGELER DİZİNİ ... v

ŞEKİLLER DİZİNİ ... vi

ÇİZELGELER DİZİNİ ... viii

1. GİRİŞ ... 1

2. KURAMSAL TEMELLER ... 5

2.1 İmge Arama ... 5

2.2 Sınıflandırma ve Gruplandırma ... 10

2.2.1 Dışarlayıcı ve bindirmeli sınıflandırma ... 11

2.2.2 İçsel ve dışsal sınıflandırma ... 12

2.2.3 Hiyerarşik ve parçalı sınıflandırma ... 12

2.3 Hiyerarşik Gruplandırma ... 14

2.4 Parçalı Gruplandırma ... 16

2.4.1 K-means gruplandırma ... 20

2.5 Çizge Kuramı ... 24

2.5.1 Baskın kümeler ... 26

2.6 Uzaklık/Benzerlik Ölçütleri... 28

2.7 Performans Ölçütleri (F-Ölçümü) ... 35

3. MATERYAL VE YÖNTEM ... 37

3.1 Materyal ... 37

3.2 Yöntem ... 42

3.2.1 Baskın kümeler algoritması ... 45

3.2.2 K-means algoritması ... 49

4. BULGULAR ... 51

4.1 Baskın Kümeler Algoritması Bulguları ... 52

4.2 Baskın Kümeler ve K-Means Algoritmaları Karşılaştırmalı Bulguları ... 66

4.3 Uzaklık Ölçütlerine Göre Ortalama Performans Bulguları ... 76

5. TARTIŞMA VE SONUÇ ... 90

KAYNAKLAR ... 93

ÖZGEÇMİŞ ... 100

(8)

v

SİMGELER DİZİNİ

A Benzerlik Matrisi

awdeg Ortalama Ağırlık Derecesi ζ GruplanmıĢ Nesne Alt Kümesi β GruplanmıĢ Nesne Alt Kümesi disim Uzaklık/benzerlik ölçütü

dx Uzaklık ölçütü

E Kenar Kümesi

F F performans ölçütü

F₁ F₁ performans ölçütü

f(W,M) Dokular ve grup merkezleri arasındaki Öklid uzaklığının ağırlıklı toplamı (K-means)

G Kenar Ağırlıklı Çizge

HSV Renk özü-Doygunluk-Parlaklık

i Ġndis

K Grup Sayısı

m Grup merkezi

n Grup Ġçi Eleman Sayısı

OYF Olasılık Yoğunluk Fonksiyonu

P Histogram OYF‟si

Q Histogram OYF‟si

RGB Kırmızı-YeĢil-Mavi sx Benzerlik ölçütü

S V‟nin BoĢ Olmayan Alt Kümesi

S(n,K) K Grup Ġçindeki n Nesnenin Gruplandırma Sayısı T S‟nin BoĢ Olmayan Alt Kümesi

χ Gruplandırılacak Nesne Kümesi

V Tepe Noktaları Kümesi

w Pozitif Ağırlık Değeri

w_ki Dokunun grup içindeki ağırlığı (K-means) x Nesne (gruplandırılacak veya gruplanmıĢ)

(9)

vi

ŞEKİLLER DİZİNİ

ġekil 2.1 Google™ imge arama motoruyla yapılan “ocean” sorgusu sonucunda

çıkan bazı imgeler ... 6

ġekil 2.2 Histogramları karĢılaĢtırılan iki araba imgesi ... 9

ġekil 2.3 ġekil 2.2‟de verilen araba imgelerinin histogramları ... 10

ġekil 2.4 Sınıflandırma türleri ağacı ... 11

ġekil 2.5 Dendrogram örneği ... 16

ġekil 2.6 Kenar ağırlıklı bir çizge örneği ... 26

ġekil 3.1 “Ocean” imge kümesi örnek imgeler ... 38

ġekil 3.2 “Football” imge kümesi örnek imgeler ... 39

ġekil 3.3 “Sky” imge kümesi örnek imgeler ... 40

ġekil 3.4 Ġstanbul konulu imge kümesi örnek imgeler ... 42

ġekil 3.5 Kullanılan yöntem için bir akıĢ diyagramı ... 44

ġekil 3.6 Baskın kümeler yöntemi için akıĢ diyagramı... 48

ġekil 3.7 K-means yöntemi için akıĢ diyagramı... 50

ġekil 4.1 “Ocean” imge kümesi baskın kümeler sonuçları örnek imgeler I ... 55

ġekil 4.2 “Ocean” imge kümesi baskın kümeler sonuçları örnek imgeler II ... 56

ġekil 4.3 “Football” imge kümesi baskın kümeler sonuçları örnek imgeler... 60

ġekil 4.4 “Sky” imge kümesi baskın kümeler sonuçları örnek imgeler ... 63

ġekil 4.5 Ġstanbul konulu imge kümesi baskın kümeler sonuçları örnek imgeler ... 66

ġekil 4.6 “Ocean” imge kümesi K-means sonuçları örnek imgeler I ... 68

ġekil 4.7 “Ocean” imge kümesi K-means sonuçları örnek imgeler II ... 69

ġekil 4.8 “Football” imge kümesi K-means sonuçları örnek imgeler ... 71

ġekil 4.9 “Sky” imge kümesi K-means sonuçları örnek imgeler I ... 73

ġekil 4.10 “Sky” imge kümesi K-means sonuçları örnek imgeler II ... 74

ġekil 4.11 Ġstanbul konulu imge kümesi K-means sonuçları örnek imgeler ... 76

ġekil 4.12 “Ocean” imge kümesi baskın kümeler ortalama performans grafiği ... 80

ġekil 4.13 “Football” imge kümesi baskın kümeler ortalama performans grafiği ... 81

ġekil 4.14 “Sky” imge kümesi baskın kümeler ortalama performans grafiği ... 82

ġekil 4.15 Ġstanbul konulu imge kümesi baskın kümeler ortalama performans grafiği ... 83

(10)

vii

ġekil 4.16 Tüm imge kümeleri için baskın kümeler ortalama performans

grafiği ... 84 ġekil 4.17 “Ocean” imge kümesi için baskın kümeler ve K-means ortalama

performans karĢılaĢtırma grafiği ... 87 ġekil 4.18 “Football” imge kümesi için baskın kümeler ve K-means ortalama

performans karĢılaĢtırma grafiği ... 87 ġekil 4.19 “Sky” imge kümesi için baskın kümeler ve K-means ortalama

performans karĢılaĢtırma grafiği ... 88 ġekil 4.20 Ġstanbul konulu imge kümesi için baskın kümeler ve K-means ortalama

performans karĢılaĢtırma grafiği ... 88 ġekil 4.21 Tüm imge kümeleri için baskın kümeler ve K-means ortalama

performans karĢılaĢtırma grafiği ... 89

(11)

viii

ÇİZELGELER DİZİNİ

Çizelge 2.1 Lp Minkowski uzaklık ailesi ... 29

Çizelge 2.2 L1 uzaklık ailesi ... 30

Çizelge 2.3 KesiĢim uzaklık ailesi ... 30

Çizelge 2.4 Ġç çarpım uzaklık ailesi ... 32

Çizelge 2.5 Sadakat benzerliği uzaklık ailesi ... 33

Çizelge 2.6 KarelenmiĢ L2 veya χ² uzaklık ailesi ... 33

Çizelge 2.7 Shannon‟un entropi uzaklık ailesi ... 34

Çizelge 2.8 Kombinasyon uzaklık ailesi ... 35

Çizelge 2.9 Korelasyon ifadesinden elde edilen uzaklık ölçütü ... 35

Çizelge 4.1 “Ocean” arama sonuçlarına uygulanan baskın kümeler algoritmasının farklı uzaklık ölçütleri ve test kümeleriyle yapılan performans analiz sonuçları ... 52

Çizelge 4.2 “Football” arama sonuçlarına uygulanan baskın kümeler algoritmasının farklı uzaklık ölçütleri ve test kümeleriyle yapılan performans analiz sonuçları ... 57

Çizelge 4.3 “Sky” arama sonuçlarına uygulanan baskın kümeler algoritmasının farklı uzaklık ölçütleri ve test kümeleriyle yapılan performans analiz sonuçları ... 61

Çizelge 4.4 Ġstanbul konulu kümeye uygulanan baskın kümeler algoritmasının farklı uzaklık ölçütleri ve test kümeleriyle yapılan performans analiz sonuçları ... 64

Çizelge 4.5 “Ocean” arama sonuçlarına uygulanan baskın kümeler ve K-means algoritmalarının aynı uzaklık ölçütleri ve farklı test kümeleriyle yapılan performans analiz sonuçları ... 67

Çizelge 4.6 “Football” arama sonuçlarına uygulanan baskın kümeler ve K-means algoritmalarının aynı uzaklık ölçütleri ve farklı test kümeleriyle yapılan performans analiz sonuçları ... 70

Çizelge 4.7 “Sky” arama sonuçlarına uygulanan baskın kümeler ve K-means algoritmalarının aynı uzaklık ölçütleri ve farklı test kümeleriyle yapılan performans analiz sonuçları ... 72

(12)

ix

Çizelge 4.8 Ġstanbul konulu kümeye uygulanan baskın kümeler ve K-means algoritmalarının aynı uzaklık ölçütleri ve farklı

test kümeleriyle yapılan performans analiz sonuçları ... 75 Çizelge 4.9 Ġmge kümelerine uygulanan baskın kümeler algoritmasının

farklı uzaklık ölçütleri için ortalama performans değerleri ... 77 Çizelge 4.10 Ġmge kümelerine uygulanan baskın kümeler ve K-means

algoritmalarının aynı uzaklık ölçütleri için ortalama

performans değerleri ... 86

(13)

1 1. GİRİŞ

Çoklu ortam verilerinin kullanımı, masrafları azalan sayısal ortam gereçlerinin aĢırı kullanımıyla beraber gün geçtikçe artmaktadır (Sakarya ve Telatar 2008). Günümüzde görsel verilerin saklanması veya paylaĢılması bir sorun olmaktan çıkmıĢ ancak beraberinde bu muazzam büyüklükteki içerik içinden istenilen verilere eriĢim sorununu getirmiĢtir. Bu tip uygulama tabanlı engelleri aĢmak için yeni eğilim, görüntüleri gruplandırma ve indisleme amaçlı algoritmalar geliĢtirilmesi yönündedir.

Bu çalıĢmanın amacı, Google™ ve benzeri arama motoru sonuçları ve masaüstü arama motoru sonuçları üzerinde çizge tabanlı bir gruplandırma çalıĢması yapmaktır. Bu nedenle, ilgi alanımızı yeni imgeler aramak yerine arama motorlarının daha önceden bulabildiği imge veritabanları üzerinde çalıĢmalar yapmak olarak tanımlayabiliriz.

BaĢka bir deyiĢle, veri tabanını kendimizin oluĢturmamızdan ziyade, daha önceden oluĢturulmuĢ veri tabanlarının içindeki imgelerin gruplandırılması optimizasyonu bu çalıĢmanın vizyonunu oluĢturmaktadır.

Amaçlarımızdan birisi de hesaplama yükünü azaltmak olduğu için daha az verinin bulunduğu bir yöntemin kullanılması daha akıllıca olacaktır. Bir imgenin histogramı büyük bir veri kaybına rağmen halen imge hakkında önemli bilgiler içermektedir ve ihtiyaç duyduğumuz daha küçük veri yığınlarını bize sağlayabilmektedir. Ayrıca veri miktarının azalması, problemin kötü koĢullu (ill-conditioned) olma olasılığını azaltacak ve hesaplama hatasının getireceği sorunlar azalacaktır.

Literatürde imge gruplandırma çalıĢmaları içerisinde baskın kümeler yöntemi hiç kullanılmamıĢ olsa da farklı çizge kuramsal gruplandırma yöntemleri yakın zamanlarda uygulanmaya baĢlamıĢtır. Aksoy ve Haralick (1999)‟in çalıĢması bu alanda uygulanan çizge tabanlı çalıĢmaların en eskilerinden biri olarak sayılabilir. Bu çalıĢmada çizgi-açı- oranı istatistikleri ve gri seviyelerin uzaysal bağımlılıklarının varyansları öznitelikler olarak kabul edilerek bir çizge kuramsal gruplandırma algoritması, bu öznitelikler üzerinde uygulanmıĢ ve bu çalıĢmayla çeĢitli uydu görüntüleri bu Ģekilde gruplandırılmıĢtır. Deselaers vd. (2003) tarafından yapılan bir baĢka çalıĢmada ise bu

(14)

2

çalıĢmaya benzer Ģekilde Google™ imge arama motoru üzerinden elde edilen imgeler kullanılarak, imgelerin genel görünümleri üzerinde yazarların değiĢmez öznitelikler adı verdikleri bazı öznitelikler üzerinde K-means ve LBG gruplandırma algoritmalarını kullanmıĢlar ve baĢarılı sayılabilecek sonuçlar elde etmiĢlerdir. 2003 yılında yapılan bir baĢka çalıĢma da Hlaoui ve Wang (2003) tarafından yapılmıĢ olup, bu çalıĢmada bir çizge eĢleĢtirme algoritması ve eĢleĢtirilen çizgelerin içinden ortancalar seçen bir algoritma çalıĢtırılarak üzerlerinde K-means gruplandırması gerçekleĢtirilmiĢtir. Özkan ve Duygulu (2006) tarafından yapılan bir baĢka çalıĢmada sadece yüz imgeleri kiĢilerle eĢleĢtirilmiĢ ve bu amaçla SIFT operatörlerinin sonuçları çizge tabanlı bir algoritmaya sokulmuĢtur. Ben Haim vd. (2006) tarafından yapılan çalıĢmada ise HSV renk uzayı içindeki histogramlar öznitelik değerleri olarak kullanılarak bir ortalama kaydırma gruplandırma algoritması uygulanmıĢtır. Bu alanda yapılan en yeni çalıĢma Sevil vd.

(2008) tarafından yapılan çalıĢma olup, bu çalıĢmaya benzer nitelikte imge histogramları üzerinden “chi_squared” uzaklık algoritması ile bir benzerlik matrisi hesaplanmıĢ ve Charikar (2000) tarafından önerilen bir çizge tabanlı algoritmayla gruplandırma yoluna gidilmiĢtir.

Ġmge gruplandırma konusunda çizge kuramsal bir yaklaĢımın uygulanmadığı çalıĢmalar da literatürde yer almaktadır. Bu çalıĢmaların en belirgin örnekleri Carson vd. (1999), Gdalyahu vd. (2001), Barnard vd. (2003), Fergus vd. (2005), Chen vd. (2005) ve Schroff vd. (2007) tarafından gerçekleĢtirilmiĢtir.

Baskın kümeler imge bölütleme problemleri gibi parçalı (düz) gruplandırma ile iliĢkisi ispatlanmıĢ yeni bir çizge kuramsal anlayıĢtır. Bununla birlikte, pek çok bilgisayar tabanlı görüntü uygulamasında, örneğin bir imge veritabanının düzenlenmesinde, verinin hiyerarĢik bir düzenleme ile gruplandırılması önemlidir ve baskın küme kapsamında bu düzenlemenin nasıl yapılacağı çok açık değildir (Pavan 2003c).

Düzenleyici parametre sıfıra eĢitlendiğinde yerel çözümlerin baskın kümelerle birebir iliĢki içinde olduğu bilinmektedir. Fakat, parametre pozitif olduğunda ortaya ilginç bir görüntü çıkmaktadır. Düzenleyici parametre için sınırları önceden belirlenmiĢ bir eĢik değerinden daha küçük büyüklüklere sahip grupları içeren yerel çözümlerin kümesini çıkarmamızı sağlayacak Ģekilde karar verilir. Bu durum gruplandırma süreci sırasında

(15)

3

düzenleyici parametrenin uygun bir Ģekilde değiĢtirilmesi fikri üzerine kurulmuĢ olan yeni (parçalayıcı) hiyerarĢik bir yaklaĢımın kullanılmasını ortaya çıkarır. Literatürde, üç farklı benzerlik matrisi (ve veritabanı) ile yapılan deneyler olduğu görülmüĢ ve elde edilen sonuçlar, bu yaklaĢımın etkinliğini doğrulamıĢtır.

Verinin (ya da gruplandırmanın) katkısız parçalanması bilgisayar tabanlı görüntü araĢtırmalarında yaygınlaĢan bir problemdir ve yakın zamanlarda gruplandırılacak verinin (pikseller, kenar elemanları, vs.) kenarlarının komĢuluk iliĢkilerini gösterdiği ve ağırlıkların veriler arasındaki benzerliği yansıttığı bir benzerlik (kenar ağırlıklı) çizgesinin tepe noktaları olarak belirlendiği çizge tabanlı yaklaĢımların (Perona ve Freeman 1998, Sarkar ve Boyer 1998, Aksoy ve Haralick 1999, Shi ve Malik 2000, Gdalyahu vd. 2001) ilgi alanına yeniden girdiği gözlenmektedir. Çizge kuramsal gruplandırma algoritmaları temel olarak en az kapsama ağacı (Zahn 1971) veya en az kesim (Wu ve Leahy 1993, Shi ve Malik 2000, Gdalyahu vd. 2001) gibi benzerlik çizgesi içindeki kombinasyonel kesim yapılarının aranmasını içerir ve bu yöntemler arasında klasik bir yaklaĢım (tam-bağlantı algoritması (Hubert 1974, Matula 1977, Jain ve Dubes 1988)) clique adındaki bir tüm alt çizgenin aranmasına indirger. “Grup”

kavramının kesin ve üzerinde çalıĢılabilir bir tanımı olmadığından, bir parçayı elde etmek için tek bir “en iyi” kriter yoktur (Jain ve Dubes 1988). Bazı yazarlar (Auguston ve Minker 1970, Raghavan ve Yu 1981) maximal clique kavramının grup olgusunun en katı tanımı olduğunu iddia etmektedir (Pavan ve Pelillo 2003a, 2003c).

Tezin ikinci bölümünde kuramsal temeller ele alınmıĢtır. Kuramsal temellerde ilk önce imge arama olgusu tartıĢılmıĢ ve yapılan çalıĢmada histogram kullanımının nedenleri açıklanmıĢtır. Daha sonraki alt bölümlerde sınıflandırma ve gruplandırma kavramlarının temelleri açıklanmıĢ ve çalıĢmaların yürütüldüğü gruplandırma yöntemleri detaylandırılmıĢtır. Bu bölümün devamında çizge kuramı ve bir alt baĢlık olarak baskın kümeler açıklanmıĢ ve baskın kümelerle yapılan basit bir gruplandırma örneği verilmiĢtir. Bu bölümde son olarak çalıĢmada kullanılan uzaklık/benzerlik ölçüt aileleri incelenmiĢ ve sonraki alt baĢlıkta ise kullanılan performans ölçütleri açıklanmıĢtır.

Tezin üçüncü bölümünde materyal ve yöntem açıklanmıĢtır. Materyal ve yöntemde öncelikle çalıĢma sırasında kullanılan imge kümelerinin nasıl oluĢturulduğu açıklanmıĢ,

(16)

4

daha sonra kullanılan yöntemin nasıl uygulandığı belirtilerek, çalıĢmalar esnasında kullanılan algoritma bir alt bölüm halinde sunulmuĢtur. Dördüncü bölümde bu tez çalıĢması sonucu elde edilen bulgular ifade edilmiĢtir. Son bölümde, açıklanan kuramsal bilgiler ve bulgular ıĢında bütün yöntemin uygulanabilirliği tartıĢılmıĢtır.

(17)

5 2. KURAMSAL TEMELLER

2.1 İmge Arama

Sayısal ortam üzerinde artan veri miktarıyla beraber, istenen veriye ulaĢılabilmesi için arama motorlarının kullanımı gerekli olmaktadır. Gerek ağ tabanlı, gerekse masaüstü arama motorları arama iĢlemini yazı tabanlı gerçekleĢtirmektedir. Pek çok ağ tabanlı arama motoru (Altavista™, Google™, Yahoo™, vb.) imge arama üzerinde farklı çalıĢmalar gerçekleĢtirmektedir. Günümüzde, Google™ arama motoru bu arama yöntemleri arasında en baĢarılılarından birisi olarak geçmektedir (Sevil vd. 2008).

Google™, resime yakın olan metinleri, resim baĢlıklarını ve resim bilgisini (HTML tabanlı meta verisi gibi), boyut ve çözünürlük bilgisini, eriĢim kolaylığını, eriĢim sayısını tarif edebilecek düzinelerce faktörü analiz eder. Ayrıca Google™, çiftleri elemek ve en kaliteli resimleri ilk olarak sunmak için, karmaĢık algoritmalar kullanır.

Google™'ın imge aramasını kullanarak, web üzerinde 250 milyon resimden fazlası aranabilmektedir. Bununla birlikte internet üzerinde henüz Google™'ın indeksine eklemediği daha pek çok resim mevcuttur (Anonim 2008).

Google™ imge arama motoru, her ne kadar diğer arama motorlarına göre baĢarılı sonuçlar vermekte ise de arama sonucunda baĢarım her zaman istenildiği gibi olmamakta ve arama sonucunda ulaĢılmak istenen imgelerden farklı sonuçlara da ulaĢılmaktadır. Buna bir örnek oluĢturmak için Google™ grafik arama motoru kullanılarak “ocean” kelimesi girilerek okyanus imgelerine ulaĢılmaya çalıĢılmıĢtır.

Arama sonucunda okyanus imgeleriyle beraber, “ocean” olarak isimlendirilmiĢ imgeler de verilmektedir. Arama iĢleminin sonucunda elde edilen bazı imgeler ġekil 2.1‟de gösterilmiĢtir.

Masrafları azalan sayısal ortam gereçlerinin kullanımının artmasıyla beraber, kiĢisel amaçlı görüntülerin tamamına yakını sayısallaĢmıĢ ve bu görüntüler kullanıcıların kiĢisel bilgisayarlarında depolanır hale gelmiĢtir. Kullanıcıların kiĢisel imgelerindeki artıĢ ve kiĢisel bilgisayarlarda saklanan bu imgeler içinde aranan imgeye ulaĢma

(18)

6

gerekliliği masaüstü arama motorlarının kullanımını da gerekli kılmaktadır. Yine ağ tabanlı arama motorlarına benzer bir yapıda çalıĢan masaüstü arama motorları imgelerin konum, oluĢturulma/değiĢtirilme tarihi, büyüklük ve isim bilgilerine bakarak bir sonuca ulaĢmaya çalıĢmaktadır. Günümüz sayısal görüntü yakalayıcılarının çalıĢma prensiplerinin sonucu olarak, birbirlerine yakın zamanlarda oluĢturulan imgelerin yerleĢtirildiği dizinler ortak olmakta ve imgeler, imgenin oluĢturulma tarih/saat bilgisi ya da bir imge sayacı ile elde edilen sıra numarası kullanılarak adlandırılmaktadır.

Bunun sonucu olarak, masaüstü arama motorlarının kullanmakta olduğu bu yöntem, aynı tarihte oluĢturulan/değiĢtirilen, aynı dizinde yeralan ve isimleri benzer olan imgelerin fazlalığı nedeniyle yeterli baĢarıma ulaĢamamaktadır.

ġekil 2.1 Google™ imge arama motoruyla yapılan “ocean” sorgusu sonucunda çıkan bazı imgeler

Bu çalıĢmanın amacı, Google™ ve benzeri arama motoru sonuçları ve masaüstü arama motoru sonuçları üzerinde çizge tabanlı bir gruplandırma çalıĢması yapmaktır. Bu nedenle, ilgi alanımızı yeni imgeler aramak yerine arama motorlarının daha önceden bulabildiği imge veritabanları üzerinde çalıĢmalar yapmak olarak tanımlayabiliriz.

BaĢka bir deyiĢle, veri tabanını kendimizin oluĢturmamızdan ziyade, daha önceden oluĢturulmuĢ veri tabanlarının içindeki imgelerin gruplandırılması optimizasyonu bu çalıĢmanın vizyonunu oluĢturmaktadır.

(19)

7

Literatürde arama motorlarından gelen sonuçların bir yöntem çerçevesinde tekrar sıralanmasını öneren çok fazla çalıĢma bulunmadığı gibi sonuçların gruplandırılması üzerine çok daha az çalıĢma bulunmaktadır (Sevil vd. 2008). Ben Haim vd. (2006)‟in çalıĢması bu az sayıda sıralama çalıĢmalarından birisi olarak sayılabilir. ReSPEC olarak adlandırılan bu yöntem Ģu Ģekilde ifade edilebilir. Arama sonuçlarının belirli bir oran dahilinde baĢlarında kalan imgeler, “blob” adı verilen parçalara bölünür. Bu parçalardan “öznitelik küme vektörü” adı verilen vektörler çıkarılır ve bu vektörler

“mean shift” algoritması kullanılarak gruplara ayrılır. Yapılan çalıĢmada, elde edilen sonuçların önem sırası bilgisini içerdiği ve gruplarda bulunan imge yoğunluğunun, grup sonuçlarının önemini belirttiği ileri sürülmektedir (Sevil vd. 2008). Arama sonuçlarında

“blob”lara ayrılmayan imge kümesindeki her bir imge, mevcut gruplara olan uzaklıklarına göre ilgili gruplara eklenmekte ve elde edilen yeni gruplar önemlilik sırasına göre sıralanmaktadır.

Schroff vd. (2007)‟un yaptığı çalıĢma da bu alanda yapılan çalıĢmaların bir baĢka örneğidir. Bu çalıĢmada, internet üzerinde belirli bir konu üzerinde yapılan imge araĢtırmasının sonuçlarını toplayarak kullanılabilir bir veri tabanı oluĢturmaktır.

Google™‟ın ağ tabanlı aramasını ve imge arama sonuçlarını kullanarak önem sırasına göre dizmekte ve önemli resimleri veri kümesine eklemektedir. ÇalıĢmada diğer yöntemlerden farklı olarak, ilk aĢamada sözcük tabanlı bir ön arama gerçekleĢtirildikten sonra imge tabanlı bir öznitelik vektörü yapısı kullanılarak gruplandırma yapılmıĢtır (Sevil vd. 2008).

Deselaers vd. (2003)‟ın yaptığı çalıĢma, bu alanda yapılan bir baĢka çalıĢma olarak gösterilebilir. Farklı bir bakıĢ açısı olarak, bu çalıĢmada, benzer öznitelikler bulmak yerine değiĢmez özniteliklerin belirlenmesi ve bu öznitelikler kullanılarak gruplandırma çalıĢmalarının yapılması amaçlanmıĢtır. Yine bu çalıĢmada da Google™ imge arama sonuçları kullanılarak bir veri kümesi oluĢturulmakta ve bu veri kümesindeki imgelerin

“değiĢmez öznitelikleri” bulunarak bu imgeler gruplandırılmaktadır.

Gözlemlere göre, varolan yazı tabanlı imge arama yöntemleri belirli bir baĢarımı sağlamakta fakat bu baĢarım daha çok kullanıcı talepleri doğrultusunda geliĢtiricilerin

(20)

8

yaptıkları düzeltmelerle belirli bir oranda düzeltilse de varolan imge miktarının gün geçtikçe artması dolayısıyla çok uzak olmayan bir gelecekte baĢarım sınırına ulaĢacağını düĢündürmektedir. Halbuki, imge içerisindeki yapıya bakılarak yapılacak arama sonuçları geliĢtiricinin doğrudan müdahelesine gerek kalmadan gruplandırma yaparak daha iyi bir sıralandırma algoritması ortaya koyabilecektir. Daha önce yapılan çalıĢmaların ortaya koyduğu ümit verici sonuçlar bu gözlemi desteklemektedir.

Daha önce de belirtildiği üzere, bu çalıĢmada da Google™ imge arama sonuçlarından elde edilecek veritabanlarının kullanılması amaçlanmaktadır. Burada kritik olan nokta, imgelerin hangi özniteliklerinden faydalanılarak gruplandırma iĢleminin yapılacağıdır.

Ġmgelerin uzamsal düzlemdeki öznitelikleri kullanılabileceği gibi belirli dönüĢüm uzaylarındaki öznitelikleri de kullanılabilir. Ancak, dönüĢüm uzayına geçiĢ sürecinde fazladan bir hesaplama yükü ile karĢılaĢılmaktadır. Ne var ki baĢarım arttırımı amaçlanırken, aynı zamanda uygulanabilirliği sağlamak amacıyla hesaplama yükünün en az seviyede tutulması da gerekmektedir. Bu nedenle günümüz teknolojisi dahilinde dönüĢüm uzayına geçiĢin kullanılması çok akıllıca gözükmemektedir. Uzamsal düzlemde yapılabilecek uygulamaların baĢında piksel tabanlı benzerliklere bakmanın geldiği söylenebilir. Fakat, bu uygulamada aynı içeriğe sahip imgeler arasında imgenin elde edildiği ortam parametrelerinin (ıĢıklandırma, görüntü kaynağı, gürültü, nesnenin dokusundaki bozukluklar, vb.) farklılığından dolayı benzer içeriği farklı gruplara ayırmak mümkündür. Bu noktada içeriğin fiziksel özelliklerine bakmak bir baĢka çözüm yolu olabilir. Ne yazık ki bu yöntemin de belirgin dezavantajları vardır. Bunlar arasında çözünürlük farklılığı, imgenin elde edildiği kaynaktan dolayı oluĢan renk ve doku farklılıkları sayılabilir. Bir baĢka yöntem de imge bölütlerinin benzerliklerine bakmaktır. Fakat imge içindeki nesne bir imgede farklı açıdan görüntülenirken, baĢka bir imgede çok daha farklı bir açıdan görüntülenmiĢ olabilir. Örneğin, bir insanın portre fotoğrafı ile profil fotoğrafı bölütlendiğinde birbirine benzer olmayacaktır.

Bu noktaya kadar tartıĢılan yöntemlerin bir baĢka kötü yanı da büyük veri bloklarıyla çalıĢmayı gerektirmesidir. Amaçlarımızdan birisi de hesaplama yükünü azaltmak olduğu için daha az verinin bulunduğu bir yöntemin kullanılması daha akıllıca olacaktır.

(21)

9

Bir imgenin histogramı büyük bir veri kaybına rağmen halen imge hakkında önemli bilgiler içermektedir ve ihtiyaç duyduğumuz daha küçük veri yığınlarını bize sağlayabilmektedir. Ayrıca veri miktarının azalması, problemin kötü koĢullu olma olasılığını azaltacak ve hesaplama hatasının getireceği sorunlar azalacaktır. Bununla birlikte, bu çalıĢmada histograma geçiĢle kaybedilen verinin etkin gruplandırmayı azaltıp azaltmayacağı da incelenecektir.

ġekil 2.2‟de verilen iki araba imgesinin 3 kanaldaki (Kırmızı-YeĢil-Mavi) histogramları ġekil 2.3‟de gösterilmektedir. Histogramlara bakıldığında kırmızı (ġekil 2.3.a) ve mavi (ġekil 2.3.c) kanallardaki histogramların benzerlik gösterdiği söylenebilir. Bu durumda bu iki kanalın histogram bilgisini kullanarak aynı gruba dahil olup olmadıklarına karar vermek temel problemimize bir çözüm yöntemi olarak görülebilmektedir. Fakat, iĢlemsel karmaĢıklığın artmasını önlemek için bu çalıĢmada renk kanallarının histogramlarının hangilerinin kullanılacağına karar verecek bir yapı oluĢturmak yerine, tek bir histogram vektörü elde etmek için imgelerin her üç kanal için elde edilen histogramları ard arda sıralanarak tek bir histogram vektörü oluĢturulması yolu tercih edilmiĢtir.

ġekil 2.2 Histogramları karĢılaĢtırılan iki araba imgesi

(22)

10

(a) (b)

(c)

ġekil 2.3 ġekil 2.2‟de verilen araba imgelerinin histogramları

2.2 Sınıflandırma ve Gruplandırma

Jain ve Dubes (1988)‟un tanımına göre grup analizi, nesneleri belirli bir problemin Ģartları çerçevesinde anlamlı alt kümelere sınıflandırma iĢlemidir. Bunun sonucu olarak nesneler, içinde bulundukları populasyonu karakterize eden etken gösterimi sağlayacak Ģekilde organize edilir. Bu bölümde gruplandırma yöntemleri sunulmakta ve grup analizi için kullanılan algoritmalar açıklanmaktadır.

Gruplandırma, nesnelerin sonlu kümelerine uygulanan bir sınıflandırma türüdür.

Nesneler arasındaki iliĢkiler, satır ve sütunların nesnelere karĢılık geldiği yakınlık matrisleriyle ifade edilir (Jain ve Dubes 1988).

Eğer nesneler; desenler veya d-boyutlu metrik uzaydaki noktalar olarak karakterize edilirse, yakınlıklar nokta çiftleri arasındaki uzaklıklar (ör: Öklid uzaklığı) olarak seçilebilir (Jain ve Dubes 1988). Nesne çiftleri arasında anlamlı uzaklık ölçümleri ya da yakınlıklar oluĢturulamazsa, anlamlı bir grup analizi mümkün olmamaktadır.

0 50 100 150 200 250

0 500 1000 1500 2000 2500 3000 3500 4000 4500

Kirmizi Kanal Için Histogram

1. Imge 2. Imge

0 50 100 150 200 250

0 500 1000 1500 2000 2500 3000 3500

Yesil Kanal Için Histogram

1. Imge 2. Imge

0 50 100 150 200 250

0 2000 4000 6000 8000 10000

Mavi Kanal Için Histogram 1. Imge

2. Imge

(23)

11

Yakınlık matrisi, gruplandırma algoritmasında kullanılabilen tek giriĢ olgusudur (Jain ve Dubes 1988).

Gruplandırma, sınıflandırmanın özel bir türüdür (Jain ve Dubes 1988). Sınıflandırma ve gruplandırma arasındaki iliĢki hakkında tartıĢma Kendall (1966) tarafından verilmiĢtir.

Lance ve Williams (1967) tarafından önerilen sınıflandırma problemleri ağacı ġekil 2.4‟de gösterilmiĢtir. Bu ağacın her yaprağı, sınıflandırma probleminin farklı türlerini ifade etmektedir.

ġekil 2.4 Sınıflandırma türleri ağacı

2.2.1 Dışarlayıcı ve bindirmeli sınıflandırma

DıĢarlayıcı veya harici bir sınıflandırma, nesneler kümesinin bir parçasıdır. Her nesne kesin olarak bir alt kümeye veya bir gruba aittir. Bindirmeli veya harici olmayan sınıflandırma ile nesne birden çok sınıfa atanabilir (Jain ve Dubes 1988). Örneğin, insanları yaĢa ve cinsiyete göre gruplandırmak dıĢarlayıcı bir sınıflandırma olurken, hastalık kategorilerine göre gruplandırmak bindirmeli bir sınıflandırmadır. Shepard ve Arabie (1979), bindirmeli veya harici olmayan gruplandırma yöntemleri için bir inceleme yapmıĢtır. Bu çalıĢmada sadece dıĢarlayıcı veya harici sınıflandırma incelenmektedir.

Sınıflandırma

Bindirmeli (Overlapping)

DıĢarlayıcı (Exclusive)

DıĢsal (Extrinsic)

Ġçsel (Intrinsic)

HiyerarĢik (Hierarchical)

Parçalı (Partitional)

(24)

12 2.2.2 İçsel ve dışsal sınıflandırma

Ġçsel veya katkısız bir sınıflandırma, sınıflandırmayı gerçekleĢtirmek için yalnızca yakınlık matrisini kullanır (Jain ve Dubes 1988). Ġçsel sınıflandırma örüntü tanımada (pattern recognition) “katkısız öğrenme” (unsupervised learning) olarak adlandırılmaktadır (Jain ve Dubes 1988). Bunun nedeni nesneler için bir grup belirten herhangi bir ön tanımlı kategori etiketi kullanılmamasıdır. DıĢsal veya katkılı sınıflandırma, nesneler üzerinde yakınlık matrisi kullanıldığı kadar kategori etiketleri de kullanır (Jain ve Dubes 1988). Bu durumda problem, nesneleri kategorilere göre ayıracak ayrıĢtırıcı bir yüzeyin kurulmasıdır. Bir baĢka deyiĢle, içsel bir sınıflandırıcı sadece yakınlık matrisine güvenirken, dıĢsal bir sınıflandırıcı bir “öğretici”ye ihtiyaç duyar.

Ġçsel sınıflandırmayı ölçmenin bir yolu önceden atanan kategori etiketleri ile gruplandırma sırasında nesnelere atanan grup etiketlerinin birbirine nasıl uyduğunu görmektir (Jain ve Dubes 1988). Örneğin, sigara içen ve içmeyen kiĢilerin farklı kiĢisel sağlık indekslerini topladığımızı farzedelim. Ġçsel bir sınıflandırmada, kiĢilerin sağlık indekslerindeki benzerlikleri taban alınarak kiĢiler gruplandırılacak ve sonra kiĢilerin farklı hastalıklara eğilimlerine bakarak sigara içmenin bir faktör olup olmadığına karar verilmeye çalıĢılacaktır. DıĢsal bir sınıflandırmada ise, kiĢilerin sağlık indekslerine bakılarak sigara içenlerle içmeyenleri ayırt etmenin yolları üzerinde çalıĢılacaktır. Bu çalıĢmada sadece içsel sınıflandırma üzerinde durulmaktadır. Ġçsel sınıflandırma, grup analizinin özüdür (Jain ve Dubes 1988).

2.2.3 Hiyerarşik ve parçalı sınıflandırma

Harici ve içsel sınıflandırmalar, veriye yüklenen yapının türüne göre hiyerarĢik ve parçalı sınıflandırma olarak iki alt kategoriye ayrılır (Jain ve Dubes 1988). HiyerarĢik sınıflandırma, iç içe bir bölümleme dizisi iken parçalı sınıflandırma tek bir bölümlemeden ibarettir. Bu nedenle hiyerarĢik sınıflandırma, parçalı veya bölümlemeli sınıflandırmaların özel bir dizisidir. Jain ve Dubes (1988) gruplandırmayı harici, içsel ve parçalı sınıflandırma olarak tanımlarken, hiyerarĢik gruplandırmayı harici, içsel ve

(25)

13

hiyerarĢik sınıflandırma olarak tanımlamıĢ ve kullanmıĢtır. Sneath ve Sokal (1973) SAHN (DTHB - dizisel, toplamalı, hiyerarĢik ve parçalı olmayan) kısaltmasını harici, içsel, hiyerarĢik, toplamalı algoritmalar için kullanmıĢtır. Bu iki tür sınıflandırmayı yaratmak için kullanılan algoritmalar arasındaki farklılıklar ve benzerlikler aĢağıda verilmiĢtir.

Pek çok algoritma aynı harici içsel sınıflandırmayı ifade etmek için önerilebilir (Jain ve Dubes 1988). Bir gruplandırma yöntemini ifade etmek için bir algoritmayı sıklıkla kullanan bir kiĢi yöntemin pek çok farklı bilgisayar gerçekleĢtirimini yapabilmektedir (Jain ve Dubes 1988). Yaygınlıkla kullanılan birincil algoritmik seçenekler aĢağıda açıklanmıĢtır:

1) Toplamalı ve parçalayıcı algoritmalar: Toplamalı, hiyerarĢik bir sınıflandırma her nesneyi kendi grubunda tutar ve bu atomik grupları bütün nesneler bir grupta olana dek gitgide daha büyük gruplarda birleĢtirir. Parçalayıcı, hiyerarĢik sınıflandırma bütün nesneleri bir gruba koyup daha küçük parçalara bölerek süreci tersine çevirir. Bu nedenle bu seçenek sınıflandırmanın farklı bir çeĢidi olmaktan çok bir iĢlem seçeneğine denk düĢer (Jain ve Dubes 1988). Parçalı sınıflandırma da aynı Ģekilde karakterize edilebilmektedir. Tek bir parça küçük grupları birbirine yapıĢtırarak (toplamalı) ya da tümden-içsel tek bir gruba parçalanarak (parçalayıcı) oluĢturulabilir (Jain ve Dubes 1988).

2) Seri ve eşzamanlı algoritmalar: Seri iĢlemler dokuları birer birer ele alırken, eĢ zamanlı sınıflandırma dokuların bütününü oluĢturan kümeyle aynı anda ilgilenir (Clifford ve Stephenson 1975).

3) Monotetik ve politetik algoritmalar: Bu seçenek çoğunlukla gruplandırılacak nesnelerin dokular veya uzaydaki noktalar olarak gösterildiği taksonomideki problemlere uygulanabilir (Jain ve Dubes 1988). Bir monotetik sınıflandırma algoritması öznitelikleri birer birer kullanırken, bir politetik iĢlem bütün öznitelikleri bir arada kullanmaktadır. Örneğin, farklı bir öznitelik bir monotetik algoritma altında

(26)

14

hiyerarĢik sınıflandırmanın her bir parçasını oluĢturmak için kullanılabilmektedir. Bu çalıĢmada politetik algoritmalar göz önüne alınmıĢtır.

4) Çizge kuramı ve matris cebiri algoritmaları: Bu algoritmaları açıklayabilmek için bir gruplandırma algoritmasını ifade eden uygun matematiksel biçimsellik nedir sorusunun cevaplandırılması gerekmektedir (Jain ve Dubes 1988). Bazı algoritmalar, sınıflandırmaları bağlılık ve bütünlük gibi özelliklerle tanımlayarak çizge kuramı ile ifade ederken, diğerleri ise sınıflandırmaları ortalama kare hata (mean-square-error) gibi cebirsel yapılar kullanarak ifade etmektedir. Burada seçim açıklık, rahatlık ve kiĢisel tercihlere göre yapılmaktadır. OluĢturulacak algoritma bilgisayar ortamına uygulanacağı zaman, iĢlemsel etkinliğe de dikkat edilmesi gerekmektedir. Bu mesele sınıflandırma yönteminin kiĢisel algısıyla ilgili değildir. Bazı algoritmalar, hem insan algısı hem de iĢlemsel etkinlik bakımından kullanıĢlı olabilmektedir. Çizge kuramı ile ilgili detaylı bilgi Bölüm 2.5‟de verilmektedir.

2.3 Hiyerarşik Gruplandırma

HiyerarĢik gruplandırma yöntemi, yakınlık matrisini iç içe bölümler dizisi Ģeklinde dönüĢtüren bir iĢlemdir (Jain ve Dubes 1988). HiyerarĢik gruplandırma algoritması ise, hiyerarĢik gruplandırma iĢleminin gerçekleĢmesi için gereken adımların özelliklerinin belirtilmesidir. Bir hiyerarĢik gruplandırma yöntemi, bir algoritma oluĢturarak karakterize etmek kullanıĢlı olmaktadır ancak algoritmanın yöntemden ayrı tutulması gerekmektedir.

HiyerarĢik gruplandırmada veri üzerinde uygulanan ve oluĢturulan yapıyı izleyebilmek için gereken yöntemleri tanımlayan matematiksel yapı aĢağıdaki Ģekilde olmaktadır.

Öncelikle iç içe parçalar dizisi kavramının oluĢturulması gerekmektedir.

Gruplandırılacak n nesne  kümesi ile gösterilir (Jain ve Dubes 1988).



x x1, 2,...,x_n



 

(27)

15

Burada x_i i‟nci nesnedir.  „in parçası , „i aĢağıdaki koĢulları sağlayan



C C1, 2,...,C_m



altkümelerine ayırır.

1 2

ve 1'den 'e kadar, ...

i j

m

C C i j m i j

C C C 

   

   

Bu gösterimde, “” küme kesiĢimini, “” küme birleĢimini ve “” boĢ kümeyi gösterir. Gruplandırma bir parçalamadır: parçanın bileĢenleri gruplar olarak adlandırılır (Jain ve Dubes 1988).  parçasının her bileĢeni  bileĢenlerinin alt kümesi ise  parçası  parçasının içine yuvalanmıĢ demektir. Diğer bir deyiĢle  ile  iç içedir.

Bu ifade Ģu anlama gelmektedir;  parçası,  ‟nin bileĢenlerinin birleĢiminden oluĢmaktadır. Örneğin, aĢağıdaki Ģekildeki gibi  gruplandırması üç grup ve gruplandırması ise beĢ grup içerirse,  ‟nin bileĢenlerinin birleĢimi  parçasını oluĢturur. Burada hem  hem de ,



x x1, 2,...,x_n



nesne kümesinin gruplarıdır (Jain ve Dubes 1988).

     

 

         

 

1 3 5 7 2 4 6 8 9 10

, , , , , , , , ,

x x x x x x x x x x

x x x x x x x x x x







Ne  , ne de  aĢağıdaki parça ile iç içedir. Bu parça da  veya  ile iç içe değildir.

     



^{x x x x}¹^, ²^, ³^, ⁴ ^, ^{x x x x}⁵^, ⁶^, ⁷^, ⁸ ^, ^{x x}⁹^, ¹⁰



HiyerarĢik bir gruplandırma her parçanın dizideki bir sonraki parça ile iç içe kullanıldığı bir parçalar dizisidir (Jain ve Dubes 1988). HiyerarĢik gruplandırma için toplamalı bir algoritma n nesnenin her birini ayrı bir gruba yerleĢtiren ayrık bir gruplandırmayla baĢlamaktadır. ÇalıĢtırılan gruplandırma algoritması bu baĢlangıç gruplarından iki veya daha fazlasını birleĢtirmek için benzerlik matrisinin nasıl yorumlanacağını ve buna bağlı olarak baĢlangıç grubunun ikinci parça ile içiçe kullanılacağını belirtmektedir. Süreç, bağlı gruplandırma adı verilen bütün n nesneyi içeren tek bir grup kalana kadar grup sayısının dizi süreçleri olarak azaldığı iç içe gruplandırmalar haline getirilerek tekrarlanır. Parçalayıcı bir algoritma bu iĢi ters sırada yapmaktadır (Jain ve Dubes 1988).

(28)

16

HiyerarĢik gruplandırmayı resimlendirmek soyut sembollerden oluĢan bir liste olarak ortaya koymaktan çok daha kolaydır. Bir dendrogram hiyerarĢik gruplandırmanın uygun bir Ģekilde resimlendirilmesini sağlayan özel bir ağaç yapısıdır. Bir dendrogram her biri bir grubu ifade eden düğümlerin katmanlarından oluĢmaktadır. Çizgiler biri diğeri ile iç içe grupları gösteren düğümleri bağlamaktadır. Bir dendrogramı yatay olarak kesmek bir gruplandırma yaratmaktadır. ġekil 2.5 basit bir dendrogram örneğini göstermektedir.

ġekil 2.5 Dendrogram örneği

HiyerarĢik gruplandırmayı görselleĢtirmek için baĢka resimler de çizilebilmektedir (Kleiner ve Hartigan 1975, Friedman ve Rafsky 1981, Everitt ve Nicholls 1975).

Gruplandırmanın gözüktüğü dizi dıĢındaki bilgi ilgilenilecektir. Gruplandırmanın oluĢturduğu seviye veya benzerlik değeri de kaydedilebilir. Eğer nesneler dokular veya uzaydaki noktalar olarak gösterilirse, grupların kitle merkezleri de grupların saçılmaları kadar önemli olabilir (Jain ve Dubes 1988).

2.4 Parçalı Gruplandırma

HiyerarĢik gruplandırma teknikleri veriyi iç içe gruplar dizisi olarak düzenlemektedir.

HiyerarĢik gruplandırma yöntemlerinin önemli bir karakteristiği bir veri analizcisinin nesnelerin nasıl gruplara birleĢtirildiğini veya benzerliğinin baĢarımsal seviyelere nasıl ayrıldığını görmesini sağlayan dendrogramın görsel etkisidir (Jain ve Dubes 1988).

Veri analizcisi bu durumda dendrogramın bütün veriyi ifade edip etmediğini ya da x1 x2 x3 x4 x5

Gruplandırmalar {(x1), (x2), (x3), (x4), (x5)}

{(x1, x2), (x3), (x4), (x5)}

{(x1, x2), (x3, x4), (x5)}

{(x1, x2, x3, x4), (x5)}

{(x1, x2, x3, x4, x5)}

(29)

17

eldeki uygulamayla iliĢki kuracak Ģekilde belirli bir sabit benzerlik seviyesinde bir gruplandırma seçip seçmemeye karar vermeyi deneyebilir. HiyerarĢik olmayan gruplandırma yöntemleri parçalı gruplandırma yöntemleri olarak isimlendirilebilir.

Verinin içindeki doğal kazanmaya yönelik bir deneme olarak veri tek bir parça olarak oluĢturulabilmektedir. Ġki gruplandırma stratejisi de kendi uygun uygulama alanlarına sahiptir. HiyerarĢik gruplandırma yöntemleri genellikle sadece nesneler arasındaki benzerlik matrisine ihtiyaç duyarken, parçalı teknikler verinin bir doku matrisi Ģeklinde olmasını bekler. Genellikle özniteliklerin bir oran ölçeğinde ölçüldüğü varsayılmaktadır (Jain ve Dubes 1988).

HiyerarĢik teknikler, taksonomilerin oluĢturulmasına ihtiyaç olduğu için biyolojik, sosyal ve davranıĢsal bilimlerde popülerdir. Parçalı teknikler tek parçaların önemli olduğu mühendislik uygulamalarında sıklıkla kullanılmaktadır (Jain ve Dubes 1988).

Parçalı gruplandırma yöntemleri büyük veri tabanlarının etkin gösterimi ve sıkıĢtırılması için özellikle uygundur. Dendrogramlar birkaç yüz dokudan daha fazlası için pratik değildir.

Parçalı gruplandırma problemi biçimsel olarak "d-boyutlu metrik bir uzayda n doku verildiğinde, bir grup içindeki dokuların her birinin diğer gruplardaki dokulara göre daha benzer olduğu K grup arasında dokuların bir parçasına karar vermektir” Ģeklinde ortaya konulabilir. K‟nın değeri belirtilebilir ancak bu bir zorunluluk değildir. Bir gruplandırma kriteri, örneğin kare hata, benimsenmelidir. Kriter genel veya yerel olarak sınıflandırılabilmektedir. Genel bir kriter her bir grubu bir prototiple gösterir ve en benzer prototiplere göre gruplara dokuları atar (Jain ve Dubes 1988). Yerel bir kriter verideki yerel yapıdan yararlanarak grupları oluĢturur. Örneğin, gruplar doku uzayındaki yüksek yoğunluk bölgelerini tanımlayarak ya da bir dokuyu ve k en yakın komĢusunu aynı gruba atayarak oluĢturabilmektedir.

Bu parçalı problemin teorik çözümü doğrudandır. “Basitçe bir kriter seç, K grubu içeren bütün olası parçalar üzerinde dene ve kriteri optimize eden parçaları al” Ģeklindedir. Ġlk karĢılaĢılan zorluk, birisinin “grup” hakkındaki öngörüsel görüĢlerini matematiksel bir formüle çeviren bir kriteri seçmektir (Jain ve Dubes 1988). Kriter problem

(30)

18

parametrelerine yüksek oranda bağımlıdır ve farklı veri yapılarını yansıtacak kadar karmaĢık ama hesaplama amaçlı olarak basit olmalıdır. Bu yaklaĢımın ikinci zorluğu parça sayısının az miktarda doku olması durumunda bile çok fazla olmasıdır. Bu nedenle, bütün parçalar üzerindeki en basit kriteri hesaplamak bile pratik değildir (Jain ve Dubes 1988).

S(n, K), K grup içindeki n nesnenin gruplandırma sayısını ifade etsin. Her gruptaki nesnelerin derecesi ve grupların kendilerinin derecesi ehemmiyetsizdir. BoĢ gruplar sayılmaz. Bir parçalı fark eĢitliği S(n, K) için aĢağıdaki gibi yazılabilir. n-1 nesnenin gruplandırılması listelensin. n nesnenin bir gruplandırması bu listeden iki yolla oluĢturulabilir.

1) n‟inci nesne (K-1) grubu olan bir listenin her üyesine tek bir grup olarak eklenebilir.

2) n‟inci nesne K grubu olan bir listenin herhangi bir üyesinin herbir grubuna eklenebilir.

Bu açıklamaların sonucunda aĢağıdaki ifadeye ulaĢılır (Jain ve Dubes 1988).

( , ) ( 1, 1) ( 1, )

S n K S n K KS n K

Bu ifadenin sınır koĢulları aĢağıdaki gibidir.

( ,1) 1, ( , ) 1, ( , ) 0

S n  S n n  S n K  eğer K n

Bu ifadenin S(n, K) için çözümü,



^{( , ) :1}^{j p} ^{  }^j ⁿ ^{2, 1}^{ }^p ^K



kümesi için



S j p değerlerini gerektirir. ^{( , )}



Parçalı fark denkleminin çözümleri ikinci tür Stirling sayıları olarak adlandırılır (Fortier ve Solomon 1966, Jensen 1969).

1

( , ) 1 ( 1) ( )

!

K

K i n

i

S n K K i

i K





    



 

10 nesne dört gruba bölündüğü zaman sadece 34.105 tane farklı bölüm vardır ancak 19 nesne yine dört gruba bölüneceği zaman bu sayı 11.259.666.000‟e çıkmaktadır. Açıkça görüldüğü üzere, az sayıda doku için bile tüm mümkün bölümlerin ayrıntılı dökümü

(31)

19

iĢlemsel olarak uygulanabilir değildir. Buna ek olarak, grup sayısı K‟nın önceden belirlenmesi de gerekmektedir.

Bu kombinatorik patlamayı engellemek için sadece “makul” bölümler için bir ölçüt fonksiyonu değerlendirilir. Burada sorulacak soru bölümlerin tamamı içinde optimal bölümü içerme olasılığı en iyi olan küçük alt kümenin nasıl tanımlacağıdır. Bunun için en yaygın yaklaĢım, ölçüt fonksiyonunun tekrar tepe-tırmanma (hill-climbing) tekniğiyle optimize edilmesidir (Jain ve Dubes 1988). Ġlk bölümle baĢlanarak nesneler bir bölümden diğerine taĢınarak ölçüt fonksiyonunun değerinin arttırılmasına çalıĢılır.

Bunun sonucunda her baĢarılı bölümleme, bir öncekinin karıĢtırılmasıyla elde edilecek ve sadece az sayıda bölüm incelenmiĢ olacaktır. Bu tekniğe dayalı algoritmar hesaplama verimliliği sunarken, diğer bir yandan sıklıkla ölçüt fonksiyonunun yerel minimasına yakınsarlar (Jain ve Dubes 1988).

Kombinatorik patlamadan kaçınmanın bir baĢka yolu da ilgi alanına girmeyecek gibi parçaları büyük numaralarını reddetmek ve tanımlamaktır. Jensen (1969) pek çok parçayı elemek için bir dinamik programlama yaklaĢımı kullanmıĢ ve bu durumda bile optimal bir sonuç elde etmiĢtir. Algoritmik karmaĢıklıkta bir artıĢ karĢılığında özellikle büyük gruplandırma problemlerinin hesaplanmasında belirgin bir tasarruf görülmüĢtür (Jain ve Dubes 1988). Örneğin, 19 nesneyi dört gruba ayırmak için dinamik programlama formülasyonu kullanılarak toplam parça sayısının %2‟sinden azının hesaplanması gerekmektedir. Hesaplama yükündeki bu azalma bile, bu yaklaĢımı pratik gruplandırma problemlerinde hesaplama açısından mümkün kılmak için yeterli değildir (Jain ve Dubes 1988). Literatürde pek çok farklı yaklaĢım tanımlanmıĢtır (Edwards ve Cavalli-Sforza 1965, Vinod 1969, Rao 1971, Koontz vd. 1975, Lefkovitch 1980).

“Grup” kavramının kesin ve üzerinde çalıĢılabilir bir tanımı olmadığından, bir parçayı elde etmek için tek bir “en iyi” kriter yoktur (Jain ve Dubes 1988). Bazı yazarlar (Auguston ve Minker 1970, Raghavan ve Yu 1981) maximal clique kavramının grup olgusunun en katı tanımı olduğunu iddia etmektedir (Pavan ve Pelillo 2003a, 2003c).

Çok boyutlu doku uzayında gruplar geliĢigüzel Ģekil ve büyüklüklerde olabilir. Her gruplandırma koĢulu veri üzerine kesin bir yapı oluĢturur ve eğer veri her bir kriterin

(32)

20

koĢullarını sağlamayı baĢarırsa, doğru gruplar elde edilir. Birbirinden bağımsız gruplandırma kriterlerinden sadece çok az bir miktarı hem matematiksel hem de öngörüsel olarak anlaĢılabilir. Bu nedenle, literatürde önerilmiĢ yüzlerce kriter fonksiyonu iliĢkilidir ve aynı kriter pek çok farklı çalıĢmada görülmektedir. Shaffer vd.

(1970) bir mod-arayan parçalı algoritma (Kittler 1976) ile Zahn‟ın (1971) MST-tabanlı algoritmasının benzerliğini göstermektedir. Benzer Ģekilde, Urquhart (1982) iliĢkili bir komĢuluk çizgesinden elde edilen parçaların mutlak yakın-komĢu gruplandırması (Gowda ve Krishna 1978) ile üretilenlerle birebir aynı olduğunu gösterir. Grup analizindeki literatür çok yayılmıĢtır ve bilimin pek çok alanı üzerinde tek bir kriter fonksiyonu tekrar tekrar yeniden keĢfedilmiĢtir (Jain ve Dubes 1988).

2.4.1 K-means gruplandırma

Yinelemeli gruplandırma algoritmalarının altında yatan temel fikir bir baĢlangıç parça kümesiyle baĢlamak ve kare hatayı azaltacak Ģekilde dokuları gruplara atamaktır. Kare hata, grup sayısı arttıkça azalma eğilimindedir ve sadece sabit sayıda grup için en aza indirgenebilmektedir (Jain ve Dubes 1988). Bir yinelemeli parçalı gruplandırma yöntemi birkaç farklı yoldan gerçekleĢtirilebilir. Farklı gerçekleĢtirmeler farklı parçaların oluĢmasına neden olmaktadır. Dubes ve Jain (1976), gruplandırma yöntemleri ile gruplandırma algoritmaları arasında bir ayrımın olduğunu belirtmektedir.

Bir gruplandırma yöntemi kare hatayı en küçükleme gibi dokuları gruplar içinde gruplandırmaya yönelik genel bir stratejiyi tanımlar (Jain ve Dubes 1988). Diğer yandan, bir gruplandırma algoritması bir stratejiyi gerçekleĢtiren bir bilgisayar programıdır ve pek çok buluĢsal yöntemi bir araya getirir (Dubes ve Jain 1976).

Yinelemeli bir parçalı gruplandırma yöntemi için genel bir algoritma aĢağıda verilmektedir. Anderberg (1973) bu yaklaĢım için geniĢ bir tartıĢmayı birkaç detayıyla açıklamıĢtır.

Yinelemeli Parçalı Gruplandırma için Algoritma:

Adım 1: K gruptan oluĢan bir baĢlangıç parça kümesi seçilir.

Adım 2‟den 5‟e kadar grup üyeleri dengelenene kadar yinelenir.

Adım 2: Her dokuyu en yakın grup merkezine atayarak yeni bir parça oluĢturulur.

(33)

21

Adım 3: Grupların ağırlık merkezleri (centroid) yeni grup merkezi olarak hesaplanır.

Adım 4: Adım 2 ve 3 kriter fonksiyonunun optimum değeri bulunana kadar tekrarlanır.

Adım 5: Grup sayısı, varolan gruplar birleĢtirilerek, ayrılarak veya küçük grupları çıkararak ayarlanır.

Bu algoritmadaki adımların detayları ya kullanıcı tarafından parametre olarak belirtilmeli ya da bilgisayar programının içinde gizli olmalıdır. Bununla birlikte, bu detaylar programın baĢarısı için vazgeçilmezdir. Gruplandırma programlarının kullanımındaki çekinceler detayları seçim konusunda yönergelerin azlığındandır (Jain ve Dubes 1988). Bazı bilinen gerekli parametrelerin özetleri aĢağıda belirtilmiĢtir (Anderberg 1973, Dubes ve Jain 1980):

BaĢlangıç Parça Kümesi: Bir baĢlangıç parça kümesi, ilk olarak K tohum noktasından oluĢan bir küme tanımlanarak oluĢturulabilir. Tohum noktaları ilk K doku ya da doku matrisinden seçilen K doku olabilir. Birbirinden iyi ayrılmıĢ K dokudan oluĢan küme, ilk tohum noktası olarak verinin ağırlık merkezi alınarak ve sonraki tohum noktalarını, halihazırda seçilen tohum noktalarından belirli uzaklıkta olan noktalar olarak seçerek elde edilebilir. BaĢlangıç parça kümesi ya da gruplandırması her dokuyu en yakın tohum noktasına atayarak oluĢturulur. Sonuçta çıkan grupların ağırlık merkezleri baĢlangıç grup merkezleri olur. Verinin hiyerarĢik gruplandırmasıyla elde edilmiĢ sonuçlar, parçalı bir yöntem olan kare-hata gruplandırmasında baĢlangıç parça kümesi olarak da kullanılabilir.

Parçaları Yenileme: Parçalar kare hatayı küçültme amaçlı olarak gruplara dokuları yeniden atayarak yenilenir. “GeçiĢ” veya “Döndürme” terimleri her dokunun grup etiketini bir kere deneme sürecini ifade etmektedir. McQueen (1967) bütün dokuları en yakın grup merkezine atama iĢlemi olarak K-means geçiş‟i tanımlamıĢtır. GeniĢleyen grubun merkezi McQueen (1967)‟in K-means yöntemine göre her atamadan sonra tekrar hesaplanır. Forgy‟nin (1965) yöntemi ise tüm dokular denendikten sonra grup merkezlerini yeniden hesaplamaktadır. Öklid ölçütü bir doku ile bir merkez arasındaki uzaklığı hesaplamak için kullanılan en bilindik yöntemdir. Fakat, Mahalanobis uzaklık ölçütü de bu amaçla kullanılır. Bununla birlikte, Mahalanobis uzaklık ölçütü bir

(34)

22

dokunun grup etiketi her değiĢtiğinde örnek kovaryans matrisinin tersinin hesaplanmasını gerektirmektedir (Jain ve Dubes 1988). Burada belirtilen uzaklık ölçütlerinin dıĢında, bu çalıĢmada Bölüm 2.6‟da verilen uzaklık ölçütlerinin uygulanmasına da yer verilmiĢtir.

Grup Sayısını Ayarlama: Bazı gruplandırma algoritmaları, bazı koĢullar sağlandığında yeni gruplar oluĢturabilir veya varolan grupları birleĢtirebilir. Bu yetenek bir algoritmanın zayıf baĢlangıç kümelerinden kurtulmasına izin verir ve arzulanan grup sayısı uygun olmadığında özellikle “doğal” ve “uygun” grup sayısı seçimine olanak sağlamaktadır. Ball ve Hall (1964)‟un öne sürdüğü ISODATA adı verilen popüler parçalı gruplandırma algoritmalarından birinde, bu koĢullara kullanıcı tarafından belirlenen parametreler aracılığıyla karar verilebilmektedir.

Bir göçmen (outlier), verinin geri kalanından bir hata (örn. veri giriĢinde bir hata) olarak Ģüphelenilebileck kadar uzak olan dokuya denir (Jain ve Dubes 1988). Bir göçmen, genellikle ölçüm sürecindeki gürültüden veya veri kodlamadaki bir hatadan kaynaklanmaktadır. Göçmenler veri oluĢturma süreci ile ilgili kullanıĢlı bir bilgi sağlamaktadır. Fakat, bir göçmeni bir gruba girmeye zorlamak o grubun Ģeklini bozmaktadır. Varolan birbirine yakın iki grup ile uzaktaki bir göçmeni gruplandırdığımızda, yakın gruplar tek bir gruba dahil olacaktır. Bu nedenle göçmenleri gruplandırmadan hariç tutmak en iyi çözüm olmaktadır (Jain ve Dubes 1988).

Yakınsama: Bir algoritma ne zaman durdurulmalıdır sorusuna parçalı algoritmalar için verilecek cevap, kriter fonksiyonu daha fazla geliĢtirilemediğinde süreç durdurulmalıdır Ģeklindedir (Jain ve Dubes 1988). Bir yinelemeli algoritmanın bir genel minimumda duracağının garantisi yoktur. Bazı algoritmalar dokuların grup etiketleri iki yineleme arasında artık değiĢmediğinde sonlandırılmaktadır. Yineleme sayısına bir üst sınır getirme yöntemi de ardarda gereksiz salınımları önlemek için kullanılabilir. Pratikte K- means türü algoritmalar hızla yakınsayabilirler (Jain ve Dubes 1988).