ANKARA ÜNĠVERSĠTESĠ FEN BĠLĠMLERĠ ENSTĠTÜSÜ DOKTORA TEZĠ Videolarda içerik dizinleme amaçlı çizge kuramsal sahne sezme Ufuk SAKARYA ELEKTRONĠK MÜHENDĠSLĠĞĠ ANABĠLĠM DALI ANKARA 2009 Her hakkı saklıdır

(1)

ANKARA ÜNĠVERSĠTESĠ FEN BĠLĠMLERĠ ENSTĠTÜSÜ

DOKTORA TEZĠ

Videolarda içerik dizinleme amaçlı çizge kuramsal sahne sezme

Ufuk SAKARYA

ELEKTRONĠK MÜHENDĠSLĠĞĠ ANABĠLĠM DALI

ANKARA 2009

(2)

TEZ ONAYI

Ufuk SAKARYA tarafından hazırlanan “Videolarda Ġçerik Dizinleme Amaçlı Çizge Kuramsal Sahne Sezme” adlı tez çalıĢması 29 / 01 / 2009 tarihinde aĢağıdaki jüri tarafından oy birliği ile Ankara Üniversitesi Fen Bilimleri Enstitüsü Elektronik Mühendisliği Anabilim Dalı’nda DOKTORA TEZĠ olarak kabul edilmiĢtir.

DanıĢman : Doç. Dr. Ziya TELATAR

Ankara Üniversitesi, Mühendislik Fak.,Elektronik Mühendisliği Böl.

Jüri Üyeleri:

BaĢkan : Prof. Dr. Gözde BOZDAĞI AKAR

Orta Doğu Teknik Ünv.,Mühendislik Fak.,Elektrik-Elektronik Mühendisliği Böl.

Üye : Prof. Dr. Hakkı Faruk ÖZEK

Üye : Doç. Dr. Ziya TELATAR

Üye : Doç. Dr. A. Aydın ALATAN

Orta Doğu Teknik Ünv.,Mühendislik Fak.,Elektrik-Elektronik Mühendisliği Böl.

Üye : Yrd. Doç. Dr. Murat Hüsnü SAZLI

Yukarıdaki sonucu onaylarım

Prof. Dr. Orhan ATAKOL Enstitü Müdürü

(3)

i ÖZET

Doktora Tezi

VĠDEOLARDA ĠÇERĠK DĠZĠNLEME AMAÇLI ÇĠZGE KURAMSAL SAHNE SEZME

Ufuk SAKARYA

Ankara Üniversitesi Fen Bilimleri Enstitüsü

Elektronik Mühendisliği Anabilim Dalı

DanıĢman : Doç. Dr. Ziya TELATAR

Çoklu ortam verisinin organize edilmesinde dizinleme ve geri eriĢimi önemli bir konudur. Özellikle video alanında, düĢük ve yüksek seviyeli zamansal video bölütleri video veritabanlarının organize edilmesi ve yönetilmesi için önemli bir rol oynarlar. Bu çalıĢmada, yüksek seviyeli zamansal video bölütlerinin sezilmesi için çizge kuramsal üç video sahne sezme yöntemi önerilmektedir: Çizge temelli çok seviyeli video sahne sezme, çizge üleĢtirme temelli video sahne sezme ve baskın kümeler ile video sahne sezme. Her bir yöntemde ağırlıklı ve yönsüz bir çizge kurulmaktadır. Önerilen video sahne sezme yöntemleri ile yapılan deneysel çalıĢmalarda, insan yardımı olmadan video sahnelerinin düzenlenmesi için umut verici sonuçlar elde edilmiĢtir.

Ocak 2009, 126 sayfa

Anahtar Kelimeler : Video sahne sezme, çizge temelli topaklama, baskın kümeler, çizge üleĢtirme, zamansal video bölütleme.

(4)

ii ABSTRACT

Ph.D. Thesis

Graph theoretical scene detection for content indexing in videos

Ufuk SAKARYA

Ankara University

Graduate School of Natural and Applied Sciences Department of Electronic Engineering

Supervisor : Assoc. Prof. Dr. Ziya TELATAR

Indexing and retrieval is an important topic in organizing of multimedia data. Especially for video domain, the low and high level temporal video segments play an important role to organize and manage the video databases. In this study, graph theoretic three video scene detection methods are proposed to detect high-level temporal video segments: Graph-based multilevel video scene detection, graph partition based video scene detection and video scene detection using dominant sets. A weighted undirected graph is constructed for each method. At the experimental studies using the proposed video scene detection methods, the promising results were obtained in order to organize video scenes without human intervention.

January 2009, 126 pages

Key Words : video scene detection, graph-based clustering, dominant sets, graph partitioning, temporal video segmentation.

TEġEKKÜR

(5)

iii

Tez çalıĢmam sırasında yapmıĢ olduğu katkılardan dolayı danıĢman hocam Sayın Doç.

Dr. Ziya TELATAR’a (Ankara Üniversitesi Mühendislik Fakültesi); tez konusunu seçerken bana yardımcı olan ilk danıĢman hocam Sayın Prof. Dr. Mümtaz YILMAZ’a (Ankara Üniversitesi Mühendislik Fakültesi); tez izleme komitesinde yer alan ve değerli yorumları ile katkıda bulunan Sayın Prof. Dr. Faruk ÖZEK’e (Ankara Üniversitesi Mühendislik Fakültesi) ve Sayın Doç. Dr. A. Aydın ALATAN’a (Orta Doğu Teknik Üniversitesi Mühendislik Fakültesi); çekim sezme yöntemi yazılım gerçekleĢtiriminde yapmıĢ oldukları yardımdan dolayı iĢyerimden çalıĢma arkadaĢlarım Sayın Ersin ESEN’e (TÜBĠTAK UZAY) ve Sayın Kamil Berker LOĞOĞLU’na (TÜBĠTAK UZAY); tez çalıĢmam sürecinde gösterdikleri yakın ilgi ve destek için aileme teĢekkür ederim.

Ufuk SAKARYA Ankara, Ocak 2009

ĠÇĠNDEKĠLER

(6)

iv

ÖZET...i

ABSTRACT...ii

TEġEKKÜR...iii

SĠMGELER DĠZĠNĠ...ix

ġEKĠLLER DĠZĠNĠ...xii

ÇĠZELGELER DĠZĠNĠ...xiii

1. GĠRĠġ...1

2. MPEG-7 ÇOKLU ORTAM ĠÇERĠK TANIMLAYICI ARAYÜZÜ………..7

2.1 MPEG-7’ye GiriĢ….……….………...7

2.1.1 Temel tasarım ilkeleri...8

2.1.2 MPEG-7 araçlarının tipleri……...9

2.1.3 MPEG-7 bölümleri...9

2.1.4 Uygulama alanı...10

2.2 Görsel Tanımlayıcılar………...10

2.2.1 Renk tanımlayıcıları...10

2.2.2 Doku tanımlayıcıları………...11

2.2.3 ġekil tanımlayıcıları……...11

2.2.4 Hareket tanımlayıcıları...12

2.3 ĠĢitsel Tanımlayıcılar……...………..………...12

3. ÇĠZGE TEMELLĠ TOPAKLAMA YÖNTEMLERĠ………....13

3.1 Temel Tanımlar…………..………...13

3.2 DüzgelenmiĢ Kesimler………...14

3.3 En Küçük En Büyük Kesim.………...15

3.4 Baskın Kümeler….……….………...15

3.5 En Küçük Kapsayan Ağaç Ġle Topaklama………....17

3.6 Diğer………….………..…...17

4. ZAMANSAL VĠDEO BÖLÜTLEME VE VĠDEO ÖZETLEME…………...…..18

4.1 Temel Tanımlar.………...18

4.2 Çekim Sezme.………...20

4.2.1 Problem tanımı...20

4.2.2 GeliĢtirilmiĢ yöntemlere genel bakıĢ...23

4.2.3 Ani geçiĢ sezme yöntemleri...25

(7)

v

4.2.3.1 Örüntü betimleme………...25

4.2.3.1.1 Piksel temelli……...25

4.2.3.1.2 Blok temelli……...26

4.2.3.1.3 Histogram temelli……...27

4.2.3.1.4 Faz bilgisi temelli……...29

4.2.3.1.5 DCT katsayıları temelli……...30

4.2.3.1.6 DC terim temelli……...31

4.2.3.1.7 Bit hızı temelli……...32

4.2.3.2 Gruplandırma yaklaĢımı…...32

4.2.4 Dereceli geçiĢ sezme yöntemleri...33

4.2.4.1 Örüntü betimleme………...33

4.2.4.1.1 Histogram temelli……...33

4.2.4.1.2 Öznitelik temelli……...34

4.2.4.1.3 Model temelli……...35

4.2.4.1.4 DCT-MV temelli……...36

4.2.4.1.5 DC terim temelli……...36

4.2.4.2 Gruplandırma yaklaĢımı…...36

4.2.5 Çekim sezme ile ilgili diğer konular...38

4.2.5.1 IĢıklılık değiĢimi sezme...38

4.2.5.2 Kamera hareketi sezme…...38

4.3 Anahtar Çerçeve Seçimi.………...39

4.3.2 GeliĢtirilmiĢ yöntemler………...40

4.4 Video Sahne Sezme.………...42

4.5 Video Özetleme.………...46

5. ÇĠZGE TEMELLĠ ÇOK SEVĠYELĠ ZAMANSAL VĠDEO BÖLÜTLEME…..49

5.1 Motivasyon ve Katkı.………...49

5.2 Çizge Temelli Çok Seviyeli Zamansal Video Bölütleme………...51

(8)

vi

5.2.1 Temel tanım ve gösterim...52

5.2.2 Önerilen yöntem...52

5.3 Çizge Temelli Çok Seviyeli Video Sahne Sezme Yöntemi………...54

5.3.1 Ön basamak iĢlemleri ve düĢük seviyeli öznitelikler...54

5.3.1.1 Çekim sezme…….……...54

5.3.1.2 Anahtar çerçeve seçimi……..……...54

5.3.1.3 Görsel benzerlik………….……...55

5.3.1.4 Hareket benzerliği………...56

5.3.1.5 Çekim uzunluğu benzerliği...56

5.3.1.6 Zamansal benzerlik……...56

5.3.1.7 Bir grup çekim içerisinden temsili çekim sezme……...57

5.3.2 Birinci seviye...57

5.3.3 Ġkinci seviye...59

5.3.4 Uyarlanır kesim eĢik değeri seçme……...62

5.4 Deneyler ve Bulgular………...63

5.4.1 Deney verisi ve doğrulama……...63

5.4.2 Performans ölçümü...64

5.4.3 Parametrelerin belirlenmesi…...65

5.4.3.1 Parametre ci,j……...66

5.4.3.2 Parametre di………...66

5.4.3.3 Parametreler Λi ve Ωi…...66

5.4.4 KarĢılaĢtırmalı deney sonuçları…...66

5.5 TartıĢma ve Bulgular……….………...71

6. ÇĠZGE ÜLEġTĠRME TEMELLĠ VĠDEO SAHNE SEZME………....74

6.2 Çizge ÜleĢtirme Temelli Video Sahne Sezme ……….…...75

6.2.1 Tek boyutlu iĢaret elde etme...76

6.2.2 Süzgeçleme...78

6.2.3 Aday sahneleri sezme...79

6.2.3.1 K-ortalama ile sınıflandırma…...82

6.2.3.2 Baskın kümeler ile sınıflandırma……...82

6.2.4 Eleme iĢlemi...83

(9)

vii

6.3 GerçekleĢtirim ve ĠĢlem KarmaĢıklığı………...83

6.3.1 GerçekleĢtirim...83

6.3.2 ĠĢlem karmaĢıklığı...84

6.4 Deney Verisi ve Performans Ölçümü…….………...84

6.4.1 Deney verisi ve doğrulama...84

6.5 Bulgular……….….……….………...85

7. BASKIN KÜMELER ĠLE VĠDEO SAHNE SEZME………....88

7.2 Ön Basamak ĠĢlemleri ve DüĢük Seviyeli Öznitelikler………...90

7.2.1 Çekim sezme...90

7.2.2 Anahtar çerçeve seçimi...90

7.2.3 Çekim benzerliği...90

7.3 Baskın Kümeler ile Video Sahne Sezme………...91

7.4 Deney Verisi ve Performans Ölçümü………...94

7.4.1 Deney verisi ve doğrulama...94

7.5 Parametre Değerlerinin Belirlenmesi………...95

7.5.1 Parametre Ψ...96

7.5.2 Parametre c...96

7.5.3 Parametre d...97

7.5.4 Parametre K...99

7.6 Bulgular………..………...100

8. BASKIN KÜMELER ĠLE VĠDEO ĠÇERĠK ANALĠZĠ………...104

8.1 Motivasyon ve Katkı………...104

8.2 Ön Basamak ĠĢlemleri ve DüĢük Seviyeli Öznitelikler………….…………...104

8.2.1 Çekim sezme………..………...104

8.2.2 Anahtar çerçeve seçimi………..…………....104

8.2.3 Çekim benzerliği……….………105

8.3 Baskın Ġçerik Sezme………..105

8.4 Deney Verisi……….……...106

8.5 Parametre Değerinin Belirlenmesi……….………...106

(10)

viii

8.6 Bulgular.………..………...106

9. SONUÇ………..……….………...109

KAYNAKLAR...115

ÖZGEÇMĠġ...124

(11)

ix

SĠMGELER DĠZĠNĠ

Kısaltmalar

1-B 1 Boyutlu

B Bi-Directional Frames

BM A Beautiful Mind

CIE Commission Internationale d'Eclairage

CP 1492: Conquest of Paradise

DC The First Coefficient of DCT

DCT Discrete Cosine Transform DVD Digital Versatile Disc

F F ölçeri

fr_i Çerçeve (Frame)

GBMVSD Çizge temelli çok seviyeli video sahne sezme yöntemi (Graph- Based Multilevel Video Scene Detection Method)

GOP Group of Picture

GPBVSD Çizge üleĢtirme temelli video sahne sezme yöntemi (Graph Partition Based Video Scene Detection)

GPBVSD_DS Baskın kümeler ile GPBVSD GPBVSD_k K ortalama ile GPBVSD

GS Gone In Sixty Seconds

H Hue (HSV)

HA Hamlet

HMM Hidden Markov Models

HMMD Hue Max Min Diff

HO Hostage

HSV Hue Saturation Value

I Intra Frames

KF_i Anahtar Çerçeve (Key Frame)

KH Kingdom of Heaven

L Luminance

(12)

x

L1L2 Birinci seviye + ikinci seviye yöntemi

L1L2_NSF Güç çarpanı yaklaĢımı kullanılmadan birinci seviye + ikinci seviye

LAB LAB Color Space (CIE)

LUV Luminance and Chrominance Components

MB Macroblocks

MCMC Markov Chain Monte Carlo

ME The Message

MPEG Moving Picture Experts Group

MPEG-1 MPEG Kodlama Standardı

MPEG-7 Çoklu Ortam Ġçerik Tanımlayıcı Arayüzü (Multimedia Content Description Interface

MR The Mummy Returns

MTM Munsell Color Space

MV Motion Vectors

NIST National Institute of Standards and Technology

NSB Sahne Sınırı Değil

NTSC National Television Standarts Committee

NVC DüzgelenmiĢ Görsel Çekim Fonksiyonu (Normalized Visual Coherence Function)

OBM Sıralı YaklaĢım (The ordered-based method)

OPP Opponent Color Space

P Predicted Frames

PCA Pricipal Component Analysis

PI EtkileĢimli olay içeren Paralel Sahne

PR Kesinlik (Precision)

PS Seri olan olaylar içeren Paralel Sahne

RE Hatırlama (Recall)

RGB Red Green Blue

RS Rasheed ve Shah’ın yöntemi (Rasheed and Shah 2005)

(13)

xi RS_λ Yeni λ değerleri ile RS RS_d Yeni d değeri ile RS

S Saturation (HSV)

SB Sahne Sınırı

sc_i Sahne (Scene)

sh_i Çekim (Shot)

SS Seri Sahne

STG Scene Transition Graph SVD Singular Value Decompositon

SVM Support Vector Machine

tr_i GeçiĢ (Transition)

TBM Ağaç YaklaĢımı (The tree-based method) TREC Text Retrieval Conference

TRECVID TREC Video Retrieval Evaluation XML Extensible Markup Language XYZ Color description (CIE)

V Value (HSV)

YCbCr Luminance and Chrominance Components

YIQ YIQ Color Space (NTSC)

YUV Luminance and Chrominance Components

(14)

xii

ġEKĠLLER DĠZĠNĠ

ġekil 1.1 Bir çoklu ortam dizinleme ve geri eriĢim sistem mimarisi………....2

ġekil 3.1 Ağırlıklı ve yönsüz bir çizge ve E matrisi………...14

ġekil 4.1 BölütlenmiĢ video yapısı………...………...18

ġekil 4.2 GeçiĢ yapısı………...………...………...19

ġekil 4.3a.b.c.d Ani çekim geçiĢi çerçeveleri………..………...22

ġekil 4.4 Kararmalı - açılmalı dereceli çekim geçiĢi……….………...22

ġekil 4.5 Zincirleme çekim geçiĢi………...………...23

ġekil 4.6 Süpürmeli çekim geçiĢi……….…………...………...……….23

ġekil 4.7 Ġçerik tablosu yönteminde temsili bir video yapısı (Rui et al. 1999)………...43

ġekil 5.1 GBMVSD bölütleme yapısı……….………...……….54

ġekil 5.2 Örnek bir video sahne sezme sonucu (Video Adı=1492: Conquest of Paradise, F=0.800, F1=0.917).………...…...………...72

ġekil 6.1 GPBVSD sistem mimarisi………...………...………..76

ġekil 6.2 Zamansal pencere………...………...………...77

ġekil 6.3 Çizge temelli betimleme. ………...………...…………...78

ġekil 6.4 Görsel benzerlik özniteliği kullanılarak elde edilmiĢ olan tek boyutlu iĢaretler……....………...………...………...80

ġekil 6.5 2 boyutlu düzlemde görsel ve hareket içeriğine göre saçılmıĢ olan örüntüler………...81

ġekil 7.1 Önerilen ağaç tipi bölütleme yapısı………...………...…93

ġekil 7.2 Önerilen sıralı bölütleme yapısı………...………...…….93

ġekil 7.3 Farklı c değerleri için ortalama F değerleri………...………...96

ġekil 7.4 BM videosunun TBM performans sonucu……….……101

ġekil 7.5 BM videosunun OBM performans sonucu……….……102

ġekil 7.6 BM videosunun RS performans sonucu……….……103

ġekil 8.1 Hesaplanan örnek bir e(i,j) matrisi……….……105

(15)

xiii

ÇĠZELGELER DĠZĠNĠ

Çizelge 5.1 Video bilgileri: Yıl ve tip (genre) (http://www.imdb.com, 2008)…….….64

Çizelge 5.2 Video bilgileri………...………..64

Çizelge 5.3 L1L2, L1L2_NSF, RS, RS_d ve RS_λ yöntemleri için performans sonucu: Aynı parametredeki en yüksek ortalama değer………...68

Çizelge 5.4 L1L2, L1L2_NSF, RS, RS_d ve RS_λ yöntemleri için performans sonucu: En yüksek performans sonuçlarının ortalaması………...68

Çizelge 5.5 F ölçerine göre en yüksek performans değerlerini veren parametrelerin içinde yer aldığı aralık……….69

Çizelge 5.6 GBMVSD performans sonuçları……….69

Çizelge 5.7 GBMVSD, MCMC, L1L2_NSF ve RS_d için GS ve MR videoları için karĢılaĢtırmalı sonuçlar………...70

Çizelge 6.1 Video bilgileri: Yıl ve tip (genre) (http://www.imdb.com, 2008)…………85

Çizelge 6.2 Video bilgileri………...85

Çizelge 6.3 RS performans sonuçları………..86

Çizelge 6.4 K-ortalama kullanarak çalıĢan çizge üleĢtirme temelli video sahne sezme yöntemi (GPBVSD_k) performans sonuçları……..………..86

Çizelge 6.5 Baskın kümeler kullanarak çalıĢan çizge üleĢtirme temelli video sahne sezme yöntemi (GPBVSD_DS) performans sonuçları………....87

Çizelge 7.1 Video bilgileri: Yıl ve tip (genre) (http://www.imdb.com, 2008)………....95

Çizelge 7.2 Video bilgileri………...95

Çizelge 7.3 TBM için değiĢen d değerlerine göre F değeri sonuçları……...……….….97

Çizelge 7.4 DeğiĢen d değerlerine göre TBM sahne sayısı sonuçları...……….….98

Çizelge 7.5 KarĢılaĢtırmalı performans sonuçları……….100

Çizelge 8.1 Video bilgileri……….106

Çizelge 8.2 Önerilen yöntemin haber videolarındaki sonucu………107

Çizelge 9.1 KarĢılaĢtırmalı performans sonuçları……….112

(16)

1 1. GĠRĠġ

GeliĢen teknolojinin bir sonucu olarak artan çoklu ortam (multimedia) verisinin dizinlenmesi iĢlemi, günümüzde üzerinde çalıĢılan önemli bir problemdir. Sayısal video üretimi cep telefonlarında bile yapılmaktadır. Artan televizyon kanallarının yayınları ve her yıl çekilen filmler de düĢünüldüğünde; üretilen büyük çaptaki çoklu ortam verisinin otomatik bir yol ile hızlı ve doğru bir Ģekilde dizinlenmesi veriye kolay ve güvenli eriĢimi sağlayabilecek önemli bir katkı olacaktır.

Bir çoklu ortam verisinin dizinleme ve geri eriĢim sisteminin mimarisi ġekil 1.1’de görülmektedir. Çoklu ortam verisinin dizinleme ve geri eriĢimi sistemi özet olarak Ģu Ģekilde çalıĢmaktadır: Üretilen veri analiz edilerek gerekli öznitelik bilgileri çıkarılır ve dizinlenerek veri tabanına kaydedilir. Kullanıcı da bu sistemde bulmak istediğini tanımlayan veya benzeyen örnek bir veri ile sistemden sorgular. Sistemdeki kilit noktalardan birisi verinin analizi sonucu ortaya çıkacak öznitelik bilgilerinin ne olacağıdır. Dolayısı ile sorunun çözülmesi ve yaygın bir Ģekilde kullanılması için bir standart gereklidir.

Dizinlenecek verinin sadece metinsel tabanlı olduğu kabul edilirse o zaman, metinsel verideki kelimeler o dile ait olan sözlüklerde bulunabilir. Aynı Ģekilde; metinsel verideki cümleler de o dilin gramer kuralları içerisinde tanımlı olduğuna göre metin tabanlı arama kuralları konabilir. Eğer veri bir resim veya bir film ise nasıl bir gramer kuralına veya nasıl bir sözlüğe sahip olunacağı sorusu ortaya çıkmaktadır.

Çoklu ortam veri içeriğinin otomatik bir yol bulunarak dizinlenmesi amacı ile MPEG-7 (Multimedia Content Description Interface) standardı oluĢturulmuĢ ve geliĢtirilmeye devam edilmektedir (Manjunath et al. 2002). MPEG-7 standardı ile ilgili daha ayrıntılı bilgi Bölüm 2'de sunulmaktadır.

Dizinlemedeki önemli noktalardan birisi asıl verinin içeriğini en iyi Ģekilde yansıtacak ve asıl veriden daha az yer tutup üzerinde hızlı arama iĢlemlerinin yapılabileceği bir öznitelik verisinin oluĢturulmasıdır.

(17)

2

ġekil 1.1 Bir çoklu ortam dizinleme ve geri eriĢim sistem mimarisi

Çoklu ortam dizinleme ve geri eriĢimi için birçok sistem geliĢtirilmiĢtir: MoCA (Fischer et al. 1995), ORL Medusa (Brown et al. 1995), VideoSTAR (Hjelsvold et al. 1995), JACOB (Ardizzone and Cascia 1996a), PanoramaExcerpts (Taniguchi et al. 1997), IMKA (Benitez et al. 2001), BilVideo (ġaykol vd. 2003), BilVMS (Esen vd. 2003).

Video dizinleme ve geri eriĢimi için yazılmıĢ incelemeler (Aigrain et al. 1996, Brunelli et al. 1999) literatürde mevcuttur.

Qian et al. (1999) videolarda dizinleme ve geri eriĢim iĢlemini üç sınıfa ayırmıĢlardır:

1.) Söz dizimsel Video Yapısı Kurma (Syntactic Structurization of Video):

Videonun bölütlenmesi ve özetlenmesi yolu ile gerekli söz dizimsel video yapısının kurulması iĢlemleridir. Çekim sezme, anahtar çerçeve seçimi, çekim gruplandırma, içerik tablosu yaratma, video özetleme ve video göz gezdirme (video skimming) gibi çalıĢma konuları bulunmaktadır (Qian et al. 1999).

(18)

3

2.) Video Sınıflandırma: Videoların içeriğine göre, futbol veya basketbol gibi spor karĢılaĢmalarına, duygusal veya aksiyon filmlerine sınıflandırılması iĢlemleridir.

Bu konudaki çalıĢmaların birisinde (Rasheed et al. 2005) ortalama çekim uzunluğu, renk varyansı, hareket içeriği ve ıĢıklandırma anahtarı (lighting key) gibi öznitelikler kullanılarak filmler aksiyon-drama, drama, komedi-drama, komedi, aksiyon-komedi ve dehĢet içerikli film sınıflarına gruplandırılmıĢtır.

3.) Anlam bilimsel Bilgi Çıkarma: Bu sınıfta daha çok belirli bir tanım kümesi olan verilerde çalıĢılmaktadır. Üst seviye olay tanımları bulunmaya çalıĢılır. Bunun için de spor karĢılaĢmaları iyi birer çalıĢma alanıdır. Fischer (1996) ve Wang et al. (2004) anlam bilimsel bilgi çıkarma konusundaki çalıĢmalara örnek olarak gösterilebilir.

Belirtilen üç sınıf aslında birbiri ile yakın iliĢki içerisindedir ve benzer alt seviye yöntemler her birinde de kullanılabilir. Ayrıca bir bütün sistem tasarımı düĢünüldüğünde birbirlerine bağlı olarak da çalıĢabilirler. Örnek olarak: Bir sistem herhangi bir videonun özetini çıkarmaya çalıĢıyor olsun. Sistem ilk önce gelen videonun hangi sınıfa ait olduğu bilgisini bilmeden çalıĢmaktadır. Tüm veriler için standart bir yöntem kullanılarak video bölütlenmektedir. BölütlenmiĢ bölümler üzerinden çalıĢan bir sınıflandırma yöntemi gelen videonun hangi sınıfa ait olduğunu kestirir. Daha sonra o sınıfa ait özel video bölütleme metodu videoyu baĢarımı daha yüksek bir Ģekilde bölütlemek için tekrar çalıĢır.

Doğru bir Ģekilde zamansal video bölütlemesi video dizinleme için çok önemli bir basamaktır. Daha önce de belirtildiği gibi dizinlemedeki en önemli noktalardan birisi, asıl verinin içeriğini en iyi Ģekilde yansıtacak ve asıl veriden daha az yer tutacak bir verinin elde edilmesi gerekliliğidir. Dizinleme iĢlemi özet üzerinden yapıldığına göre bu özetin asıl veriyi en doğru Ģekilde yansıtması gerekir. Video özetleme problemi, günümüzde üzerinde çalıĢmaların devam ettiği önemli bir problemdir. Video içerik analizi ve video özetleme konusu üzerine daha detaylı bir okuma için kaynaklar (Hanjalic 2004, Smith and Kanade 2005, Xiong et al. 2006) literatürde mevcuttur.

(19)

4

Söz dizimsel video yapısı kurma iĢleminin ilk basamaklarından birisi video çekimlerinin belirlenmesidir. Video çekimi sinema ile ilgili bir kitapta (Öngören 1993, sayfa 12)

“Kameranın hiç durmadan çalıĢtırılması ile film ya da görüntü bantı üzerine yapılan görüntü kaydına çekim denir” Ģeklinde tanımlanmıĢtır. Tez içerisinde, bu tanımda açıklanan yapı kamera çekimi olarak adlandırılacaktır. BaĢka bir tanımlama ile kamera çekimi, video kurgusuna girmemiĢ ham haldeki veridir. Kamera çekimlerinin video kurgusu içerisinde yerleĢtirilmesinden sonra çekim adı verilen yapı ortaya çıkar. Çekim, zamanda süreklilik arz eden bir çerçeveler dizisidir.

Çekimler dizinleme iĢleminde önemli bir yapı olmakla beraber bazı uygulamalarda tam olarak isterleri karĢılayan bir bölütleme seviyesi olamamaktadır. Ayrıca çok büyük verilerin içeriğinin düzenlenmesinde, daha yüksek seviye video bölütlerinin kurulması veriye değiĢik seviyelerde eriĢimi sağlaması açısından önemli bir rol oynamaktadır. Bu neden ile yüksek seviye video bölütlerinin sezilmesi önemli bir problem olarak karĢımıza çıkmaktadır. Bu yapılardan birisi video sahneleridir. Anlamsal bakımdan iliĢkili peĢ peĢe çekimler birleĢerek video sahnelerini oluĢtururlar.

Tez çalıĢmasında çizge temelli birbirinden farklı üç video sahne sezme yaklaĢımı önerilmiĢtir ve ileri paragraflarda kısaca açıklanmıĢtır.

Çizge temelli çok seviyeli video sahne sezme yöntemi daha önce geliĢtirilmiĢ olan çizge temelli bir yönteme (Rasheed and Shah 2005) dayandırılarak aĢağıda sıralanan katkılar sağlanmıĢtır.

Tek bir seviyede sezme iĢlemi yerine iki seviyeli bir yaklaĢım önerilmiĢtir.

Video sahne sezmede çizge temelli topaklama yaklaĢımının performansını arttırmak için güç çarpanı yaklaşımı önerilmiĢtir.

Zamansal, görsel ve hareket içeriği benzerliklerinin yanında çekim uzunluğu benzerliği de kullanılmıĢtır.

Ġçerik temelli uyarlanır bir kesim eĢik değeri seçme yaklaĢımı önerilmiĢtir. EĢik değerinin hesaplanmasında Zhao et al. (2007) tarafından önerilen çizge üzerindeki toplam düğüm sayısına ek olarak bir filmin ortalama temposu da

(20)

5 kullanılmıĢtır.

Ġkinci yöntem çizge üleĢtirme temelli video sahne sezme yöntemidir. Çizge üleĢtirme için en küçük, en büyük kesim yöntemi (Ding et al. 2001) kullanılmıĢtır. Çizge üleĢtirme temelli video sahne sezme yöntemi daha önce çekim sezmede kullanılmıĢ iki farklı yöntemin (Song and Ra 2001, Yuan et al. 2007) video sahne sezme yöntemine uyarlanmasını içermektedir. Ayrıca, baskın kümeler yöntemi (Pavan and Pelillo 2007), çok boyutlu uzaydaki örüntülerin topaklanmasında kullanılmıĢtır.

Çizge üleĢtirme ile tek boyutlu iĢaret üretme yaklaĢımı video sahne sezme için kullanılmıĢtır. Bu yaklaĢım daha önce çekim sezmede (Yuan et al. 2007) kullanılmıĢtı.

Tek boyutlu iĢaretler süzgeçlenerek baĢarım arttırılmıĢtır. Benzer bir yaklaĢım daha önce çekim sezmede (Song and Ra 2001) kullanılmıĢtı.

Çok boyutlu uzaydaki örüntüler öğreticisiz bir sınıflandırma ile iki sınıfa sınıflandırılır: Sahne sınırı ve sahne sınırı değil. Bunun için iki ayrı yaklaĢım kullanılmıĢtır:

o K-ortalama (Duda et al. 2001) ile sahne sınırlarına karar verme. Benzer bir yaklaĢım daha önce çekim sezmede (Song and Ra 2001) kullanılmıĢtır.

o Baskın kümeler (Pavan and Pelillo 2007) ile sahne sınırlarına karar verme.

Üçüncü yöntem baskın kümeler ile video sahne sezme yöntemidir. Çizge temelli bir yöntem olan baskın kümeler yöntemi (Pavan and Pelillo 2007), bu çalıĢmada video sahne sezme uygulaması için kullanılmıĢtır. Bir önceki paragrafta açıklanan çizge üleştirme temelli video sahne sezme yöntemindeki kullanım ile bu yöntemdeki kullanım birbirinden tamamen farklıdır. Bir önceki çalıĢmada çok boyutlu uzaydaki örüntüleri iki topağa (sahne sınırı ve sahne sınırı değil) yerleĢtirmek için kullanılmaktadır. Baskın kümeler ile video sahne sezme yönteminde ise çekimleri sahnelere yerleĢtirmek için kullanılmaktadır. Özet olarak önerilen yöntemde üç önemli nokta bulunmaktadır:

(21)

6

Baskın kümeler yöntemi (Pavan and Pelillo 2007) ile çekimler video sahnelerine yerleĢtirilmiĢtir.

Zamansal bütünlüğü sağlamak için iki aĢamalı bir yöntem önerilmiĢtir.

Ġki farklı bölütleme yaklaĢımı önerilmiĢtir: Sıralı yaklaĢım ve ağaç yaklaĢımı.

Tez çalıĢması kapsamında araĢtırılan bir diğer konu baskın kümeler yönteminin (Pavan and Pelillo 2007) video içerik analizinde farklı kullanım alanlarıdır. Bu amaç ile farklı tip videolarda (Haber, reklam, çizgi film, basketbol, belgesel) deneyler yapılmıĢtır.

Görsel içeriğe göre oluĢturulan bir çizge üzerinde baskın kümeler yöntemi kullanılarak sezilen çekimlerin özellikleri araĢtırılmıĢtır. Özellikle haber videolarında ve reklam kuĢağı videolarında baskın kümelerin zamansal video bölütlemede kullanılabileceği sonucuna ulaĢılmıĢtır.

Tez çalıĢmasının bölümleri Ģu Ģekilde düzenlenmiĢtir. Bölüm 2’de, MPEG-7 standardı ile ilgili bilgi sunulmuĢtur. Bölüm 3’de, çizge temelli topaklama yöntemleri tanıtılmıĢtır. Bölüm 4’de, zamansal video bölütleme ve video özetleme konuları ile ilgili kaynak özetleri sunulmuĢtur. Çizge temelli çok seviyeli video sahne sezme yöntemi ve deneysel sonuçları Bölüm 5’de, çizge üleĢtirme temelli video sahne sezme yöntemi ve deneysel sonuçları Bölüm 6’da ve baskın kümeler ile video sahne sezme yöntemi ve deneysel sonuçları Bölüm 7’de detaylı olarak açıklanmıĢtır. Bölüm 8’de baskın kümeler ile video içerik analizi çalıĢması ve deneysel sonuçları sunulmuĢtur. Bölüm 9’da ise önerilen yaklaĢımlara iliĢkin genel bir değerlendirme yapılmıĢtır.

(22)

7

2. MPEG-7 ÇOKLU ORTAM ĠÇERĠK TANIMLAYICI ARAYÜZÜ¹

2.1 MPEG-7’ye GiriĢ

Günümüzde geliĢen sayısal iletiĢim sayesinde çoklu ortam içerik üstel bir Ģekilde artmaya devam etmektedir. Böylece görsel ve iĢitsel verilerin tutulduğu çok büyük çapta veri tabanları oluĢturulmuĢtur. Böylesi büyük çaptaki verinin gerekli dizinleme iĢlemleri yapılarak istemcilerin kullanımına açılması gerekmektedir. Saklanacak ve dizinlenecek verinin boyutuna bağlı olarak, doğru ve hızlı dizinleme iĢi büyük bir sorun haline gelmektedir. Sorunun otomatik bir yol bulunarak çözülmesi amacı ile MPEG-7 standardı oluĢturulmuĢ ve geliĢtirilmeye devam edilmektedir.

OluĢturulmuĢ olan büyük çaptaki sayısal verinin dizinlenmesi ilk önceleri metin düzenleyicisi kullanan iĢletmenler tarafından yapılıyordu. Doğal olarak verinin büyümesi ile oluĢan hatalar çoğalıyor ve giderek dizinleme iĢlemi çok daha zor bir hal alıyordu. Verinin hızla büyümesi dizinleme iĢinin iĢletmenler tarafından yapılmasını iki nedenden dolayı olanaksız kılıyordu. Birinci neden, artan içeriğin dizinlenme iĢinin giderek daha fazla maliyet getirmeye baĢlamasıydı. Bir diğer sorun ise dizinlemede kullanılacak tanımlayıcıların oluĢturulduğu yere göre öznellik içermesiydi. Özellikle bu ikinci sorun, verilerin tam olarak doğru bir Ģekilde dizinlenip dizinlenmediği konusunda bir belirsizlik yaratıyordu. Böylece dizinlemenin otomatik olarak ve her durumda aynı olacak kriterlere göre yapılması fikri doğdu ve bu konuda çalıĢmalara baĢlandı.

Dizinlemenin insanlar tarafından değil de otomatik olarak yapılması temel olarak üç ana kazanım sağlayacaktı:

Dizinleme tamamen otomatik olarak yapılacaktı.

Tanımlayıcılar tamamen nesnel bir Ģekilde belirlenecek ve her hangi bir öznel etki altında kalmayacaktı.

Görsel ve iĢitsel veriyi çok daha uygun bir içerik ile dizinleyecekti.

_______________________________________

1 Bu bölüm (Manjunath et al. 2002) adlı kaynaktan faydalanılarak hazırlanmıĢtır.

(23)

8

Problemin tanımı ve çözümü için MPEG (Moving Picture Experts Group) 1996 yılında ilk adımı attı. Böylece MPEG-7 adı altında yeni standardın geliĢtirilme süreci baĢlamıĢ oldu. Bundan önceki standartlar olan MPEG-1, MPEG-2 ve MPEG-4 içeriğin uygun bir Ģekilde sıkıĢtırılıp saklanmasını sağlar ve kısaca “bitler” (the bits) diye adlandırılır.

MPEG-7 ise bu içerik hakkındaki bilgiyi içeren bir standarttır ve “bitler hakkındaki bitler” (the bits about the bits) diye adlandırılır.

2.1.1 Temel tasarım ilkeleri

MPEG-7 standardı hazırlanırken bazı temel tasarım ilkeleri belirlenmiĢtir.

GeniĢ uygulama alanı: Gerçek zamanda üretilen veya üretilmeyen her çeĢit görsel iĢitsel veri üzerinde uygulanabilir olmalıdır.

Ġçerik ile iliĢkili: Kullanılacak olan tanımlamaların oluĢturulmasına izin vermelidir.

Farklı içerik Ģekillerine uygunluk: Video, ses resim veya üç boyutlu modeller de olmak üzere her çeĢit görsel iĢitsel veriyi kapsamalıdır.

Ortamdan bağımsız olma: Verinin saklandığı ortama bağlı olmayacaktır.

Nesne tabanlı olma: Ġçerik nesne tabanlı olarak tanımlanacaktır.

Veri biçimi bağımsızlığı: SıkıĢtırılmıĢ veya sıkıĢtırılmamıĢ her çeĢit veri biçimi üzerinde çalıĢabilmelidir (MPEG-1, MPEG-2, MPEG-4 vb.).

Soyutlama düzeyi: Tanımlayıcıların tanımlama yetenekleri farklı düzeylerde oluĢturulabilmelidir. Daha düĢük düzeylerde görsel verinin istatistiksel özelliklerinden tanımlayıcı elde edilebileceği gibi daha yüksek düzeylerde anlam bilimsel analizler sonucu ortaya çıkacak tanımlayıcılar da tanımlanabilmelidir.

GeniĢletebilirlik: GeliĢmelere uygun geniĢlemeye açık bir yapıda olmalıdır.

Bütün bu ilkelerin baĢında dikkat edilecek bir baĢka temel yaklaĢım da, standart oluĢturulurken olması gereken en az tanımlama ve kısıtlamanın yapılmasıdır. Böylece zaman içerisinde geliĢerek çok daha iyiye ulaĢan bir standart kurulmuĢ olur.

(24)

9 2.1.2 MPEG-7 araçlarının tipleri

MPEG-7’nin kullandığı araçlar Ģu Ģekilde açıklanabilir:

Tanımlayıcılar: Tanımlayıcı bir veriye ait olan herhangi bir öznitelik bilgisini kendi üzerinde saklayan ve gösteren bir elemandır. Örnek olarak bir videoda yer alan çerçeveler arasındaki renk değiĢim dağılımı gösterilebilir.

Tanımlama Şemaları: Hem tanımlayıcılar ve hem de tanımlama Ģemaları arasında yer alan iliĢkileri betimler.

Tanımlama Belirleyici Dil: Tanımlayıcıların ve tanımlama Ģemalarının yaratılmasına ve aralarındaki iliĢkilerin kurulmasına olanak sağlayan ve XML (Extensible Markup Language) tabanlı geliĢtirilmiĢ bir dildir.

Sistem Araçları: Tanımlayıcıların depolanması, iletimi ve yönetimi ile ilgili geliĢtirilmiĢ araçlardır.

2.1.3 MPEG-7 bölümleri

MPEG-7 sekiz ana bölümden oluĢmaktadır. AĢağıda bölümler ile ilgili kısa açıklamalar yer almaktadır:

Bölüm 1. Sistem: MPEG-7 standardının doğru bir Ģekilde çalıĢabilmesi için gerekli olan tanımlayıcıların uygun bir Ģekilde saklanması ve iletimi için gerekli olan araçların tanımlamalarını ve özelliklerini içerir.

Bölüm 2. Tanımlama Belirleyici Dil: Yeni tanımlayıcı ve tanımlama Ģemalarının yaratılması için gerekli olan dilin özelliklerini içerir.

Bölüm 3. Görsel: Görsel bilginin yardımı ile elde edilen tanımlayıcı ve tanımlama Ģemaları hakkındaki özellikleri içerir.

Bölüm 4. İşitsel: ĠĢitsel bilginin yardımı ile elde edilen tanımlayıcı ve tanımlama Ģemaları hakkındaki özellikleri içerir.

(25)

10

Bölüm 5. Soysal Varlıklar ve Çoklu Ortam Tanımlama Şemaları: Soysal varlıkların (iĢitsel olmayan veya sadece videoya özel) tanımlayıcıları ve tanımlama Ģemaları hakkındaki özellikleri içerir.

Bölüm 6. Kaynak Yazılım: Standart içinde yer alan araçların kaynak yazılımını içerir.

Bölüm 7. Uyum Testi: Tanımlayıcıların ve iletiĢim uçlarının uyum testi yöntemlerini içerir.

Bölüm 8. MPEG-7 Tanımlamalarının Çıkarımı ve Kullanımı: Tanımlamaların çıkarımı için gerekli olacak bazı yöntemleri içerir.

2.1.4 Uygulama alanı

MPEG-7 günümüzde çok geniĢ bir uygulama alanına sahiptir. Eğitim, biyomedikal uygulamalar, mimarlık, film, video ve radyo arĢivleri, coğrafik bilgi sistemleri, uzaktan algılama, eğlence, turizm, alıĢ veriĢ, gazete ve diğer yayınlar, uygulama alanlarından bazılarıdır.

2.2 Görsel Tanımlayıcılar

Görsel veri, grafikler, resimler ve videolardan oluĢur. Görsel tanımlayıcılar dört ana baĢlık altında sınıflandırılmıĢtır: Renk tanımlayıcıları, doku tanımlayıcıları, Ģekil tanımlayıcıları ve hareket tanımlayıcıları. Ayrıca bunların dıĢında insan yüzü için geliĢtirilmiĢ bir yüz tanımlayıcısı da yer almaktadır.

2.2.1 Renk tanımlayıcıları

Uygulamada altı adet renk tanımlayıcısı bulunmaktadır:

Renk Uzayı Tanımlayıcısı: Renk uzayı seçimine olanak tanır. MPEG-7 içerisinde RGB (Red Green Blue), YCbCr (Luminance and Chrominance Components), HSV (Hue Saturation Value), HMMD (Hue Max Min Diff) ve tek renkli renk uzayları kullanılır.

(26)

11

Baskın Renk Tanımlayıcısı: Olasılıksal verilerden faydalanarak baskın olan rengin belirlenmesine izin verir.

Ölçeklenebilir Renk Tanımlayıcısı: HSV renk uzayının histogramı kullanılarak elde edilir.

Resimlerin Grupları veya Çerçevelerin Grupları Tanımlayıcısı: Ölçeklenebilir renk tanımlayıcısının grup resimlere ve video çerçeve gruplarına uygulanmıĢ halidir.

Renk Yapısı Tanımlayıcısı: Renk histogramına dayanılarak çıkarılır.

Renk Yerleşim Planı Tanımlayıcısı: Bir bölgede veya tüm resimdeki renklerin uzamsal (spatial) yapısı çıkarılmaya çalıĢılır.

2.2.2 Doku tanımlayıcıları

Uygulamada üç adet doku tanımlayıcısı bulunmaktadır:

Türdeş Doku Tanımlayıcısı: Her bir bölümün ortalama enerjisini ve farklı frekanslardaki dağılımlarını kullanarak tanımlama yapar.

Doku Tarayan Tanımlayıcı: Ġnsan algılamasına benzer bir durumda çalıĢır.

Dokunun düzgünlüğü ve yönelimi dikkate alınır.

Kenar Histogram Tanımlayıcısı: Her bir resimdeki her bir bölüm içinde yer alan kenarların histogramı tutularak doku bilgisi olarak saklanır.

2.2.3 ġekil tanımlayıcıları

Uygulamada üç adet Ģekil tanımlayıcısı bulunmaktadır:

Alan Tabanlı Şekil Tanımlayıcısı: Ġki boyutlu bir nesnenin veya alanın piksel dağılımı tanımlanır. ġekil içerisinde boĢluklar olabilir.

Çevrit (contour-shape) Tabanlı Şekil Tanımlayıcısı: Bir nesnenin çevriti üzerinden tüm Ģekil tanımlanmıĢ olur. Bu nedenle Ģeklin içerisinin tam olarak dolu olması gerekir.

Üç Boyut Şekil Tanımlayıcısı: Üç boyutlu nesnelerin çokgenler yardımı ile tanımlanması yapılır.

(27)

12 2.2.4 Hareket tanımlayıcıları

Uygulamada dört adet hareket tanımlayıcısı bulunmaktadır:

Hareket İşlekliği Tanımlayıcısı: Bir videoda yer alan hareketin hızı, yönü ve uzamsal Ģekli ile bilgileri tanımlar.

Kamera Hareketi Tanımlayıcısı: Kameranın üç boyutlu uzaydaki hareketlerini tanımlar.

Hareket Gezingesi (trajectory) Tanımlayıcısı: Bir nesnenin belirli bir zaman içerisinde uzaydaki yer değiĢtirme gezingesini tanımlar.

Parametrik Hareket Tanımlayıcısı: Herhangi bir parametrik hareket modeline göre tanımlama yapar.

2.3 ĠĢitsel Tanımlayıcılar

ĠĢitsel tanımlayıcılar iki sınıfa ayrılmaktadır. Birincisi soysal olarak yapılandırılmıĢ düĢük seviyeli araçlardır ve her tip iĢitsel veriye uygulanır. Bu sınıftaki veriler daha çok iĢaretin spektral bilgisinden yola çıkılarak tanımlanır. Uygulama tabanlı olan daha yüksek seviye araçlar ise sadece belirli durumlarda kullanılır. Ġkinci sınıfa ait bu durumlar arasında melodi tanımlama, konuĢma anlama ve konuĢmacı tanımlama sayılabilir.

(28)

13

3. ÇĠZGE TEMELLĠ TOPAKLAMA YÖNTEMLERĠ

Topaklandırma (clustering) için kullanılabilecek bir yaklaĢım çizge üleĢim (graph partitioning) yöntemidir. Topaklanacak her bir eleman çizge üzerinde bir düğüm ve elemanlar arasındaki benzerlik değerleri de düğümleri birleĢtiren kenarların ağırlık değerleri olur. Kenar bilgileri yönsüzdür. Çizge belirli kurallara göre birden fazla çizgeye üleĢtirilir. Her bir üleĢmiĢ çizge de bir topağı temsil eder. Konu ile ilgili geliĢtirilmiĢ yöntemlerden bazıları Ģu Ģekilde sıralanabilir: En küçük kapsayan ağaç ile topaklama (Zahn 1971), düzgelenmiĢ kesimler (Shi and Malik 2000), ön plan kesimi (Perona and Freeman 1998), en küçük-en büyük kesim (Ding et al. 2001), oran kesimi (Wang and Siskind 2003), baskın kümeler (Pavan and Pelillo 2007), ağırlıklı çekirdek k-ortalama (Dhillon et al. 2007), indirgenmiĢ çizge tekniği (Sperotto and Pelillo 2007).

Ġleriki bölümlerde bu yaklaĢımlardan bazıları kısaca açıklanacaktır.

3.1 Temel Tanımlar

Çizge kuramı ile ilgili daha detaylı bilgi literatürde (Ceyhun 1976) bulunmaktadır. Bu bölümde ilerideki bölümlerde gerekli olabilecek bazı temel tanımlara yer verilmiĢtir.

Ağırlıklı ve yönsüz bir çizge G, düğümlerden ve bu düğümleri birleĢtiren kenarlardan oluĢmaktadır. N adet düğüm V kümesini oluĢturmaktadır. Kenarların her birinin belirli bir ağırlığı vardır ve i ile j düğümünü birleĢtiren bir kenarın ağırlık değeri e(i,j) ile gösterilmektedir. Kenarlar da E matrisini E(i,j)=e(i,j) olmak üzere oluĢturmaktadır. E matrisi N x N simetrik bir matristir ve E(i,i) =0’dır. Ağırlıklı ve yönsüz temsili bir çizge ġekil 3.1’de görülmektedir.

Ağırlıksız ve yönsüz bir çizgede yer alan bir düğüm kümesi içerisindeki her bir düğüm aynı kümede yer alan diğer tüm düğümler ile arasında bir kenara sahip ise düğüm örgütü (clique) olarak adlandırılır. Ağırlıksız ve yönsüz bir çizgede baĢka hiçbir düğüm örgütünün içerisinde yer almayan ve düğüm sayısı en fazla olan düğüm örgütüne en büyük düğüm örgütü (maximum clique) denir.

(29)

14

ġekil 3.1 Ağırlıklı ve yönsüz bir çizge ve E matrisi

3.2 DüzgelenmiĢ Kesimler

Shi and Malik (2000) düzgelenmiĢ kesimler yaklaĢımını önermiĢlerdir. Çizge G öz yineli (recursively) olarak iki ayrıĢık kümeye (düğüm kümeleri), A ve B, A U B=V, A ∩ B= olmak üzere, EĢitlik (3.1)’de tanımlanan Ncut değeri en küçük olacak Ģekilde üleĢtirilir.

V) assoc(B,

B) cut(A, V)+

assoc(A, B) cut(A,

= ) B A, (

Ncut . (3.1)

EĢitlik (3.1)’de yer alan çizge kesim değeri cut(.) ve çizge birliktelik değeri assoc(.) sırası ile EĢitlik (3.2) ve EĢitlik (3.3)’de tanımlanmıĢtır.

B j A, i

j) e(i,

= ) B A, (

cut . (3.2)

V j A, i

j) e(i,

= ) V A, (

assoc . (3.3)

Ncut değeri en küçük olacak Ģekilde bir çizgeyi iki çizgeye üleĢtirmek için kullanılacak çözüm yaklaĢımı ilgili kaynakta (Shi and Malik 2000) açıklanmaktadır. Yöntemde özvektör (eigenvector) hesabı yapılmaktadır.

(30)

15 3.3 En Küçük En Büyük Kesim

En küçük, en büyük kesimdeki amaç iki topak arasındaki benzerliği en küçüğe indirgeyip, topak içindeki benzerliği en büyük yapmaktır (Ding et al. 2001). Çizge G öz yineli olarak iki ayrıĢık kümeye, A ve B, A U B=V, A ∩ B= olmak üzere, EĢitlik (3.4)’de tanımlanan Mcut değeri en küçük olacak Ģekilde üleĢtirilir.

B) assoc(B

B) cut(A, A)+

assoc(A B) cut(A,

= )

(A,B , ,

Mcut . (3.4)

Bu kesim tanımı, düzgelenmiĢ kesimlere benzemektedir. EĢitlik (3.1) ve EĢitlik (3.4) arasındaki fark paydada yer almaktadır.

3.4 Baskın Kümeler

Pavan ve Pelillo (2007) veri topaklaması için baskın kümeler (dominant sets) yöntemini önermiĢlerdir. ÇalıĢmada topağın, çizge teorisi temelli tanımı yapılarak, iki koĢul öne sürülmüĢtür: 1) Topak içindeki tüm nesneler birbirine benzemelidir. 2) Topağın dıĢındaki tüm nesneler topaktaki nesnelere benzememelidir. Baskın kümeler yönteminin ağırlıklı ve yönsüz bir çizgedeki en büyük düğüm örgütünü bulma problemi ile olan iliĢkisi ilgili kaynakta (Pavan and Pelillo 2007) açıklanmıĢtır.

S boĢ olmayan bir küme veS V olmak üzere, bir i düğümü bu kümeye ait olsun, i S. Bir i düğümünün S kümesine göre ortalama ağırlık derecesini veren awdegS(i) fonksiyonu, EĢitlik (3.5)’de tanımlanmıĢtır:

S j

S e(i, j)

= S (i) 1

awdeg . (3.5)

Ayrıca S kümesi içerisinde olmayan bir j düğümü için, j S, S EĢitlik (3.6)’da tanımlanmıĢtır:

(31)

16 (i)

j) e(i,

= j)

(i, _S

s awdeg . (3.6)

S fonksiyonu i ve j düğümleri arasındaki benzerliği i düğümünün S kümesi içerisindeki düğümlere olan ortalama benzerliğine göre ölçer. S kümesi içerisindeki bir i düğümünün S kümesine göre ağırlığı EĢitlik (3.7)’de tanımlanmıĢtır:

. ,

) ( ) , (

, 1 ,

1 ) (

{i}

\

{i}

\ {i}

\ j i a j diger S Eger i

a

S j

S S

S (3.7)

S kümesinin toplam ağırlığı EĢitlik (3.8)’de tanımlanmıĢtır:

S i

S(i) a

=

A(S) . (3.8)

BoĢ olmayan bir S çizge düğümleri kümesinin (S V), boĢ olmayan ve A(T)>0 olan bir T çizge düğümleri kümesini kapsadığını kabul edelim, T S. S kümesi aĢağıdaki iki koĢulu sağlarsa baskın küme olarak adlandırılır.

1.a_S(i) 0, i S için, 2. a_{S }_{_i_}(i) 0, i S için.

Yukarıda yer alan iki koĢul, daha önce açıklanan iki koĢula karĢılık gelmektedir. Birinci koĢul bir topak içerisindeki nesnelerin benzerliğini, ikinci koĢul topak dıĢındaki nesnelerin topak içindeki nesnelere benzemezliğini sağlamaktadır.

Baskın kümenin yukarıda açıklanan eĢitlikler yolu ile bulunması çok fazla hesaplama yükü getirmektedir. Özellikle çizgedeki düğüm sayısına bağlı olarak uygulanabilir bir çözüm olmayabilir. Baskın kümenin bulunması için kullanılabilecek bir baĢka yaklaĢım replikatör dinamiği (replicator dynamics) olarak adlandırılan düzgün ve sürekli eniyileme yönteminin (straightforward continuous optimization techniques) kullanılmasıdır (Pavan and Pelillo 2007). V düğüm kümesi içerisindeki düğümlerin ağırlıklı karakteristik vektörü x ile gösterilmiĢtir. Vektördeki değer 0’dan büyük olduğu zaman o düğümün baskın kümenin içinde olduğu kabul edilir. Bunun için x vektörünün

(32)

17

ilk değeri (t=0 anında) atanır. Zaman içerisinde x vektörü, EĢitlik (3.9) kullanılarak değiĢime uğrar. ArdıĢık iki zaman aralığındaki değiĢim yeteri kadar küçük olduğunda iĢlem sonlanır. ĠĢlem sonlandığı andaki x değerlerine göre çizge iki çizgeye üleĢtirilir.

) ( ) (

) ) (

( ) 1

( x t Ex t

t Ex x t

x_i _i _T ⁱ . (3.9)

Bu yöntemin sıradüzensel (hierarchical) bir Ģekilde çalıĢması literatürde (Pavan and Pelillo 2003) mevcuttur.

3.5 En Küçük Kapsayan Ağaç Ġle Topaklama

Çizge üleĢtirme için bir baĢka yaklaĢım da en küçük kapsayan ağaç (minumum spanning tree) yönteminin kullanılmasıdır (Zahn 1971). Öncelikle bir çizgeye ait olan en küçük kapsayan ağaç bulunur. Bu ağaç üzerindeki kenarlardan benzerlik değeri belirli bir eĢik değerinden küçük olanlar kaldırılır. Elde edilen her bir ağaç bir topak olarak kabul edilir.

3.6 Diğer

Çizge üleĢtirmede özvektör hesaplamasının iĢlem yükünden kaçmak için kullanılabilecek bir yaklaĢım, ağırlıklı çekirdek k-ortalama (Dhillon et al.2007) yöntemidir. Dhillon et al. (2007) ağırlıklı çekirdek k-ortalama kriteri ile ağırlıklı ve yönsüz çizge üleĢtirme kriteri arasındaki matematiksel eĢitliği göstermiĢlerdir. Her iki problem de iz en büyütme problemi (trace maximization problem) haline getirilebilir.

Böylelikle özellikle özvektör hesaplanmasının hesap gücü açısından çok yüksek olduğu durumlarda ağırlıklı çekirdek k-ortalama yöntemi, ilgili çizge üleĢtirme yöntemi yerine kullanılarak daha hızlı sonuç alınabilir. Çizge üleĢtirme iĢlemini hızlandırabilecek bir baĢka yaklaĢım da indirgenmiĢ çizge (reduced graph) tekniğidir (Sperotto and Pelillo 2007). Öncelikle asıl çizge Szemerédi’nin ön savına (lemma) dayanılarak üleĢtirilir ve küçük parçalara ayrıĢtırılır. Bu parçalardan indirgenmiĢ çizge meydana getirilir.

ĠndirgenmiĢ çizge üzerinde çizge temelli üleĢtirme iĢlemi uygulanır. Elde edilen sonuçlar asıl çizgeye eĢlenerek topaklar belirlenmiĢ olur.

(33)

18

4. ZAMANSAL VĠDEO BÖLÜTLEME VE VĠDEO ÖZETLEME

4.1 Temel Tanımlar

ġekil 4.1 BölütlenmiĢ video yapısı

Çerçeve: Bir videonun zamansal düzlemde bölünebileceği en küçük yapı taĢı veya bir baĢka deyiĢ ile anlamlı en küçük birimidir (Davenport 1991). Tezde i numaralı çerçeve fr_i (frame) ile gösterilmiĢtir (ġekil 4.1). Buradaki i bir çerçevenin video içerisindeki kaçıncı çerçeve olduğunu gösteren sayıdır.

Çekim: Birden fazla sayıda peĢ peĢe yer alan çerçevelerin oluĢturduğu bir birimdir.

Ġçerisindeki çerçeveler arasında zamansal düzlemde bir görsel süreklilik bulunmaktadır.

Tezde i numaralı çekim sh_i (shot) ile gösterilmiĢtir (ġekil 4.1). Bir çerçeve ile çekim arasında Ģu Ģekilde bir iliĢki vardır: Video içerisinde yer alan her bir çerçeve ancak bir çekimin sınırı içerisinde yer alabilir. Ġlk çerçevesi frm ve son çerçevesi fr_n olan bir çekim (4.1)’deki gibi gösterilebilir:

sh_i = { frm , fr_m+1 ,..., fr_n-1 , fr_n} (4.1)

Geçiş: Bir çekimden bir çekime görüntüsel değiĢimdir (Belkaya 2001). Bu metin içerisinde tr_i (transition) ile gösterilecektir. Buradaki i bir geçiĢin video içerisindeki kaçıncı geçiĢ olduğunu gösteren sayıdır. Herhangi bir geçiĢ (4.2)’deki gibi gösterilebilir:

(34)

19

tr_i = {frk , fr_k+1 ,..., fr_k+n-1 , fr_k+n} (4.2)

Bir geçiĢ ile birleĢtirdiği iki çekim arasında Ģu Ģekilde bir iliĢki vardır (ġekil 4.2):

GeçiĢimiz k numaralı çerçeveden baĢlayıp k+n numaralı çerçevede bitiyor olsun. Bir geçiĢin ilk m adet çerçevesi birinci çekime, kalan çerçeveler ise ikinci çekime aittir (1≤m ≤n). Eğer n=1 olursa en kısa süreli geçiĢ olan ani geçiĢ elde edilir. Bu durumda geçiĢ içerisindeki birinci çerçeve önceki çekime, ikinci çerçeve ise sonraki çekime ait olur. Eğer n>1 olursa dereceli geçiĢ elde edilmiĢ olur.

ġekil 4.2 GeçiĢ yapısı

Anahtar Çerçeve: Bir çekimi en iyi Ģekilde temsil eden çerçeve veya çerçevelerdir.

Çekimlerin gruplandırılmasında ve/veya içerik dizinlemede kullanılır. Genellikle, bir çekimin içerisinde yer alan çerçevelerden bir veya birden fazlasının seçilmesinden oluĢur. Tezde anahtar çerçeve/çerçeveler KF_i (key frame) ile gösterilmiĢtir (ġekil 4.1).

Buradaki i bir anahtar çerçevenin/çerçevelerinin ait olduğu çekimin numarasıdır.

KFi = { kfi,1, kfi,2, ..., kfi,y-1, kfi,y } (4.3)

Sahne: Bir veya birden fazla çekimden oluĢan, içerisindeki çekimler arasında anlamsal bakımdan bir iliĢki bulunan ve zamansal olarak video içerisinde yer alan en büyük birimdir. Sahneler birleĢerek videoyu oluĢtururlar. Tezde i numaralı sahne sc_i(scene) ile gösterilmiĢtir (ġekil 4.1). Herhangi bir sahne (4.4)’deki gibi gösterilebilir:

sc_i = { shk , sh_k+1 ,..., sh_k+n-1 , sh_k+n} (4.4)

(35)

20 4.2 Çekim Sezme

4.2.1 Problem tanımı

Zamansal video bölütleme iĢleminin temel basamaklarından birisi çekim sezme iĢlemidir. Çekim sezme problemi çekim sınırlarının, baĢka bir deyiĢ ile geçiĢlerin, çerçeveler cinsinden belirlenmesi iĢlemidir. Daha önce de belirtildiği gibi bir çekim, içerisindeki çerçeveler arasında zamansal düzlemde görsel süreklilik bulunan bir birimdir. Eğer çekim içerisindeki çerçeveler arasında görsel süreklilik var ise ardıĢık çerçeveler arasında görsel olarak çok fazla fark olmaması gerekmektedir. Bu varsayımdan yola çıkarak problem Ģu Ģekilde çözülebilir: Çerçeveler arasında bir görsel farklılık fonksiyonu ƒ(fr_k, fr_n) tanımlanır. Bu fonksiyondan elde edilen değerlerden belirli veya uyarlanır bir T eĢik değerinden fazla olan çerçevede/çerçevelerde çekim sınırı/sınırları olduğu kabul edilir:

ƒ( fr_k , fr_n ) > T → tr_i= { fr_k ,..., frn } (4.5)

Yuan et al. (2007) çekim sezme problemine örüntü tanıma bakıĢ açısından biçimsel bir tanım getirmiĢlerdir. Bu tanıma göre, görsel içerik kullanılarak çalıĢan bir çekim sezme yöntemi üç temel elemana sahiptir:

Görsel içeriğin betimlenmesi,

Görsel içerik sürekliliğinin hesaplanması, Süreklilik değerlerinin sınıflandırılması.

Çekim sezme iĢleminde iki çeĢit hata oluĢabilmektedir. Aslında aynı çekime ait olan çerçeveler, kullanılan görsel benzerlik fonksiyonun değerine göre ayrı çekimlere gruplanabilirler. Böylece YANLIŞ adı verilen bir hata ortaya çıkar. Bu hatayı doğuran iki ana etken vardır (Hanjalic 2002):

a.) Nesne veya kamera hareketinden kaynaklanan görsel değiĢimler.

b.) Ani aydınlatma değiĢimleri.

(36)

21

Bu iki durum da bir çekimin oluĢturulması sürecinde kamera veya çevre etkenlerden oluĢmaktadır.

Çekim sezme iĢleminde oluĢan baĢka bir hata da, mevcut bir geçiĢin bulunamamasıdır.

Böylece KAÇIRMA adı verilen bir hata ortaya çıkar. Bu hatanın nedenlerinden birisi videonun kurgu aĢamasından gelmektedir. Kurgu aĢamasında çekimler birbirlerine birleĢtirilirken farklı geçiĢ teknikleri kullanılmaktadır. Bu geçiĢ tekniklerinin cinsine göre çerçeveler arasındaki görsel değiĢim çok az olabilir ve bu da bir geçiĢin kaçırılmasına neden olur.

Çekimler arasındaki geçiĢler ani ve dereceli çekim geçiĢleri olmak üzere iki farklı Ģekilde olmaktadır. Ani geçiĢler iki ayrı kamera çekimi sonucu elde edilen video çerçevelerinin birbiri ardına doğrudan eklenmesi sonucu elde edilir. Dereceli geçiĢler ise iki ayrı kamera çekimi ile elde edilen video çerçeve dizisinin ilgili çerçevelerini iki ayrı giriĢ verisi olarak alan bir fonksiyonun çıktısı olarak elde edilmiĢ video çerçevelerinden oluĢur. Dereceli geçiĢler bu fonksiyonun Ģekline göre farklılıklar gösterebilir. Dereceli çekim geçiĢleri zincirleme (dissolve), dereceli açılmalı (fade in), dereceli kararmalı (fade out) ve süpürmeli (wipe) çekim geçiĢleri olarak çeĢitlendirilebilir (Güllü vd. 2004). Dereceli geçiĢlerde geçiĢ süresi boyunca oluĢan video çerçeveleri her iki kamera çekiminin özeliklerini de belirli derecelerde taĢırlar. Bu neden ile dereceli çekim geçiĢlerinin algılanması ani geçiĢlerin algılanmasına göre daha zor olmaktadır. Çekim geçiĢ tipleri ile ilgili örnekler ġekil 4.3, ġekil 4.4, ġekil 4.5 ve ġekil 4.6’da verilmiĢtir (Örneklerin alındığı video, Adı: Exotic Terrane, Sponsor:

United States Geological Survey, Contributing Organization: Carneige Mellon University – Informedia Project, Kaynak: The Open Video Project (http://www.open- video.org, 2006)).

Bir çekim sezme yönteminin baĢarısının testi için yukarıda bahsettiğimiz iki hatayı da kapsayan iki metrik kullanılmaktadır (Urhan vd. 2004):

HATIRLAMA (RE- Recal) = DO / (DO +KA) (4.6) KESİNLİK (PR - Precision) = DO / (DO+YA) (4.7)

(37)

22

EĢitlik (4.6) ve EĢitlik (4.7)’de yer alan DO, bir videoda doğru olarak sezilen toplam çekim sayısını; KA, bir videoda sezilemeyen toplam çekim sayısını; YA, bir videoda yanlıĢ olarak sezilen toplam çekim sayısını gösterir (Urhan vd. 2004). RE ve PR metrikleri bu konuda yapılan birçok çalıĢmada (Gargi et al. 2000, Porter 2004, Urhan vd. 2004, Bescos et al. 2005, Boccignone et al. 2005) çekim sezme yöntemlerinin baĢarısının testi için kullanılmıĢtır. Hanjalic (2007) zamansal video bölütleme baĢarısının teorik sınırının keĢfi için entropi temelli bir yaklaĢım önermiĢtir.

ġekil 4.3.a.b.c.d Ani çekim geçiĢi çerçeveleri¹

1a-b: Bir geçiĢe ait iki çerçeve, c-d: bir geçiĢe ait iki çerçeve

ġekil 4.4 Kararmalı - açılmalı dereceli çekim geçiĢi

(38)

23

ġekil 4.5 Zincirleme çekim geçiĢi

ġekil 4.6 Süpürmeli çekim geçiĢi

4.2.2 GeliĢtirilmiĢ yöntemlere genel bakıĢ

Çekim sezme probleminin çözümü konusunda pek çok çalıĢma yapılmıĢ ve belirli bir baĢarı yakalanmıĢtır. Yapılan çalıĢmaların birinde (Bescos et al. 2005), yaklaĢık olarak 1500 adet ani ve 250 adet de dereceli geçiĢ bulunan bir veri setinde yapılan deneyler sonucunda; ani geçiĢler için %99 hatırlama ve %98 kesinlik, dereceli geçiĢler için ise

%92 hatırlama ve %81 kesinlik değerlerine ulaĢılmıĢtır. Yine benzer boyuttaki veri setinde yapılan baĢka bir çalıĢmada da yaklaĢık sonuçlara ulaĢılmıĢtır (Boccignone et al.

2005): Ani geçiĢler için %97 hatırlama ve %95 kesinlik, dereceli geçiĢler için ise %92 hatırlama ve %89 kesinlik.

NIST (National Institute of Standards and Technology) (http://www.nist.gov/, 2006) sponsorluğunda düzenlenen TREC (Text Retrieval Conference) (http://trec.nist.gov/,

(39)

24

2006) konferansları bilgi geri eriĢimi için büyük test kümelerinin kullanıldığı ve çalıĢmaların birbirleri ile karĢılaĢtırılıp sunulduğu konferanslardır (http://www- nlpir.nist.gov/projects/trecvid/, 2006). Video verileri üzerinde bilgi geri eriĢimi için 2003 yılından itibaren TRECVID (TREC Video Retrieval Evaluation) (http://www- nlpir.nist.gov/projects/trecvid/, 2006) çalıĢtayları düzenlenmeye baĢlanmıĢtır (http://www-nlpir.nist.gov/projects/trecvid/, 2006). Bu çalıĢtayın çalıĢma alanlarından birisi de çekim sezme problemidir (Smeaton et al. 2006). TRECVID 2007 çekim sezme sonuçları ilgili kaynakta (Smeaton and Over 2007) bulunmaktadır.

Çekim sezme konusunda, geliĢtirilmiĢ yöntemleri özetleyen kaynaklar (Ahanger and Little 1996, Brunelli et al. 1999, Koprinska and Carrato 2001, Hanjalic 2002, Yuan et al. 2007) bulunmaktadır. Ayrıca bu konuda geliĢtirilmiĢ bazı yöntemlerin karĢılaĢtırma sonuçları da Dailianas et al. (1995), Boreczky and Rowe (1996), Gargi et al. (1998), Gargi et al. (2000) ve (AĢan 2008) adlı kaynaklarda verilmektedir.

Bir sonraki bölümde çekim sezme üzerine yapılmıĢ olan çalıĢmalar sınıflandırılarak özetlenecektir. Çekim sezme yöntemleri öncelikle geçiĢin Ģekline göre iki sınıfa ayrılırlar: Ani ve dereceli geçiĢ sezme yöntemleri. Bu iki sınıf çekim sezme iĢleminde kullanılan verinin Ģekline ve gruplandırma yaklaĢımına göre birbiri ile kesiĢebilen iki alt kümeye daha ayrılmıĢtır: Örüntü betimleme ve gruplandırma yaklaĢımı. Bu tip bir sınıflandırmaya gidilirken topaklama konusundaki bir yayından (Jain et al. 1999) faydalanılmıĢtır.

GeçiĢin Ģekline göre tamamen doğru bir sınıflandırma yapmak oldukça güçtür.

GeçiĢlerin Ģekline göre bir sınıflandırmaya gidilirken daha çok hangi geçiĢin sezimi için tasarlandıkları ve bu geçiĢlerdeki baĢarı ölçütü göz önünde bulundurulmaya çalıĢılmıĢtır. Aynı Ģekilde kullanılan verinin Ģekline göre bir alt küme oluĢturulurken de tamamen doğru bir gruplama yapmak oldukça zordur, çünkü bazı yöntemler birkaç veri Ģeklini bir arada kullanabilmektedirler. Verinin Ģekline göre bir gruplandırmaya gidilirken de; yapılan çalıĢmada yer alan yapılar içerisinde, en fazla orijinallik içeren yapılar göz önünde bulundurulmaya çalıĢılmıĢtır.

(40)

25 4.2.3 Ani geçiĢ sezme yöntemleri

Bu konuda çok fazla çalıĢma bulunmaktadır ve bu neden ile bu bölümde sadece belli baĢlı ani geçiĢ sezme yöntemlerine yer verilmiĢtir.

4.2.3.1. Örüntü betimleme

Bu bölümdeki yöntemlerden bazıları kodlanmamıĢ veri üzerinde çalıĢmaktadır. Bunlara örnek olarak piksel temelli, blok temelli, histogram temelli ve faz bilgisi temelli yaklaĢımlar gösterilebilir. Diğerleri ise MPEG kodlanmıĢ veri üzerinde iĢlem yaparak çalıĢan yöntemlerdir. MPEG kodlama ile ilgili bilgi Tekalp (1995) video sıkıĢtırma standartları ile ilgili bölümde ve Koprinska and Carrato (2001) Bölüm 2.2’de mevcuttur.

4.2.3.1.1 Piksel temelli

Ani geçiĢ sezimi için geliĢtirilmiĢ piksel temelli yöntemlerin ilki Kikukawa and Kawafuchi (1992) tarafından önerilmiĢtir (Hanjalic 2004). Bu yöntemde (Kikukawa and Kawafuchi 1992) peĢ peĢe yer alan iki çerçeve arasındaki piksel değerlerinin ortalama mutlak farkı bir eĢik değeri ile karĢılaĢtırılarak çekim sınırı olup olmadığına karar verilir (Koprinska and Carrato 2001):

) ( / ) 1

) , ( )

, ( 1

( ) ,

( ₁ ₁ U V

v

v u fr v u fr u

fr fr f

V

n n

U n

n . (4.8)

ƒ( fr_n , fr_n+1 ) > T → tr_i= { fr_n , frn+1}. (4.9)

Bu yöntemdeki en büyük sorun kamera ve nesne hareketi sonucu ortaya çıkan küçük bir bölgedeki büyük piksel değiĢimleri ile büyük alandaki küçük piksel değiĢimlerinin ayırt edilemiyor olmasıdır (Porter 2004).

Piksel temelli bir baĢka yaklaĢımda (Otsuji et al. 1991), iki eĢik değeri kullanılarak yukarıda açılanan soruna bir çözüm getirilmeye çalıĢılmıĢtır: