Haber Videolarinda Nesne Tanima
ve Otomatik Etiketleme
Object Recognition
and
Auto-annotation
In
News
Videos
Muhammet
Ba4tan,
Pinar
Duygulu
Bilgisayar
Muihendisligi Boluimui
Bilkent
Universitesi,
Bilkent, Ankara
{bastan, duygulu}@cs.bilkent.edu.trOzetce
olyicde
tanimayapabilecek
sistemlerolmadigi gibi onerilen
sis-temler de genelde ancak birkac sinif nesneyi cokkarma§ik
Bu bcalibsmada bcok sayida etiketlenmibs resim ye video ibceren olaa ...ied anyblee aastddr. B ear§ivlerin
varligindanyararlanilarak
nesne tanimaprobleminedlearan sistemler oanlek kelim
e disorge-yeni bir q6ziim 6inerilmektedir. Nesne tanima problemi, bir denle varolan
systemler
.Bogunlukla
kelmebazlindakl
sorgu-dildenba§ka
bir dile ceviriye benzersekilde,gorselogelerin
ke- mesingetirmektedir.
Bu imlerinelleylmasi,eyen-limelere
cevirisi
seklinde ele alinmaktadir. Buamacla oncelikle
bnainin
gokbiiyiik.olailenedenile yariklasi
verii.
iznitelik
uzayinda temsil edilen gorsel ogeler belli sayidaYaklnrzamanlik
aliymakarlgasstrmietirlkiarokkbiiyiikdboyuttak
gruba ayrilir. Daha sonra, elde edilen gruplarla kelimelerveriin
kzaank
bir altkumesinin
kullailarak
genele dairbilgi-arasindaki
ili§kiler
istatistiksel ceviriyontemiyleogrenilir.
Son verinie
bimesinisa
kusistelrdah hizlye
erbimli
olarak,
bir olasilik tablosu§eklinde
ogrenilen buili§kiler
bir corenilmekteir.
resim iizerindeki
bolitlerin,
ya dabiitiin resmin belli kelimel-qozuimler sunabilmektedir.
erleetiketlenmesinde ve videolardaki
konu§malardan
otomatiklanilanistatsik
dilelegis rel evrityabalar
ke-olarak elde edilen kelimelerin daha dogru video kareleriyle
limle eatiksetlenm
esp
lemine
uyaranm
ini4
56]e§lenmesinde
kullanilir. Deney sonuclari otomatikkonu§ma
daha onceden belli kelimelerleetiketlenmiem
yeri
kumelerinintanimayontemi sonucunda elde
edilmi§
metinbilgisinevekul-lanicilar tarafindan
girilmi§
etiketleresahipyakla§ik
150saatliktarenm
notomatikuolarakiketlenmesindanmii riB
haber videolarini ibceren TRECVID 2004 veri kuimesi uizerindehaberlvideolrini
tanlrinomtkoaakektemsialnmtr.Bi~eren TRECVID 2004 yen kiimesi iizerinde sayede nesne
tanima
problemine
defarkli
bir
yakla§im
sunulmustur.
sunulmu§tur.
Abstract
Ogrenme
a§amasi
icin gereken, belli kelimelerleetiketlenmi§
gorselvern kilmeleri
guinden giine artmaktadir.Ornegin,
in-Wepropose a newapproachtoobjectrecognitionproblemmo- ternettebulunanbircok
resimaqiklamalara
sahiptir.
Corel veri tivatedbythe availabilityoflargeannotated image and video kiumesigibi birkac
kelime ileetiketlenmi§
fotografar§ivleri
bu-collections. Similar to translation from onelanguagetoanother, lunmakadir. Ayrica, bu konudaqali§an
bircok
ara§tirmacinin
thisapproach considers the objectrecognition problem asthe ortakcabasiyla
onemliolyicde
elleetiketlenmi§
veritabanlari translation of visual elements to words. The visual elementsolu§turulmu§tur.
Haber videolarinda anlamsaldiizeyde aramarepresented in feature space are first categorized into a finite set yapmayiozendirenTRECVID[1]bunlardan biridir.
ofblobs. Then,thecorrespondencesbetween the blobs and the Katilimcilar tarafindan
etiketlenmi§
bir grup verinin yanisira words are learnedusing a methodadaptedfromStatistical Ma- otomatikkonu§ma
tanima (OKT) yontemleri [2] sonucuchine Translation. Finally,thecorrespondences,inthe form of a elde edilen metin
bilgisi
de video referans cercevelerine probability table,areused topredict words for particular image (key frame)kar§ilik
gelecekkelimelerin bulunmasi icin kul-regions (region naming), for entire images (auto-annotation), or lanilabilmektedir. Ancak,konu§malarda
resimlerdeki nesneler-to associatetheautomatically generated speechtranscript text den cokazya dahic behsedilmemesi,
nesneadlariyla yapilacakwith the correct video frames(video alignment). Experimental etiketlemelerdebu verikiumesinin
ba§ari
oraninindii§mesine
se-results arepresented on TRECVID 2004 data set, which con-
bep
olmaktadir.sists ofabout 150 hours of news videos associated with manual Bu
qali§ma,
sozii
edilen ikitirverikimesinin kullanilarak annotationsandspeechtranscript text.* resimlerin ve resim uizerindeki
bolitlerin
otomatik1.
Giri§
olarak etiketlenmesini (otomatik resim etiketleme,bolge
etiketleme),
Geli§en
teknoloji ile birlikte resim ve video veritabanlarininboyutlari cok
biiyiimii§
ve anlamsalduizeyde arama yapabile- * otomatikkonu§ma
tanima (OKT) ile elde edilen ke-cek sistemlereihtiyac duyulmustur.
Ote
yandan, nesnetanima limelerin dogru referans cercevelerle eslenmesini ve bilgisayarlagoirme alanmnda
halacyozilememis
zorbin
problemboiylece
bsekil1l'de goisterilen
hizalama problemine olup bu konudakiarabtirmalar
devam etmektedir.Henuiz
genibs (alignment problem)bcziim olubsturulmasini,
di§inda
birqok
kelime(fiil,
sifat, ek,vb)
icerdigi
icin6ni§leme
_ __* sonucundayalnizca nesnelere veya kavramlara denk gelenisim-leranahtar kelimeler
(keyword)
olarakkullanilmi§tir.
(1)
sotoday
itwas anenergized president
CLINTON who Habervideolari
herbiri ayri bir haberden bahsedenhikayelerden
formally presentedhis one point seven three trillion dollar bud- (newsstories)
olu§ur. Buhikayeler, hikaye
b6iitleme
(story
get to the congress and told them there'd be money left over segmentation)metotlari
kullanilarak
elde edilebilir. NIST first of thewhite house a.b.c's sam donaldson (2) ready this (3) tarafindansaglanan ye
herhikayenin ba§langiq
ye
biti§zamaninimorning
hereatthe whitehouse andwhy
not(4)
nextyear's
pro-milisaniye
cinsindengosteren
verilerkullanilarak
herhikayenin
jected
budgetdeficit zero where they've presidental shelf andiqerdigi
referans qerqevelerye
onlara denkgelen
OKTile elde tellthis (5) budget marks the hand ofan era and ended decades edilen kelimeleregitim
ye
testa§amalarindakullanilmi§tir. ofdeficits that have shackled oureconomy paralyzed ourpoli- Referans qerqeveler,genel
renk(RGB,
HSV,LUV)
ye
ayritticsand heldour
people
back(egde)
histogramlari;
referans ercevelerinboliindiigii 5X7'lik
izgaralar
(grid)
da renk(RGB,
HSV,
LUV)
ortalamavestan-$ekil 1: Videodahizalamaproblemi: CLINTON adi gecerken dart sapmadegerleri ile,doku(Gabor) gibi ozniteliklerletemsil ( erceve 1) goriintiisii verilmedigi gibi Clinton
konu§urken
edildi.(cerceve 5) de adi soylenmemektedir. Dolayisiyla, metinbazli
bir arama sisteminde OKT metinleri kullanilarakyapilacak ara- 4. Deney
sonuslari
mada Clinton yerine sunucunun resmine
ula§ilacaktir.
Bu
qali§ma
genel olarak iki anaklsimdanolu§tugu
icin deney sonuclari iki ayriboilmhalinde sunulacak olup daha cok ikinci ve sonuc olarak videolaruizerinde daha dogru sonuclar verenklsim
iizerindeyogunla§ilacaktir.
sorgulamalarinyapilabilmesini amaclamaktadir.
4.1. Otomatik etiketleme
2. Gorsel ogelerin kelimelerle
Bu
klsimdaki
deneylerde TRECVID 2004veri
kuimesine
aitili§kilendirilmesi
92
video
kullanilmi§tir.
Videolara ait referans
cerceveler
elle
614 nesne ve kavramadiyla
etiketlenmi§
olupyanli§
yazilan ve Bilgisayarli ceviriden esinlenerek tasarlanan, gorselogelerin
frekansi
dii§Uk
kelimelerin elenmesiyle geriye 62 tane anahtar nesne veya kavramlara denk gelen kelimelerleili§kilendirilmesi
kelimekalmi§tir.
Sonucu verilen deneylerde resimler5X7'lik
metodu detayli olarak [4]'te
anlatilmi§tir.
Ozetle: ilk olarak kul-izgaralara
b6linmii§,
renk (RGB ortalama, standart sapma) lanilacakoznitelikler belirlenip resimlerbu ozniteliklere g'oreve
doku (Gabor) ile temsil edilip k-meanskullanilarak
1000 belli sayida gruba (blob, visterm) ayrilir (clustering). Daha grubaayrilmi§tir.
Testkiumesi iizerindeki
performanshesabi
sonra, elde edilengorsel gruplarlakelimeler arasindakiili§kiler,
icin, tahmin edilen kelimeler gercek olanlarla otomatik olarak ikidil arasindabirbirinin cevirisi olan paralel metinlerden yarar-kar§ila§tirilmi§;
ortalama kelime tahminperformansi
0.29, en lanilarak yapilan istatistiksel ceviri yontemine benzer§ekilde
az 1 keretahmin edilen kelimeler icin kesinlikve
geri getirme [7],ogrenilipbuili§kileri
gosterenbir olasilik tablosu hazirlanir.oranlari
dasirasiyla
0.18ve
0.33 olarak eldeedilmi§tir.
Sonolarak,hazirlanan bu olasilik tablosu resimlerin ya da resim Resim gercekte n kelime ileetiketlenmi§se
performans iizerindeki bolitlereayrilmi§
bolgelerin kelimelerle etiketlen-hesaplarinda
sadece tahmin edilen ilk n kelime dikkate mesinde; video karelerinin OKT ile elde edilen kelimelerledahaalinmi§tir.
Bazi
resimlerin icinde daha fazla nesneolmasina
dogru bir
§mekilde esilenmesinde
kullanlir.
ragmen sadece 1 ya dacok
az kelime ileetiketlenmi§
olmasi,
Bubcalibsmada,
resimler k-means algoritmasi ile belli sayida tahmin edilen kelimeye ait nesnenin resimdeolmasina
ragmen gruplaraayrilmi§
vebu gruplarla kelimeler arasindakiili§kiler
gerceketikettebulunmamasi (ornek: sekil2'de ikinci siradakiGiza++ [3] kullanilarak
Ogrenilmi§tir.
ilk resimde skyolmasina
ragmen etikette yeralmiyor)
gibi Performansolciisiiolarak ortalama kelimetahmin orani (dogru sebeplerotomatik olarak hesaplananperformansin
oldugundan tahmin edilen kelime sayisinin elleyapilanetiketlemedeki ke- dahaduisuk
gorunmesinesebepolmaktadir.
lime sayisina orani), geri getirme yiizdesi (recall) ve kesinlik
$ekil
2'debazi
otomatik etiketleme ornekleriverilmi§tir.
(precision) degerleri
hesaplanmi§tir.
Sonuclarg6stermi§tir
ki,
resimlerden
olu§an
vern kilmeleri
icin
herhangi bir etiket olmadiginda, otomatik etiketleme sonucu3.
Veri
kumesi
ve
oznitelikler
elde edilen kelimelerdahaiyi
eri§im
icin
kullanilabilir.$Sekil
3'te resimuizerindeki boilutler
otomatik olarakDeneylerde,
heryil
NIST(Amerikan
StandartlarEnstituisui)
etikete
oemale-news-personfma
lace,
tarafindanduizenlenenTRECVIDyari§masi
[1] katilimcilarinastuio-setting,
grap
gibikeelimele
oara
verilen verikiumelerinden2004yilinaait, 150 saatlik CNN vesthin osed
tinrapRsi gizi bkelimlere
olayra
ABChaber videolarindanolu§an
TRECVID 2004verikuimesiaarin
builebilde
tikelnesi
nesne
tanim
lara abul
kullanilmi§tir.
Videolardanqikartilan
referans erceve resim-edilebilir.
leri, bu resimlere denk gelen, katilimcilarin ortakqali§masiyla
belli sayida kelime ileyapilan etiketlemeler (manual annota-
4.2.
OKT metinlerininkullanili§i
ye
hizalamaproblemi
tion), LIMSI[2]
tarafindan otomatik konusma tanima(OKT)yointemiyle
elde edilen zamanbazli
metinler (ASR text) de Bukisimda
sonubclari
verilen deneylerde OKT metinleriye
egitim,
110'u datestiqin
kullanilmi§tir.
OKT metinlerindeki kelimeler6in
i§lemeyle
sadece isimler eldeedilmi§,
300'den daha az frekansasahip
isimlerinelenmesiyle geriye
251 ke-limekalmi§tir.
Her referansqerqeve,
renk(RGB)
ye doku (Canny) genel histogrami ile temsil edilip k-means ile 1000gruba
ayrilmi§tir.
Ayrica
her resimde kactane insanyiizii
oldugu bilgisi de egitimdekullanilmi§tir.
studio-settinggraphics people basketball Egitim sonrasi elde edilen olasilik tablosu kullanilarak test
female-news-person kiumesindeki resimlericinkelimeler tahmin
edilmi§; §ekil
4'te male-news-subject person degosterildigigibigenel renk ozelliklerindenayirdedilebilecek female-news-person people graphics hava durumu, spor, borsa gibi haberlerle ilgili resimler studio-settingpeople basketball female-news-nerson dogru olarak tahminedilmi§tir.
male-facegraphics scene-text male-news-subject $ekil5'te haberhikayeleri icinkelimeler tahmin
edilmi§;
yine person scene-text studio-setting kullanilanozniteliklerle ayirdedilebilecekresimlerinbulunduguhava durumu, borsa,
spar gibi
konularlailgili
haberhikayeleri
iqin
oldukqa
ba§arili
tahminleryapilabilmi§tir.
Asil OKTmetinleriyle
kar§ila§tirildiginda
haberhikayeleri
iqin
orta-lama kelimetahmin
performansi
0.17, kelimeba*ina
ortalamageri getirme
yiizdesi
0.16 kesinlikdegeri
ise0.20olmu§tur.
Tasarlanan sistem sayesinde OKT metinleri olmasa bile is-tenen nesne ya da kavramlarla ilgili resimlereula§mak
water-bodyboat forestmale-news-subject
muimkuin
olabilmektedir.5ekil
6, sport kelimesiylefemale-face persongraphics farkli spor sahneleri arasindaki
ili§kilerin
sistem tarafindanskygraphics people persongraphics ogrenilebildigini gostermektedir. Yine §ekil 7'deki ornekte water-body building male-face greenery snow, night, office gibi, kullanilan resim oznitelikleri
boat person male-news-person scene-text female-face ile ayirdedilebilecek sahnelerle kelimeler arasindaki ili§kiler
ba§ariyla Ogrenilebilmi§tir.
$ekil 2: Otomatik etiketleme sonuclari. Asil kelimeler iistte,
Onerilen
sistemin videolardaki OKT metinleri ile resimler tahmin edilen ilk 7 kelime alttaverilmi§tir.
arasindaki hizalamaproblemine
q6ziim
olabilecegini
gosteren
bir ornek
§ekil
8'deverilmi§tir.
OKT metininde sunucu ilee§lenen
clinton kelimesi, resimlerle kelimeler arasindakiili§kiler
onerilen
sistemleogrenildiginde
enyiiksek
olasilikla 3.siradaki
dogru
resimleeslenebilmi,tir.31
d 5a_A temperatureweather forecast pointnasdaq stockstudio-setting female-news-person
468,359,213: female-face 104,404: person
300,225:
female-news-person
81,299: scene-text167,272,346,443:
graphics
437:people
202,429,320,43,46,79:
studio-setting
61: flagsp:
j : p.vein
223,475,317: male-face 319: basketball
- ekil 4: Bazi resimlericinOKTmetinlerinden elde edilen
ke-$ekil
3: Resimiizerindebolitlerin
etiketlenmesi (regionlabel- limelerleyapilan egitim sonnrasindatahmin edilen enyiikseking)oirnegi. olasilikli 3kelime.
OKT : center headline thunderstorm
morning
line move statearea pressure chance shower lake head monday west end
weekendpercenttemperaure gul coast
uesdayOKT:
(1) home washington president clinton (2) office weekendpercent temperaturegulf
coasttuesdayprsdnstedpamnt3)el
Tahmin: weather thunderstormrain temperature system shower
west coast snow pressure
.ekil
8: Clinton ileilgili
3 resimdenolu.an
birhab-erde her resme denk
gelen
OKT metinlerig6isterilmi§tir.
OKT metnineg:re
Clinton aslinda sunucununoldugu
ilkresimle
e§lenmektedir.
Resimler ile kelimeler arasindakiili'kiler
kgrenilip
clinton kelimesi ileyapilan
birara-madaise clinton kelimesi en yiiksek olasilikla 3. resimle
OKT: check peace york morning charge dollar share nasdaq
e§le§mektedir.
market issuepercentconsumermonthTahmin: market stock york nasdaq street check point yesterday etiketlenmesi nesnetanima, biitiin bir resmin belli kelimelerle otomatik etiketlenmesi resim veri kiumelerine
eri§im,
OKTM
~~~~~~~~~~~~~~metinlerinin
daha dogru videokareleriyle
e§lenmesi
degeni§
video ar,ivlerine OKT metinleriyardimiyla
daha etkin eri,imisaglamaya y65nelik
q6ziimler
sunmaktadir.OKT:
nightgame
serystory Videolarda hareket eden nesneler deonemli
bilgilerta§ir.
Tahmin: game headline sport goal team product businessDolayisiyla,
elde edilecek hareket bilgileri, nesnelerin isimlerlerecord timeshot eslenmesine benzer ,ekilde fiiller ile eslenebilir.
B13ylece
videolar iizerinde dahazengin icerikli aramalaryapilabilir.
$ekil5: Bazihaberhikayeleriicin OKT metinleri kullanilarak Onerilen ceviri metodu cok sayida isim ile
yiizlerin
yapilan tahminlerde en yuiksek olasilikli 10 kelime. e§lenebilmesi icinde yeni biryakla§imolarakdii§iiniilebilir.
6.
Te§ekkur
Bu
qali§ma
TUBITAKKariyer
104E065 ye TUBITAK104E077nolu
projeleri
tarafindandesteklenmistir.
5ekil
6: sport kelimesinin ilk 2'detahminedildigiresimler.7.
Kaynaksa
[1]
TRECVID,TRECVideoRetrievalEvaluation,http:!www-nlpir.nist.gov!projects!trecvid.
[2]
J.L. Gauvain and L. Lamel and G. Adda, "The LIMSIBroadcast News
Transcription System",
Speech
Commu-nication, Vol.37,p89-108,2002.
[3]
Giza++,http:!!www.fjoch.com!GIZA++.html.
[4] K. Barnard and P. Duygulu and N. de Freitas and D. A.
Forsyth
and D. Blei and M.Jordan,"Matching
words andpictures",
Journal ofMachineLearning Research,
Vol.3,p1107-1135,2003.
[5]
P.Duygulu
and K. Barnard and N.d. Freitas and D. A.Forsyth, "Object
recognition
asmachine translation:learn-ing
alexicon for afixedimage
vocabulary",
Seventh Eu-ropean Conference onComputerVision
(ECCV),Vol. 4, p$ekil
7: Sirasiyla snow, night ve office kelimelerinin ilk 97-112, 2002.7'detahminedildigiresimler. [6] P. Virga and P. Duygulu, "Systematic Evaluation of Ma-chine Translation Methods for Image and Video
Annota-5.
Tarti§ma
ve
Sonuslar
tion", The Fourth International
Conference on Image
and
Video Retrieval(CIVR 2005),Singapore, 2005.
Bu