• Sonuç bulunamadı

4. KAYNAK ÖZETLERİ

4.2 Sahne Sınıflandırma / İmge sınıflandırma Problemi

4.2.2 Orta seviye öznitelik vektörleri

Orta seviye öznitelik vektörlerinde birinci adım, yine alt seviye öznitelik vektörlerinin belirlenmesidir. İkinci adım ise görsel kelimeler adı verilen bloklarla, sözlük oluşturma aşamasıdır. Bu aşamada, çeşitli yöntemlerle elde edilen alt seviye öznitelik vektörleri istatistiksel yöntemler ya da farklı algoritmalar kullanılarak gruplandırılır. Bu gruplar, kod çizelgesi, kod kitabı, görsel kelime vb. şeklinde adlandırılmaktadır. Sınıflamaya konu imgeler taranır ve sözlükteki her bir parçadan imge üzerinde kaç adet olduğunu gösteren histogramlar oluşturulur. Histogramlar kullanılarak oluşturulan vektörler orta seviye öznitelik vektörleri olarak adlandırılır. Sınıflandırıcılar bu vektörlerle eğitilir. Bu yöntemler arasında en bilineni Kelime Çantası (bag of words, kısava BoW) yönteminden

44

esinlenilerek oluşturulmuş olan Görsel Kelime Çantası (bag of visual words, kısaca BoVW) yöntemidir.

BoW algoritması, metin sınıflandırma çalışmaları kapsamında geliştirilmiştir. Bu yöntemde, verilmiş olan bir metin, kelimelerine ayrılır. Bağlaçlar (ve, veya, ile), zamirler (ben, sen, vb.) gibi özel bir anlam ifade etmeyen kelimeler atılır. Kalan kelimelerle bir histogram oluşturulur. Bu histogram, her bir kelimenin belge içerisinde kaç kez kullanıldığını göstermektedir. Bu histogramın X ekseni orta seviye öznitelik vektörü olarak kabul edilir. İki belge arasındaki benzerlik, histogram ile oluşturulan vektörlerin karşılaştırılması ile hesaplanır.

BoW yönteminden esinlenilerek oluşturulmuş olan BoVW yönteminde ise, bir imge, görsel kelimelerin toplamı olarak kabul edilir (Sivic ve Zisserman 2003). Metin belgelerinin sınıflandırılması probleminden farklı olarak, BoVW yönteminde, “görsel kelime” olarak nitelendirilen imge parçaları araştırmacı tarafından alt seviye tanımlayıcıları kullanılarak hesaplanır. Bu imge parçaları görsel kelimeler ismini alır.

Benzer imgeleri bulup aynı kelime altında toplayabilmek adına K-Means (Lloyd 1982), VLAD (Jégou vd. 2010), Fischer Vector (Sánchez vd. 2013) gibi algoritmalardan yararlanılır. Verilen bir imgede, “Sözlükte bulunan hangi görsel kelime ne kadar tekrarlandı?”, sorusunun cevabı için oluşturulan histogram vektörü üzerinden benzerlik hesaplanır. Histogram üzerinden elde edilen vektör ile sınıflandırıcılar eğitilir. BoVW algoritması, uzun bir süre, UASS problemine ilişkin araştırmalarda kullanılmış olup doğruluk oranı yüksek sonuçlar elde edilmiştir.

BoVW algoritmasının kullanımı için bir başka örnek, Zhu vd. (2016) tarafından yapılan deneylerdir. Bu çalışmalarında alt seviye öznitelik vektörlerini oluşturabilmek için lokal ve global öznitelikleri birleştirdikleri bir yöntem kullanmışlardır. Bu deneylerde, UCM veri kümesinde %96,88 ve SIRI-WHU veri kümesinde %96,96 doğruluk oranına erişmişlerdir.

BoVW algoritması yüksek doğruluk oranları getirmiş olmasına rağmen yöntemin her şekilde, alt seviye öznitelik vektörlerine bağımlı olması önemli bir dezavantaj olarak ortaya çıkmıştır. Uzaktan algılama görüntülerinin doğru bir şekilde sınıflandırılması için

45

kullanılması gereken görsel kelime sayısının, sınıflandırmanın doğruluğunu sağlamak adına sürekli arttırılması da bu sözlükler kullanılarak oluşturulan vektörlerin boyutlarının yükselmesine, sınıflama sırasında hesaplama karmaşıklığına sebep olmuştur. Artan boyut problemini çözebilmek amacıyla bazı çalışmalarda sözlüklerin oluşturulması için olasılık dağılımları kullanılmıştır. Zhao vd. (2016), Dirichlet-türevi yaklaşımlarında üç farklı alt seviye tanımlayıcısı birleştirilerek oluşturulan vektörler üzerinden, olasılık dağılımı fonksiyonu parametrelerini hesaplayarak bir kod fonksiyonu hazırlamıştır. Bu şekilde UCM veri kümesinde %92,92 doğruluk oranına erişilmiştir. Huang vd. (2016), yerel ikili örüntüler (local binary patterns) üzerinde çalışmış ve sözlük oluşturma aşamasında Fischer Vector kullanmıştır. UCM veri kümesi kullandıkları bu çalışmada, %93,0 doğruluk oranı elde etmişlerdir.

Seyrek kodlama (sparse coding) yaklaşımı, orta seviye öznitelik vektörlerine ilişkin bir başka yöntem olarak denenmiştir. Sheng vd. (2012), seyrek kodlama ile mekânsal imge piramidini oluşturmuştur. Alt seviye tanımlayıcı olarak SIFT, renk histogramları ve doku tanımlayıcıları kullanılmıştır. Her sınıfında 50 imge olmak üzere toplam 19 sınıflı bir veri kümesinde %92,63 doğruluk oranına ulaşılmıştır. Seyrek kodlamaya ilişkin bir diğer çalışma Dai ve Yang (2010) tarafından gerçekleştirilen araştırmadır. Bu çalışmada veri kümesi olarak Google Earth uygulamasın üzerinden elde ettikleri imgeleri kullanarak hazırladıkları 12 sınıflı ve sınıf başına 50 imge içeren küçük bir veri kümesi kullanmışlardır. Görsel kelimeleri oluşturabilmek için, belirginlik haritaları (saliency map), renk, doku ve şekil tanımlayıcıları kullanılmış olup %84,2 doğruluk oranına ulaşmışlardır. Seyrek kodlama ile yapılan bir başka araştırmada Cheriyadat (2013), denetimsiz öğrenme yöntemini kullanmıştır. Bu çalışmanın, seyrek kodun kullandığı görsel kelimelerin ağırlıkları belirli fonksiyonlara bağlanmıştır. Çalışmada elde edilen doğruluk oranı %81,67 olmuştur.

Küçük ölçekli CNN mimarisi tasarlayıp eğitilmesi de deneyler arasında yerini almıştır.

Li vd. (2016), evrişimsel, yerel havuzlama ve global havuzlama işlemleri yapan, peş peşe iki katmandan oluşan bir yapay sinir ağı tasarlamıştır. Ağın iki global havuzlama katmanının çıkışı birleştirilmiş ve nihai öznitelik vektörü olarak kabul edilmiştir.

Öznitelik vektörlerinden yararlanarak sözlük oluşturma aşamasında K-Means

46

algoritması, nihai sınıflandırma için SVM kullanılmıştır. UCM veri kümesi ile çalıştıkları yapay sinir ağı ile %89,1 doğruluk oranına ulaşmışlardır.

Literatürde sunulan olumlu sonuçlara rağmen, UASS probleminin çözümünde, orta seviye öznitelik vektörleri üzerinden elde edilen başarı seviyesi sınırlı olmuştur. Alt seviye öznitelik vektörleri elde etme sürecine bağımlılığı ve o sürecin de UASS probleminin getirdiği belirsizlik oluşturan sorunların üstesinden gelememesi başarımı sınırlamıştır.