GERÇEK ZAMANLI YÜZ İFADESİ VE DUYGU TANIMA. Numan KARAASLAN YÜKSEK LİSANS TEZİ BİLGİSAYAR BİLİMLERİ ANABİLİM DALI GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ

(1)

(2)

GERÇEK ZAMANLI YÜZ İFADESİ VE DUYGU TANIMA

Numan KARAASLAN

YÜKSEK LİSANS TEZİ

BİLGİSAYAR BİLİMLERİ ANABİLİM DALI

GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ

KASIM 2017

(3)

ÇOKLUĞU ile Gazi Üniversitesi Bilgisayar Bilimleri Anabilim Dalında YÜKSEK LİSANS TEZİ olarak kabul edilmiştir.

Danışman: Doç. Dr. Hasan Şakir BİLGE

Elektrik Elektronik Mühendisliği Anabilim Dalı, Gazi Üniversitesi

Bu tezin, kapsam ve kalite olarak Yüksek Lisans Tezi olduğunu onaylıyorum ...………

Başkan: Prof. Dr. Mehmet Ali Akçayol

Bilgisayar Mühendisliği Anabilim Dalı, Gazi Üniversitesi

Üye: Yrd. Doç Dr. Ahmet Murat Özbayoğlu

Bilgisayar Mühendisliği Anabilim Dalı, Gazi Üniversitesi

Tez Savunma Tarihi: 22/11/2017

Jüri tarafından kabul edilen bu tezin Yüksek Lisans Tezi olması için gerekli şartları yerine getirdiğini onaylıyorum.

……….…….

Doç. Dr. Bünyamin CİYLAN Bilişim Enstitüsü Müdürü

(4)

Gazi Üniversitesi Bilişim Enstitüsü Tez Yazım Kurallarına uygun olarak hazırladığım bu tez çalışmasında;

 Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar çerçevesinde elde ettiğimi,

 Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun olarak sunduğumu,

 Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak gösterdiğimi,

 Kullanılan verilerde herhangi bir değişiklik yapmadığımı,

 Bu tezde sunduğum çalışmanın özgün olduğunu,

bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan ederim.

Numan KARAASLAN

(5)

GERÇEK ZAMANLI YÜZ İFADESİ VE DUYGU TANIMA (Yüksek Lisans Tezi)

Numan KARAASLAN

GAZİ ÜNİVERSİTESİ BİLİŞİM ENSTİTÜSÜ

Kasım 2017

ÖZET

Bu tezde gerçek zamanlı uygulamalarda kullanılabilecek bir yüz ifadesi tanıma sistemi önerilmektedir. Yüz ifadesi tanıma sistemleri temelde 7 adet duyguyu tanıma üzerine kurulmaktadır. Bu yüz ifadelerinin yakalanıp karar mekanizmaları tarafından sınıflandırılmaları esasına dayanmaktadır. Yüz ifadelerinin sınıflandırılmaları için bir duyguyu ifade eden temel öznitelikler çıkarılmalıdır. Bu işlem HOG (Histograms of Oriented Gradients) isimli yöntemle gerçekleştirilmiştir. HOG ile çıkarılan öznitelik sayısı 128 x 128 boyutlarında bir resim için 34020 adet olmaktadır ve gerçek zamanlı olarak çalışmak için fazla işlem maliyeti gerektirmektedir. Önerilen yeni bir yöntemle yüz ifadesinin sadece ağız ve göz bölgelerinin bilgileri çıkarılmıştır ve öznitelik sayısı 4356 ‘ya indirilmiştir. Bu yöntemin başarım oranı farklı veri tabanlarında ve farklı eğitim verisi miktarlarında değerlendirilmiş ve en fazla artış %4 ile JAFFE veri tabanında SVM sınıflandırıcısı ile yapılan sınıflandırma işleminde %90.91 ‘den %95.10 ‘a yükselme şeklinde olmuştur. Karar verme performansı 5 katına kadar hızlanırken en fazla düşüş ise

%3 oranında CK+ veri tabanında KNN sınıflandırıcısı ve 123 adet eğitim verisi ile yapılan testte ortaya çıkmıştır.

Bilim Kodu : 92418

Anahtar Kelimeler : Yüz İfadesi Tanıma, Yönlendirilmiş Gradyanların Histogramları (HOG), Gerçek Zamanlı

Sayfa Adedi : 43

Tez Danışmanı : Doç. Dr. Hasan Şakir BİLGE

(6)

REALTIME FACIAL EXPRESSION AND EMOTION RECOGNITION (M.Sc. Thesis)

Numan KARAASLAN

GAZİ UNIVERSITY

GRADUATE SCHOOL OF INSTITUTE OF INFORMATION November 2017

ABSTRACT

In this thesis, a facial expression recognition system that can be used in realtime applications is proposed. Facial expression recognition systems are supposed to recognize 7 distinct emotions. It is based on the classification of the facial expression by desicion mechanisms, after capturing the facial images. The basic features that define the facial expression must be derived in order to classify a facial expresion. This procedure is carried out by a method named HOG (Histograms of Oriented Gradients). For a 128 x 128 image, the number of features extracted by HOG is 34020 and it requires too much computatinal power to be implemented on a realtime system. With a newly proposed method which takes only the mouth and eyes areas into account, the features count is decreased to 4356.

The method is tested on different databases and with different training data amounts. The success rate of the method is increased by %4, from %90.91 to %95.10 in JAFFE database.

While the desicion process has become 5 times faster, the biggest drop of success rate is observed with %3 in CK+ database where 123 train data and KNN classification is used.

Science Code : 92418

Keywords : Facial Expression Recognition, Histograms of Oriented Gradients (HOG), Realtime

Page Count : 43

Supervisor : Doç. Dr. Hasan Şakir BİLGE

(7)

TEŞEKKÜR

Her konuda desteğini ve bilgisini benden esirgemeyen değerli tez danışmanım Doç. Dr.

Hasan Şakir BİLGE ’ye, eğitim hayatımda her zaman bana destek olan aileme teşekkürü kendime borç bilirim.

(8)

İÇİNDEKİLER

Sayfa

ÖZET...... iv

ABSTRACT... v

TEŞEKKÜR...... vi

İÇİNDEKİLER...... vii

ÇİZELGELERİN LİSTESİ...... viii

ŞEKİLLERİN LİSTESİ...... x

SİMGELER VE KISALTMALAR....... xi

1.

GİRİŞ

...... 1

2.

LİTERATÜR TARAMASI

...... 5

2.1. Yapay Sinir Ağları ile Yüz İfadesi Tanıma.... 5

2.2. Destek Vektör Makinası ile Yüz İfadesi Tanıma...... 6

2.3. Yerel Öznitelikler ile Yüz İfadesi Tanıma...... 9

3.

KULLANILAN YÖNTEM VE MATERYAL

...... 17

4.

DENEYSEL SONUÇLAR

...... 23

5.

SONUÇ

...... 39

KAYNAKLAR...... 41

(9)

ÇİZELGELERİN LİSTESİ

Çizelge Sayfa

Çizelge 2.1. CLAHE ve kenar yakalamaya dayalı sistemin başarı oranları (%) ... 7

Çizelge 2.2. Öznitelik altkümesi seçimi ile başarı oranları ... 8

Çizelge 2.3. LGC-HD yapısının farklı LBP boyutlarındaki hesaplama süresi ... 10

Çizelge 2.4. LGC-HD yaklaşımının yüz ifadelerine göre başarısı ... 11

Çizelge 2.5. HOG + SRC sisteminin başarısı ... 12

Çizelge 2.6. LBP + SRC sisteminin başarısı ... 12

Çizelge 2.7. HOG + SRC ve LBP + SRC yönteminin başarısı ve diğer yöntemlerle karşılaştırılması ... 12

Çizelge 2.8. PCA + LBP hibrit yaklaşımının başarı oranları ... 14

Çizelge 2.9. SRC + LBP Map sisteminin başarı oranları ... 14

Çizelge 2.10. LBP Map sisteminin diğer SRC yaklaşımları ile karşılaştırılması ... 15

Çizelge 4.1. Sistemin JAFFE veri tabanındaki başarı oranları ve çalışma süreleri ... 25

Çizelge 4.2. Sistemin JAFFE veri tabanında başarı oranları ve HOG hesaplama, örnek oluşturma ve sınıflandırma süreleri ... 26

Çizelge 4.3. JAFFE veri tabanı için karmaşıklık matrisi ... 26

Çizelge 4.4. JAFFE veri tabanı için önerilen sistemin karmaşıklık matrisi ... 26

Çizelge 4.5. Sistemin CK veri tabanında 1 / 10 eğitim verisi ile başarı oranları ve çalışma süreleri ... 27

Çizelge 4.6. Sistemin CK veri tabanında 1 / 10 eğitim verisi ile başarı oranları ve HOG hesaplama, örnek oluşturma ve sınıflandırma süreleri ... 27

Çizelge 4.7. CK 1 / 10 eğitim verisi için karmaşıklık matrisi ... 28

Çizelge 4.8. CK 1 / 10 eğitim verisi için önerilen sistemin karmaşıklık matrisi ... 28

(10)

Çizelge Sayfa Çizelge 4.14. Sistemin CK veri tabanında 1 / 4 eğitim verisi ile başarı oranları ve

HOG hesaplama, örnek oluşturma ve sınıflandırma süreleri ... 30

Çizelge 4.22. Sistemin CK veri tabanında 1 / 2 eğitim verisi ile başarı oranları ve HOG hesaplama, örnek oluşturma ve sınıflandırma süreleri... 33

Çizelge 4.25. Sistemin CK özet veri tabanında başarı oranları ve çalışma süreleri ... 34

Çizelge 4.26. Sistemin CK özet veri tabanında başarı oranları ve HOG hesaplama, örnek oluşturma ve sınıflandırma süreleri... 34

Çizelge 4.27. CK özet eğitim verisi için karmaşıklık matrisi ... 35

Çizelge 4.28. CK özet eğitim verisi için önerilen sistemin karmaşıklık matrisi ... 35

(11)

ŞEKİLLERİN LİSTESİ

Şekil Sayfa

Şekil 2.1. ANN ile yüz ifadesi tanıma adımları ... 6

Şekil 2.2. ASM ve SVM yaklaşımının çalışma yapısı ... 8

Şekil 2.3. İşaret noktaları ve yer değişimleri ... 9

Şekil 2.4. LBP ile binary verinin elde edilmesi ... 9

Şekil 2.5. LBP ile oluşan binary resim ... 10

Şekil 2.6. LBP varyasyonları ... 10

Şekil 2.7. HOG + SRC ve LBP + SRC yaklaşımının birleştirilmesi ... 11

Şekil 2.8. SRC + LBP Map sisteminin çalışma yapısı ... 14

Şekil 3.1. SVM sınıflandırıcısının sınıflandırma mantığı ... 17

Şekil 3.2. KNN sınıflandırıcısının çalışma mantığı ... 18

Şekil 3.3. Histograms of Oriented Gradients ile elde edilen bölgesel historgramların yapısı ... 20

Şekil 3.4. Önerilen sistemde yüz üzerinde dikkate alınan ağız ve gözler bölgelerinin ifadesi ... 21

Şekil 3.5. Önerilen sistemde ağız ve gözler bölgesinin birleştirilmiş ifadesi ... 22

Şekil 4.1. JAFFE veri tabanından sevinç, üzüntü, şaşkınlık ve korku ifadeleri ... 23

Şekil 4.2. CK veri tabanından sevinç, tiksinti, doğal ve şaşkın yüz ifadeleri ... 23

Şekil 4.3. CK veri tabanında doğru ve yanlış sınıflandırma örneği ... 24

Şekil 4.4. JAFFE veri tabanında doğru ve yanlış sınıflandırma örneği ... 24

Şekil 4.5. Gerçek zamanlı uygulamada doğal yüz ifadesi ... 36

Şekil 4.6. Gerçek zamanlı uygulamada mutlu yüz ifadesi ... 37

Şekil 4.7. Gerçek zamanlı uygulamada tiksinti yüz ifadesi ... 37

Şekil 4.8. Gerçek zamanlı uygulamada kızgın yüz ifadesi ... 38

(12)

SİMGELER VE KISALTMALAR

Bu çalışmada kullanılmış bazı kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur.

Kısaltmalar Açıklama

HOG Yönlendirilmiş Gradyanların Histogramları (Histograms of Oriented Gradients)

PCA Temel Bileşenler Analizi (Principal Component Analysis) LBP Yerel İkili Örüntü (Local Binary Pattern)

ANN Yapay Sinir Ağları (Artificial Neural Network) NB Naif Bayes (Naive Bayes)

KNN K En Yakın Komşu (K Nearest Neighbour)

FERET Yüz Tanıma Teknolojisi (Facial Recognition Technology) SVM Destek Vektör Makineleri (Support Vector Machines) CLAHE Kontrast Sınırlı Adaptif Histogram Eşitleme

(Contrast Limited Adaptif Histogram Eşitleme)

DCT Ayrık Kosinüs Dönüşümü (Discrete Cosine Transform) FPS Saniyedeki Kare Sayısı (Frames Per Second)

(13)

(14)

1. GİRİŞ

Günümüzde güvenlik sistemleri ve robotik sistemler alanlarında bilgisayarlı hesaplama yöntemleri kullanılmakta ve geliştirilmektedir. Bu iki alanda insan yüzünün tanınması ve algılanan yüze göre karşılık verilmesi işlemlerinin gerçekleştirilmesi için çeşitli algoritmalar önerilmekte ve üzerinde çalışılmaktadır. İnsan yüzünün tanınmasının yanı sıra özellikle robotik konusunda kullanılabilecek bir diğer uygulama alanı ise yüz ifadesi yani duyguları tanıma işlemidir.

Yüz ifadeleri insanın duygusal ifadelerini dışa vurma şekillerinden birisidir. Bu nedenle bir yapay zekâ uygulamasının insan yüzünü tanımasının yanı sıra yüz ifadesini de tanıyabilmesi insanlar arası etkileşimde olduğu gibi iletişim becerisini yükseltebilecektir.

Bu konuda otizm hastaları da örnek verilebilir. Yüz ifadesi ile anlatılmak istenen duygular otizm hastaları tarafından değerlendirilemez ve bu kişilerin iletişim becerilerini olumsuz yönde etkileyebilir. Yüz ifadesi tanıma sistemi ile bu insanların da insanlar arası iletişim gücü yükseltilebilir. Konuşma zorluğu çeken bir kişinin sadece yüz ifadeleri ile yönetebildiği bir tıbbi cihaz tasarlanabilir.Yapay zekâ ve tıp alanlarında kullanılabilen yüz tanıma işlemi bir oyunda ve sinema sisteminde oyuncuların veya izleyenlerin yüz ifadelerine göre farklı ortamlar veya efektler sunan sistemler olarak da kullanılabilir. Bütün bu kullanım alanlarının temelinde insanların sosyal varlıklar olmaları ve sevinç, üzüntü, tiksinti, öfke, korku veya şaşkınlık gibi duygularını yüz ifadeleri ile belirtmeleri yatmaktadır.

Bir karar verme sisteminin yapılandırılabilmesi için öncelikle bir eğitim verisine ihtiyaç duyulmaktadır. Karar verme sistemi öncelikle eğitim verisi ile bir sınıflandırıcıyı eğitir ve yeni gelecek örneğin sınıflandırılmasının eğitilen verilerle karşılaştırılarak yapılmasını sağlar. Yüz ifadesi tanıma sistemleri için 2 boyutlu ve 3 boyutlu çeşitli veri tabanları bulunmaktadır. Bu tezde JAFFE (Japanese Female Facial Expression) ve CK (Cohn Kanade) veri tabanları üzerinde eğitim ve testler yapılmıştır.

Yüz ifadesi tanıma sistemleri temelde 6 adet yüz ifadesini ve ifadesiz yüzü tanımayı içermektedir. Tanınan bu yüz ifadeleri doğal yüz ifadesi, öfke, iğrenme, korku, mutluluk, üzüntü ve şaşırma duygularıdır. Yüz ifadesi tanıma sistemi bu 7 adet yüz ifadesini önceden

(15)

öğrenme yöntemleri ile öğrenmekte ve daha sonra yeni gelen verileri bu verilerle göre sınıflandırma yöntemlerine tabii tutarak karar vermektedir.

Yüz ifadesi tanıma işlemi insanlar arası iletişimin temel taşlarından birini oluşturmaktadır.

Bu sebeple robotik sistemlerde yüz ifadesi tanıma yapılarının da geliştirilmesi ve yapay zekâya dâhil edilmesi önem kazanmaktadır. Bir yüz ifadesi tanıma sisteminin çalışabilmesi için öncelikle resim içerisindeki yüzün bulunması gerekmektedir. Yüz bulma algoritmaları için hazır sınıflandırıcılar mevcuttur. Yüz bulunduktan sonra çeşitli görüntü işleme yöntemlerine dayalı olarak, LBP (Local Binary Pattern), SRC (Sparse Representation Classifier), PCA (Principal Component Analysis) ve HOG (Histograms of Oriented Gradients) gibi yöntemlerle öz nitelikler çıkarılmaktadır. Örneğin kaşların kalkmış ve dudakların ayrık olması durumu 2 farklı öz nitelik olarak değerlendirilebilir. Diğer görüntü işleme yöntemleri ile çok boyutlu öz nitelikler de çıkarılabilir ve bu öz nitelikler üzerinde çeşitli indirgeme teknikleri de uygulanabilir. İndirgeme teknikleri yüz ifadesinin temel özelliklerini kaybetmeden yüz ifadesini oluşturan bilginin boyutunun küçültülmesidir.

Daha sonra bu veri bir sınıflandırıcıya tabii tutulmaktadır. KNN (K Nearest Neighbour), SVM (Support Vector Machinaes) veya ANN (Artificial Neural Network) gibi bir sınıflandırıcı önceden yüz ifadesini belirten öz niteliklerle eğitilmiştir ve hangi durumlarda hangi yüz ifadesinin oluştuğunu bilmektedir. Bu bilgiye dayanarak ayrıştırma işlemi yapar ve sonuç olarak karar verir. Normal bir insan beyninde gerçekleşen olaylar bu şekilde taklit edilmektedir. Kısa bir ifade ile yüz bulunması, yüz ifadesinin öz nitelikleri ile sınıflandırıcının eğitilmesi, yeni gelen yüz ifadelerinin özniteliklerinin bulunması ve sınıflandırıcı ile sınıflandırılması adımları yüz ifadesi tanıma sistemini oluşturmaktadır.

Günümüzde dijital ortamda yapılan yüz ifadesi tanıma sistemleri 2 boyutlu veya 3 boyutlu yüzler üzerinde çalışabilmektedir ve bu iki alanda da veri tabanları mevcuttur. 2 boyutlu yüz ifadesi tanıma işlemlerinde bulunan öz nitelikler ve bu özniteliklerin indirgenmesi işlemi 3 boyutlu yöntemlere oranla çok daha düşük olmaktadır. 2 boyutlu yöntemlerde yüzün belli bölgelere ayrılmasına dayalı yöntemler mevcuttur ve yüz ifadesini oluşturan özellikler arası geometrik uzaklıklar kullanılabilmesinin yanı sıra ağırlıklı olarak pixellerin değerleri üzerinde belirli işlemler yapılarak öz nitelikler elde edilmektedir. 3 boyutlu sistemlerde ise yüz ifadesinin 3 boyutlu olarak ifade edilmesi ve noktaların uzaydaki aralıklarının bilinmesi gerekmektedir. 3 boyutlu olarak ifade edilen bu noktalar arası uzaklıklar öz nitelikleri oluşturmaktadır [1].

(16)

Yüz ifadesi tanıma konusunda karşılaşılan bazı zorluklar da bulunmaktadır. Pozlama açısı olarak adlandırılan yüzün kameraya baktığı açı yüz ifadesinin tanınmasını zorlaştırabilmektedir. Eğik veya sağa, sola, yukarı veya aşağı yönde dönmüş bir yüzden elde edilen öz nitelikler aldatıcı olabilmektedir. Bu konuda yapılan çalışmalarda eğitime açılı yüzlerin de dâhil edilmektedir. Bir diğer zorluk ise ışıklandırmanın ve gölgelerin özniteliklerin çıkarılmasını zorlaştırması veya karıştırmasıdır. Bu zorlukların aşılması için DCT (Discrete Cosine Transform) veya kontrast eşitleme gibi yöntemler kullanılabilmekte veya gölgeli resimler eğitime dâhil edilebilmektedir. 3 boyutlu yüz ifadesi tanıma konusunda ise karşılaşılan zorluk özniteliklerin çok fazla olmasının yanı sıra insan yüzünü 3 boyutlu olarak algılayacak olan sistemlerin çok maliyetli olmasıdır [1].

Bu tezde yüz ifadesi tanıma işlemini gerçek zamanlı bir sistemde çalıştırabilecek performansa sahip bir sistem önerilmektedir. Çalışmada doğal, kızgın, tiksinti, korku, mutluluk, üzgün ve şaşırma yüz ifadeleri üzerinde çalışılmıştır. Öncelikle resimdeki yüz bulunmuş ve 128 x 128 boyutlarına getirilmiştir. Daha sonra yüz ifadesini oluşturan öznitelikleri çıkarmak için HOG kullanılmıştır. Bu öznitelikler Weka kütüphanesinin KNN (Instance Based Learning) ve SVM (Support Vector Machines) sınıflandırıcısı ile sınıflandırılmıştır ve JAFFE veri tabanında %90 ve %91 oranında başarılı karar verilmiştir.

Fakat 128 x 128 boyutlarındaki bir resim için 34020 adet öznitelik elde edilmekte ve karar verilme süresi uzamaktadır. Ayrıca bütün yüz üzerinden HOG tanımlayıcıları oluşturulduğunda yüz ifadesine katkısı olmayan alanlar da hesaplanmakta ve sınıflama başarısını düşürebilmektedir. Bir yüz ifadesini oluşturan ana etmenler ağız ve kaşlar dâhil olmak üzere gözlerin oluşturduğu bölgedir. Bu iki bölge 128 x 128 resim üzerinde bir formül ile ifade edilmiştir ve iki bölgeden toplam 4356 adet öznitelik elde edilmiştir. Bu sayede öznitelik çıkarma ve karar verme süresi düşerken ve sınıflandırma başarısı da artabilmektedir. Sınıflandırıcının başarısı KNN sınıflandırıcısında %1, SVM sınıflandırıcısında %5 artarak %92 ve %95 olmuştur. Bu şekilde sınıflandırma başarısı artmış ve sınıflandırma işlemi büyük ölçüde hızlandırılmıştır. Deneysel sonuçlar başlığı altında CK ve JAFFE veri tabanlarında yapılan testler ve bu testlerin aldığı süreler başarım oranları ile belirtilmiştir. Ayrıca gerçek zamanlı olarak çalışan bir uygulama ile yüz ifadesi tanıma sistemi hazırlanmış ve sadece ağız ve göz bölgesini alan yöntemle bütün resim üzerinde işlem yapan yöntemin FPS sayıları (Frame Per Second) yazdırılmıştır. 34020 adet özniteliğin sınıflandırılması 5 saniyede 38 – 39 adet resim için yapılabilirken 4356 adet özniteliğin sınıflandırılması 5 saniyede 48 – 49 adet resim için yapılabilmiştir.

(17)

Tezin ilerleyen başlıkları sıra ile şu konuları içermektedir. Son yıllarda yüz ifadesi tanıma konusunda gerçekleştirilmiş çalışmalarla ilgili yapılan araştırmanın sonucu olarak literatürdeki öne çıkan örneklere yer verilmiştir. Daha sonra gerçekleştirilen sistemin detayları, HOG yapısının özellikleri ve kullanılışı anlatılmıştır. Bir sonraki bölümde sistemde yapılan testlerin özellikleri ve testlerin sonuçları anlatılmış ve karşılaştırılmıştır.

Son olarak testlerin sonuçlarına dayanarak önerilen sistem günümüzdeki yaklaşımlarla karşılaştırılmış ve değerlendirilmiştir.

(18)

2. LİTERATÜR TARAMASI

Yüz ifadesi tanıma sistemleri genelde 3 aşamadan oluşmaktadır. Yüz bulma, öznitelik çıkarma ve sınıflandırma. Yüz bulma işleminde genellikle ön işlemeler yapılmaktadır ve resimden sadece insan yüzünü oluşturan veya yüz ifadesini anlamak için yeterli olan kısım çıkarılır. Bu şekilde daha az işlem gücü gerektirecek ve gereksiz bilgilerden arındırılmış olacaktır. Günümüzdeki çalışmalarda siyah beyaz veya ikili formata çevrilmekte ve bazı çalışmalarda yüz renginin bulunması işlemi gerçekleştirilmektedir. Öznitelik çıkarma işlemi ise yüz ifadesini oluşturan bilgilerin çıkarılmasıdır. Yani kaşların, burnun, gözlerin ve ağzın (bazı çalışmalarda çene, alın ve yanak da dâhil edilir) yüz üzerinde bulunmasıdır.

Bu elemanlar literatürde Aksiyon Birimi (Action Unit) şeklinde isimlendirilebilir. Bu özellikler genelde vektörler ile ifade edilmektedir. Öznitelik çıkarma için geometrik (costly) veya görünüm tabanlı yöntemler bulunmaktadır. Geometrik yöntemler kaşlar gözler ağız ve burun gibi elemanların birbirlerine göre belli bir hizada olacağı esasına dayanır. Görünüm tabanlı yöntemler ise bu elemanların belli bir şekilde olacağı esasına dayanır. Bazı çalışmalarda öznitelik altkümesi seçimi için yöntemler geliştirilmiştir ve sınıflandırılacak vektörün boyutu düşürülerek performans artışı sağlanmıştır. Son olarak sınıflandırma işlemi ise geleneksel yöntemlerle yapılan sınıflandırmayı ifade eder. Bazı çalışmalarda eğitim verisi ile çalışılan verideki yüz ifadesi değişim oranları sınıflandırılırken gerçek zamanlı olan bazı çalışmalarda yüz ifadesi vektörlerinin bir sonraki resim ile farkları sınıflandırılır.

Yüz ifadesi tanıma çalışmaları 2 boyutlu veya 3 boyutlu olarak geliştirilmektedir. Ayrıca statik yani sabit bir resim üzerinde olan veya dinamik yani video gibi bir akış üzerinde yapılan çalışmalar da mevcuttur. Dinamik olan çalışmalar ise bilinçli olarak yüz ifadesini içeren pozlar verilmesi üzerine veya anlık olarak yüz ifadesi oluşması üzerinde yapılmaktadır. Bu konularda çeşitli 2D ve 3D veri tabanları mevcuttur. Literatürde yüz tanıma sistemleri için önerilmiş yaklaşımlar alt başlıklarda sunulmuştur.

2.1. Yapay Sinir Ağları ile Yüz İfadesi Tanıma

Bu çalışmada 22 önemli nokta ile Öklid uzaklıklarından yola çıkarak yüz öznitelik vektörü bulunmaktadır. Ten rengi bulma işlemi kümeleme metodu ile yapılmaktadır. Yüz bulma ise birleşik bileşen analizi ile yapılmaktadır. İleri beslemeli geri yayılımlı ANN ile sınıflandırılmış ve FERET veri tabanı kullanılmıştır. Sistemin yapısı Şekil 2.1 'de görülmektedir.

(19)

Şekil 2.1. ANN ile yüz ifadesi tanıma adımları

Yüz özellikleri çıkarıldıktan sonra kullanılan uzaklık ölçümleri yapılmaktadır. Yüz ifadesi sınıflandırması ise geriye yayılımlı öğrenme algoritması ile çok katmanlı sinir hücresi ile gerçekleştirilmiştir. 9 girdi ve 7 çıktı düğümü (7 yüz ifadesi) bulunmaktadır. 0,0001 ortalama kareler hatası ve 0,05 öğrenme oranı verilmiştir. Yüz ifadesi tanıma başarısı %80 oranında şaşkınlık, %100 oranında mutluluk, %60 oranında öfke, %70 oranında üzüntü,

%85 oranında korku, %60 oranında tiksinti ve %100 oranında mutluluk ifadelerinde başarı elde edilmiştir. Sonuç olarak 300 adet resimden 280 tanesinde yüzler başarılı bir şekilde tespit edilmiştir. 22 adet öznitelik noktasından en düşük %76 oranında sol gözün sağ köşe noktasını bulmuştur. En düşük %60 oranında iğrenme ve öfke duygusunu tespit etmiş ve ortalama %85 başarı göstermiştir [2].

2.2. Destek Vektör Makinesi ile Yüz İfadesi Tanıma

Bu çalışmada SVM ile yüz ifadesi tanıma sistemi geliştirilmiştir. Gerçek zamanlı sistemde daha hızlı çalışabilmesi için bütün resim verisini kullanmak yerine öznitelik bağlantısı isimli bir yapı kullanmaktadır. Öznitelik bağlantıları gözler burun ağız arasında bir ilişki kurup matematiksel olarak ifade etmektedir [3]. Yüz özellikleri histogramların kontrast sınırlı adaptif eşitlenmesi (CLAHE) ile çıkarılmaktadır. Daha sonra Laplacian of Gaussian filtresi ile kenar yakalama yapılmaktadır. Daha sonra her pixel için 8 yönden oluşan bağlantı bilgisi çıkarılarak SVM ile sınıflandırılmaktadır.

(20)

SVM sınıflandırmasında ise LibSVM kullanılmaktadır. Sistemin başarım oranları tablo 2.1 'de görülmektedir.

Çizelge 2.1. CLAHE ve kenar yakalamaya dayalı sistemin başarı oranları (%)

Linear Model Polynomial RBF

Normal 89 85 92

Tiksinti 78 72 93

Öfke 83 86 90

Gülümseme 91 92 93

Gülme 85 92 96

Şaşkınlık 87 93 94

Başka bir çalışmada PCA yapısı SVD (tekil değer ayrıştırması) ile hızlandırılıp geliştirilmiştir. Özellikler Gabor filtresi uygulanmış resim üzerinden, tekil değer çözümlemesi ve PCA ile çıkarılmış ve SVM ile sınıflandırılmıştır. CK veritabanı kullanılarak test edilmiştir [4]. Yüz bulma için Viola Jones algoritması kullanılmaktadır.

Sonuçta LBP ile karşılaştırıldığında daha hızlı yüz ifadesi tanıma gerçekleştirilmiş fakat tanıma başarısı aynı çıkmıştır. Veri seti 4 katına çıkarıldığında sistemin çalışma süresi 75 saniyeden 350 'ye çıkarken hızlandırılmış PCA ve SVD için 75 saniyeden 225 saniyeye yükselmiştir.

Bir diğer çalışmada genetik algoritmaya dayalı öznitelik altkümesi seçimi yaparak SVM, NB (Naive Bayes), KNN ve C4.5 ile sınıflandırmaları test edilmiştir. Her yüz ifadesinde farklı öznitelikler belirleyici olacağı düşüncesi ile (Örneğin gülerken dudak, şaşkın iken kaşlar göz ve dudak gibi) öznitelik altkümesi seçim işlemi yapılmaktadır [5]. Farklı sınıflandırma yöntemleri için başarım oranları Çizelge 2.2 'de görülmektedir.

(21)

Çizelge 2.2. Öznitelik altkümesi seçimi ile başarı oranları

FSS olmadan FSS ile birlikte İyileştirme

Örnek veri

Hata

sayısı Doğruluk oranı

Hata

sayısı Doğruluk

oranı

SVM 35 2 94 1 97 3

KNN 35 4 89 1 97 8

NB 35 6 83 2 94 11

BN 35 9 74 3 91 17

C4.5 35 10 71 4 89 18

Başka bir çalışmada Aktif Şekiller Modeli (ASM) ile 68 yüz özniteliği içeren yüz ifadesi çıkarılarak SVM ile sınıflandırılmaktadır. Yüzü bulmak için Adaboost ile eğitilmiş kademeli sınıflandırıcı kullanılmış ve ortalama şekil adı verilen bir yüz ifadesi ile ASM 'den gelen verideki değişim SVM ye gönderilerek sınıflandırılmıştır [6]. Sistemin ana çalışma yapısı Şekil 2.2 'de görülmektedir.

Şekil 2.2. ASM ve SVM yaklaşımının çalışma yapısı

Yüz ifadesini oluşturan işaretler ve bunların yüz ifadesini oluşturmak için yer değişimleri Şekil 2.3 'te gösterilmektedir.

(22)

Şekil 2.3. İşaret noktaları ve yer değişimleri

2.3. Yerel Öznitelikler ile Yüz İfadesi Tanıma

Bu çalışmada LBP ‘nin ağız burun gözler ve alın gibi bölgelerin eğilimini tespit etmekte yetersiz kalması sebebiyle Lokal Gradyan Kodlaması yöntemi geliştirilmiştir. Yatay ve dikey gradyan olarak isimlendirilen bu algoritma Jaffe veri tabanında değerlendirilmiştir [7].

Geliştirilen LGC algoritması şu şekildedir: Yüz resmi birkaç bölgeye ayrılır ve her bölge için yatay, dikey ve köşegen olarak 3 ‘er adet gradyan ikili kodlama elde edilir. Daha sonra kodlama yardımı ile histogram elde edilir. Son olarak histogram grafiği ile her bir blok birleştirilir. LBP algoritmasının mantığı şekil 2.4 'te görülmektedir:

Şekil 2.4. LBP ile ikili verinin elde edilmesi

LBP ile oluşan resim ikili formatta olmaktadır. Şekil 2.5 'de görülmektedir

(23)

Şekil 2.5. LBP ile oluşan ikili resim

LBP algoritması farklı boyutlarda ifade edilebilir. Şekil 2.6 'da 3 örnek görülmektedir.

Şekil 2.6. LBP varyasyonları

LBP yapısında P sayısı büyüdükçe hesaplama zamanı uzayacağı için uniform model kullanılmıştır. Uniform modele göre 00000110 ve 01111100 aynı şeyi ifade etmektedir.

Çünkü 0 ‘dan 1 ‘e ve 1 ‘den 0 ‘a geçiş sayıları iki kodlama için eşittir. LGC-HD algoritmasında kullanılan blok boyutları ve ortalama başarısı Çizelge 2.3 'de görülmektedir.

Çizelge 2.3. LGC-HD yapısının farklı LBP boyutlarındaki hesaplama süresi Blok boyutu 1x1 2x2 4x4 8x8 16x16

Ortalama Süre 35,56 68,89 85,56 90 88,33

LGC-HD algoritması ile elde edilen başarım oranları Çizelge 2.4 'te görülmektedir.

(24)

Çizelge 2.4. LGC-HD yaklaşımının yüz ifadelerine göre başarısı

LBP LBP Uniform Gabor LGC_HD

Kızgın 93,67 96,67 73,33 96,67

Tiksinti 83,33 80 80 86,67

Korku 80 80 86,67 90

Mutluluk 93,33 90 90 96,67

Üzüntü 73,33 73,33 80 83,33

Şaşkınlık 76,67 73,33 90 86,67

Ortalama 83,89 82,22 83,33 90

Sınıflandırma süresi 106,79 13,05 1,45 7,50

Öznitelik bulma süresi 11,34 4,53 73,02 3,37

Başka bir çalışmada 3 aşamalı bir yöntem kullanılmıştır. Önce HOG ve LBP uygulanmıştır. Sonra SRC ile sınıflandırmalar yapılmış ve HOG + SRC ve LBP + SRC sonuçları çeşitli yöntemlerle birleştirilmiştir. Çünkü HOG şekil özelliklerini, LBP ise doku özelliklerini çıkarmaktadır. CK veri tabanı test için kullanılmıştır [8]. Sistemin çalışma mantığı Şekil 2.7 'de görülmektedir.

Şekil 2.7. HOG + SRC ve LBP + SRC yaklaşımının birleştirilmesi

HOG + SRC yapısında oluşan tanıma oranları Çizelge 2.5 'te görülmektedir.

(25)

Çizelge 2.5. HOG + SRC sisteminin başarısı

Kızgın Tiksinti Korku Mutluluk Üzüntü Şaşkınlık

Kızgın 84,62 0 0 0 0 0

Tiksinti 0 93,33 0 0 0 0

Korku 0 13,33 86,67 0 0 0

Mutluluk 0 0 0 100 0 0

Üzüntü 0 0 0 0 100 0

Şaşkınlık 0 0 0 0 0 100

LBP + SRC yapısında oluşan tanıma oranları Çizelge 2.6 'da görülmektedir Çizelge 2.6. LBP + SRC sisteminin başarısı

Kızgın 84,62 0 0 0 15,38 0

Tiksinti 4,44 95,56 0 0 0 0

Korku 0 0 80.00 11,67 3,33 0

Mutluluk 0 0 1,23 98,77 0 0

Üzüntü 3,33 0 0 0 96,67 0

Şaşkınlık 0 0 1,23 0 0 98,77

Sistemin çalışma zamanının diğer sistemlerle karşılaştırması aşağıdaki gibidir. Bir resim için 41 saniyede karar verilebilmiştir. Sistem performansının benzer SRC yaklaşımları ile karşılaştırması Çizelge 2.7 'de görülmektedir.

Çizelge 2.7. HOG + SRC ve LBP + SRC yönteminin başarısı ve diğer yöntemlerle karşılaştırılması

Metotlar Doğruluk Geçen süre (S)

RAW + SRC 85,70 11

DS + SRC 83,45 2,4

GABOR + SRC 81,34 9,4

EIGEN + SRC 80,32 4,7

Önerilen Yöntem 95,64 41,5

Diğer bir çalışmada yüz ifadesi tanıma sisteminde şablon kullanılırken tek bir şablonun yetersiz olduğunu düşünülerek, birden çok şablonda yüz ifadesinin tanınması için özelliklerin çıkarılması ve genetik algoritma ile minimum yeniden yapılandırma hatası bulunan yüz ifadesinin yakalanması yöntemi geliştirilmiştir. CK ve Feedtum veri tabanlarında test edilmiştir [9]. Şablon algoritması şu şekildedir:

(26)

 İlk olarak resimdeki yüz özellikleri LBP ile çıkarılır

 6 adet şablon ‘dan önemli yüz ifadesi özellikleri öğrenilir

 6 adet yüz ifadesinin özellikleri genetik algoritmadan geçirilir

 Resimden çıkarılan yüz ifadesine göre en iyi tanıma oranı belli bir seviyede sabitlendiğinde genetik algoritma durdurulur

 Sonuçta 6 adet şablon ‘dan genetik algoritma ile geçirilmiş 6 adet yansıma oluşur

 6 adet yansıma ‘dan gerçek yüz ifadesi ile en az yapılandırma hatası olan şablon yani yüz ifadesi seçilir.

Testler sonucunda yüz ifadesinin özelliklerini çıkarmak için LBP kullanıldığında CK veri tabanında %96,57 başarı sağlanmıştır. Feedtum veri tabanında ise minimum %70,28 ve maksimum %76,45 tanıma oranı elde edilmiştir.

Minimum yeniden yapılandırma hatasını bulmak için kullanılan k komşuluk ölçüsünün ise sonuçlara fazla etki etmediği gözlemlenmiştir.

Bir diğer çalışmada PCA ve LBP birlikte kullanılmıştır. Önce 8 bölümleme ile yüz ifadesini oluşturan alan çıkarılmıştır. Sonra PCA ile gerekli öznitelikler gri seviyeli resimden çıkarılmıştır. Sonra LBP ile ağız bölgesinin lokal gri seviye bilgisi çıkarılmıştır.

Global ve lokal bu iki bilgi birleştirilmiş ve SVM ile sınıflandırılmıştır [10]. PCA + SVM ile sınıflandırma yapıldığında sistemin başarısı %85,71, LPB + PCA + SVM ile sınıflandırma yapıldığında sistemin başarısı %89,64 çıkmıştır. Sistemin başarısı Çizelge 2.8 'de görülmektedir.

Çizelge 2.8. PCA + LBP hibrit yaklaşımının başarı oranları

PCA + SVM LBP + PCA + SVM

Mutluluk 91,25 96,25

Şaşkınlık 87.5 95

Üzüntü 88,75 90

Öfke 67,5 76,25

Korku 81,25 82,5

Tiksinme 90 91,25

Doğal 93,75 96,25

Ortalama 85,71 89,64

Başka bir çalışmada LBP haritası önerilmiştir. SRC için öznitelik çıkarma çok önemlidir.

Bu yüzden LBP Map olarak adlandırılan bir yöntemle SRC ‘yi birleştirme işlemi

(27)

gerçekleştirilmiştir. CK veri tabanında test edilmiştir [11]. Sistemin genel yapısı aşağıdaki Şekil 2.8 'de ve başarısı Çizelge 2.9 'da görülmektedir.

Şekil 2.8. SRC + LBP Map sisteminin çalışma yapısı

Çizelge 2.9. SRC + LBP Map sisteminin başarı oranları

Kızgın 83,6 1,34 0 0 15,06 0

Tiksinti 3,25 94,46 0 0 2,29 0

Korku 0 13,33 86,67 0 0 0

Mutluluk 0 0 3,11 96,89 0 0

Üzüntü 0 0,63 0 0 99,38 0

Şaşkınlık 0 0 0 0 0 100

Sistemin SRC ile birleştirilen diğer sistemlerle performans ve başarım karşılaştırması Çizelge 2.10 'da görülmektedir.

(28)

Çizelge 2.10. LBP Map sisteminin diğer SRC yaklaşımları ile karşılaştırılması

Metodlar Öfke Korku Mutluluk Tiksinme Üzüntü Şaşkınlık Oran

Süre (S) Önerilen

Yöntem 93,37 88,89 100 100 100 100 97,71 1,71

DS + SRC 94,74 94,44 100 97,3 95 100 96,91 4,51

RAW + SRC 94,74 94,44 100 100 95 100 97,36 9,24

EIGEN +

SRC 84,21 94,44 94,67 91,89 93,37 96 92,43 3,53

LAPCALICA

N + SRC 81,58 90,74 84 89,19 90 94,6 88,35 1,88

FISHER +

SRC 44,74 50 62,67 18,92 53,33 52 46,94 0,001

GABOR +

SRC 84,21 94,44 96 91,89 91,67 97,3 92,59 7,99

LBP + SRC 56,97 68,28 58,61 57,13 58,46 57,7 57,86 0,57

(29)

(30)

3. KULLANILAN YÖNTEM VE MATERYAL

Bu tezde önerilen yöntemin gerçekleştirilmesi ve günümüz yöntemleri ile karşılaştırılabilmesi için oluşturulan sistemde yüz ifadesi veri tabanı olarak JAFFE ve CK veri tabanları, dosyadan resim okuma, yüz bulma işlemleri ve HOG tanımlayıcılarını çıkarmak için OpenCV kütüphanesi, sistemin tanımlayıcılarla eğitilmesi ve yeni gelen verilerin sınıflandırılması için Weka kütüphanesi kullanılmıştır. Sınıflandırma yöntemi olarak Weka kütüphanesi ile gelen KNN ve SVM sınıfları kullanılmıştır. HOG tanımlayıcılarının elde edilişi bölüm sonunda detaylı anlatılmıştır. JAFFE ve CK veri tabanları hakkında bilgi deneysel sonuçlar başlığı altında verilmiştir.

Weka kütüphanesi makine öğrenmesi konusunda günümüzde en yaygın kullanılan yöntemleri içeren kütüphanedir. Java ile geliştirilmiş sürümü mevcuttur. Weka kütüphanesinde bir örnek DenseInstance sınıfı ile belirtilmektedir. Bu örneğin öznitelikleri Attribute sınıfından oluşmaktadır ve HOG tanımlayıcı değerleri bu özniteliklere DenseInstance sınıfının yapıcı metodunda Double dizisi verilerek atanmaktadır.

SVM eğitim verisinin özniteliklerini birbirinden ayıran en optimal değerleri bulur ve çok boyutlu bir düzlem ile ayırır. Bu şekilde yeni gelen verinin öz nitelikleri bu düzlem ile karşılaştırılarak sınıflandırılır. Bu yapıda sınıflandırma işlemi küçük parçalara bölünerek yapılmaktadır. Önerilen sistemde SVM sınıflandırıcısı verilen örnek ile eğitilmekte ve yeni örnek ile test edilmektedir [12].

Şekil 3.1. SVM sınıflandırıcısının sınıflandırma mantığı

(31)

KNN sınıflandırma ise K en yakın komşuluk olarak adlandırılır. Bu sınıflandırma yönteminde öncelikle eğitim verisinin öz nitelikleri belirlenir. Sonra yeni gelen bir test verisinin öznitelikleri bulunur. Yeni gelen verinin öz nitelikleri ile eğitim verilerinin öz nitelikleri arasında en kısa uzaklığı olan, bir başka deyişle en az değişim gösteren, K adet örnek verisi seçilir. Seçilen veriler arasında çoğunlukta olan sınıf bulunur ve sınıflandırma tamamlanmış olur. K verisi değiştirilerek farklı veri setlerinde başarı artıp azalabilmektedir. Önerilen sistemde K değeri Weka ‘nın varsayılan değeri olan 1 olarak kullanılmıştır. Önerilen sistem SVM sınıflandırıcısına alternatif olarak KNN sınıflandırıcısı da verilen örnek ile eğitilmiş ve yeni örnek ile test edilmiştir [13].

Şekil 3.2. KNN sınıflandırıcısının çalışma mantığı

OpenCV kütüphanesi ise görüntü işleme kütüphanesidir. Bu kütüphanede kapsamlı bir şekilde görüntü işleme yöntemleri ve bunun yanı sıra resimden öznitelikler çıkaran HOG, DCT, PCA gibi metotları bulunmaktadır. Bu sayede bir sınıflandırıcı kullanılması için gereken altyapıyı sağlamaktadır. Java, Pyton ve C++ ile implementasyonları bulunmaktadır. Java ile geliştirilmiş olan sürümü temelde C++ kodları çalıştırmaktadır ve hafızayı verimli bir şekilde kullandığı için optimize edilmiştir. Bu sayede matrisler üzerinde hızlı işlemler yapabilmektedir. Dosyadan resim verisi okuma ve dosyaya yazma özellikleri de mevcuttur. Önerilen sistemde Java ile 3.1.0 sürümü kullanılmaktadır [14].

OpenCV ‘nin HOGDescriptor sınıfından ve imread() metodundan ağırlıkla yararlanılmıştır. Resimlerdeki yüzü bulmak için OpenCV ile gelen haarcascade_frontalface_default.xml dosyası ile CascadeClassifier kullanılmıştır. Ayrıca submat() metodu ile lokalizasyon işlemi gerçekleştirilmiştir. Resize() metodu ile lokal bölgelerde boyut eşitlemesi yapılmıştır. Deneysel olarak gerçekleştirilen gerçek zamanlı

(32)

uygulamada ise VideoCapture sınıfı kullanılarak kameradan görüntü alınmaktadır. Bu uygulama ise JavaFX uygulamasıdır. JavaFX, swing kütüphaneleri üzerine geliştirilmiş arayüz paketidir ve Java ‘nın yeni ara yüzlerini içermektedir.

HOG, resmi küçük parçalara bölerek eğilimleri bir histogram ile ifade etmeye dayalı bir yöntemdir. Histogram grafikleri bir aralıktaki değerlerin hangi sıklıkta tekrarlandığını ifade eden grafiklerdir. Bu histogramlar birleştirilerek bir anlamda eğilimler bulunmakta ve tanımlayıcılar oluşturulmaktadır. Bu tanımlayıcılar uç uca eklenmekte ve birleştirilen tanımlayıcı verisi ile eğitim ve testler yapılabilmektedir.

Bir resim verisinin bölündüğü küçük parçalara hücre adı verilmektedir. Bu hücreler birkaç pixel ‘den oluşan kareleri ifade etmektedir. Bir hücre içindeki her bir pixel için yönelimli gradyan hesaplanmaktadır. Bunun anlamı pixelin komşularına göre nasıl bir eğilimde olduğunun, bir başka ifade ile kaç derecelik açı ile yönelim yaptığının bulunmasıdır.

Tanımlayıcı ise her hücre için hesaplanan histogram verilerinin art arda eklenmesi ile elde edilmektedir [15].

Resimdeki ışıklandırma veya kontrast değişimlerini elimine etmek için normalizasyon işlemi uygulanabilir. Bu normalizasyon işlemi için hücreler bir araya getirilerek bloklar oluşturulup bu blokların üzerinde normalizasyon işlemi yapılmaktadır. Bloklar ise belli bir oranda üst üste gelmekte yani çakışmaktadır. Bu şekilde normalizasyon sadece blok bazında yapılmamış bütün resim üzerine dağıtılmış olmaktadır. Normalizasyon işleminden sonra histogram tanımlayıcıları hesaplanmaktadır [15].

Eğilim hesaplanması için hücre içerisindeki her pixel bir anlamda oy kullanmaktadır. Her pixel için 0 ‘dan 180 ‘e kadar bir açı ile eğilimi bulunur. İşaretli sayılar için 360 derece açıya kadar hesaplanabilmektedir fakat yapılan çalışmalarda işaretsiz hesaplamanın daha verimli çalıştığı gözlemlenmiştir. Sonuçta 0 – 180 arasında değerlerin histogram ifadesi elde edilmektedir [15].

(33)

Şekil 3.3. Yönlendirilmiş gradyanların histogramları ile elde edilen bölgesel historgramların yapısı

Dalal ve Triggs ‘in çalışmasında HOG için optimal hücre boyutunun 8 x 8 pixel olduğu ve blokların 4 hücreden oluşan 16 x 16 boyutunda olduğu bulunmuştur. HOG ile bulunan tanımlayıcı insan, yüz, hayvan veya taşıt bulma üzerine çalışmalar yapılmıştır [15]. HOG tanımlayıcıları ile ortalama bir insan yüzü ifade edilebileceği için resim üzerinde yüz bulma çalışması da yapılmıştır [16].

HOG ile bulunan tanımlayıcı boyutu fazla olmaktadır ve yapılan bir çalışmada araç tanıma için taşıt yapılarının değişmez özellikleri göz önüne alınarak hızlandırma yöntemi önerilmektedir [17]. Bir başka çalışmada HOG yapısındaki hücreleri ve blokların kesişen alanlardaki ilişkilerini kullanarak histogram hesaplama maliyetini düşürmeyi başarmıştır [18]. Bir çalışmada ise hesaplama maliyetinin azaltılması için donanımsal hızlandırma önerilmektedir [19].

Bu çalışmada bütün yüz ifadesi üzerinden HOG tanımlayıcılarının tanımlanması için OpenCV ile gelen optimum değerleri kullanılmıştır. Bunlar pencere boyutu 64 x 128, blok boyutu 16 x 16, hücre boyutu 8 x 8 ve üst üste gelen alan 8 x 8 olarak alınmaktadır.

Önerilen yeni yöntemde HOG tanımlayıcıları 96 x 96 pencere boyutu, 16 x 16 blok, 8 x 8 hücre ve 8 x 8 kesişim alanı olarak hesaplanmaktadır. Görüntü üzerinde herhangi bir kontrast normalizasyonu yapılmamıştır. Bu çalışmada önerilen hızlandırma yüz ifadeleri için geçerlidir ve yüzün sadece ağız ve gözler bölgesinin üzerinde HOG hesaplanması önerilmektedir.

(34)

Bir yüz ifadesi ağırlıkla insan yüzünün ağız, gözler ve kaşlar bölgesi ile anlam kazanmaktadır. Bütün yüzün dikkate alınması ve özniteliklerin çıkarılması yüz ifadesi tanıma konusunda gereksiz bir işlemdir. Bu yüzden HAAR Cascade tabanlı bir yüz bulma işleminden sonra bulunan yüz üzerinde belli oranlarda boyutlarla ağız ve gözler bölgesi ifade edilmiştir.

Bu boyutlar yüz bulunup 128 x 128 boyutlarına getirildikten sonra hesaplanmaktadır. Bu şekilde farklı oranlardaki yüz yapılarının standart halle getirilmesi sağlanmıştır. 128 x 128 boyutlarındaki resim için sol üst köşesi (15, 20) koordinatları ve sağ alt köşesi (113, 64) koordinatları arası dikdörtgen alanı gözler ve kaşlar bölgesi olarak alınmış ve oranlanarak kodlanmıştır. Ağız bölgesi ise sol üst köşesi (15, 84) ve sağ alt köşesi (113, 128) koordinatları olan dikdörtgen olarak alınmıştır. Bu şekilde hesaplanan 2 farklı bölge dikey olarak birleştirilip 96 x 96 boyutlarına boyutlandırılmakta ve HOG hesaplanmaktadır. 128 x 128 olan resimde hesaplanan tanımlayıcı boyutu 34020 olmakta ve lokalizasyon ile iki bölge birleştirildikten sonra 96 x 96 resim üzerinde tanımlayıcı boyutu 4356 olmaktadır.

Deneysel sonuçlarda görüleceği üzere bu işlem sınıflandırıcı hızını arttırmış ve sınıflandırma başarısını kabul edilebilir seviye düşürmüş veya arttırmıştır. Sistemde önerilen bölgesel yaklaşım aşağıdaki resimdeki gibi iki alanı kapsamaktadır.

(35)

Şekil 3.4. Önerilen sistemde yüz üzerinde dikkate alınan ağız ve gözler bölgelerinin ifadesi

HOG tanımlayıcılarının hesaplandığı dikey olarak birleştirilen alanlar ise aşağıdaki resimdeki gibi olmaktadır.

Şekil 3.5. Önerilen sistemde ağız ve gözler bölgesinin birleştirilmiş ifadesi

(36)

4. DENEYSEL SONUÇLAR

Önerilen sistem JAFFE ve CK+ isimli iki farklı veri tabanında değerlendirilmiştir. JAFFE veri tabanı 11 kişinin 7 adet yüz ifadesinden 3 ‘er tane pozlaması ile 213 adet resimden oluşmaktadır. Bir yüz ifadesinin 3 adet pozlamasının bulunmasının sebebi az baskın, orta ve çok baskın olarak ifade edilmiş olmasıdır. Bir başka deyişle abartılmamış, normal ve abartılmış yüz ifadelerini içermektedir. CK+ veri tabanında etiketleri bulunan 453 adet yüz ifadesi ve 109 kişi seçilmiştir. 109 kişinin 3 tanesinde 7 adet ifadenin tamamı bulunmaktadır. 106 kişide ise en az 1 en fazla 6 farklı yüz ifadesi bulunmaktadır. JAFFE veri tabanına göre daha rastgele bir dağılım göstermektedir. JAFFE ve CK veritabanlarından yüz ifadesi örnekleri Şekil 4.1 ve Şekil 4.2 'de görülmektedir.

Şekil 4.1. JAFFE veri tabanından sevinç, üzüntü, şaşkınlık ve korku ifadeleri

Şekil 4.2. CK veri tabanından sevinç, tiksinti, doğal ve şaşkın yüz ifadeleri

Lokalizasyon ile HOG tanımlayıcılarının boyutunun azaltılması ve sınıflandırma işleminin hızlandırılması için önerilen sistem Netbeans geliştirme ortamında Java ‘nın1.8 sürümü ile yazılan bir program ile test edilmiştir. Testler Core I5 2500, 3.30 Ghz işlemci ve 12 GB DDR3 1333 Mhz ram kapasitesine sahip bilgisayarda gerçekleştirilmiştir.OpenCV kütüphanesi ile JAFFE ve CK+ veri tabanlarındaki resimler dosyadan okunmuş, yüz bulma işlemi için HAAR Cascade kullanılmış, HOG tanımlayıcıları yüzün belli bölgesi için hesaplanmıştır. Bu tanımlayıcılar ile Weka ‘nın KNN ve SVM sınıflandırıcıları eğitilmiş ve aynı şekilde sınıflandırılmıştır. Sistemde 7 adet yüz ifadesi sınıflandırılmaktadır. Bunlar doğal, öfke, tiksinti, korku, mutluluk, üzüntü ve şaşırma yüz ifadeleridir. İki farklı veri

(37)

tabanında farklı eğitim verileri ile testler yapılarak sistemin tutarlılığı da ölçülmüştür.

Lokalizasyon ile HOG tanımlayıcılarını çıkaran yöntem test sonuçlarında HOG2 olarak isimlendirilmiştir.

Yapılan deneylerde JAFFE veri tabanında bütün kişiler bütün yüz ifadelerine sahip olduğu için JAFFE ve CK+ veri tabanları farklı şekillerde eğitilmiş ve test edilmiştir. Bu testlerde JAFFE veri tabanındaki 11 kişinin her biri için bütün yüz ifadelerinden 3 ‘er adet bulunmaktadır. Bu 3 yüz ifadesi ise farklı ağırlıklarla ifade edilmektedir. Her bireyin 1. yüz ifadesi eğitim verisi olarak kullanılmış ve aynı yüz ifadesinin geri kalan 2 tanesi test olarak kullanılmıştır. Bu şekilde 70 adet eğitim verisi ve 143 adet test verisi kullanılmıştır.

Aşağıdaki iki resimde bu iki veri tabanında doğru ve yanlış sınıflandırılan birer örnek görülmektedir.

Şekil 4.3. CK veri tabanında doğru ve yanlış sınıflandırma örneği

Şekil 4.4. JAFFE veri tabanında doğru ve yanlış sınıflandırma örneği

CK+ veri tabanında ise etiketleri bulunan yüz ifadeleri ayıklanmış ve 109 kişiden 453 adet yüz ifadesi elde edilmiştir. 453 adet yüz ifadesi ilk 1/10, 1/5, 1/4, 1/3, 1/2 oranlarında

(38)

eğitim verisi ile eğitilerek testler yapılmıştır. Ayrıca bu veri tabanında 7 adet yüz ifadesinin hepsine sahip olan 3 kişi yani 21 adet yüz ifadesi bulunmaktadır. Sistem bu şekilde 21 eğitim verisi ve 432 test verisi ile ayrıca test edilmiş ve CK Özet olarak isimlendirilmiştir.

JAFFE veri tabanında KNN ve SVM sınıflandırıcıları ile önerilen lokalizasyon yönteminin bütün resim üzerinde HOG tanımlayıcıları çıkarılması ile karşılaştırılması sonucunda KNN ve SVM sınıflandırıcılarında %1 - %5 sınıflandırma başarısı artmış ve test sürelerinin yaklaşık 5 ‘te 1 ‘ine kadar düştüğü görülmüştür. SVM ise KNN ‘dan daha hızlı ve daha yüksek oranda doğru sınıflandırma yapmıştır. Sistemin JAFFE veri tabanındaki başarı oranları ve çalışma süreleri Çizelge 4.1 'de görülmektedir.

Çizelge 4.1. Sistemin JAFFE veri tabanındaki başarı oranları ve çalışma süreleri

JAFFE Eğitim Verisi

Test

Verisi Doğru Başarı

Eğitim Süresi (ms)

Test Süresi (ms)

HOG + KNN 70 143 131 %91,61 359 4187

HOG + SVM 70 143 130 %90,91 375 2640

HOG2 + KNN 70 143 132 %92,31 63 500

HOG2 + SVM 70 143 136 %95,10 62 469

Yüz ifadesi tanıma sisteminde HOG tanımlayıcılarının çıkarılması, örnek verinin oluşturulması ve sınıflandırılması aşamaları olması sebebiyle sistemin en yüksek oranda hızlanan parçası araştırılmış ve örnek verinin özniteliklerinin set edilmesi ve sınıflandırıcının sınıflandırma işleminin en yüksek oranda hızlandığı görülmüştür. HOG ve HOG2 yöntemlerinde KNN ve SVM sınıflandırıcıları ile milisaniye cinsinden bu işlemlerin aldığı süreler JAFFE ve CK veri tabanında farklı eğitim verisi miktarlarında ölçülmüştür. HOG tanımlayıcılarının hesaplanma süresi %50 ‘sine kadar düşmüştür.

Sınıflandırma süresi hem KNN hem SVM sınıflandırıcısında 10 ‘da 1 oranına kadar düşmüştür. Sistemin JAFFE veri tabanında başarı oranları ve HOG hesaplama, örnek oluşturma ve sınıflandırma süreleri Çizelge 4.2 'de görülmektedir.

(39)

Çizelge 4.2. Sistemin JAFFE veri tabanında başarı oranları ve HOG hesaplama, örnek oluşturma ve sınıflandırma süreleri

JAFFE

Eğitim Verisi

Test

Verisi Doğru Başarı

HOG Süresi

(ms)

Instance Yaratma Süresi

(ms)

Sınıflandırma Süresi (ms)

HOG + KNN 70 143 131 %91,61 126 690 3371

HOG + SVM 70 143 130 %90,91 141 642 1123

HOG2 + KNN 70 143 132 %92,31 32 172 296

HOG2 + SVM 70 143 136 %95,10 110 93 78

JAFFE veri tabanında yapılan test sonucunda oluşan karmaşıklık matrisi Çizelge 4.3 'te görülmektedir.

Çizelge 4.3. JAFFE veri tabanı için karmaşıklık matrisi

Tahmin Edilen

HOG Doğal Öfke Tiksinti Korku Mutluluk Üzüntü Şaşkınlık

Doğal 100 0 0 0 0 0 0

Öfke 0 95 0 0 0 5 0

Tiksinti 0 5,26 89,47 0 0 5,26 0

Korku 4,55 0 4,55 81,82 0 4,55 4,55

Mutluluk 4,76 0 0 0 95,24 0 0

Üzüntü 0 0 0 4,76 4,76 90,48 0

Şaşkınlık 5 0 0 0 0 0 95

JAFFE veri tabanında yapılan test sonucunda oluşan karmaşıklık matrisi önerilen sistem için Çizelge 4.4 'te görülmektedir.

Çizelge 4.4. JAFFE veri tabanı için önerilen sistemin karmaşıklık matrisi

Tahmin Edilen

HOG2 Doğal Öfke Tiksinti Korku Mutluluk Üzüntü Şaşkınlık

Doğal 100 0 0 0 0 0 0

Öfke 0 95 0 0 0 5 0

Tiksinti 0 0 89,47 0 0 10,53 0

Korku 0 0 0 100 0 0 0

Mutluluk 0 0 0 0 100 0 0

Üzüntü 0 0 0 4,76 4,76 90,48 0

Şaşkınlık 5 0 0 5 0 0 90

(40)

CK veri tabanında ise 1/10, 1/5, 1/4, 1/3 ve 1/2 oranında eğitim verileri kullanılarak testler yapılmıştır. Bu testlerde farklı eğitim verisi miktarlarında başarı oranları en fazla %3 düşerken %1 oranında hızlanma da gerçekleşmiş ve sınıflandırma süreleri yaklaşık 10 ‘da 1 ‘ine düşmüştür. SVM sınıflandırıcısı KNN ‘den daha hızlı ve başarılı çalışmıştır. CK veri tabanı bir kişi ile eğitilip başka kişilerle test edildiği için başarısı JAFFE veri tabanı kadar yüksek çıkmamaktadır. Farklı eğitim verisi büyüklüğü ile yapılan testlerin sonuçları aşağıdaki gibidir. Sistemin CK veri tabanında 1 / 10 eğitim verisi ile başarı oranları ve çalışma süreleri Çizelge 4.5 ve Çizelge 4.6 'da görülmektedir.

Çizelge 4.5. Sistemin CK veri tabanında 1 / 10 eğitim verisi ile başarı oranları ve çalışma süreleri

CK 1 / 10 Eğitim Verisi

Test

Verisi Doğru Başarı Eğitim Süresi (ms)

HOG + KNN 43 410 319 %77,80 250 10672

HOG + SVM 43 410 335 %81,71 219 5812

HOG2 + KNN 43 410 315 %76,83 31 1281

HOG2 + SVM 43 410 336 %81,95 47 890

Çizelge 4.6. Sistemin CK veri tabanında 1 / 10 eğitim verisi ile başarı oranları ve HOG hesaplama, örnek oluşturma ve sınıflandırma süreleri

Test

HOG Süresi (ms)

Instance Yaratma Süresi (ms)

Sınıflandırma Süresi (ms) HOG + KNN 43 410 319 %77,80 284 1932 8410 HOG + SVM 43 410 335 %81,71 347 1730 3251

HOG2 + KNN 43 410 315 %76,83 124 267 890

HOG2 + SVM 43 410 336 %81,95 155 282 359

CK 1 / 10 eğitim verisi için yapılan test sonucunda oluşan karmaşıklık matrisi Çizelge 4.7 'de görülmektedir.

(41)

Çizelge 4.7. CK 1 / 10 eğitim verisi için karmaşıklık matrisi

Tahmin Edilen

HOG Doğal Öfke Tiksinti Korku Mutluluk Üzüntü Şaşkınlık

Doğal 93,88 6,12 0 0 0 0 0

Öfke 19,05 78,57 2,38 0 0 0 0

Tiksinti 3,57 16,07 80,36 0 0 0 0

Korku 27,03 5,41 0 32,43 13,51 10,81 10,81

Mutluluk 6,58 1,32 0 0 92,11 0 0

Üzüntü 12,5 20,83 0 0 0 50 16,67

Şaşkınlık 2,6 0 0 0 0 0 97,4

CK 1 / 10 eğitim verisi için yapılan test sonucunda oluşan karmaşıklık matrisi önerilen sistem için Çizelge 4.8 de görülmektedir.

Çizelge 4.8. CK 1 / 10 eğitim verisi için önerilen sistemin karmaşıklık matrisi

Tahmin Edilen

HOG2 Doğal Öfke Tiksinti Korku Mutluluk Üzüntü Şaşkınlık

Doğal 89,8 4,08 1,02 0 1,02 1,02 3,06

Öfke 11,9 85,71 2,38 0 0 0 0

Tiksinti 1,79 12,5 80,36 0 5,36 0 0

Korku 29,73 16,22 2,7 27.03 16,22 2,7 5,41

Mutluluk 6,58 0 0 0 92,11 0 1,32

Üzüntü 20,83 20,83 8,33 0 0 45,83 4,17

Şaşkınlık 1,3 0 0 0 0 0 98,7

Test

HOG + KNN 98 355 278 %78,31 516 16531

HOG + SVM 98 355 309 %87,04 531 5781

HOG2 + KNN 98 355 270 %76,06 93 1922

HOG2 + SVM 98 355 314 %88,45 78 922

(42)

CK 1 / 5

Test

HOG Süresi

(ms)

Sınıflandırma Süresi (ms) HOG + KNN 98 355 278 %78,31 217 1417 14881 HOG + SVM 98 355 309 %87,04 297 1575 2831 HOG2 + KNN 98 355 270 %76,06 157 156 1594

HOG2 + SVM 98 355 314 %88,45 171 172 360

CK 1 / 5 eğitim verisi için yapılan test sonucunda oluşan karmaşıklık matrisi Çizelge 4.11 'de görülmektedir.

Tahmin Edilen

Doğal 94,25 5,75 0 0 0 0 0

Öfke 21,21 75,76 3,03 0 0 0 0

Tiksinti 2,13 6,38 91,49 0 0 0 0

Korku 21,88 3,12 0 65,62 9,38 0 0

Mutluluk 3,03 0 0 0 96,97 0 0

Üzüntü 36,36 18,18 0 0 0 45,45 0

Şaşkınlık 1,47 0 0 0 0 0 98,53

CK 1 / 5 eğitim verisi için yapılan test sonucunda oluşan karmaşıklık matrisi önerilen sistem için Çizelge 4.12 'te görülmektedir.

Tahmin Edilen

HOG2 Doğal Öfke Tiksinti Korku Mutluluk Üzüntü Şaşkınlık

Doğal 93,1 2,3 1,15 0 2.3 1.15 0

Öfke 15,15 81,82 3,03 0 0 0 0

Tiksinti 4,26 6,38 89,36 0 0 0 0

Korku 12,5 0 0 78,12 9,38 0 0

Mutluluk 1,52 0 0 1,52 96,97 0 0

Üzüntü 36,36 2273 0 0 0 40,91 0

Şaşkınlık 2,94 0 0 0 0 0 97,06

(43)

Test

Test Süresi

(ms)

HOG + KNN 123 330 256 %77,58 625 19063

HOG + SVM 123 330 294 %89,09 656 5844

HOG2 + KNN 123 330 247 %74,85 125 2157

HOG2 + SVM 123 330 293 %88,79 125 844

Test

HOG Süresi

(ms)

Sınıflandırma Süresi (ms) HOG + KNN 123 330 256 %77,58 300 1436 17327 HOG + SVM 123 330 294 %89,09 221 1470 2653 HOG2 + KNN 123 330 247 %74,85 142 216 1783 HOG2 + SVM 123 330 293 %88,79 155 204 266 CK 1 / 4 eğitim verisi için yapılan test sonucunda oluşan karmaşıklık matrisi Çizelge 4.15 'te görülmektedir.

Tahmin Edilen

Doğal 97,53 2,47 0 0 0 0 0

Öfke 25,81 67,74 3,23 3,23 0 0 0

Tiksinti 2,38 2,38 95,24 0 0 0 0

Korku 10 0 0 76,67 6,67 0 6,67

Mutluluk 3,23 0 0 0 96,77 0 0

Üzüntü 27,27 22,73 0 0 0 36,36 13,64

Şaşkınlık 1,61 0 0 0 0 0 98,39

CK 1 / 4 eğitim verisi için yapılan testlerin sonucunda oluşan karmaşıklık matrisi önerilen sistem için Çizelge 4.16 'da görülmektedir.

(44)

Tahmin Edilen

CK 1 / 4 Doğal Öfke Tiksinti Korku Mutluluk Üzüntü Şaşkınlık

Doğal 96,3 1,23 1,23 0 0 0 1,23

Öfke 16,13 77,42 6,45 0 0 0 0

Tiksinti 4,76 2,38 92,86 0 0 0 0

Korku 10 0 0 76,67 6,67 0 6,67

Mutluluk 3,23 0 0 1,61 95,16 0 0

Üzüntü 31,82 27,27 0 0 0 40,91 0

Şaşkınlık 1,61 0 0 0 0 0 98,39

Test

Verisi Doğru Başarı Eğitim Süresi (ms)

HOG + KNN 161 292 229 %78,42 829 20515

HOG + SVM 161 292 263 %90,07 906 5750

HOG2 + KNN 161 292 226 %77,40 141 2406

HOG2 + SVM 161 292 262 %89,73 156 844

CK 1 / 3

Test

HOG Süresi

(ms)

Sınıflandırma Süresi (ms) HOG + KNN 161 292 229 %78,42 219 1244 19052 HOG + SVM 161 292 263 %90,07 202 1331 2311 HOG2 + KNN 161 292 226 %77,40 110 236 2060 HOG2 + SVM 161 292 262 %89,73 158 125 280 CK 1 / 3 eğitim verisi için yapılan testlerin sonucunda oluşan karmaşıklık matrisi Çizelge 4.19 'da görülmektedir.

(45)

Tahmin Edilen

Doğal 94,44 2,78 0 1,39 1,39 0 0

Öfke 27,59 65,52 3,45 3,45 0 0 0

Tiksinti 2,7 2,7 94,59 0 0 0 0

Korku 7,69 0 0 76,92 11,54 0 3,85

Mutluluk 1,85 0 0 0 98,15 0 0

Üzüntü 9,52 23,81 0 14,29 0 38,1 14,29

Şaşkınlık 1,89 0 0 1,89 0 0 96,23

CK 1 / 3 eğitim verisi için yapılan testlerin sonucunda oluşan karmaşıklık matrisi önerilen sistem için Çizelge 4.20 'de görülmektedir.

Tahmin Edilen

HOG2 Doğal Öfke Tiksinti Korku Mutluluk Üzüntü Şaşkınlık

Doğal 97,22 0 1,39 1,39 0 0 0

Öfke 17,24 72,41 10,34 0 0 0 0

Tiksinti 2,7 2,7 94,59 0 0 0 0

Korku 3,85 3,85 0 84,62 7,69 0 0

Mutluluk 1,85 0 0 0 98,15 0 0

Üzüntü 23,81 28,57 4,76 0 0 42,86 0

Şaşkınlık 1,89 0 0 0 0 0 98,11

Test

HOG + KNN 220 233 167 %75,91 1203 21313

HOG + SVM 220 233 197 %89,55 1250 6234

HOG2 + KNN 220 233 169 %76,82 234 2469

HOG2 + SVM 220 233 196 %89,09 218 828