DERİN ÖĞRENME YÖNTEMLERİ YA

(1)

DERİN ÖĞRENME YÖNTEMLERİ YARDIMIYLA

GÖRÜNTÜDE YER ALAN NESNELERİN BİRBİRLERİNE GÖRE KONUMLARININ BELİRLENMESİ VE TASVİR EDİLMESİ

ÜZERİNE BİR ÇALIŞMA

Esin ERGUVAN ETGİN 17 14 50 203

DOKTORA TEZİ

Bilgisayar Mühendisliği Anabilim Dalı Bilgisayar Mühendisliği Doktora Programı Danışman: Dr. Öğr. Üyesi Erdal GÜVENOĞLU

İstanbul

T.C. Maltepe Üniversitesi Lisansüstü Eğitim Enstitüsü

Ocak, 2023

(2)

(3)

DERİN ÖĞRENME YÖNTEMLERİ YARDIMIYLA

GÖRÜNTÜDE YER ALAN NESNELERİN BİRBİRLERİNE GÖRE KONUMLARININ BELİRLENMESİ VE TASVİR EDİLMESİ

ÜZERİNE BİR ÇALIŞMA

Esin ERGUVAN ETGİN 17 14 50 203

ORCID: 0000-0002-2607-6076

DOKTORA TEZİ

Bilgisayar Mühendisliği Anabilim Dalı Bilgisayar Mühendisliği Doktora Programı Danışman: Dr. Öğr. Üyesi Erdal GÜVENOĞLU

İstanbul

T.C. Maltepe Üniversitesi Lisansüstü Eğitim Enstitüsü

Ocak, 2023

(4)

ii

JÜRİ VE ENSTİTÜ ONAYI

Bu belge, Yükseköğretim Kurulu tarafından 19.01.2021 tarihli “Lisansüstü Tezlerin Elektronik Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge”

ile bildirilen 6698 Sayılı Kişisel Verilerin Korunması Kanunu kapsamında gizlenmiştir.

(5)

iii

ETİK İLKE VE KURALLARA UYUM BEYANI

Bu belge, Yükseköğretim Kurulu tarafından 19.01.2021 tarihli “Lisansüstü Tezlerin Elektronik Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge”

ile bildirilen 6698 Sayılı Kişisel Verilerin Korunması Kanunu kapsamında gizlenmiştir.

(6)

iv

TEŞEKKÜR

Doktora eğitimim ve tez çalışmamda bana çok değerli katkılarda bulunan danışmanım Sn. Dr. Erdal GÜVENOĞLU ve değerli öğretmenim Sn. Prof. Dr. İlhami YAVUZ, tüm eğitim hayatım boyunca benden bilgisini ve desteğini esirgemeyen tüm öğretmenlerime, sevgi, yardım ve anlayışları ile bana her zaman destek olan annem ve öğretmenim Yurdagül ERGUVAN, babam Mümin ERGUVAN ve eşim Bülent ETGİN’e teşekkürü borç bilirim. Bana tüm vasıflarımı ve varlığımı lütfeden Rabbime hamd ederim.

Esin ERGUVAN ETGİN Ocak, 2023

(7)

v

ÖZET

DERİN ÖĞRENME YÖNTEMLERİ YARDIMIYLA GÖRÜNTÜDE YER ALAN NESNELERİN BİRBİRLERİNE GÖRE KONUMLARININ BELİRLENMESİ

VE TASVİR EDİLMESİ ÜZERİNE BİR ÇALIŞMA Esin Erguvan Etgin

Doktora Tezi

Bilgisayar Mühendisliği Anabilim Dalı Bilgisayar Mühendisliği Doktora Programı Danışman: Dr. Öğr. Üyesi Erdal Güvenoğlu Maltepe Üniversitesi Lisansüstü Eğitim Enstitüsü, 2023

Günümüzde görüntü işlemenin yaygın olarak kullanılması ile birlikte görüntülerin otomatik olarak tasvir edilmesi ve alt yazı oluşturulması önem teşkil etmektedir. Bu çalışma ile, literatüre ilk olarak yeni bir Türkçe konumlu tasvir veri seti kazandırılması, ikinci olarak Türkçe dilinde otomatik konumlu tasvir yapma ve alt yazı oluşturulması amaçlanmıştır. Konumlu-Tasvir adlı yeni veri setinin diğer veri setlerinden farkı, görüntüdeki bazı nesnelerin birbirlerine göre konum bilgilerini içermesidir. Konumlu- Tasvir veri seti kullanılarak, görüntülerin otomatik tasvir edilmesi ve alt yazılama için derin öğrenme yöntemlerinden faydalanılmıştır. Ayrıca konumlu tasvir ve alt yazılama için iki yöntem önerilmiş ve başarımları kıyaslanmıştır. Her iki yöntem için de elde edilen en iyi 10’ar model, otomatik alt yazı oluşturma için seçilmiştir. Deneysel sonuçlar önerilen yöntemlerin, Türkçe dilinde otomatik konumlu tasvir ve alt yazı oluşturma için başarılı sonuçlar ortaya koyduğunu göstermektedir. Tezin ikinci bölümünde literatür araştırması ele alınmış ve ilgili çalışmalar incelenmiştir. Üçüncü bölümde, çalışmada kullanılan tanımlar, modeller, performans ölçüm yöntemleri ve metrikleri konularına değinilmiştir. Ayrıca yeni Türkçe Konumlu-Tasvir veri setinin hazırlanması ve otomatik alt yazı oluşturma için önerilen iki yöntem ayrıntılı bir şekilde ele alınmıştır. Dördüncü bölümde, önerilen yöntemlerin görüntü çıktıları, performans ölçüm değerleri verilmiştir.

Yöntemlerin, hem performans ölçüm metriklerine göre başarımları, hem de çıktı sonuçları kıyaslanmıştır. Son olarak beşinci bölümde analiz sonuçları ve öneriler ele alınmıştır.

(8)

vi

Ocak 2023 yılında yazılmış olan bu tez 128 sayfadan oluşmaktadır.

Anahtar Sözcükler: Derin öğrenme, Görüntü alt yazılama, FasterRCNN, ResNet, GRU

(9)

vii

ABSTRACT

A STUDY ON THE DETERMINATION AND DEPICTION OF THE POSITIONS OF THE OBJECTS IN THE IMAGE RELATIVE TO EACH

OTHER WITH THE HELP OF DEEP LEARNING METHODS Esin Erguvan Etgin

PhD Thesis

Department of Computer Engineering PhD Program in Computer Engineering Thesis Advisor: Dr. Öğr. Üyesi Erdal Güvenoğlu

Maltepe University Graduate School, 2023

Nowadays, with the widespread use of image processing, it is significant to automatically depict images and create subtitles. With this study, firstly Turkish-language depiction data set is intended to be introduced to the literature, and secondly, to create automatic position depiction and subtitle in Turkish language. The difference of the new data set called Konumlu-Tasvir (Positional-Depiction) from other data sets is that it contains the position information of some objects in the image relative to each other. Using the Positional-Depiction data set, deep learning methods were used for automatic depiction and captioning of images. In addition, two methods were proposed for positional depiction and subtitling, and performances were compared. For both methods, the top 10 models obtained were selected for automatic caption creation. Experimental results show that the proposed methods show successful results for automatic positional depiction and caption creation in the Turkish language. In the second part of the thesis, literature research is discussed and related studies are examined. In the third section, the definitions, models, performance measurement methods and metrics used in the study are discussed.

In addition, the two proposed methods for the preparation of the new Turkish Positional- Depiction data set and automatic caption creation are discussed in detail. In the fourth section, the image outputs of the proposed methods, performance measurement values are given. Both the performance of the methods according to the performance measurement metrics and the output results were compared. Finally, in the fifth section, the analysis results and recommendations are discussed.

(10)

viii

This thesis, which was written in January 2023, consists of 128 pages.

Keywords: Deep learning, Image captioning, Faster-RCNN, ResNet, GRU

(11)

ix

İÇİNDEKİLER

JÜRİ VE ENSTİTÜ ONAYI ... ii

ETİK İLKE VE KURALLARA UYUM BEYANI ... iii

TEŞEKKÜR ... iv

ÖZET ... v

ABSTRACT ... vii

İÇİNDEKİLER ... ix

TABLOLAR LİSTESİ ... xii

ŞEKİLLER LİSTESİ ... xiv

KISALTMALAR ... xvi

1. GİRİŞ ... 1

2. LİTERATÜR ARAŞTIRMASI ... 3

3. MATERYAL VE YÖNTEM ... 14

3.1 Yapay Sinir Ağları ve Derin Öğrenme ... 14

3.2 Evrişimli Derin Öğrenme Modelleri ... 16

3.2.1 Artık sinir ağları modeli ... 17

3.3 Bölge-Tabanlı Evrişimli Sinir Ağları Modelleri ... 19

3.3.1 Bölge-tabanlı evrişimli sinir ağları modeli ... 20

3.3.2 Daha hızlı bölge-tabanlı evrişimli sinir ağları modeli ... 20

3.3.3 Maske bölge-tabanlı evrişimli sinir ağları modeli ... 22

3.4 Özyinelemeli Sinir Ağları ... 23

3.4.1 Temel özyinelemeli sinir ağları ... 23

3.4.2 Kapılı özyinelemeli birim ... 24

(12)

x

3.5 Derin Öğrenme ile Otomatik Görüntü Alt Yazısı Oluşturma Yöntemleri ... 26

3.6 Hiper-Parametreler ... 27

3.6.1 Mini-yığın boyutu ... 27

3.6.2 Optimizasyon algoritmaları ... 27

3.7 Performans Ölçüm Metrikleri ... 28

3.7.1 BLEU metrikleri ... 28

3.7.2 ROUGE metrikleri ... 29

3.7.3 METEOR metriği ... 29

3.7.4 CIDEr metriği ... 30

3.7.5 SPICE metriği ... 30

3.8 Kelime Vektörleri ... 30

3.8.1 Word2Vec kelime vektörü ... 31

3.8.2 GloVe kelime vektörü ... 31

3.9 Yöntemde Kullanılan Yeni Veri Setinin Hazırlanması ... 32

3.9.1 Konumlu-Tasvir yeni veri setinin hazırlanması ... 32

3.9.2 Konumlu-Tasvir yeni veri setinin özellikleri ... 34

3.10 Otomatik Türkçe Konumlu-Tasvir ve Alt Yazı Oluşturma Yöntemleri ... 34

3.10.1 Yöntem-1 mimarisi ... 35

3.10.1.1 Yöntem-1 hiper-parametreleri ... 37

3.10.2 Yöntem-2 mimarisi ... 38

3.10.2.1 Yöntem-2 hiper-parametreleri ... 43

4. BULGULAR VE TARTIŞMA ... 45

(13)

xi

4.1 Yöntem-1 Değerlendirme Skorları ... 45

4.1.1 Yöntem-1 test çıktıları ... 46

4.2 Yöntem-2 Değerlendirme Skorları ... 59

4.2.1 Yöntem-2 test çıktıları ... 60

4.3 Yöntem-1 ve Yöntem-2 Performans Kıyaslaması ... 74

4.3.1 Yöntem-1 ve Yöntem-2 çıktı kıyaslaması ... 74

5. SONUÇ ve ÖNERİLER ... 98

KAYNAKLAR ... 100

ÖZGEÇMİŞ ... 106

(14)

xii

TABLOLAR LİSTESİ

Tablo 1. İyileştirilmiş NIC Modeli Performans Ölçüm Metrikleri ... 4

Tablo 2. TasvirEt Performans Ölçüm Metrikleri ... 5

Tablo 3. NOC Modeli Performas Ölçüm Metrikleri ... 6

Tablo 4. DNOC Modeli Performas Ölçüm Metrikleri ... 9

Tablo 5. Alt Sözcük Tabanlı Model Performas Ölçüm Metrikleri ... 12

Tablo 6. Nocaps Performans Ölçüm Metrikleri ... 13

Tablo 7. ImageNet İçin ResNet Mimarileri ... 18

Tablo 8. Konumlu-Tasvir Veri Seti Örnekleri ... 32

Tablo 9. Yöntem-1 Model Hiper-Parametreleri ... 38

Tablo 10. Yöntem-2 Model Hiper-Parametreleri ... 44

Tablo 11. Yöntem-1 Değerlendirme Skorları ... 46

Tablo 12. Yöntem-1 Başarılı Çıktı Örneği-1 ... 47

Tablo 14. Yöntem-1 Başarılı Başarılı Çıktı Örneği-3 ... 49

Tablo 22. Yöntem-1 Başarısız Çıktı Örneği-1 ... 57

Tablo 25. Yöntem-2 Değerlendirme Skorları ... 60

(15)

xiii

Tablo 39. Yöntem-1 ve Yöntem-2 Performans Değerlendirme Skorları Kıyaslaması .. 74

Tablo 40. Yöntem-1 ve Yöntem-2 Test Seti Çıktı Kıyaslama Örneği-1 ... 75

Tablo 43. Yöntem-1 ve Yöntem-2 Test Seti Harici, Çıktı Kıyaslama Örneği-1 ... 80

(16)

xiv

ŞEKİLLER LİSTESİ

Şekil 1. İyileştirilmiş NIC Modeli Test Çıktıları ... 4

Şekil 2. TasvirEt Test Çıktıları ... 5

Şekil 3. NOC Görüntü Alt Yazı Modeli ... 6

Şekil 4. NOC Modeli Test Çıktısı-1 ... 7

Şekil 5. NOC Modeli Test Çıktısı-2 ... 7

Şekil 6. DNOC Model Mimarisi ... 9

Şekil 7. DNOC Modeli Çıktı Kıyaslamaları ... 10

Şekil 8. Alt Sözcük Tabanlı Model Test Çıktıları ... 11

Şekil 9. Model Çıktısı Ve Performans Ölçüm Metrikleri ... 12

Şekil 10. Nocaps Test Çıktıları ... 13

Şekil 11. Tek Katmanlı Yapay Sinir Ağı Modeli ... 14

Şekil 12. Çok Katmanlı Yapay Sinir Ağı Modeli ... 15

Şekil 13. Derin Öğrenme, Yapay Zeka Arasındaki İlişki ... 16

Şekil 14. Evrişimli Sinir Ağları Modeli ve Çalışması ... 17

Şekil 15. Artık Öğrenmede Bir Blok Yapısı Örneği ... 18

Şekil 16. ResNet Evrişimli Sinir Ağları Mimarisi ... 19

Şekil 17. R-CNN Modeli ... 20

Şekil 18. Faster R-CNN Modeli ... 21

Şekil 19. RPN-Bölge Önerisi Ağı ve Model Çıktısı ... 21

Şekil 20. Mask R-CNN Modeli ... 22

Şekil 21. Mask R-CNN Model Çıktıları ... 23

Şekil 22. Temel Bir RNN Yapısı ... 24

Şekil 23. GRU Modeli ... 25

Şekil 24. Imcap Model Mimarisi ... 26

Şekil 25. Otomatik Konumlu-Tasvir ve Alt Yazılama Yöntem-1 Mimarisi ... 35

Şekil 26. Yöntem-1’in İlk Dokuz Model Yapısı ... 36

Şekil 27. Yöntem-1’in Onuncu Model Yapısı ... 37

Şekil 28. Otomatik Konumlu-Tasvir ve Alt Yazılama Yöntem-2 Mimarisi ... 39

Şekil 29. Yöntem-2’nin Model1 ve Model2 Yapısı ... 40

(17)

xv

Şekil 30. Yöntem-2’nin Model3 Yapısı ... 41 Şekil 31. Yöntem-2’nin Model4 ve Model5 Yapısı ... 42 Şekil 32. Yöntem-2: Model6, 7, 8, 9 ve 10’un Yapısı ... 43 .

(18)

xvi

KISALTMALAR

Adadelta : An Adaptive Learning Rate Method, Uyarlanabilir öğrenme hızı yöntemi.

AdaGrad : The Adaptive Gradient Algorithm, Uyarlanabilir gradyan algoritması.

Adam : Adaptive Moment Estimation, Uyarlanabilir Moment Tahmini.

AMT : Amazon Mechanical Turk.

ANN : Artificial Neural Network, Yapay sinir ağı.

BLEU : Bi Lingual Evaluation Understudy, İki dilli değerlendirme yardımcısı.

CBOW : Continues Bag of Words, Ardışık kelimeler topluluğu.

CBS : Constrained Beam Search, Kısıtlı ışın araması.

CIDEr : Consensus-based Image Description Evaluation, Fikir birliğine dayalı görüntü açıklama değerlendirmesi.

CNN : Convolutional Neural Networks, Evrişimli sinir ağı.

DNOC : Decoupled Novel Object Captioner, Ayrılmış yeni nesne alt yazısı.

Fast R-CNN : Fast Region-Based Convolutional Neural Network, Hızlı bölge- tabanlı evrişimli sinir ağları.

Faster R-CNN : Faster Region-Based Convolutional Neural Network, Daha hızlı bölge-tabanlı evrişimli sinir ağları.

Flickr : İnternet kullanıcılarının ücretsiz olarak fotoğraflarını ve videolarını barındırabileceği bir web sitesi.

FPN : Feature Pyramid Network, Piramit özellik ağı.

(19)

xvii

GloVe : Global Vectors for Word Representation, Kelime temsili için global vektörler.

GoogLeNet : ILSVRC14 yarışma başvurusunda kullanılan 22 katmanlı derin ağın adı.

GPU : Graphics Processing Unit, Grafik işlemci birimi.

GRU : Gated Recurrent Unit, Kapılı özyinelemeli birim.

ILSVRC : ImageNet Large Scale Visual Recognition Challenge, ImageNet büyük ölçekli görsel tanıma yarışması.

ImageNet : Büyük bir görsel veritabanı.

LCS : Longest Common Subsequence, En uzun ortak alt dizi.

LSTM : Long Short-Term Memory, Uzun kısa-dönemli bellek modeli.

Mask R-CNN : Mask Region-Based Convolutional Neural Network, Maske bölge- tabanlı evrişimli sinir ağları.

METEOR : An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Automatic Metrics for machine translation evaluation, İnsan yargılarıyla gelişmiş korelasyona sahip, makine çevirisi değerlendirmesi için otomatik bir metrik.

MLP : Multi Layer Perceptron, Çok katmanlı algılayıcı.

MS COCO : Microsoft Common Objects in Context, Microsoft bağlamda ortak nesneler.

MSR : Microsoft Research, Microsoft araştırma.

MT : Machine Translation, Makine çevirisi.

NIC : Neural Image Caption, Nöral görüntü alt yazısı.

(20)

xviii

NLP : Natural Language Processing, Doğal dil işleme.

NLTK : Natural Language Toolkit, Python doğal dil işleme kütüphanesi.

NOC : Novel Object Captioner, Yeni nesne alt yazılama modeli.

OpenCV : Open Source Computer Vision, Açık kaynak kodlu görüntü işleme kütüphanesi.

PASCAL VOC : PASCAL Visual Object Classes, PASCAL görsel nesne sınıfları.

PASCAL : Pattern Analysis Statistical Modelling and Computational Learning, Örüntü analizi istatistiksel modelleme ve hesaplamalı öğrenme.

R-CNN : Region-Based Convolutional Neural Network, Bölge-tabanlı evrişimli sinir ağı.

ResNet : Residual Network, Artık sinir ağları.

ResNet-101 : 101 katmanlı artık sinir ağlarını ifade etmektedir.

RMSProp : Root Mean Squared Propagation, Ortalama karekök yayılım.

RNN : Recurrent Neural Networks, Özyinelemeli sinir ağları.

ROUGE : Recall-Oriented Understudy for Gisting Evaluation, Özet değerlendirme için anımsamaya-yönelik yardımcı.

RPN : Region Proposal Network, Bölge önerisi ağı.

SBU : Captioned Photo Dataset, Tek alt yazılı fotoğraf veri seti.

SGD : Stochastic gradient descent, Stokastik gradyan inişi.

SPICE : Semantic Propositional Image Caption Evaluation, Anlamsal önerme görüntü alt yazı değerlendirmesi.

UIUC : University of Illinois at Urbana Champaign, Urbana-Champaign’deki Illinois Üniversitesi.

(21)

xix

VGGNet : Visual Geometry Group Network, Görsel geometri grubu ağı.

Word2Vec : Word Vectors, Kelime vektörleri.

(22)

1

1. GİRİŞ

Bilgisayarlar ve bilgisayar sistemleri, artık dünyamızın vazgeçilmez bir parçasıdır.

Günümüzde, bilgisayarlar hem olaylar hakkında karar verebilmekte hem de olaylar arasındaki ilişkileri öğrenebilmektedir. Bilgisayarları bu özellikler ile donatan ve yeteneklerinin gelişmesini sağlayan çalışmalar “yapay zeka” çalışmaları olarak bilinmektedir. İlk 1950’li yıllarda ortaya atılmıştır. Yapay zeka, makine öğrenmesi ve derin öğrenme arasında iç içe bir ilişki söz konusudur. Derin öğrenme, çok katmanlı bir yapay sinir ağıdır. Veriden doğrudan özellik ve görevleri öğrenen bir makine öğrenmesi tekniğidir. İşlenecek veri görüntü, metin ya da ses dosyası olabilmektedir (Nabiyev, 2010;

Öztemel, 2006; Patterson ve Gibson, 2017).

Günümüzde derin öğrenme pek çok alanda başarılı bir şekilde yaygın olarak kullanılmaktadır. Bu gelişme, internet sayesinde devasa boyutlarda verinin dijital ortamda üretilir ve saklanır hale gelmesi, aynı zamanda hızlı GPU’lar ile işlem gücünün artmasından dolayı gerçekleşmiştir. Çok katmanlı bir yapay sinir ağı olan derin öğrenme yöntemleri ile yüksek katman sayısı sayesinde çok daha karmaşık olan problemler günümüzde kolaylıkla çözülebilmektedir (Chollet, 2021; Nabiyev, 2010; Öztemel, 2006;

Patterson ve Gibson, 2017).

Derin öğrenme görüntü sınıflandırma, nesne bulma, nesne takip etme, doğal dil işleme, stil transferi, anomali tespiti gibi pek çok problem çözümünde kullanılmaktadır. Derin öğrenme ile son yıllarda, doğal dil işleme, ses işleme ve bilgisayarlı görmede çok önemli gelişmeler sağlanmıştır. Görüntü işlemede, bilgisayarlı görme alanında nesne tanımada daha önceleri %60-65’lerde olan başarımlar, derin öğrenme ile %80-90’lara çıkarak büyük başarımlar elde edilmiştir. Sesli komut tanıma özelliği ile cep telefonlarındaki sesli asistanların başarımları artmıştır (Chollet, 2021; Krizhevsky, Sutskever, ve Hinton, 2017;

Görüntü işleme, bilgisayarlı görme ve derin öğrenme gibi bilim dallarındaki gelişmelerle birlikte, görüntü alt yazılama ve görüntü tasviri üzerine çalışmalar da hız kazanmıştır.

Görüntülerin otomatik tasvir edilmesi ve alt yazı çıkarılması konusu, literatürde daha yeni incelenmeye başlanmıştır. Görüntü tasvirinde, görüntü tanıma ve doğal dil işleme

(23)

2

algoritmaları birlikte kullanılmaktadır. Bundan dolayı zorlu bir çalışma alanı olarak kabul edilmektedir (Unal vd., 2016).

Literatürde, bu konuda İngilizcede çok fazla sayıda veri seti ve uygulama bulunmaktadır.

Türkçede ise çalışmalar yeni başlamış ve gelişmeye açıktır. İncelenen çalışmalarda, genelde görüntüdeki nesneler tasvir edilmektedir. Görüntü içerisinde tespit edilen nesnelerin birbirlerine göre konumları hakkında çok fazla bir bilgi verilmemektedir. Bu nedenle literatürde konum bilgisi içeren çok az sayıda çalışma bulunmaktadır.

Çalışma ile, literatüre ilk olarak yeni bir Türkçe konumlu tasvir veri seti kazandırılması, ikinci olarak Türkçe dilinde otomatik konumlu tasvir ve alt yazı oluşturması amaçlanmıştır. Bu veri setinin diğer veri setlerinden farkı, görüntüdeki bazı nesnelerin birbirlerine göre konum bilgilerini içermesidir. Türkçe Konumlu-Tasvir veri seti kullanılarak, görüntülerin otomatik tasvir edilmesi ve alt yazılama için derin öğrenme yöntemlerinden faydalanılmıştır. Ayrıca konumlu tasvir ve alt yazılama için iki yöntem önerilmiş ve başarımları kıyaslanmıştır. Veri seti olarak görüntü dosyaları kullanılmıştır.

Tasvirler Türkçe olarak yapılmıştır. Yapılan çalışma robotik alanında ya da sesli asistanların özelliklerinin gelişmesine de görüntü tasviri açısından katkı sağlayabilir.

Bu tez çalışmasında, yeni Türkçe Konumlu-Tasvir veri seti oluşturulmuştur. Yeni veri seti kullanılarak, Türkçe dilinde otomatik konumlu tasvir ve alt yazı oluşturması için iki yöntem önerilmiş ve başarımları kıyaslanmıştır. İkinci bölümde literatür araştırması ele alınmış ve ilgili çalışmalar incelenmiştir. Üçüncü bölümde, çalışmada kullanılan tanımlar, modeller, performans ölçüm yöntemleri ve metrikleri konularına değinilmiştir.

Ayrıca yeni Türkçe Konumlu-Tasvir veri setinin hazırlanması ve otomatik alt yazı oluşturma için önerilen iki yöntem ayrıntılı bir şekilde ele alınmıştır. Dördüncü bölümde, önerilen yöntemlerin görüntü çıktıları, performans ölçüm değerleri verilmiştir.

Yöntemlerin, hem performans ölçüm metriklerine göre başarımları, hem de çıktı sonuçları kıyaslanmıştır. Beşinci ve son bölümde analiz sonuçları ve öneriler ele alınmıştır.

(24)

3

2. LİTERATÜR ARAŞTIRMASI

Derin öğrenme nesne tespiti, doğal dil işleme, gibi alanlarda başarılı bir şekilde kullanılmaktadır. Bu alanlardaki gelişmeler ile birlikte, derin öğrenme yöntemleri otomatik görüntü alt yazısı (image captioning) oluşturmak için de kullanılmaya başlanmıştır (Chollet, 2021; Unal vd., 2016). Görüntülerin otomatik tasviri ve alt yazılama için nesne tespit ve doğal dil işleme modelleri birlikte kullanılmaktadır.

Literatürde bu alanda yapılan çalışmalardan bazıları aşağıda ele alınmıştır .

Antol ve diğerleri (2015) görsel soruların yanıtlanması üzerine bir çalışma yapmışlardır.

Gerçek dünyayı yansıtma, görme engellilere yardımcı olma amacıyla soru ve cevaplar açık uçlu belirlenmiştir. Görsel sorular, arka plan ayrıntıları ve altta yatan bağlam dâhil olmak üzere görüntünün farklı alanlarını seçmeyi hedeflemişlerdir. Veri seti olarak MS COCO veri seti ve soyut sahneler veri setinden faydalanılmıştır. Oluşturulan veri seti 50 bin sahne içermektedir. Makalede, genel görüntü alt yazıları üreten bir sistemden farklı olarak, görüntünün ve karmaşık akıl yürütmenin anlaşılmasına odaklanılmıştır. Görüntü kodlayıcı olarak VGGNet evrişimli sinir ağı kullanılmıştır. Dil kodlayıcı model oluştururken MLP ve LSTM modelinden faydalanılmıştır (Antol vd., 2015).

Lin ve Parikh’in (2015) makalesinde, günümüzde yapay ajanların olgusal soruları cevaplayabildiği fakat sağduyulu akıl yürütmeyi gerektiren yetenekten yoksun oldukları tezi doğrultusunda çalışma yapmışlardır. Görüntülere göre boşluk doldurma soruları ve görsel yorumlama soruları üzerinde çalışılmıştır. Bunun için metnin arkasındaki sahneyi

"hayal etmeyi" ve bu soruları yanıtlarken metinsel ipuçlarına ek olarak “hayal edilen”

sahnelerden görsel ipuçlarından (öğrenilen anlamsal sağduyu bilgisinden) yararlanılmıştır (X. Lin ve Parikh, 2015).

Vinyals, Toshev, Bengio ve Erhan’ın (2016) makalesinde İngilizce alt yazılama için iyileştirilmiş Nöral Görüntü Alt yazısı (NIC) modeli önerilmiştir. Görüntü için ILSVRC 2014 sınıflandırma yarışmasında mevcut en iyi performansı gösteren derin CNN modeli olan 22 katmanlı GoogLeNet (Szegedy vd., 2015), İngilizce dil üretimi için LSTM modeli ve veri seti olarak SBU, Flickr, PASCAL ve MS COCO kullanılmıştır. Çalışmada daha

(25)

4

ayrıntılı ve isteğe yönelik tanımlamalar amaçlanmıştır. Performans ölçüm metriklerine göre başarılı sonuçlar elde edilmiştir. Şekil 1’de test çıktıları verilmiştir (Vinyals, Toshev, Bengio, ve Erhan, 2016).

Şekil 1. İyileştirilmiş NIC Modeli Test Çıktıları (Vinyals vd., 2016)

Yukarıdaki şekilde verilen çeşitli örnek çıktıları incelendiğinde, iyileştirilmiş NIC modelinin ilk modelden daha iyi ve ayrıntılı otomatik alt yazılama yaptığı görülmektedir.

Tablo 1’de MS COCO resim alt yazılama yarışma performans ölçüm metrikleri verilmiştir (Vinyals vd., 2016).

Tablo 1. İyileştirilmiş NIC Modeli Performans Ölçüm Metrikleri (Vinyals vd., 2016)

Tablo 1’de verilen Google olarak belirtilen iyileştirilmiş NIC modelidir, MSR Captivator (Devlin vd., 2015), m-RNN (multimodal recurrent neural networks, çok modlu

(26)

5

tekrarlayan sinir ağları) (Mao vd., 2014), MSR (Fang vd., 2015), m-RNN (Mao vd., 2014) modelleridir. Burada MS COCO yarışma sonuçları ve model kıyaslamaları verilmiştir. Model performans sıralaması CIDER otomatik değerlendirme metriğine göre yapılmıştır (Vinyals vd., 2016).

Ünal ve diğerleri (2016) makalesinde, literatürde ilk kez görüntülerden Türkçe açıklamalar yaratmaya imkan veren ve bu amaçla denektaşı olarak kullanılabilecek yeni bir veri kümesi sunulmuştur. TasvirEt adı verilen bu veri kümesi üzerinde, Türkçe görüntü alt yazılama amacıyla kullanılabilecek iki yaklaşım önerilmiştir. TasvirEt veri kümesinde 8091 adet görüntü, bu görüntülere ait toplam 12 bin 222 açıklama bulunmaktadır. Açıklamaların ortalama uzunluğu yaklaşık 8 kelimedir. Elde edilen deneysel sonuçlar bu veri kümesinin ve önerilen yaklaşımların, görüntülerin otomatik olarak Türkçe tasvir edilmesinde kullanılabileceğini göstermektedir. Şekil 2’de test görüntü çıktıları verilmiştir (Unal vd., 2016).

Şekil 2. TasvirEt Test Çıktıları (Unal vd., 2016)

Tablo 2’de BLEU performans ölçüm metrikleri gösterilmiştir. Burada Y1 yöntem 1’i, Y2 yöntem 2’yi, G referans görüntü alt yazısını ifade etmektedir (Unal vd., 2016).

Tablo 2. TasvirEt Performans Ölçüm Metrikleri (Unal vd., 2016)

Model BLEU-1 BLEU-2 BLEU-3

Y1 0.211 0.072 0.020

Y2 0.260 0.102 0.034

(27)

6

Venugopalan ve diğerleri (2017) tarafından mevcut görüntü alt yazısı veri kümelerinde bulunmayan çok sayıda nesne kategorisini tanımlayabilen bir yeni nesne alt yazılama modeli (NOC) önerilmiştir. NOC modelinde MS COCO görüntü alt yazısı eğitim verilerinde olmayan, ImageNet nesne tanıma veri kümesindeki yüzlerce nesne kategorisi için, başlıklar oluşturulmuştur. Bunun için modelin anlamsal bilgilerden yararlandığı gösterilmiştir. Performans değerlendirmede F1 otomatik değerlendirme metriği kullanılmıştır. F1 metriği, oluşturulan bir cümlenin yeni bir nesne içerip içermediğini gösteren yanlış pozitifleri, yanlış negatifleri ve gerçek pozitifleri dikkate almaktadır.

Kıyaslama için o dönem en iyi kabul ettikleri derin tümleyici alt yazı (DCC, Deep Compositional Captioning (Hendricks vd., 2016)) modeli seçilmiştir. NOC görüntü alt yazı modeli Şekil 3’te verilmiştir (Venugopalan vd., 2017).

Şekil 3. NOC Görüntü Alt Yazı Modeli (Venugopalan vd., 2017)

Burada eğim sırasında görsel tespit ağı solda, LSTM tabanlı dil modeli sağda ve alt yazı modeli ortada yer almaktadır. Tablo 3’te test veri seti üzerinde, NOC modeli performans ölçüm metrikleri verilmiştir (Venugopalan vd., 2017).

Tablo 3. NOC Modeli Performas Ölçüm Metrikleri (Venugopalan vd., 2017)

Model Desc. Novel (%) Acc (%) F1 (%)

DCC 56.85 11.08 14.47

NOC 91.27 24.74 33.76

(28)

7

NOC modeli başarımı hem MS COCO hem de ImageNet veri setleri üzerinde gerçeklenmiştir. MS COCO görüntüleri için test çıktı örnekleri Şekil 4’te gösterilmiştir.

(Venugopalan vd., 2017).

Şekil 4. NOC Modeli Test Çıktısı-1 (Venugopalan vd., 2017)

NOC modeli tarafından üretilen, MS COCO veri seti yeni nesne tanımları ve nadir kelime tanımları oldukça iyi görünmektedir. ImageNet görüntüleri için test çıktı örnekleri Şekil 5’te gösterilmiştir (Venugopalan vd., 2017).

Şekil 5. NOC Modeli Test Çıktısı-2 (Venugopalan vd., 2017)

(29)

8

Şekil 5’te ImageNet görüntüleri üzerinde NOC tarafından farklı nesneler için üretilen iyi tanımlar: golf takımlarını taşıyan yardımcı (caddie), tencere (saucepan) ve pisi balığı (flounder). Sağ üst köşedeki görüntü için yapılan sitar yeni nesne tanımı hatalıdır (Venugopalan vd., 2017).

Loller-Andersen ve Gambäck’in (2018) makalesinde, görüntü girdilerinden, ritmik ve kafiyeli kısaltmalar ile şiir üreten bir sistemin uygulama ve doğrulaması ele alınmıştır.

Girdi olarak bir görüntü alınmış ve görüntüdeki nesneleri bulmak için önceden eğitilmiş bir evrişimli sinir ağı olan Inception kullanılmıştır. Model, 200 binden fazla şarkıdan sıfırdan inşa edilmiş özel bir veri seti üzerinde eğitilmiştir. Şiir üreticisi tarafından, bir uzun kısa-dönemli bellek modeli (LSTM) ve özyinelemeli sinir ağı (RNN) ile ağaç araması birleştirilerek, nesnelere dayalı kısa bir kıta (stanza) döndürülmüştür. Kural tabanlı ve doldurma yöntemleri yerine, sistem sonuçları yaratıcı bir şekilde aktif olarak öngörülmüştür. Toplamda 153 şiir kıtası oluşturulmuş ve değerlendirilmiştir. Sonuçlar, derin öğrenme temelli sistemin, genetik, dil bilgisel olarak doğru ve anlamlı bir şiir üretme yeteneğine sahip olduğunu, ancak tutarlı bir temelde olmadığını göstermiştir (Loller-Andersen ve Gambäck, 2018).

Wu, Zhu, Jiang ve Yang (2018) tarafından dil dizisi modelini nesne açıklamalarından tamamen ayırabilen, bir ayrılmış yeni nesne alt yazısı (DNOC) modeli önerilmiştir. Yeni nesne kategorileri üzerinde yapılan çalışmalarda, mevcut önceden eğitilmiş alt yazı modelleri yetersiz kalmaktadır. DNOC modeli bu probleme çözüm olarak tasarlanmıştır.

DNOC modelinin iki bileşeni bulunmaktadır. Bu bileşenlerden ilki yer tutuculu sıralı model (SM-P, Sequence Model with the Placeholder) bir cümle üretmektedir. Burada yer tutucu, tanınmayan yeni nesneyi temsil etmektedir. Böylece dizi modeli yeni nesne tanımlarından ayrılmış olmaktadır. İkinci bileşen, serbestçe kullanılabilen tespit modeli üzerinde, görsel bilgileri ve her nesne için karşılık gelen kelimeyi içeren, bir anahtar- değer nesne belleği (key-value object memory) inşa etmektedir. SM-P’den üretilen sorgu, kelimeleri nesne belleğinden almak için kullanılmaktadır. Böylece yer tutucu doğru kelimeyle doldurulmakta ve yeni nesne açıklamaları içeren bir başlık oluşturulmaktadır.

Çalışmada nesne tespit modeli oluştururken Faster RCNN, Inception-ResNet-v2 modelleri kullanılmıştır. Model mimarisi Şekil 6’da gösterilmiştir (Wu, Zhu, Jiang, ve Yang, 2018).

(30)

9

Şekil 6. DNOC Model Mimarisi (Wu vd., 2018)

Deneysel sonuçlar MS COCO veri setinde hariç tutulan 8 yeni nesne ile elde edilmiştir.

DNOC modelinin sonuçları, uzun-dönem özyinelemeli evrişimli sinir ağı modeli (LRCN, Long-term Recurrent Convolutional Network) ve yeni nesne alt yazılama modeli (NOC, Novel Object Captioner (Venugopalan vd., 2017)) ile kıyaslanmıştır. NOC modeli doğru başlığı oluşturabilmekte fakat bu kavramı öğrenmek için kavramı içeren ekstra metin eğitim verileri gerekmektedir. DNOC modeli doğru başlık üretmek için herhangi bir ekstra cümle verisine ihtiyaç duymamaktadır. Bu modelin kuvvetli bir yönüdür. Tablo 4’te performans değerlendirme metrikleri verilmiştir (Wu vd., 2018).

Tablo 4. DNOC Modeli Performas Ölçüm Metrikleri (Wu vd., 2018)

Model F1average METEOR

LRCN 0 19.33

DNOC tespitsiz model 0 17.52

DNOC nesne belleği yok 46.51 20.41

DNOC 57.92 21.57

DNOC modeli çıktı kıyaslamaları Şekil 7’de gösterilmiştir (Wu vd., 2018).

(31)

10

Şekil 7. DNOC Modeli Çıktı Kıyaslamaları (Wu vd., 2018)

Yukarıda DNOC modeli alt yazısına bir örnek verilmiş ve diğer modeller ile kıyaslaması yapılmıştır. Burada “zebra” yeni nesnedir ve eğitim verilerinde mevcut değildir. LRCN modeli, görüntüyü yeni nesne ile tanımlamada başarısız olmuştur. NOC modeli doğru başlığı başarılı bir şekilde oluşturabilmiştir fakat çalışmasında “zebra” kelimesini içeren fazladan metin eğitim verisine ihtiyaç duymaktadır. Önerilen DNOC modeli fazladan metin eğitim verisine ihtiyaç duymadan “zebra” yeni nesnesini tanımlamada başarılı olmuştur.

Kuyu, Erdem ve Erdem’in (2018) çalışmasında Türkçe alt yazı oluşturma için alt sözcük tabanlı bir alt yazılama modeli önerilmiştir. Bu çalışmada Türkçe sözcüklerin alt sözcüklere ayrıştırılmasının öğrenilmesinde bayt çifti kodlama (BPE) modelinden faydalanılmıştır. Alt sözcük veri seti oluşturmada, “www.tr.wikipedia.org” sayfasından toplanan Türkçe metinlerin bulunduğu bir veri kümesi kullanılmıştır. Alt sözcük tabanlı derin öğrenme modelinin eğitim aşaması, TasvirEt, MS COCO ve Flickr30k veri kümeleri üzerinde gerçeklenmiştir. Görüntü alt yazılama için özyinelemeli sinir ağı olan

(32)

11

LSTM modelinden faydalanılmıştır. Modelin performans metriklerine göre başarılı sonuçlar ortaya koyduğu gözlemlenmiş ve Türkçe’nin dilbilgisi kurallarına uygun, daha anlamlı alt yazılar ürettiği gösterilmiştir. Şekil 8’de modele ait test çıktıları verilmiştir (Kuyu, Erdem, ve Erdem, 2018).

Şekil 8. Alt Sözcük Tabanlı Model Test Çıktıları (Kuyu vd., 2018)

Yukarıdaki şekilde model örnek test çıktılarında, ilk satırda başarılı, ikinci satırda kısmen başarılı ve üçüncü satırda başarısız sonuçlar gösterilmiştir. Tablo 5’te modele ait performans ölçüm metrikleri verilmiştir (Kuyu vd., 2018).

(33)

12

Tablo 5. Alt Sözcük Tabanlı Model Performas Ölçüm Metrikleri (Kuyu vd., 2018)

Yılmaz, Demir, Sönmez ve Yıldız’ın (2019) makalesinde Türkçe alt yazılama için bir model önerilmiştir. Çalışmada MS COCO veri seti makine çevirisi yardımıyla Türkçeye çevrilerek kullanılmıştır. Nesne tanıma için CNN ve dil işleme için LSTM modelleri kullanılmıştır. Şekil 9’da model çıktısı ve performans ölçüm metrikleri verilmiştir (Yılmaz, Demir, Sönmez, ve Yıldız, 2019).

Şekil 9. Model Çıktısı Ve Performans Ölçüm Metrikleri (Yılmaz vd., 2019) Agrawal ve diğerleri (2019) tarafından İngilizce görüntü alt yazılama için, ölçekte yeni nesne alt yazılama (nocaps, novel object captioning at scale) modeli önerilmiştir. Nocaps içindeki görüntüler Open Images V4 doğrulama ve test setlerinden alınmıştır. Veri seti, 15 bin 100 görüntü ve kişiler tarafından oluşturulan 166 bin 100 alt yazıdan oluşmaktadır.

Open Images, COCO veri setinden çok daha fazla sınıf içermektedir. Test görüntülerinde görülen yaklaşık 400 nesne sınıfı hiçbir eğitim başlığına sahip değildir veya çok az ilişkili

(34)

13

eğitim başlığına sahiptir. Alt yazı toplama aşamasında, resimlerin etiketlenerek işleme hazırlanması ile daha doğru ve açıklayıcı alt yazılar elde edildiği tespit edilmiştir. Alt yazı toplama için Amazon Mechanical Turk (AMT) kullanılmıştır. Çalışmada iki farklı yaklaşım Nöral Bebek Konuşması (NBT, Neural Baby Talk (Lu, Yang, Batra, ve Parikh, 2018)) ve Kısıtlı Işın Araması (CBS, Constrained Beam Search (Anderson, Fernando, Johnson, ve Gould, 2016a)) araştırılmıştır. UpDown model (Anderson vd., 2018), Dil modelleri için gömmeler (ELMo, Embeddings from Language Models (Peters vd., 2018)), doğru-yer nesne tespit (GT, ground-truth object detections) modelleri birlikte ve ayrı olarak kullanılarak, yedi yöntem denenmiştir. Çıktı sonuçları Şekil 10’da gösterilmiştir (Agrawal vd., 2019).

Şekil 10. Nocaps Test Çıktıları (Agrawal vd., 2019)

Yukarıdaki şekilde ilgi alanı içinde çıktı örneği solda, ilgi alanına yakın çıktı örneği ortada ve ilgi alanı dışında çıktı örneği sağda yerde almaktadır. Yöntemlerin nocaps test seti üzerindeki performans ölçüm değerleri Tablo 6’da verilmiştir (Agrawal vd., 2019).

Tablo 6. Nocaps Performans Ölçüm Metrikleri (Agrawal vd., 2019)

(35)

14

3. MATERYAL VE YÖNTEM

Bu bölümde, çalışmada kullanılacak olan tanımlar ve modeller ele alınmıştır.

Uygulamada kullanılacak olan evrişimli sinir ağları, özyinelemeli sinir ağları gibi yöntemlere, hiper-parametreler ve otomatik alt yazı performans değerlendirme metriklerine yer verilmiştir. Ayrıca yeni Konumlu-Tasvir veri setinin hazırlanması ve önerilen iki yaklaşım yöntemi ayrıntılı bir şekilde açıklanmıştır.

3.1 Yapay Sinir Ağları ve Derin Öğrenme

Yapay zeka araştırmaları, insan beyninin işleyişinin incelenmesi ve bu işlevlerin taklidi ile sıkı bir ilişki içerisindedir. Yapay zekanın bir formu olan yapay sinir ağları (ANN, Artificial Neural Network) insan beyninin yapısından ilham alınarak geliştirilmiştir. İnsan beyni bilinen en karmaşık yapıdır. Beynin çalışması bilginin girişi, sentezleme-kıyaslama ve çıkış-eylem olarak üç bölüme ayrılabilir (Nabiyev, 2010). Algılayıcı, ikili sınıflandırma problemi için kullanılan lineer bir modeldir. Basit bir tek katmanlı yapay sinir ağı çalışma prensibi genel olarak şu şekildedir. Yapay sinir ağı, dışarıdan gelen girdileri bir ağırlık fonksiyonu ile toplayarak bir aktivasyon fonksiyonundan geçirip bir çıktı üretmektedir. Bir yapay sinir ağı modeli Şekil 11’de gösterilmiştir (Öztemel, 2006;

Şekil 11. Tek Katmanlı Yapay Sinir Ağı Modeli (Patterson ve Gibson, 2017)

(36)

15

Doğrusal olmayan problemlerin çözümünde tek katmanlı yapay sinir ağlarının yetersiz kalması nedeniyle çok katmanlı yapay sinir ağları geliştirilmiştir (Öztemel, 2006). Çok katmanlı yapay sinir ağlarında, yapay sinir hücreleri dışarıdan gelen bilgileri bir toplama fonksiyonu ile toplar ve aktivasyon fonksiyonundan geçirerek bir çıktı üretip ağın bağlantıları üzerinden diğer proses elemanlarına göndermektedir. Proses elemanları birbirlerine paralel olarak üç katman halinde bir araya gelerek bir ağ oluştururlar. Bunlar girdi katmanı, ara katmanlar ve çıktı katmanıdır. Doğru ağırlıkların bulunması işlemine ağın eğitilmesi denmektedir. Şekil 12’de çok katmanlı bir yapay sinir ağı yapısı gösterilmiştir (Öztemel, 2006; Patterson ve Gibson, 2017).

Şekil 12. Çok Katmanlı Yapay Sinir Ağı Modeli (Patterson ve Gibson, 2017) Derin öğrenme, yapay zeka ve makine öğrenmesi arasındaki ilişki nedir diye bakıldığında, aralarında Şekil 13’te olduğu gibi iç içe bir ilişki söz konusudur. Kabaca, derin öğrenme çok katmanlı bir yapay sinir ağıdır. Veriden direk olarak özellik ve görevleri öğrenen bir makine öğrenmesi tekniğidir. İşlenecek veri görüntü, metin ya da ses dosyası olabilmektedir (Patterson ve Gibson, 2017).

(37)

16

Şekil 13. Derin Öğrenme, Yapay Zeka Arasındaki İlişki (Patterson ve Gibson, 2017) Derin sinir ağları, diğer sinir ağlarından çok daha fazla katmanlıdır. Derin öğrenme alanındaki gelişmeler özellikle, veri miktarının artması ile internet sayesinde devasa boyutlarda verinin dijital ortamda üretilir ve saklanır hale gelmesi aynı zamanda hızlı GPU’lar ile işlem gücünün artmasından dolayı gerçekleşmiştir. Böylece yüksek katman sayısı sayesinde çok daha karmaşık olan problemler artık çözülebilmektedir. Derin öğrenme görüntü sınıflandırma, nesne bulma, nesne takip etme, doğal dil işleme, stil transferi gibi pek çok problem çözümünde kullanılmaktadır. Çalışma alanlarına göre farklı derin öğrenme modelleri geliştirilmiştir. Bunlardan bazıları evrişimli sinir ağları (CNN), bölge-tabanlı evrişimli sinir ağları (R-CNN) ve özyinelemeli sinir ağları (RNN) olarak sayılabilir. Bu modeller gelecek bölümde ayrıntılı olarak ele alınmıştır (Nabiyev, 2010; Öztemel, 2006; Patterson ve Gibson, 2017).

3.2 Evrişimli Derin Öğrenme Modelleri

Evrişimli derin öğrenme (CNN) modelleri, bilgisayarlı görmede nesne tanıma ve sınıflandırmada çok yaygın olarak kullanılmaktadır. CNN algoritmaları kullanılarak, sınıflandırma, sınıflandırma ve yer tespit etme, nesne tanıma ayrıca segmentasyon yapılabilmektedir. Evrişimli derin öğrenme modelleri, verilerdeki üst düzey özellikleri evrişimler yoluyla öğrenmektedir. CNN modeli birbirini takip eden evrişim (convolution) ve havuzlama (pooling) katmanları ile sonda tamamen bağlı (dense) katman ve tamamen bağlı çıktı veren sınıflandırma katmanlarından oluşmaktadır. Her bir evrişim katmanı bölgesel örüntüleri öğrenerek, öznitelikleri oluşturmaktadır. Havuzlama katmaları sayesinde hem boyut hem eğitim süresinde optimizasyonu sağlamaktadır. Tamamen bağlı

(38)

17

katmanlar kendi girdilerinin nitelik uzayındaki global örüntüleri öğrenmektedir. Evrişimli sinir ağları modeli ve çalışması Şekil 14’te gösterilmiştir (Chollet, 2021; Patterson ve Gibson, 2017).

Şekil 14. Evrişimli Sinir Ağları Modeli ve Çalışması (Fei-Fei Li, 2021) 3.2.1 Artık sinir ağları modeli

Artık sinir ağları (ResNet) modeli He, Zhang, Ren ve Sun’ın tarafından (2015) geliştirilmiştir. VGG ağlarına göre daha büyük ve daha derin ancak daha düşük karmaşıklığa sahip olan modeldir. Model katmanlarda referanssız öğrenme yerine, artık fonksiyonlardan referans alarak öğrenme sağlanacak şekilde formüle edilmiştir. 50, 101 ve 152 katmana kadar derinliğe sahip versiyonları bulunmaktadır. ResNet101 ve ResNet152 daha fazla üç katmanlı blok kullanılarak oluşturulmuştur. Geliştirilen yöntem sayesinde, artan derinlik nedeniyle oluşan bozulma problemine önemli ölçüde çözüm sağlanmıştır. Bu atık ağlardan oluşan topluluk ILSVRC 2015 sınıflandırmada, ImageNet test setinde %3,57 hata ile birinci olmuştur. Artık öğrenmede bir blok yapısı Şekil 15’te gösterilmiştir (He, Zhang, Ren, ve Sun, 2015).

(39)

18

Şekil 15. Artık Öğrenmede Bir Blok Yapısı Örneği (He vd., 2015) ImageNet için ResNet mimarileri Tablo 7’de gösterilmiştir (He vd., 2015).

Tablo 7. ImageNet İçin ResNet Mimarileri (He vd., 2015)

ResNet evrişimli sinir ağları mimarisi Şekil 16’da verilmiştir.

(40)

19

Şekil 16. ResNet Evrişimli Sinir Ağları Mimarisi (He vd., 2015) 3.3 Bölge-Tabanlı Evrişimli Sinir Ağları Modelleri

Bölge-tabanlı evrişimli sinir ağları (R-CNN) modelleri, resim üzerindeki farklı nesneleri ve yerlerini tespit etmek için kullanılmaktadırlar. Çalışması genel olarak şu şekildedir.

Resmin üzerinde ilgi bölgelerinde nesne aranmakta ve nesne bulursa bu nesnenin sınıfı döndürülmektedir. Aynı zamanda nesnenin yeri tespit edilmektedir. Problem ve kullanım alanlarına göre farklı modelleri geliştirilmiştir. Bunlardan bazıları R-CNN, Fast R-CNN,

(41)

20

Faster R-CNN, Mask R-CNN modelleridir. Takip eden bölümde bunlardan bazıları ayrıntılı olarak ele alınmıştır (Girshick, Donahue, Darrell, ve Malik, 2014; Zhao, Zheng, Xu, ve Wu, 2019).

3.3.1 Bölge-tabanlı evrişimli sinir ağları modeli

Bölge-tabanlı evrişimli sinir ağlarında (R-CNN) bölge önerisi bulunmaktadır. Resmin üzerinde nesne olma ihtimali olan yaklaşık 2000 civarı ilgi bölgesi belirlenmektedir. Bir CNN kullanılarak her bir ilgi bölgesi için özellikler hesaplanmaktadır. SVM ile nesneler sınıflandırılmakta ve nesne sınırlarını tespit etmek için lineer regresyon kullanmaktadır.

R-CNN modelinin zayıf yönlerine bakıldığında bunlardan biri yavaş çalışmasıdır. Bir resim, parça parça yaklaşık 2000 civarında evrişim ağından geçirilmektedir bu işlemlerden dolayı hem eğitim, hem de tanıma aşamasında çalışması oldukça yavaştır. Bu modelin gerçek zamanlı olarak nesne tespiti yapması zor olduğu için Fast R-CNN modeli geliştirilmiştir. Model yapısı Şekil 17’de gösterilmiştir (Girshick vd., 2014; Zhao vd., 2019).

Şekil 17. R-CNN Modeli (Girshick vd., 2014) 3.3.2 Daha hızlı bölge-tabanlı evrişimli sinir ağları modeli

Daha hızlı bölge-tabanlı evrişimli sinir ağları (Faster R-CNN) modelinde hız, diğer R- CNN modellerine göre daha da artırılmıştır. Bu model bir giriş görüntüsü almakta ve evrişimli sinir ağından geçirerek bir özellik haritası çıkarmaktadır. Daha sonra ayrı bir bölge önerisi ağı (RPN) ile ağ bölgeleri belirlenmektedir. Bu yapı ile Fast R-CNN modelinden ayrışmaktadır. Diğer kısımları Fast R-CNN ile aynıdır. Faster R-CNN nesne tespiti için bir tek birleşik ağdır. RPN modülü bu birleşik ağın dikkat mekanizması olarak

(42)

21

hizmet etmektedir. Faster R-CNN model yapısı Şekil 18’de gösterilmiştir (Ren, He, Girshick, ve Sun, 2016).

Şekil 18. Faster R-CNN Modeli (Ren vd., 2016)

Faster R-CNN modeli, RPN bölge önerisi ağı ve çıktı örnekleri Şekil 19’da verilmiştir.

Şekil 19. RPN-Bölge Önerisi Ağı ve Model Çıktısı (Ren vd., 2016)

Yukarıdaki şekilde solda bölge önerisi ağı (RPN), sağda PASCAL COV 2007 test setinden RPN önerilerini kullanan örnek nesne tespitleri verilmiştir. Örneklerden görüldüğü üzere Faster R-CNN yöntemi, nesneleri çok çeşitli ölçeklerde ve en boy oranlarında algılamaktadır.

(43)

22

3.3.3 Maske bölge-tabanlı evrişimli sinir ağları modeli

Maske bölge-tabanlı evrişimli sinir ağları (Mask R-CNN) modeli görüntü bölütleme yapmaktadır. Bu model, ile hem nesnenin bulunduğu yere dikdörtgen çizilebilmekte hem de nesnenin resimde kapladığı tüm pikseller tespit edilebilmektedir. Mask R-CNN modeli nesne tespit etmek için temelde Faster R-CNN kullanmaktadır. Maskeleme için ayrı bir dal bulunmaktadır. Bu dalda, tespit edilen özellik haritasını alarak tespit edilen nesnelerin hangi pikselde olup olmadığına göre binary olarak maskeleme yapmaktadır. Mask R- CNN model yapısı Şekil 20’de gösterilmiştir (He, Gkioxari, Dollár, ve Girshick, 2018).

Şekil 20. Mask R-CNN Modeli (He vd., 2018)

Mask R-CNN modeli, MS COCO test veri seti örnek çıktıları Şekil 21’de verilmiştir.

Burada model temelinde, 101 katmanlı artık sinir ağı ve piramit özellik ağı (ResNet-101- FPN) kullanılmıştır (He vd., 2018; T.-Y. Lin vd., 2017).

(44)

23

Şekil 21. Mask R-CNN Model Çıktıları (He vd., 2018) 3.4 Özyinelemeli Sinir Ağları

Özyinelemeli sinir ağları (RNN) döngüsel olarak çalışmaktadır. Ardışık öğrenim yapmak için bu derin öğrenme yapısı kullanılmaktadır. Örneğin, dil öğreniminde cümle içindeki kelimelerin dizilimi önemlidir. Özyinelemeli sinir ağları bu tarz problemlere çözüm üretmek için geliştirilmişlerdir. Doğal dil işleme, görüntü alt yazılama, görüntü tasviri, makine çevirisi, duygu sınıflandırma, ses tanıma gibi pek çok alanda kullanılmaktadır.

Kullanım alanına ve karşılaşılan problemlere göre zamanla farklı modeller geliştirilmiştir.

Bunlardan bazıları, temel özyinelemeli sinir ağları (RNN), uzun kısa–dönemli bellek modeli (LSTM), kapılı özyinelemeli birim (GRU) ve doğal dil işleme (NLP) modelleridir.

Önerilen yöntemlerde kullanılacak modeller takip eden bölümde ele alınmıştır (Cho, Van Merriënboer, Bahdanau, ve Bengio, 2014; Olah, 2015; Patterson ve Gibson, 2017).

3.4.1 Temel özyinelemeli sinir ağları

Temel özyinelemeli sinir ağları (RNN), genelde dil modelleme için kullanılmaktadır.

Genel yapısı itibariyle RNN, bir girdi alır içerisindeki hidden state’i günceller ve bir çıktı

(45)

24

üretir. Temel bir RNN yapısı Şekil 22’de gösterilmiştir (Cho, Van Merriënboer, Gulcehre, vd., 2014).

Şekil 22. Temel Bir RNN Yapısı (Olah, 2015)

Çalışma fonksiyonuna bakıldığında Denklem 3.1’deki gibidir. Burada ℎ_𝑡 yeni hidden state, ℎ_𝑡−1 eski hidden state, 𝑥_𝑡 girdi vektörü ve 𝑓 ise w parametreli bir aktivasyon fonksiyonudur (Cho, Van Merriënboer, Gulcehre, vd., 2014).

ℎ_𝑡= 𝑓(ℎ_𝑡−1, 𝑥_𝑡) (3.1)

RNN’de gradyan hesaplanırken iki problem ortaya çıkmaktadır. Bunlar patlayan gradyan ve kaybolan gradyandır. Eğer gradyan > 1 ise patlayan gradyan, gradyan < 1 ise kaybolan gradyan söz konusudur. Bu problemleri ortadan kaldırmak için LSTM ve GRU modelleri geliştirilmiştir (Gul vd., 2020; Patterson ve Gibson, 2017).

3.4.2 Kapılı özyinelemeli birim

Kapılı özyinelemeli birim (GRU) modeli, Cho, Van Merriënboer, Bahdanau ve Bengio tarafından (2014) geliştirilmiştir. Klasik RNN modelindeki kaybolan gradyan ve uzun- dönem bağımlılıklar problemlerine çözüm sağlamıştır. LSTM modelinin daha özel bir halidir. LSTM’de üç kapı, GRU’da iki kapı mevcuttur. GRU modelinde, unutma kapısı ve girdi kapısı birleştirilmiş ve tek bir güncelleme kapısı kullanılmıştır. GRU modeli, daha az parametre, daha hızlı eğitim süreci ve genelleme için daha az veri gerektirmektedir. LSTM modeline göre işlem karmaşıklığı daha az olduğu ve iyi sonuç verdiği için sıklıkla kullanılan bir modeldir. GRU modelinin yapısı Şekil 23’te gösterilmiştir (Cho, Van Merriënboer, Bahdanau, vd., 2014; Gul vd., 2020; Patterson ve Gibson, 2017).

(46)

25

Şekil 23. GRU Modeli (Gul vd., 2020)

Yukarıdaki şekilde ℎ_𝑡 yeni hidden state, ℎ_𝑡−1 eski hidden state, 𝑥_𝑡 girdi vektörü, σ sigmoid ve hiperbolik tanjant fonksiyonu, w parametreleridir. Bias değerleri 𝑏_𝑢 ve 𝑏_𝑟 olarak tanımlanmıştır. Sıfırlama (reset) kapısı 𝑟_(𝑡) ve güncelleme (update) kapısı ℎ_(𝑡) olarak verilmiştir. Çalışma fonksiyonuna bakıldığında Denklem 3.2-5’teki gibidir (Gul vd., 2020).

𝑢_(𝑡)= σ(𝑊_𝑢𝑥_𝑡+ 𝑊_𝑢ℎ_𝑡−1+ 𝑏_𝑢) (3.2) ℎ̃_(𝑡)= tanh⁡(W. [𝑟_𝑡] ∗ ℎ_𝑡−1⁡ + ⁡𝑊𝑥_𝑡) (3.3) ℎ_(𝑡)= (1 − 𝑢_(𝑡)) ∗ ℎ_𝑡−1⁡ + ⁡ 𝑢_𝑡∗ ⁡ ℎ̃_𝑡) (3.4) 𝑟_(𝑡) = σ(𝑊_𝑟𝑥_𝑡+ 𝑊_𝑟ℎ_𝑡−1+ 𝑏_𝑟) (3.5)

(47)

26

3.5 Derin Öğrenme ile Otomatik Görüntü Alt Yazısı Oluşturma Yöntemleri Otomatik görüntü alt yazısı oluşturmak için literatürde kullanılan teknikler incelendiğinde bu görüntüden-diziye (image-to sequence) teknikleri genel olarak şunlardır:

 Kodlayıcı-Kod çözücü (Pedersen, 2020; Vinyals vd., 2016)

 Dikkat mekanizması (Xu vd., 2015)

 Yeni nesne paradigması (Venugopalan vd., 2017; Wu vd., 2018)

 Anlam bilim (X. Lin ve Parikh, 2015)

Bu tez çalışmasında kodlayıcı-koz çözücü tekniği kullanılmıştır. Bir kodlayıcı-kod çözücü yapısındaki, görüntü alt yazılama modelinin çalışması genel olarak şu şekildedir.

Bir giriş görüntüsü alır ve bir evrişimli sinir ağından geçirilerek işlenir yani kodlama işlemi yapılır. Ardından bir dil üreteci kullanılarak kod çözücü ile yazı üretilir. Kodlayıcı- kod çözücü tekniğindeki “imcap, image captioning” (Pedersen, 2020) örnek model yapısı Şekil 24’te gösterilmiştir (Chollet, 2021).

Şekil 24. Imcap Model Mimarisi (Pedersen, 2020)

(48)

27 3.6 Hiper-Parametreler

Hiper-parametre, performansı etkileyebilecek, kullanıcı tarafından seçilmesi serbest olan herhangi bir yapılandırma ayarı olarak tanımlanabilir. Veri setinin özelliğine göre ayarlanabilen ve model başarımını etkileyen parametrelerdir. Bunlar veri seti büyüklüğü, mini-yığın (batch) boyutunun seçimi, optimizasyon algoritmaları seçimi, öğrenme hızı ve momentum katsayısı ayarlama, ağırlık başlatma stratejileri, eğitim tur sayısı (epoch) seçimi vb. olarak sayılabilir (Patterson ve Gibson, 2017; Tieleman ve Hinton, 2012;

Wang, Ren, ve Song, 2017).

3.6.1 Mini-yığın boyutu

Derin öğrenme uygulamalarında, büyük veri setinin tek parça halinde işlenmesi maliyetli ve zordur. Büyük veri setinin, parçalara bölünerek işlenmesi mini-yığın olarak isimlendirilmektedir. Mini-yığın boyutunun GPU belleğine sığması ve performans açısından 2’nin katları şeklinde belirlenmesi daha uygundur. Büyük yığınlar ile eğitilen modellerin küçük yığınlar ile eğitilenlere nazaran daha kötü genelleme yaptığı ortaya konmuştur (Patterson ve Gibson, 2017; Wang vd., 2017).

3.6.2 Optimizasyon algoritmaları

Derin öğrenmede, lineer olmayan problemlerin çözümünde optimum değeri bulmak için optimizasyon algoritmaları kullanılmaktadır. Bunlardan bazıları SGD (Sutton, 1986), AdaGrad (Duchi, Hazan, ve Singer, 2011), Adadelta (Zeiler, 2012), Adam (Kingma ve Ba, 2014), RMSProp (Tieleman ve Hinton, 2012) olarak sayılabilir. SGD algoritması, diğerlerine göre yavaş çalışmakta ve görüntü tanıma problemlerinde kötü sonuç verebilmektedir. Adaptif optimizasyon yöntemleri olan AdaGrad, Adadelta, RMSProp ve Adam gibi algoritmalar öğrenme hızını kendisi öğrenmektedir. AdaGrad algoritması öğrenme oranını parametrelere uyarlamaktadır, sık meydana gelen özelliklerle ilişkili parametreler için daha küçük güncellemeler ve seyrek özelliklerle ilişkili parametreler için daha büyük güncellemeler gerçekleştirmektedir. Bu özelliğinden dolayı AdaGrad seyrek gradyanlar için iyi çalışan bir algoritmadır. Fakat AdaGrad algoritmasında öğrenme oranı giderek azalır ve bir noktada öğrenmeyi durdurur. RMSProp ve Adadelta, bu probleme çözüm sağlama amacıyla aynı zamanlarda bağımsız olarak

(49)

28

geliştirilmişlerdir. Adadelta, RMSProp’ta bu sorun çözülmüştür. Adam yönteminin uygulaması basittir, az bellek gereksinimine sahiptir. Parametreler açısından büyük olan problemler, durağan olmayan hedefler, çok gürültülü veya seyrek problemler için uygundur. Adam ile yakından ilişkili optimizasyon yöntemi RMSProp’tur. RMSProp ayrıca bir sapma teriminden yoksundur. Bu en çok seyrek gradyanların olması durumunda, ıraksamaya yol açmaktadır. Momentumlu RMSProp, parametre güncellemelerini yeniden ölçeklenen gradyan üzerinde bir momentum kullanarak üretirken, Adam güncellemeleri gradyanın birinci ve ikinci momentinin ortalamasını kullanarak doğrudan tahmin etmektedir (Duchi vd., 2011; Kingma ve Ba, 2014; Patterson ve Gibson, 2017; Ruder, 2016; Tieleman ve Hinton, 2012).

3.7 Performans Ölçüm Metrikleri

Görüntülerin otomatik olarak alt yazılanması, nesne tespit ve doğal dil işlemenin birlikte ele alındığı zorlu bir problemdir. Nesne tespit, eylem tanıma, doğal dil işleme gibi alanlarda yapılan başarılı çalışmalar ile bu alanlara ilgi artmış ve son zamanlarda görüntü alt yazılama alanında önemli çalışmalar ortaya konmuştur. Fakat otomatik tanımların başarılı bir şekilde değerlendirilmesi problemi ortaya çıkmıştır. İnsan değerlendirmesi hem pahalı hem de sınırlıdır. Bunun için insan değerlendirmesine yakın, hızlı ve ucuz, otomatik değerlendirme modelleri geliştirilmiştir. Bu değerlendirme metriklerinden bazıları BLEU, ROUGE, METEOR, CIDEr, SPICE olarak sayılabilir. Bunlar ayrıntılı olarak aşağıda ele alınmıştır (Papineni, Roukos, Ward, ve Zhu, 2002; Vedantam, Zitnick, ve Parikh, 2015; Wu vd., 2018).

3.7.1 BLEU metrikleri

İki dilli değerlendirme yardımcısı (BLEU) metriği (Papineni vd., 2002) otomatik makine çevirisi için geliştirilmiş bir yöntemdir. Bu çalışma hızlı, ucuz ve dilden bağımsız, insan değerlendirmesiyle yüksek oranda ilişkili, bir otomatik makine çevirisi değerlendirme yöntemi olarak önerilmiştir. BLEU skoru, makine çevirisi topluluğundan doğruluk- tabanlıdır. Referanslara göre aday cümle için n-gram tabanlı bir doğruluk hesaplar.

Versiyonları BLEU1 (1-gram), BLEU2 (1-gram ve 2-gram), BLEU3 (1-gram, 2-gram ve 3-gram), ve BLEU4 (1-gram, 2-gram, 3-gram ve 4-gram). En çok kullanılan, BLEU4

(50)

29

versiyonudur. Daha sonraki çalışmalar bu metriğin insan yargısı ile zayıf ilişkili olduğunu ortaya koymuştur (Papineni vd., 2002; Vedantam vd., 2015).

3.7.2 ROUGE metrikleri

Geri çağırma-tabanlı özet değerlendirme metriği (ROUGE) özetlerin otomatik olarak değerlendirilmesi için sunulmuştur. İlk olarak C.-Y. Lin ve Hovy (2003) tarafından, n- gram eş-kullanım istatistikleri kullanarak özetlerin otomatik değerlendirmesi makalesinde önerilmiştir. Özetleme topluluğundan, geri çağırma-tabanlı bir otomatik değerlendirme metriğidir. Bir özetin kalitesini otomatik olarak belirlemek için, insanlar tarafından oluşturulan diğer özetlerle kıyaslayan ölçümler içerir. Bu ölçümler, bilgisayar tarafından değerlendirilmek üzere oluşturulan özet ile insanlar tarafından oluşturulan ideal özetler arasındaki n-gram kelime dizileri ve kelime çiftleri gibi örtüşen birimlerin sayısını sayar. Beş farklı ROUGE versiyonu 2004 yılında Lin tarafından tanıtılmıştır. Bu versiyonlar aşağıda ele alınmıştır (C.-Y. Lin, 2004; C.-Y. Lin ve Hovy, 2003).

 ROUGE-N (N-gram tabanlı eş-kullanım istatistikleri) Birden fazla referans kullanıldığında, bir aday ile referans setindeki her referans arasında özet-seviye ROUGE-N çiftlerini hesaplar ve puanların maksimumunu çoklu referans ROUGE-N puanı olarak alır.

 ROUGE-L (En uzun ortak alt dizi (LCS) tabanlı istatistikler.)

 ROUGE-W (Ağırlıklı LCS-tabanlı istatistikler.)

 ROUGE-S: Atlamalı-bigram-tabanlı eş-kullanım istatistikleri.

 ROUGE-SU: Atlamalı-bigram artı unigram-tabanlı eş-kullanım istatistiği.

3.7.3 METEOR metriği

İnsan yargılarıyla gelişmiş korelasyona sahip, makine çevirisi değerlendirmesi için otomatik bir metrik (METEOR), Banerjee ve Lavie (2005) tarafından önerilmiştir.

Makine çevirisi topluluğundan hatırlama ile birlikte doğruluk tabanlıdır. METEOR genelleştirilmiş bir bigram eşleştirme konseptine dayanan makine çevirisi değerlendirmesi için otomatik bir ölçüm yöntemidir. Bigramlar yüzey biçimlerine, gövde biçimlerine ve anlamlarına göre eşleştirilebilmekte ve ihtiyaca göre genişletilebilmektedir. METEOR skoru, makine çevirisindeki eşleşen kelimelerin

(51)

30

referansa göre ne kadar iyi sıralandığını doğrudan yakalamak için tasarlanmış, bigram- hassasiyet, bigram-hatırlama, eşleştirme kombinasyonu kullanarak bir puan hesaplamaktadır (Banerjee ve Lavie, 2005).

3.7.4 CIDEr metriği

Fikir birliğine dayalı görüntü açıklama değerlendirmesi (CIDEr), Vedantam, Zitnick ve Parikh (2015) tarafından geliştirilmiştir. Mevcut değerlendirme metrikleri dilbilgisellik, belirginlik, doğruluk vb. gibi özellikleri ölçmektedir ve bazı açılardan yetersiz kalmaktadır. Bundan dolayı görüntü açıklamalarını değerlendirmek için insan fikir birliğini kullanan yeni bir paradigma önerilmiştir. Bu paradigma üç ana bölümden oluşmaktadır. Bunlardan ilki fikir birliğini ölçmek için insan açıklamalarını toplamaya yönelik yeni bir üçlü tabanlı yöntemdir. İkincisi fikir birliğini yakalayan yeni bir otomatik metrik CIDEr. Ve sonuncusu iki yeni veri kümesidir. Bu veri kümeleri, her bir görüntüyü tanımlayan 50 cümle içeren PASCAL-50S ve ABSTRACT-50S’tir. PASCAL-50S veri seti, görüntü başına 5 açıklama içeren UIUC PASCAL VOC cümle veri kümesine dayanmaktadır. ABSTRACT-50S veri seti, Zitnick ve Parikh’in soyut sahneler veri setine dayanmaktadır (Everingham, Van Gool, Williams, Winn, ve Zisserman, 2010; Vedantam vd., 2015; Zitnick ve Parikh, 2013).

3.7.5 SPICE metriği

Görüntü alt yazı değerlendirmede anlamsal yaklaşım (SPICE) Anderson, Fernando, Johnson ve Gould (2016b) tarafından geliştirilmiştir. İnsan alt yazı değerlendirmelerinin önemli bir bileşenin anlamsal içerik olduğu düşünülerek sahne değerlendirmeleri için yeni bir alt yazı metriği önerilmiştir. Bu model verilen isimler ve sahne tanımlarının anlamsal yapılarından yararlanmaktadır. Model görüntü alt yazıları setinden ayrıştırılmış bir sahne grafı oluşturmaktadır. SPICE metriği, hangi alt yazı üretecinin, renkleri en iyi anladığı gibi sorulara yanıt verebilmektedir (Anderson, Fernando, Johnson, ve Gould, 2016b).

3.8 Kelime Vektörleri

Doğal dil işleme kelime vektörleri, kelimelerin sayılar ile temsil edilmesini ve böylece üzerinde işlem yapılabilmesini sağlamaktadır. Kelime vektörleri en yaygın olarak

(52)

31

kullanılan kelime temsillerindendir. Kelime vektörleri ile gösterim sadece kelimeleri değil, anlam ve bağlamlarını da korumaktadır. Kelime vektörü oluşturmak için Word2Vec ve GloVe yöntemleri yaygın olarak kullanılmaktadır. Bunlar aşağıda ele alınmıştır (Mikolov, Chen, Corrado, ve Dean, 2013; Pennington, Socher, ve Manning, 2014a).

3.8.1 Word2Vec kelime vektörü

Kelime Vektörü (Word2Vec) modeli Mikolov, Chen, Corrado ve Dean (2013) tarafından geliştirilmiştir. Model, girdi olarak bir metin külliyatı (corpus) almakta ve çıktı olarak kelime vektörlerini üretmektedir. Önce eğitim metni verilerinden bir kelime hazinesi oluşturmakta ve ardından kelimelerin vektör temsilini öğrenmektedir. Kelime vektörleri oluşturmak için iki farklı algoritma kullanılmaktadır. Kullanıcının bunlardan birini seçmesine izin verilmektedir. Bunlardan biri Skip-gram diğeri CBOW algoritmasıdır.

Skip-gram algoritmasında, ortadaki kelimeye göre kenardaki kelimeler tahmin edilmektedir. CBOW algoritmasında kenardaki kelimelerden ortadaki kelime tahmin edilmektedir. Her iki algoritma mimarisi, performans açısından kıyaslandığında CBOW algoritması hızlı, Skip-gram algoritması yavaş fakat seyrek kelimeler için daha iyidir.

(GoogleCode, 2013; Mikolov, Chen, vd., 2013; Mikolov, Sutskever, Chen, Corrado, ve Dean, 2013).

3.8.2 GloVe kelime vektörü

Global vektörler için kelime gösterimi (GloVe) modeli, Pennington, Socher ve Manning tarafından (2014a) önerilmiştir. Bu model anlamsal bilgilerin yanı sıra, özel bir yöntem ile global kelime-kelime birlikteliğini sayarak, birlikte kullanılma istatistiklerini de yakalamaktadır. Özel bir ağırlıklı en küçük kareler ile birlikte bir log-bilineer modeldir.

Glove6B.zip, 2014 Wikipedia üzerinden toplanmış külliyat kullanarak elde edilmiştir.

Glove6B 6 milyar kelime, 400 bin kelime haznesi, 50, 100, 200, ve 300 boyutlu kelime vektörleri içermektedir (Pennington vd., 2014a; Pennington, Socher, ve Manning, 2014b).