• Sonuç bulunamadı

SONUÇ ve ÖNERİLER

Belgede DERİN ÖĞRENME YÖNTEMLERİ YA (sayfa 119-128)

Tez çalışmasında, otomatik Türkçe Konumlu-Tasvir ve alt yazılama için yeni Türkçe Konumlu-Tasvir veri seti oluşturulmuştur. Otomatik konumlu tasvir ve alt yazı oluşturma amacıyla iki yöntem önerilmiştir. Her iki yöntem için de, modellerin değerlendirme metriklerine göre sonuçları, çıktı elde etmede ortak olarak kullanılan 10’ar modelin ortalaması alınarak elde edilmiştir. Yöntemler, test veri seti üzerinde MS COCO alt yazı değerlendirme metrikleri kullanılarak değerlendirilmiştir. Bunlar; BLEU, METEOR, ROUGE, CIDEr ve SPICE değerlendirme metrikleridir. Elde edilen sonuçlara göre, BLEU değerlendirme metrikleri ele alındığında Yöntem-1 ve Yöntem-2 performansı hemen hemen aynıdır. METEOR, ROUGE, CIDEr ve SPICE değerlendirme metriklerine göre Yöntem-1 çok az bir fark ile daha başarılıdır. Özellikle ROUGE_L değerlendirme metriği göz önüne alındığında, Yöntem-1 puanı 0.734 ve Yöntem-2 puanı 0.724 olmuştur.

Bu değerlere göre, Yöntem-1’in çok az bir fark ile daha başarılı tahminler yaptığı görülmektedir. Bununla birlikte, yöntemlerin, 0.70 üzerindeki ROUGE performans değerlendirme puanlarına göre, her iki yöntemin de başarılı olduğu söylenebilir.

Yöntemler tarafından oluşturulan, otomatik çıktılar incelendiğinde şu söylenebilir. Hem test seti hem de harici görüntüler için, Yöntem-1 tarafından üretilen konumlu tasvirlerin daha ayrıntılı ve görüntü bağlamı ile daha iyi örtüştüğü ifade edilebilir. Fakat sayı olarak az olsa da, bazı görüntüler için Yöntem-2’nin de daha ayrıntılı tasvirler elde ettiği tespit edilmiştir. Yöntem başarımlarındaki fark, yöntemlerde kodlayıcı olarak kullanılan evrişimli sinir ağlarından ve kullanılan nesne tespit modellerinden kaynaklanmaktadır.

Önerilen yöntemlerin genel olarak başarımı, yapılan diğer Türkçe alt yazı oluşturma yöntemlerinden bazıları ile kıyaslanabilir. Yine de değerlendirmede farklı büyüklükteki veri setleri ile çalışıldığı unutulmamalıdır. Ünal ve diğerleri (Unal vd., 2016) makalesinde Türkçe TasvirEt (8091 görüntü) veri seti üzerinde önerdikleri iki yöntemin BLEU3 puanları göz önüne alındığında, Ünal-Y1 puanı 0.020, Ünal-Y2 puanı 0.102 olarak verilmiştir. Bizim Türkçe Konumlu-Tasvir veri seti (4044 tekrarlı görüntü) üzerinde önerdiğimiz iki yöntemin BLEU3 puanları göz önüne alındığında, Yöntem-1 puanı 0.468 ve Yöntem-2 puanı 0.463 olarak elde edilmiştir. BLEU3 puanlarına göre önerdiğimiz alt yazılama yöntemlerinin daha başarılı sonuçlar ortaya koyduğu

99

söylenebilir. Yılmaz ve diğerleri (Yılmaz vd., 2019) makalesinde Türkçe alt yazılama için bir model önerilmiştir. Çalışmada MS COCO veri seti makine çevirisi yardımıyla Türkçeye çevrilerek kullanılmıştır. Önerdikleri yöntemin BLEU3 puanı 0.071 ve ROUGE_L puanı 0.266 olarak verilmiştir. Bizim önerdiğimiz Yöntem1 BLEU3 puanı 0.468 ve ROUGE_L puanı 0.734 olarak bulunmuştur. Yöntem2 BLEU3 puanı 0.463 ve ROUGE_L puanı 0.724 olarak elde edilmiştir. Hem BLEU3 hem de ROUGE_L puanlarına göre önerdiğimiz alt yazılama yöntemlerinin daha başarılı sonuçlar ortaya koyduğu söylenebilir.

Sonuç olarak hazırlanan veri seti otomatik alt yazı oluşturma amacıyla kullanılabilmekte ve geliştirilebilmektedir. Önerilen yöntemler, literatürde yer alan diğer çalışmalar ile karşılaştırıldığında konum bilgisi içeren çok az sayıdaki çalışmalardan birisi olma özelliğindedir. Başka bir ifadeyle, Türkçe için konum bilgisini de içeren ilk veri seti oluşturulmuş ve önerilen yöntemler Türkçe otomatik alt yazılama için başarılı bir şekilde kullanılabilmektedir. Veri setindeki görüntü çeşitliliği ve alt yazılanmış görüntü sayısı arttırıldığında yöntemlerin başarım oranı daha da artacaktır. Ayrıca yöntemlerde, kodlayıcı olarak kullanılan evrişimli sinir ağlarının performansı, görüntüyü daha iyi temsil edecek şekilde geliştirilebilir. Böylece yöntemlerin başarımının artması sağlanabilir. Bu çalışma literatüre, Türkçe Konumlu-Tasvir veri seti olarak, daha ayrıntılı otomatik tasvir ve alt yazı oluşturma açısından katkı sağlamıştır. Bu çalışmanın bu alanda çalışma yapacak bilim insanlarına yol göstereceği düşünülmektedir.

100

KAYNAKLAR

Agrawal, H., Desai, K., Wang, Y., Chen, X., Jain, R., Johnson, M., vd. (2019). Nocaps:

Novel object captioning at scale. In Proceedings of the IEEE/CVF International Conference on Computer Vision, 8948-8957. doi:10.1109/ICCV.2019.00904.

Anderson, P., Fernando, B., Johnson, M., ve Gould, S. (2016a). Guided open vocabulary image captioning with constrained beam search. arXiv preprint arXiv:1612.00576. doi:10.48550/arXiv.1612.00576.

Anderson, P., Fernando, B., Johnson, M., ve Gould, S. (2016b). Spice: Semantic propositional image caption evaluation. In European conference on computer vision, 382-398.

Anderson, P., He, X., Buehler, C., Teney, D., Johnson, M., Gould, S., vd. (2018). Bottom-up and top-down attention for image captioning and visual question answering. In Proceedings of the IEEE conference on computer vision and pattern recognition, 6077-6086. doi:10.48550/arXiv.1707.07998.

Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., vd. (2015). Vqa:

Visual question answering. IEEE. doi:10.1109/ICCV33071.2015.

Banerjee, S., ve Lavie, A. (2005). METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization, 65-72.

Cho, K., Van Merriënboer, B., Bahdanau, D., ve Bengio, Y. (2014). On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:

1409.1259. doi:10.48550/arXiv.1409.1259v2.

Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., vd. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv: 1406.1078.

doi:10.48550/arXiv.1406.1078v3.

Chollet, F. (2021). Python ile Derin Öğrenme. Ankara: Buzdağı Yayınevi.

Devlin, J., Cheng, H., Fang, H., Gupta, S., Deng, L., He, X., vd. (2015). Language models for image captioning: The quirks and what works. arXiv preprint arXiv:1505.01809. doi:10.48550/arXiv.1505.01809.

101

Duchi, J., Hazan, E., ve Singer, Y. (2011). Adaptive subgradient methods for online learning and stochastic optimization. Journal of machine learning research, 12(7).

Everingham, M., Van Gool, L., Williams, C. K., Winn, J., ve Zisserman, A. (2010). The pascal visual object classes (voc) challenge. International journal of computer vision, 88(2), 303-338. doi:10.1007/s11263-009-0275-4.

Fang, H., Gupta, S., Iandola, F., Srivastava, R. K., Deng, L., Dollár, P., vd. (2015). From captions to visual concepts and back. CVPR. doi:10.1109/CVPR.2015.7298754.

Fei-Fei Li, R. K., Danfei Xu (2021). Lecture 5: Convolutional Neural Networks.

http://cs231n.stanford.edu/slides/2021/lecture_5.pdf, Erişim Tarihi: 12.11.2022.

Girshick, R., Donahue, J., Darrell, T., ve Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, 580-587.

doi:10.48550/arXiv.1311.2524.

GoogleCode. (2013). word2vec. https://code.google.com/archive/p/word2vec, Erişim Tarihi: 15.12.2021.

Gul, H., Javaid, N., Ullah, I., Qamar, A. M., Afzal, M. K., ve Joshi, G. P. (2020).

Detection of non-technical losses using SOSTLink and bidirectional gated recurrent unit to secure smart meters. Applied Sciences, 10(9), 3151.

He, K., Gkioxari, G., Dollár, P., ve Girshick, R. (2018). Mask r-cnn. arXiv preprint arXiv:

1703.06870. doi:10.48550/arXiv.1703.06870v3.

He, K., Zhang, X., Ren, S., ve Sun, J. (2015). Deep residual learning for image

recognition. arXiv preprint arXiv: 1512.03385.

doi:10.48550/arXiv.1512.03385v1.

Hendricks, L. A., Venugopalan, S., Rohrbach, M., Mooney, R., Saenko, K., ve Darrell, T. (2016). Deep compositional captioning: Describing novel object categories without paired training data. In Proceedings of the IEEE conference on computer vision and pattern recognition, 1-10. doi:10.48550/arXiv.1511.05284.

Kingma, D. P., ve Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv: 1412.6980. doi:10.48550/arXiv.1412.6980.

Krizhevsky, A., Sutskever, I., ve Hinton, G. E. (2017). Imagenet classification with deep convolutional neural networks. Communications of the ACM, 60(6), 84-90.

102

Kuyu, M., Erdem, A., ve Erdem, E. (2018). Altsözcük Ögeleri ile Türkçe Görüntü Altyazılama Image Captioning in Turkish with Subword Units. 26. IEEE Sinyal Isleme ve Iletisim Uygulamaları Kurultayı, 1-4.

Li, Y. (2015). arctic-capgen-vid. https://github.com/yaoli/arctic-capgen-vid, Erişim Tarihi: 15.11.2022.

Lin, C.-Y. (2004). Rouge: A package for automatic evaluation of summaries. In Text summarization branches out, 74-81.

Lin, C.-Y., ve Hovy, E. (2003). Automatic evaluation of summaries using n-gram co-occurrence statistics. In Proceedings of the 2003 human language technology conference of the North American chapter of the association for computational linguistics, 150-157.

Lin, T.-Y. (2018). Microsoft COCO Caption Evaluation. https://github.com/tylin/coco-caption, Erişim Tarihi: 20.11.2022.

Lin, T.-Y., Dollár, P., Girshick, R., He, K., Hariharan, B., ve Belongie, S. (2017). Feature pyramid networks for object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2117-2125.

Lin, X., ve Parikh, D. (2015). Don't just listen, use your imagination: Leveraging visual common sense for non-visual tasks. CVPR. doi:10.1109/CVPR.2015.7298917.

Loller-Andersen, M., ve Gambäck, B. (2018). Deep Learning-based Poetry Generation Given Visual Input. ICCC, 240-247.

Lu, J., Yang, J., Batra, D., ve Parikh, D. (2018). Neural baby talk. In Proceedings of the IEEE conference on computer vision and pattern recognition, 7219-7228.

doi:10.48550/arXiv.1803.09845.

Mao, J., Xu, W., Yang, Y., Wang, J., Huang, Z., ve Yuille, A. (2014). Deep captioning with multimodal recurrent neural networks (m-rnn). arXiv preprint arXiv:

1412.6632. doi:10.48550/arXiv.1412.6632.

Matterport. (2016). Mask R-CNN for Object Detection and Segmentation.

https://github.com/matterport/Mask_RCNN, Erişim Tarihi: 05.05.2022.

Mikolov, T., Chen, K., Corrado, G., ve Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv: 1301.3781.

doi:10.48550/arXiv.1301.3781.

103

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., ve Dean, J. (2013). Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems, 26.

MS-COCO. (2015). Captioning Leaderboard. https://cocodataset.org/#captions-leaderboard, Erişim Tarihi: 10.11.2022.

MS-COCO. (2017). COCO Explorer. https://cocodataset.org/#explore, Erişim Tarihi:

15.12.2022.

Nabiyev, V. V. (2010). Yapay Zeka. Ankara: Seçkin Yayıncılık.

Olah, C. (2015). Understanding LSTM Networks. http://colah.github.io/posts/2015-08-Understanding-LSTMs, Erişim Tarihi: 02.12.2022.

Öztemel, E. (2006). Yapay Sinir Ağları. İstanbul: Papatya Yayıncılık.

Papineni, K., Roukos, S., Ward, T., ve Zhu, W.-J. (2002). Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 311-318.

Patterson, J., ve Gibson, A. (2017). Deep learning: A practitioner's approach. USA:

O'Reilly Media.

Pedersen, M. E. H. (2020). TensorFlow Tutorial #22 Image Captioning.

https://github.com/Hvass-Labs/TensorFlow-Tutorials/blob/master/22_Image_Ca ptioning.ipynb, Erişim Tarihi: 01.11.2022.

Pennington, J., Socher, R., ve Manning, C. D. (2014a). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 1532-1543.

Pennington, J., Socher, R., ve Manning, C. D. (2014b). GloVe: Global Vectors for Word Representation. https://nlp.stanford.edu/projects/glove/, Erişim Tarihi:

15.12.2021.

Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., vd. (2018). Deep contextualized word representations. arXiv preprint arXiv: 1802.05365, 12.

doi:10.48550/arXiv.1802.05365.

Ren, S., He, K., Girshick, R., ve Sun, J. (2016). Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv: 1506.01497.

doi:10.48550/arXiv.1506.01497v3.

104

Ruder, S. (2016). An overview of gradient descent optimization algorithms.

https://ruder.io/optimizing-gradient-descent, Erişim Tarihi: 20.11.2022.

Samet, N. (2020). COCO minitrain. https://github.com/giddyyupp/coco-minitrain, Erişim Tarihi: 05.05.2022.

Samet, N., Hiçsönmez, S., Duygulu, P., ve Akbas, E. (2017). Görüntü Altyazılama için Otomatik Tercümeyle Egitim Kümesi Olusturulabilir mi? Could We Create A Training Set For Image Captioning Using Automatic Translation? 25th Signal Processing and Communications Applications Conference (SIU), Antalya-TR.

Sutton, R. (1986). Two problems with back propagation and other steepest descent learning procedures for networks. In Proceedings of the Eighth Annual Conference of the Cognitive Science Society, 823-832.

Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., vd. (2015). Going deeper with convolutions. CVPR. doi:10.1109/CVPR.2015.7298594.

TfhubAuthors. (2018). faster_rcnn/openimages_v4/inception_resnet_v2. https://tfhub.

dev/google/faster_rcnn/openimages_v4/inception_resnet_v2/1, Erişim Tarihi:

05.05.2022.

TfhubAuthors. (2020). mask_rcnn/inception_resnet_v2_1024x1024. https://tfhub.

dev/tensorflow/mask_rcnn/inception_resnet_v2_1024x1024/1, Erişim Tarihi:

20.11.2022.

Tieleman, T., ve Hinton, G. (2012). Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural networks for machine learning, 4(2), 26-31.

Unal, M. E., Citamak, B., Yagcioglu, S., Erdem, A., Erdem, E., Cinbis, N. I., vd. (2016).

Tasviret: Görüntülerden otomatik türkçe açıklama olusturma Için bir denektaçı veri kümesi (TasvirEt: A benchmark dataset for automatic Turkish description generation from images). IEEE Sinyal Isleme ve Iletisim Uygulamaları Kurultayı, 1-4.

Vedantam, R., Zitnick, L. C., ve Parikh, D. (2015). Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), 4566-4575. doi:10.1109/CVPR.2015.7299087.

105

Venugopalan, S., Anne Hendricks, L., Rohrbach, M., Mooney, R., Darrell, T., ve Saenko, K. (2017). Captioning images with diverse objects. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 5753-5761.

Vinyals, O., Toshev, A., Bengio, S., ve Erhan, D. (2016). Show and tell: Lessons learned from the 2015 mscoco image captioning challenge. TPAMI, 39(4), 652-663.

doi:10.1109/TPAMI.2016.2587640.

Wang, H., Ren, K., ve Song, J. (2017). A closer look at batch size in mini-batch training of deep auto-encoders. IEEE International Conference on Computer Communications(3), 2756-2761. doi:10.1109/COMPCOMM.2017.8323035.

Wu, Y., Zhu, L., Jiang, L., ve Yang, Y. (2018). Decoupled novel object captioner. In Proceedings of the 26th ACM international conference on Multimedia, 1029-1037. doi:10.1145/3240508.3240640.

Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., vd. (2015). Show, attend and tell: Neural image caption generation with visual attention. In International conference on machine learning, 2048-2057.

Yılmaz, B. D., Demir, A. E., Sönmez, E. B., ve Yıldız, T. (2019). Image Captioning in Turkish Language. 2019 Innovations in Intelligent Systems and Applications Conference (ASYU), 1-5.

Zeiler, M. D. (2012). Adadelta: an adaptive learning rate method. rXiv preprint arXiv:

1212.5701. doi:10.48550/arXiv.1212.5701.

Zhao, Z.-Q., Zheng, P., Xu, S.-t., ve Wu, X. (2019). Object detection with deep learning:

A review. IEEE transactions on neural networks learning systems, 30(11), 3212-3232.

Zitnick, C. L., ve Parikh, D. (2013). Bringing semantics into focus using visual abstraction. In Proceedings of the IEEE conference on computer vision and pattern recognition, 3009-3016. doi:10.1109/CVPR.2013.387.

106

ÖZGEÇMİŞ

Esin ERGUVAN ETGİN

Eğitim

3,57 2017 Maltepe Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Müh.

3,28 2013 Anadolu Üniversitesi, İşletme Fakültesi, İşletme -- 1995 İTÜ, Fen-Edebiyat Fakültesi, Matematik Mühendisliği

Belgede DERİN ÖĞRENME YÖNTEMLERİ YA (sayfa 119-128)

Benzer Belgeler