TEKNOFEST İSTANBUL HAVACILIK, UZAY VE TEKNOLOJİ FESTİVALİ YAPAY ZEKA YARIŞMASI KRİTİK TASARIM RAPORU. TAKIM ADI: zeka.org

(1)

TEKNOFEST İSTANBUL

HAVACILIK, UZAY VE TEKNOLOJİ FESTİVALİ

YAPAY ZEKA YARIŞMASI KRİTİK TASARIM RAPORU

TAKIM ADI: zeka.org

TAKIM ÜYELERİ: Mehmet ÖZTÜRK, Serkan ÖZTÜRK

(2)

İÇİNDEKİLER

1. TAKIM ŞEMASI ... 3

2. PROJE MEVCUT DURUM DEĞERLENDİRMESİ ... 3

3. ALGORİTMALAR VE SİSTEM MİMARİSİ ... 3

3.1. ALGORİTMALAR ... 3

3.2. SİSTEM MİMARİSİ ... 4

4. ÖZGÜNLÜK ... 4

5. SONUÇLAR VE İNCELEME ... 5

6. KAYNAKÇA ... 5

(3)

1. TAKIM ŞEMASI

Zeka.org Yapay Zeka takımı olarak yapılan literatür taramaları, proje için alınan notlar, fikirler, test sonuçları, proje takvimi ortak bir bulut depolama hesabında organize şekilde saklanır.

Mehmet Öztürk (kaptan): Proje takvimini belirler ve bu süreci yönetir. Takımın Teknofest ile iletişiminden sorumludur. E-posta grubunu, resmi web sitelerini ve sosyal medya hesaplarını takip ederek takımı gelişmelerden haberdar eder.

Serkan Öztürk: Eğitim ve test için kullanmak amacıyla, drone videolarından elde edilen resimlerden amaca uygun olanları ayıklamak ve ayıklananları sınıflarına uygun olarak etiketlemek.

2. PROJE MEVCUT DURUM DEĞERLENDİRMESİ

Çeşitli ortamlardan (özellikle Youtube, Dailymotion, Vimeo, vs) 500’e yakın drone ile çekilmiş videolar indirildi. Bu videolardan saniyede 1 frame olacak şekilde görüntüler elde edildi. Daha sonra bu görüntülerden amaca uygun olanlar ayıklandı, nesne olan yerler eğitimin daha hızlı olabilmesi için kırpıldı. Resimlerdeki veri seti hazırlanırken araç sınıfının hangi nesneleri içerdiği tam net olmadığı için araç kategorisine uçak, gemi, helikopter, motorsiklet gibi nesneler de dahil edildi. Bu durum netleştiği için eğitim setinin revize edilmesine karar verildi. Ayrıca açı kısmı net olmadığı için 70-90 derece dışındaki açılardan elde edilmiş resimler çıkartılacaktır.

NasNet [1] ile önceden eğitilmiş ağırlıkların kullanımı doğruluk açısından diğer önceden eğitilmiş ağırlıklardan iyi olsa da sınıflama hızı açısından yavaştır. Yüksek çözünürlüğe sahip 10 nesne içeren resimler üzerindeki testler yarışma için verilen 1 saatlik sürenin aşılması problemini oluşturabileceğinden NasNet’e nazaran doğruluğa sahip olan fakat daha hızlı sınıflama yapan önceden eğitilmiş ağırlıklarla da eğitim ve testler yapılacak ve hız doğruluk dengesini en iyi elde edeceğimiz ağırlıklar kullanılacaktır.

3. ALGORİTMALAR VE SİSTEM MİMARİSİ 3.1.ALGORİTMALAR

Yazılım olarak Google tarafından açık kaynak olarak sunulan Tensorflow Object Detection API [2] kullanılacaktır.

Tensorflow Object Detection API nesne tespitinde kullanılan popüler algoritmalar olan Single Shot Multibox Detector (SSD) [3], Faster R-CNN [4], Region-Based Fully Convolutional Network (R-FCN) [5] gibi algoritmaları yine popüler ve başarılı olan ResNet [6], Inception [7], NasNet gibi mimariler üzerinde kullanılmasına imkan vermektedir. Ayrıca nesne tanıma algoritması ve CNN mimari kombinasyonlarının bir

(4)

çoğu için COCO [8] veri seti ile yapılmış olan eğitimler ile elde edilen ağırlıkları da kullanıma sunmuşlardır.

Biz yarışmada nesne tanıma doğruluğunun önemli olması nedeni ile en iyi doğruluğa sahip Faster R-CNN nesne tanıma algoritması ile NasNet mimarisini kullandık. Ayrıca eğitim için COCO veri seti ile eğitilerek elde edilen ağırlıkları da kullandık.

3.2.SİSTEM MİMARİSİ

Şekil 1’de sistem mimarimizin ana hatları görselleştirilmiştir.

Şekil 1: Kullanılan modelin mimarisinin ana hatları

Eğitim için kullanılan resimlerde herhangi bir standart boyut yoktur. Eğitimin hızlı olması amacıyla nesne veya nesnelerin olduğu kısımlar kırpılarak boyut azaltılmıştır. Ancak test için kullanılan resimler yarışmada karşımıza çıkacağı şekilde olacaktır (1920x1080).

Resimlerdeki nesneleri etiketlemek için LabelImg [9] isimli yazılım kullanılmıştır. Bu program her etiketlediğimiz resim için bir Xml dosyası oluşturur.

Xml dosyalarının CSV dosyalarına çevirilebilmesi için API’nin içinde yer olan

“xml_to_csv.py” script dosyası kullanılır.

CSV dosyaları oluştuktan sonra “generate_tf_record.py” dosyası, bu dosyanın içinde gerekli sınıf bilgileri değiştirildikten sonra, TFRecord oluşturmak amacıyla çalıştırılır.

Tensorflow Object Detection API veri serileştirilmesi amacıyla Google tarafından geliştirilen Protobuf [10] protokolünü kullanır. Bunun için Protobuf’ın bilgisayara indirilip derlenmesi gerekir.

Labelmap dosyası Protobuf protokolünü kullanılarak API tarafından okunan modele hangi ID’nin hangi sınıfın var olduğunu söyleten bir dosyadır. Uzantısı pbtxt olacak şekilde oluşturulur.

Eğitim için son ayar olarak API içinde yer olan config klasöründeki

“raster_rcnn_nas.config” dosyasında gerekli ayarlamalar yapılarak eğitim başlatılır.

4. ÖZGÜNLÜK

Veri setini zengişletirmek amacıyla özellikle insan nesnesi içeren görüntüler için, görüntülere Gabor Filtresi [11] uygulanarak data augmentation yapılacaktır.

(5)

Gece çekimi, yağmurlu ve sisli hava gibi görüntü tespitini zorlayacak şartlara ait görüntüler eğitim setine eklenerek sınıflama doğruluğu bu durumlar için arttırılmaya çalışılacaktır.

Araç kısmında yer alan otomobil, otobüs, traktör, iş makinaları, vs eğitimi yapılırken tanımlamayı kolaylaştırmak amacıyla ayrı sınıflar olarak eğitilecek. En son JSON dosyasında bunların hepsi araç olarak sınıflandırılacaktır.

Nesnelerin tamamının görünmediği (tünele girme ve çıkma, köprü altında kalma, başka bir nesne tarafından engelleme) gibi durumlar için de veri setine örnekler eklenecektir.

5. SONUÇLAR VE İNCELEME

Test resimleri şu şekilde kategorize edildi. Her irtifadan tek bir insanın olduğu resimler, birden fazla insanın olduğu resimler (yan yana, birlikte yürüme, aynı ortamın içinde bulunma), tek tür aracın olduğu (sadece otomobil, sadece otobüs, vs) insan ve araçların aynı karede olduğu resimler, şehir içi ve doğal ortamdaki resimler olarak kategorize edildi.

Testler sonucunda elde edilen bazı gözlemlerimiz şunlardır:

 Tek insan ve tek aracın olduğu resimler yüksek doğruluk oranı ile tespit edilmiştir.

 Birden fazla insanın yan yana olduğu resimlerde, ya insan tespitinin eksik yapıldığı ya da bounding box’ın insan nesnesini tam olarak sınırlamamıştır.

 Bazı görüntülerde insan gölgeleri insan nesnesi olarak sınıflanmıştır.

 Doğal ortama ait görüntülerde bazı ağaç nesneleri insan nesnesi olarak sınıflanmıştır.

 Şantiyeye alanlarına ait görüntülerde bazı prefabrik yapılar kamyonet kasalarına benzediği için araç olarak sınıflanmıştır.

Bu hatalı sınıflamaları azaltmak için ilk olarak bu hatalı sınıflamalara neden olan nesnelere ait görüntüler veri setine eklenerek veri seti genişletilecektir. Eğer aynı hatalar tolere edilemeyecek düzeyde meydana gelmeye devam ederse yanlış bir şekilde nesne olarak sınıflanan nesneler ayrı bir nesne sınıfı gibi eğitilecek fakat JSON dosyasına sınıflamaya tabi nesne olarak gönderilmeyecektir.

6. KAYNAKÇA

[1] B. Zoph, V. Vasudevan, J. Shlens and Q. V. Le. Learning Transferable Architectures for Scalable Image Recognition. arXiv preprint arXiv:1707.07012v4, 2018.

[2] https://github.com/tensorflow/models/tree/master/research/object_detection

[3] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.Y. Fu and A. C. Berg. SSD:

Single Shot MultiBox Detector. arXiv preprint arXiv:1512.02325, 2016.

[4] S. Ren, K. He, R. Girshick and J. Sun. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. arXiv preprint arXiv:1506.01497, 2015.

[5] J. Dai, Y. Li, K. He and J. Sun. R-FCN: Object Detection via Region-based Fully Convolutional Networks. arXiv preprint arXiv:1605.06409, 2016.

(6)

[6] K. He, X. Zhang, S. Ren and J. Sun. Deep Residual Learning for Image Recognition.

arXiv preprint arXiv:1512.03385, 2015.

[7] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V.

Vanhoucke and A. Rabinovich. Going Deeper with Convolutions. arXiv preprint arXiv:

1409.4842, 2014.

[8] T.-Y. Lin, M. Maire, S. Belongie, L. Bourdev, R. Girshick, J. Hays, P. Perona, D.

Ramanan, C. L. Zitnick and P. Dollár. Microsoft COCO: Common Objects in Context.

arXiv preprint arXiv:1405.0312, 2014.

[9] https://github.com/tzutalin/labelImg

[10] https://github.com/protocolbuffers/protobuf

[11] J. Li, T. Wang, Y. Zhou, Z. Wang and H. Snoussi. Using Gabor filter in 3D convolutional neural networks for human action recognition. 36th Chinese Control Conference (CCC), 2017.