TEKNOFEST İSTANBUL HAVACILIK, UZAY VE TEKNOLOJİ FESTİVALİ YAPAY ZEKA YARIŞMASI KRİTİK TASARIM RAPORU

(1)

TEKNOFEST İSTANBUL

HAVACILIK, UZAY VE TEKNOLOJİ FESTİVALİ

YAPAY ZEKA YARIŞMASI KRİTİK TASARIM RAPORU

TAKIM ADI: Graduate Student Descent

TAKIM ÜYELERİ: Dorukhan Afacan, Enis Simsar,

Ömer Kırbıyık, Hüsnü Şensoy

(2)

İçindekiler

1 Takım Şeması 3

2 Proje Mevcut Durum Değerlendirmesi 3

3 Algoritmalar ve Sistem Mimarisi 5

3.1 Algoritmalar 5

3.2 Sistem Mimarisi 5

4 Özgünlük 6

5 Sonuçlar ve İnceleme 6 Kaynakça

(3)

1. Takım Şeması (5 puan)

Adı Soyadı Temel Görev

Dorukhan Afacan ● Ekip koordinasyonunun sağlanması ve konu hakkında bilimsel araştırma yapılması.

Enis Simsar ● Pipeline oluşturulması ve performans optimizasyonu.

Ömer Kırbıyık ● Pipeline oluşturulması ve algoritmaların implementasyonu.

Hüsnü Şensoy ● Container mimarisine uygun altyapı hazırlığı

2. Proje Mevcut Durum Değerlendirmesi (15 puan)

Ön tasarım raporunda belirtilen özgünlüğü yakalamadan önce, raporda incelenen mimarilerden Faster R-CNN ve YOLO mimarileri deneysel baseline oluşturma süreci için seçildiler. Veri kümesi sağlandıktan sonra verileri alıp seçilen modele besleyip sonuç üretecek end-to-end pipeline inşasına başlandı. Bu süreç ilk sonuçlar ile finalize edilerek ön tasarım raporunda belirtilen sonuç çıkarma mimarisinin temelleri atıldı.

Veri alındıktan sonra resim etiket ikilileri içerisinde hatalı etiketleme için keşif yapıldı. Buna ek olarak frameler yeniden videoya çevrilerek zamansal boyutta ne gibi değişimler yaşandığı analiz edildi. Video içinde değişen sahne ve koşullar üzerinden eğitim, validasyon ve test kümeleri için fikirler üretildi. Bu sahneler videolar göz ile incelenip zaman aralıkları el ile işaretlenerek belli bir buffer bölgesi dışında kalan frameler alınarak oluşturuldu. Yaklaşım hakkında detaylı bilgi özgünlük kısmında bulunmaktadır.

Baseline model olarak YOLO[1] kullanılmış ve ardından Faster R-CNN[3] eğitilmiştir.

Yalnızca komite tarafından gönderilen verinin kullanıldığı bu modellerde yine komite tarafından gönderilen performans metriği ve ayrı metrikler kullanılarak sonuçlar elde edilmiştir.

3. Algoritmalar ve Sistem Mimarisi (30 puan) 3.1. Algoritmalar (15 puan)

3.1.1. Baseline Modeller 3.1.1.1. YOLO

Gerçek-zamana yakın çıkarım hızına sahip olması ve hızlı eğitimi nedeniyle baseline model olarak seçilmiştir.

3.1.1.2. SSD

YOLO mimarisine ek olarak skip connection vb gibi operasyonlar ekleyerek başarım oranını arttıran SSD de gerektiğinde baseline model olarak kullanılacaktır.

3.1.2. Intermediate Modeller

(4)

3.1.2.1. Faster R-CNN

Faster R-CNN region tabanlı modeller arasında olduğu ve görece yüksek başarı gösterirken hızlı eğitilebilmesi nedeniyle seçilmiştir.

3.1.2.2. RetinaNet[4]

Faster R-CNN’de bahsedilen Region Proposal Network’ler yalnızca en üst seviyedeki öznitelikleri kullanmaktayken farklı ölçeklere karşı daha iyi çalışacak bir model önerisi olan Feature Pyramid Network ile drone imajları üzerinde nesne tanımak için oldukça önemli olan küçük boyutlu nesnelere dair daha iyi performans elde edilmesi beklenmektedir.

3.1.3. Advanced Modeller

3.1.3.1. Grid R-CNN[5]

Bounding box noktalarının regresyon ile tahmin edilmesi problemine farklı bir formalizasyon öneren Grid R-CNN yapısı ileriki safhalarda deneylerde kullanılacaktır.

3.1.3.2. Libra R-CNN[6]

Özellikle örneklem, öznitelik ve objektif seviyesinde dengesiz dağılım gösteren veri setleri üzerinde başarılı çalışan Libra R-CNN yapısı da ileriki aşamalarda kullanılacaktır.

3.2. Sistem Mimarisi (15 puan)

Geliştirmelerin tamamı Docker’da çalışan Python platformlarında yapılmaktadır. Bu sayede, süreç farklı bulut veya donanım ortamları arasındaki farklılıklardan asgari ölçüde etkilenmektedir. Ayrıca Python kütüphaneleri arasındaki uyum sorununun önüne geçilmektedir. Sonuç çıkarma (inference) mimarisi diyagramdaki mimaride çalışmaktadır:

1. İstemci elinde bulunan video framelerini NGINX’e göndermeye başlar.

2. Gunicorn, video framelerini Redis (3) kuyruğuna alınan verinin detaylarıyla birlikte depolar.

3. Modeli içeren bir çıkarım havuzu, 2. aşamada kuyruğa gönderilen segmentleri alır. Obje aramasını yapar ve çıktılarını bir başka Redis kuyruğuna gerekli detaylarla (alt segment anahtarı, obje detayları, vb.) depolar.

4. Bu sayede istemci bloklanmadan, video framelerini göndermeye devam ederken sonuçları toplar.

3.2.1. Eğitim Donanımları

1. Geliştiricilerin iş istasyonları, modellerin geliştirme aşamasında kullanılan birimlerdir.

Intel 4 core @ 3.7 Ghz, 32 GB memory ve NVIDIA GeForce® GTX 1080 ihtiva eder.

2. Global Maksimum lab ortamı, artan veride kaynak sıkıntısını çözmek için bir havuz ortam olan küme kullanılmaktadır. 4 adet 24 core @ 2.6 Ghz – 256 GB memory sunucu ihtiva eder.

(5)

3.2.2. Test Donanımları

1. Test aşamasında Intel 4 core @ 3.7 Ghz, 32 GB memory ve NVIDIA GeForce® GTX 1080 ihtiva eden iş istasyonları kullanılacaktır.

4. Özgünlük (20 puan)

4.1. Eğitim, Validasyon ve Test Setinin Ayrılması

Gönderilen 4 sahne incelenerek her birisinin içinden test ve validasyon kümelerinin ayrılmasına karar kılınmıştır. Bu aşamada framelerin rastgele örneklenmesi halinde birbirine yakın framelerdeki bilgi paylaşımından dolayı test ve validasyon setinden eğitim setine bilgi sızması ihtimalini önlemek adına her video için aşağıdaki önlemler alınmıştır.

● Her bir küme kendi içerisinde art arda framelerden oluşmaktadır. Böylece başka kümelere ait komşu frameler oluşması ihtimali engellenir.

● Her küme arasında bilgi sızıntısını engellemek için 30 framelik boşluk bırakılmıştır.

● Örneklenen validasyon ve test kümeleri görsel olarak kontrol edilerek benzer eğitim kümesi ile yoğun benzerlik gösterdiği framelerin olması takdirde, 30 frame’in yeterli olmadığı takdirde, daha fazla marjin bırakılmıştır.

4.2. VisDrone External Veri

Soru cevap toplantısında verilen bilgiler doğrultusunda yarışmadaki veri tipine benzer örnekler içeren VisDrone2019[7] yarışmasının veri seti(288 videodan derlenmiş 10,209 frame) harici olarak eğitim kümesine eklenmiştir. Problem özelinde en iyi sinir ağının kurulabilmesi için eğitimin validasyonu ve testi sadece Türkiye Teknoloji Takımı Vakfı’nın sağladığı veriler kullanılarak gerçekleştirilecektir.

4.3. AutoAugment

Küçük objelerin tespitinde modellerin başarısını artıran, veri setinin yapısına göre augmentation stratejileri geliştiren ve COCO veri seti üzerinde state-of-the-art (50.7 mAP) sonuçlar veren AutoAugment[8] modülü çalışmanın ileriki safhalarında pipeline’a eklenecektir.

4.4. Gelişmiş Modeller

CVPR 2019’da yayımlanan ve bu yarışmadaki problemlere çözüm sunduğunu düşündüğümüz Libra R-CNN ve Grid R-CNN mimarileri yarışmanın ilerleyen safhalarında implement edilip sonuçları karşılaştırılacaktır.

(6)

4.5 Yarışma Metriği Uygulaması

Model başarısını yarışma kriterlerine göre değerlendirip optimize etmek amacı ile şartnamede belirtilen ceza durumlarına göre bir skorlama yapmak önem arz etmektedir. IoU metriği baz alınarak true positive, false positive ve false negative durumlarına bakılacaktır. FP durumları:

(1) IoU oranı 0.6 altında olan tespitler, (2) etiketi var olmayan bir objenin işaretlenmesi. FN durumları ise (1) GT etiketi var olan bir objenin hiç tanınmaması dolayısı ile kesişen bir kutu ile tahmin ataması yapılmamasıdır.

TP, FP, FN durumları class bazında Precision - Recall metriklerinin hesaplanmasında kullanılmaktadır. Yarışmada ödül bölgesinde yer almak için bu metriklere göre %80 başarı gösterilmelidir. Öte yandan şartnamede belirtilen puanlama kriterleri gereğince sınıflar arası yanlış sınıflandırma durumu da cezalandırılır. Bu durum metrik yaklaşımında bir özgünlüğe gidilmesi gereğini ortaya çıkarmıştır. COCO[9] ve Pascal VOC[10] gibi nesne tanıma yarışmalarında yaygın olarak mAP metriği kullanılmaktadır. Belirtilen yaklaşım her bir kategori içerisindeki tahminleri gezer, FN durumlarını da göz ardı ederek kategori içindeki TP ve FP durumlarını tutar. TP olarak eşlenmiş bir etikete tekrar tahmin kutusu gelirse onu da FP olarak alır. FN sayısına ihtiyaç duyan recall metriğinin paydasına toplam ground truth sayısını yerleştirir. Şartnamede belirtilen puanlamaya göre yanlış sınıf adı ve nesne kaçırma da puanlamaya dahil edilmelidir. Bu nedenle de hazır metrikler mevcut yarışma için eksik kalmaktadır. Bahsi geçen hazır metriklere FN durumlarını tespit etmek ve yanlış sınıflandırma cezaları eklenebileceği gibi istenilen yaklaşım sıfırdan da uygulanabilir.

Mevcut durumda tarafımızca yazılan metrik, komite tarafından yazılan metrikten şu aşamalarda ayrılmaktadır: Tahmin edilen bounding box’lar ve gerçek bounding box’lar arasında IoU değeri hesaplandıktan sonra bu değerlerin büyüklüklerine göre çiftler oluşturulmaktadır. Bu işlem yapılırken sınıf bilgisi göz ardı edilmektedir. Dolayısıyla şartnamede geçen sınıfların hatalı olması durumunda ceza puanını eklemek mümkün olmaktadır. Aynı zamanda bir obje için birden fazla bounding box bulunması durumunda IoU değerine göre ceza puanı eklenmektedir.

5. Sonuçlar ve İnceleme (20 puan) Belirtilen düzende deneyler gerçekleştirilmiştir.

Veriseti Pretrained Model Eğitim Süresi

Komite tarafından gönderilen video sahneleri

YOLO v3 4 saat - Nvidia Geforce

Gtx 1080 Komite tarafından gönderilen

video sahneleri

Faster R-CNN (Resnet 50) 12 saat - Nvidia Geforce Gtx 1080

(7)

Nesne tanıma modellerinin ilk etaptaki genelleme kabiliyetini görmek adına eğitim kümesi sadece komite tarafından verilen veri ile oluşturulmuş, test verisine ise sahneleri çeşitlemek için VisDrone verisi ayrı bir test kümesi olarak denenmiştir. Bu kontrollü deney ile görülmek istenen, eldeki verinin sahneleri genellemek için modele yeterli gelip gelmeyeceğini görmektir.

Komite Verisi Testi

YOLO v3 Faster R-CNN

VisDrone Üzerinde Test

YOLO v3 Faster R-CNN

Sonuçlarda görüldüğü gibi eğitim kümesindeki örneklere benzeyen test örneklerinde (komite verisi) başarılı performans gösteren modeller, alışık olmadığı sahne türünde (VisDrone verisi) bazı nesneleri etiketlemekte başarısız olmaktadır. Ayrıca verisetindeki sınıf dengesizliğine karşı ilk aşamada özel bir önlem alınmadığı için yayaların bulunması konusunda problemler gözlemlenmektedir. Bu noktada raporun önceki kısımlarında belirtilen metotlar denenecektir.

(8)

6. Kaynakça (10 puan)

1. Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).

2. Zhu, C., He, Y., & Savvides, M. (2019). Feature Selective Anchor-Free Module for Single-Shot Object Detection. arXiv preprint arXiv:1903.00621.

3. Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems (pp. 91-99).

4. Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision (pp.

2980-2988).

5. Pengfei Zhu, Longyin Wen, Xiao Bian, Haibin Ling and Qinghua Hu, arXiv 2018. Vision Meets Drones: A Challenge.

6. Lu, X., Li, B., Yue, Y., Li, Q., & Yan, J. (2019). Grid r-cnn. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 7363-7372).

7. Pang, J., Chen, K., Shi, J., Feng, H., Ouyang, W., & Lin, D. (2019). Libra r-cnn: Towards balanced learning for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 821-830).

8. Cubuk, E. D., Zoph, B., Mane, D., Vasudevan, V., & Le, Q. V. (2018). Autoaugment:

Learning augmentation policies from data. arXiv preprint arXiv:1805.09501^.

9. Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., ... & Zitnick, C. L.

(2014, September). Microsoft coco: Common objects in context. In European conference on computer vision (pp. 740-755). Springer, Cham.

10. Everingham, M., Eslami, S. A., Van Gool, L., Williams, C. K., Winn, J., & Zisserman, A.

(2015). The pascal visual object classes challenge: A retrospective. International journal of computer vision^,111(1), 98-136.