• Sonuç bulunamadı

Türkiye Ulusal Yazılım Mühendisliği Sempozyumu Bildirilerinin Konu Analizi

N/A
N/A
Protected

Academic year: 2021

Share "Türkiye Ulusal Yazılım Mühendisliği Sempozyumu Bildirilerinin Konu Analizi"

Copied!
12
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Türkiye Ulusal Yazılım Mühendisliği Sempozyumu

Bildirilerinin Konu Analizi

Görkem Giray [0000-0002-7023-9469] Bağımsız Araştırmacı, İzmir, Türkiye

gorkemgiray@gmail.com

Özet. Bağlam: Ulusal Yazılım Mühendisliği Sempozyumunda (UYMS) 2007 ile

2018 tarihleri arasında sunulan bildiriler. Amaç: UYMS’de sunulan bildirilere odaklanarak yazılım mühendisliği (YM) araştırma literatürünün yıllar boyunca bir konu analizini yapmak. Yöntem: Dünyanın önde gelen YM dergilerinde ve konferanslarında yayımlanan 32.701 yayını kullanarak YM araştırma alanında 11 önemli konu tespit ettik. Bu konu modelini kullanarak 564 UYMS bildirisini ana-liz ettik. Sonuçlar: Yazılım süreci tüm UYMS etkinliklerinde en çok irdelenen konu olmuştur. Son yıllarda uygulamalar konusu da YM araştırmacılarının ilgi-sini çekmektedir. Yazılım test etme 2013 yılından beri artan bir ilgi görmektedir. Modelleme, tasarım ve mimari ile birlikte kalite ve metrikler son yıllarda en çok ilgi gören beş konu arasındaki diğer iki konudur.

Anahtar Kelimeler: Yazılım Mühendisliği, Araştırma Literatürü, Konu

Ana-lizi, Konu Modelleme, Eğilim Analizi.

Topic Analysis of Turkish National Software Engineering

Symposium Papers

Görkem Giray [0000-0002-7023-9469] Independent Researcher, Izmir, Turkey

gorkemgiray@gmail.com

Abstract. Context: The papers presented in Turkish National Software

Engineer-ing Symposium (NSES) between 2007 and 2018. Objective: To conduct a the-matic analysis of software engineering (SE) research literature over the years fo-cusing on those papers published in NSES. Method: We identified 11 critical topics in SE research using a corpus of 32,701 papers published in leading SE journals and conference proceedings worldwide. We used this topic model to an-alyze 564 NSES papers. Results: Software process has been the top topic in all NSES events. Applications attract SE researchers’ attention in last years.

(2)

ware testing draw an increasing interest since 2013. Modeling, design and archi-tecture along with quality and metrics are the other two SE topics among the top five in recent years.

Keywords: Software Engineering, Research Literature, Topic Analysis, Topic

Modeling, Trend Analysis.

1

Giriş

Ulusal Yazılım Mühendisliği Sempozyumu (UYMS) 2003 yılından beri Türkiye’deki yazılım mühendisliği (YM) alanında çalışan araştırmacıları bir araya getirmektedir. Bu sempozyumda sunulan bildirilerin Türkiye’deki YM alanındaki araştırma çalışmala-rıyla ilgili genel eğilimleri temsil edebileceği söylenebilir [1]. Bu çalışma kapsamında YM alanında Türkiye’de yapılan araştırma çalışmalarındaki eğilimleri tespit etmek amacıyla UYMS’de 2007 ile 2018 yılları arasında sunulan 564 bildiri konu modelleme yöntemi kullanılarak analiz edilmiştir. Türkiye’de düzenlenen YM alanındaki bir başka konferans olan Ulusal Yazılım Mimarisi Konferansında (UYMK) sunulan bildiriler analize dahil edilmemiştir. Bunun nedeni bu çalışmanın amacının YM alanındaki genel eğilimleri tespit etmek olması ve UYMK’deki bildirilerin ise daha çok yazılım mima-risini irdelemesidir.

2

Konu Modelleme

Konu modelleme, farklı sayıda kelimeden oluşan çok sayıda belgenin irdelediği konu-ları analiz etmeyi amaçlamaktadır [2]. Konu modelleme algoritmakonu-ları, belgelerdeki ke-limeleri analiz etmek için istatistiksel yöntemleri kullanmaktadır ve önceden etiketlen-miş belgelere (belgelerin hangi konuları içerdiğini belirten bir girdiye) ihtiyaç duyma-maktadır [2]. Şekil 1’de bir belge kümesi, konular ve belgeleri oluşturan kelimeler ara-sındaki ilişki görülmektedir. Belgeleri oluşturan kelimeler toplu olarak istatistiksel yön-temler kullanılarak analiz edilerek belgelerin irdelediği konular keşfedilmektedir. Her bir konu, bir kelime kümesinden ve her kelimenin ağırlık katsayısından oluşmaktadır. Her bir belge de bir ya da birden fazla konuyu değişen ağırlıklarda irdelemektedir.

Konu modelleme için kullanılan değişik yaklaşımlar bulunmaktadır [3], [4]. Latent Dirichlet Allocation (LDA) belge kümelerindeki belgelerin hangi konuları irdelediğini bulmak için kullanılan bir istatistiksel modeldir [4]. Şekil 2’de LDA ile konu model-leme süreci gösterilmektedir. Sürecin girdileri belge kümesi ve bu belge kümesindeki belgelerin irdelediği düşünülen konu sayısıdır. Bazı problemler için konu sayısı önce-den bilinebilirken bazı problemler için bu sayı konu modelleme adımının yinelenmesi sonucunda deneysel olarak tespit edilebilmektedir. Oluşturulacak istatistiksel model için gerekli olan α ve β parametreleri ise genellikle çeşitli optimizasyon yöntemleri kul-lanılarak tespit edilmektedir. LDA ile bir konu modeli oluşturulduktan sonra her bir konu için bir kelime kümesi ve bu kümedeki her bir kelime için de bir ağırlık katsayısı elde edilmektedir. Her bir konu kümesinin temsil ettiği konu başlığı ise kullanıcı

(3)

tara-fından belirlenmektedir. Elde edilen konular kullanıcının ihtiyaçlarını karşılayacak şe-kilde elde edilene kadar ilk adım yinelenebilir. Konular elde edildikten sonra ise her bir belge için o belgenin irdelediği konular ve bu konuları ne kadar irdelediğini belirten katsayılar hesaplanmaktadır.

Şekil 1. Konu modellemede belgeler, konular ve kelimeler arasındaki ilişkiler.

Şekil 2. LDA ile konu modelleme süreci.

LDA, farklı alanlardaki çalışmaları analiz etmek ve zaman içindeki değişimleri görmek için sıkça kullanılmaktadır. Griffiths ve Steyvers, Proceedings of the National Academy of Sciences of the US’deki yayınların içeriklerini, içeriklerdeki zaman içindeki deği-şimleri ve yayınlar arasındaki benzerlikleri tespit etmek amacıyla LDA kullanmışlardır [5]. Bittermann ve Fischer, PSYNDEX veritabanında bulunan, 1980 ile 2016 yılları arasında psikoloji alanında Almanca ve İngilizce dillerinde yayımlanmış çalışmaları LDA ile analiz ederek bu alandaki eğilimleri raporlamışlardır [6]. Kim ve Delen, tıbbi bilişim alanındaki ana konuları ve bu konulardaki zaman içinde değişimleri LDA kul-lanarak tespit etmişlerdir [7]. Hall ve arkadaşları, hesaplamalı dilbilim alanında 1978

(4)

ile 2006 yılları arasında yapılmış çalışmaları LDA kullanarak analiz etmişler ve bu alandaki eğilimleri zamana bağlı değişimleriyle birlikte raporlamışlardır [8]. YM ala-nında yapılan buna benzer çalışmalar bir sonraki bölümde sunulmaktadır.

3

İlgili Çalışmalar

YM araştırma alanındaki eğilimleri ve zaman içindeki değişimleri analiz etmek için yapılan çalışmalardan bazıları Tablo 1’de gösterilmektedir.

Tablo 1. YM alanındaki ilgili çalışmalar

Ka. Yıl Kapsam Sınıflandırma Yöntemi

[9] 2002 YM alanında önde gelen altı dergide 1995 – 1999 arasında yayımlanmış 369 makale

İki araştırmacı iki seviyeli bir sınıflan-dırma şeması oluşturarak yayınları bu şemaya göre sınıflandırmıştır. [10] 2008 2006 yılında YM alanındaki yedi

der-gide yayımlanan ve yedi konferansta sunulan toplam 691 yayın

Yayınlar ACM Computing sınıflan-dırma sistemine göre yazarlar tarafın-dan sınıflandırılmıştır.

[11] 2011 2003 – 2010 arasında UYMS, UYMK ve YKGS’de sunulan 290 bildiri

Yayınlar iki araştırmacı tarafından SWEBOK’taki YM alanları ve yazarlar tarafından bu alanlara eklenen üç alana göre sınıflandırılmıştır.

[12] 2014 2008 ile 2013 yılları arasında 7.638 yayın

Makro seviyede EI Compendex sınıf-landırma sistemine ve mikro seviyede yazarların belirledikleri alanlara göre yayınlar sınıflandırılmıştır.

[13] 2015 Empirical Software Engineering and Measurement (ESEM) konferansında 2007 ile 2014 yılları arasında sunul-muş ve Scopus veritabanından elde edilmiş 513 yayın

Yayınların başlıkları ve özetleri LDA kullanılarak analiz edilmiştir.

[14] 2015 2003 – 2014 arasında 8 UYMS’de su-nulan 356 bildiri

Yayınların her biri en az iki araştırmacı tarafından birbirinden bağımsız olarak sınıflandırılmıştır.

[1] 2015 Scopus veritabanından elde edilen, başlığında “software” kelimesi bulu-nan ve yazarların en az birinin men-sup olduğu kurumun Türkiye olduğu toplam 289 yayın

Yayın başlıklarındaki terimlerin kulla-nım sıklıkları analiz edilmiştir.

[15] 2016 2014 yılının sonuna kadar yayımlan-mış ve Scopus veritabanından elde edilen 71.668 yayın

Yayınların başlıkları ve özetleri LDA kullanılarak analiz edilmiştir. [16] 2018 YM alanındaki dergilerde ve

konfe-rans kitaplarında son 25 yılda basılan 35.391 yayın

Yayınların başlıkları ve özetleri LDA kullanılarak analiz edilmiştir. Yayınlar 10 başlık altında sınıflandırılmıştır.

(5)

2011 ve 2015 yıllarında Türkiye’de düzenlenen YM konferanslarında sunulan bildiri-leri sınıflandıran iki çalışma yapılmıştır [11], [14]. 2011’de yapılan çalışmada üç kon-feransta sunulan 290 bildiri yazarlar tarafından SWEBOK YM alanları ve yazarlar ta-rafından bunlara eklenen üç YM alanına göre sınıflandırılmıştır [11]. 2015’te yapılan çalışmada ise 2003 ve 2014 yılları arasında UYMS’de sunulan 356 bildiri yine yazarlar tarafından konularına göre sınıflandırılmıştır. Yurt dışında gerçekleşen Empirical Software Engineering and Measurement konferansında 2007 ve 2014 yılları arasında sunulan 513 bildiri LDA kullanılarak sınıflandırılmıştır [13]. 2015 yılında yapılan başka bir çalışmada Scopus veritabanında bulunan ve Türkiye’de bir kurumdan en az bir yazar içeren 289 yayın başlıklardaki kelimelerin sıklıkları aracılığıyla analiz edile-rek Türkiye’de YM araştırma alanındaki eğilimler belirlenmiştir [1]. 2016 ve 2018 yıl-larında yapılan iki çalışmada, daha önce yapılan çalışmalara kıyasla çok daha fazla ya-yın LDA ile analiz edilerek sınıflandırılmıştır [15], [16].

Tablo 1’de görüldüğü gibi 2015 yılından itibaren yayın sınıflandırma için konu mo-delleme yaklaşımları ve özellikle LDA kullanılmaya başlanmıştır. Böylece birkaç yüz ya da bin yayının yazarlar tarafından manuel bir yöntemle analiz edildiği çalışmaların yanında on binlerce yayının analiz edildiği çalışmalar yapılmaya başlanmıştır.

Bu çalışma kapsamında UYMS’de 2007 ve 2018 yılları arasında sunulan 564 bildiri LDA konu modelleme yaklaşımı kullanılarak sınıflandırılmıştır. Bu sınıflandırma iş-lemi için kullanılan konu modeli ise [16] çalışmasındaki yayın havuzu kullanılarak oluşturulmuştur. Böylece YM alanındaki konuların dünya çapında tespit edilmesi he-deflenmiştir. Araştırma yöntemi ile ilgili detaylar bir sonraki bölümde anlatılmaktadır.

4

Araştırma Yöntemi

Şekil 3 bu araştırmada izlenen sürecin yedi ana adımını ve her adımın girdilerini ve çıktılarını göstermektedir. Birinci adımda, [16] çalışması kapsamında oluşturulan 32.701 yayından oluşan ([16] makalesinde bu sayı 35.391 olarak raporlanmış olsa da makale içerisinde sunulan veri kaynağında 32.701 adet yayın için bilgi bulunmaktadır) veri (yayın yılı, yayın başlığı, yayın özeti gibi) elde edilmiş ve bir Excel dosyasına kaydedilmiştir. [16] çalışmasındaki konu modelinin elde edilmesi amaçlandığı için veri içeriğinde herhangi bir değişiklik yapılmamıştır. İkinci adımda, her bir yayının başlığı ve özeti birer kelime vektörüne dönüştürülmüştür ve bu kelime vektörlerinden etkisiz kelimeler (stop words) ayıklanmıştır. Her bir yayın, veri kümesinde var ise o yayının özetinin kelime vektörü, yoksa o yayının başlığının kelime vektörü tarafından temsil edilecek şekilde düzenlenmiştir. Elde edilen bu kelime vektörleri üçüncü adımdaki LDA ile konu modelleme adımının girdisi olarak kullanılmıştır. Bu adımın diğer girdi-leri ise konu sayısı ile α ve β parametregirdi-leridir. Bu girdiler [16] çalışmasında belirtildiği gibi sırasıyla “11”, “0,847” ve “0,764” olarak alınmıştır. Bu parametreler eldeki veri kümesine ve amaca göre (eldeki belgeleri kaç farklı konuya göre sınıflandırmak isten-diği) değişmektedir. Bu çalışmada, [16] çalışmasındaki veri kümesi aynı amaçla kulla-nıldığı için konu modelleme için de aynı parametreler kullanılmıştır. Konu sayısının optimum olup olmadığını kontrol etmek için gensim [17] kütüphanesindeki optimum

(6)

konu sayısını [18] çalışmasına göre belirleyen işlevler kullanılmıştır. Şekil 4’teki gra-fikte görüldüğü gibi 11 konu sayısı eldeki veri kümesinde en yüksek bağdaşıklık (co-herence) değerini vermektedir.

Şekil 3. Araştırma sürecinin ana adımları ve her adımın girdileri ve çıktıları.

Şekil 4. Konu sayısı ile elde edilen konuların bağdaşıklıkları (coherence) arasındaki ilişki.

Üçüncü adımdaki işlemler sonucunda elde edilen konular ve bu konuları temsil eden en önemli on kelime önem sırasına göre Tablo 2’de gösterilmektedir. [16] çalışmasında verilen detaylar doğrultusunda bu çalışmadaki konu modeli birebir elde edilememiştir. Tablo 2’de kalın ve eğik yazılmış konular ve kelimeler [16] çalışmasındaki konu mo-delindeki konular ve kelimelerle ortaktır. Buna göre birebir olmasa da [16] çalışmasına yakın bir konu modeli elde edilmiştir. [16] çalışmasında bulunmayan konular (yazılım ürün hattı, eğitim, eski yazılım, tasarım desenleri) ise YM alanındaki çalışmaları ayırt etmek için kullanılabilecek başlıklar olarak göze çarpmaktadır.

(7)

Tablo 2. Konu modelindeki 11 konu ve her konunun en önemli 10 kelimesi (en önemliden

daha az önemliye doğru). Kalın ve eğik yazılmış konular ve kelimeler [16] çalışmasındaki konu modelindeki konular ve kelimelerle ortaktır.

Konu Kelimeler

Yazılım Ürün Hattı product, feature, line, reuse, configuration, variability, family, variant, spl, asset

Test Etme test, testing, case, fault, technique, generation, suite, coverage,

fail-ure, automated

Modelleme, Tasarım ve Mimari

model, component, design, language, system, specification,

ap-proach, architecture, object, tool

Kalite ve Metrikler model, quality, method, data, metric, defect, measure, empirical, cost, effort

Eğitim student, programming, learning, risk, course, university, education, game, note, public

Yazılım Süreci process, development, requirement, project, practice, management,

experience, system, goal, organization

Eski Yazılım reverse, legacy, object_oriented, workflow, reengineering, migration, real_time, ada, cobol, debt

Kaynak Kod code, source, change, tool, developer, information, bug, approach,

open, evolution

Uygulamalar application, service, web, distributed, system, security, network,

per-formance, time, user

Tasarım Desenleri pattern, review, design, detection, clone, smell, bad, anomaly, system-atic, recognition

Program Analizi program, analysis, algorithm, technique, execution, state, time,

prob-lem, dynamic, data

Dördüncü adımda UYMS’de 2007 ile 2018 yılları arasında sunulan bildirilerin başlık-ları, özetleri ve anahtar kelimeleri bir Excel dosyasında birleştirilmiştir. 2003 ve 2005 tarihlerinde düzenlenen UYMS bildirilerine toplu olarak ulaşılamadığı için bu bildiriler kapsam dışında bırakılmıştır. Elde edilen 564 yayına ait başlık, özet ve anahtar kelime-ler Google Translate servisi kullanılarak İngilizce’ye çevrilmiştir. Beşinci adımda her bir yayın için kelime vektörleri oluşturulmuştur. Altıncı adımda, her yayının irdelediği konular, üçüncü adımda elde edilen konu modeli kullanılarak belirlenmiştir. Yayınların İngilizce’ye çevrilmiş özetleri konu modelinin girdisi olarak kullanıldığında yayınların irdelediği konuların yeterince ayrıştırılamadığı görülmüştür. Bunun nedeni özet metin-lerinin İngilizce’ye çevrilmesinin başlıklara ve anahtar kelimelere göre daha zor olma-sından ve çeviri kalitesinin düşük olmaolma-sından kaynaklandığı düşünülmektedir. Bundan dolayı konu modelleme girdisi olarak sadece başlık bilgileri ve varsa anahtar kelimeler kullanılmıştır. Diğer çalışmalarda da özetlerin olmadığı durumlarda sadece yayın baş-lıklarının kullanıldığı görülmektedir [1], [16]. Tablo 3’te örnek olarak beş yayının ir-delediği konular ve bu konuların ağırlıkları gösterilmektedir. Yayın no her yayının bi-ricik numarasını göstermektedir. Tablo 3’te görüldüğü gibi bir yayın bir ya da birden çok konuyu değişen ağırlıklarda irdeleyebilmektedir. Bu çalışmada konu katsayısını analize dahil etmek için eşik değeri 0,15 olarak belirlenmiştir. Bu konuda literatürde

(8)

bir altın standart bulunmamaktadır. Sonuç olarak her yayın ortalama 1,7 konuyu irde-lemektedir.

Tablo 3. Örnek beş yayının irdelediği konular ve bu konuların ağırlıkları.

Yayın no Konular ve ağırlıkları

34 Yazılım süreci: 0,436; Test Etme: 0,182 145 Uygulamalar: 0.537; Kalite ve Metrikler: 0,150 204 Uygulamalar: 0,659

211 Yazılım Süreci: 0,498

379 Test Etme: 0,310; Yazılım süreci: 0,198; Kalite ve Metrikler: 0,185 Yedinci adımda ise elde edilen sonuçlar analiz edilmiş ve bir sonraki bölümde anlatıl-dığı şekilde raporlanmıştır.

Birinci ve dördüncü adımlarda, ön işleme için hazır hale getirilmesi için veri Excel dosyasında düzenlenmiştir. Yedinci adımdaki analiz için de Excel kullanılmıştır. İkinci, üçüncü, beşinci ve altıncı adımdaki tüm işlemler Jupyter notebook geliştirme ortamında Python programlama dili kullanılarak yazılan prosedürler ile gerçekleştirilmiştir. Veri işleme ve LDA ile konu modellerinin oluşturulması için pandas, gensim, nltk ve lda kütüphaneleri kullanılmıştır.

5

Analiz Sonuçları ve Tartışma

Şekil 5’te UYMS’de sunulan bildirilerin yıllara göre dağılımı gösterilmektedir. 2003 ve 2005 yıllarındaki bildiri sayısı [11] çalışmasından alınmıştır. 2014 yılında konfe-ransta sunulan bildiri sayısında bir sıçrama olduğu görülmektedir. 2014 ile 2018 yılları arasındaki UYMS etkinliklerinde ortalama 72 adet bildiri sunulmuştur.

Şekil 5. Yıllara göre UYMS’de sunulan yayın sayısı.

Şekil 6’da UYMS yayınlarında irdelenen konuların yıllara göre göre değişimi gösteril-mektedir. Bir yayın birden fazla konuyu irdeleyebildiği için (Bkz. Bölüm 4 ve Tablo 3) bu grafikteki toplam yayın sayısı 2007 ile 2018 yılları arasındaki yayın sayısından (564 yayın) fazladır. Grafikte en dikkat çekici husus 2014 yılındaki sıçramadır. Bu sıçrama en popüler dört konuda diğer konulara göre daha fazladır. Şekil 5’te görüldüğü gibi

(9)

2014 yılındaki toplam yayın sayısındaki ciddi artış bu sıçramayı genel olarak açıkla-maktadır.

Şekil 6. UYMS yayınlarında irdelenen YM konularının zamana göre değişimi.

Bu çalışma kapsamında oluşturulan konu modeline göre yazılım süreci konusu her za-man en çok irdelenen konu olarak öne çıkmaktadır. [14] çalışmasında yazarlar tarafın-dan yapılan sınıflandırmaya göre de yazılım süreci en çok irdelenen konulartarafın-dan biridir. [14] çalışmasında ACM yazılım kategorisi altındaki alt alanlara göre yapılan sınıflan-dırmada “yazılım geliştirme süreç yönetimi” birinci sırada, SWEBOK konu alanlarına göre yapılan sınıflandırmada “YM süreci” üçüncü sırada yer almaktadır. Diğer taraftan, [16] çalışmasında konferanslar için yapılan sınıflandırmada yazılım sürecinin önemi 2000’li yılların başından itibaren azalma eğilimindedir. Yine aynı çalışmada dergiler için yapılan sınıflandırmada yazılım süreci tüm yıllarda en önemli üç konu arasındaki yerini korumaktadır. [1], [13] ve [15] çalışmalarında ise yazılım süreci en çok irdelenen ilk beş konu arasında bulunmamaktadır.

Yazılım sürecinden sonra en çok irdelenen konu uygulamalar olarak görülmektedir. [16] çalışmasına göre konferanslarda irdelenen konular arasında uygulamalar son on yılda genelde son sıralarda bulunmaktadır. 2015 yılında beşinci, 2016 yılında ise ye-dinci sırada bulunmaktadır. Dergilerdeki makalelerde ise uygulamalar konferanslara göre daha fazla irdelenmiş olsa da 2015 ve 2016 yıllarında önem açısından sırasıyla beşinci ve yedinci sıralarda bulunmaktadır. [15] çalışmasında 2013 yılının sonuna ka-dar yapılan çalışmalar için belirlenen en popüler beş konunun ilk sırasında web servis-leri ile mobil ve bulut bilişim bulunmaktadır. Bu başlıklar, bu çalışma kapsamındaki uygulamalar konusuna yakın görülebilir (Tablo 2’deki kelimelere göre).

Modelleme, tasarım ve mimari konusu, 2014 yılında önceki yıllara kıyasla UYMS’de ciddi biçimde daha fazla irdelenmiş olsa da 2015 yılından sonra bu konuya ilgi de bir azalma eğilimi görülmektedir. [16] çalışmasında modelleme ve mimari iki

(10)

ayrı konu olarak ele alınmıştır. Modellemeyi irdeleyen çalışmaların sayısı konferans-larda son birkaç yılda gözle görülür biçimde azalmaktadır [16]. Konferanskonferans-larda mimari konusuna olan ilgi ise yaklaşık son on beş yılda son sıralarda yer almaktadır [16]. Mo-delleme konusuna olan ilgi, dergi makalelerinde konferanslara oranla daha yavaş olsa da yine de azalma eğilimindedir [16]. Mimari konusuna dergi makalelerinde olan ilgi ise genelde yok denecek kadar azdır [16]. [1] çalışmasında Türkiye’deki araştırmacıla-rın yazılım mimarisine olan ilgilerinin az olduğu raporlanmıştır.

Kalite ve metriklere UYMS katılımcılarının ilgisi 2013 ve 2014 yıllarında artmış sonrasında sabit kalıp 2018 yılında azalmıştır. [16] çalışmasına göre metrikler konfe-ranslarda çok fazla ilgi görmezken dergi makalelerinde metriklere olan ilgide son yıl-larda bir miktar artış gözlemlenmektedir. Kalite ve metrikler konusunu oluşturan hata, maliyet efor gibi kelimelere (Tablo 2) bakıldığında, [13] çalışmasında hata ve maliyet kestirimi, [1] çalışmasında hata analizi 2014 yılında en popüler konular olarak göze çarpmaktadır. [15] çalışmasına göre 2013 yılının sonuna kadar en çok yayın yapılan konulardan biri yazılım efor kestirimi olarak görülmektedir.

2013 yılından başlayarak UYMS’de yazılım test etme konusuna artan bir ilgi göz-lemlenmektedir. Bununla paralel olarak 2014 yılından itibaren her yıl UYMS kapsa-mında yazılım test mühendisliği alt alanı kapsakapsa-mında bildiri çağrısı yapılmaktadır. [16] çalışmasına göre de test etme konusuna konferanslarda olan ilgi son yıllarda ciddi bi-çimde artmaktadır. Yine aynı çalışmada ise dergi makalelerinde test etme konusuna ilgili genel olarak azdır [16]. [13], [1] ve [15] çalışmalarının hepsinde test etme konusu en popüler konular arasında raporlanmaktadır.

Program analizi ve kaynak kod konularına UYMS katılımcılarının ilgisi son yıllarda çok az artma eğiliminde olsa da bu konulara olan ilgi ilk beş konuya göre oldukça dü-şüktür. [16] çalışmasının en önemli bulgularından birisi ise YM konferanslarında en çok irdelenen konuların başında yaklaşık son 10 yıldır kaynak kod ve program analizi gelmektedir. Bu bulgunun tersine, aynı çalışmaya göre dergi makalelerinde bu iki ko-nuya olan ilgi oldukça düşük seviyelerdedir [16]. [15] çalışmasına göre kaynak kod konusu en popüler beş konudan birisi olarak karşımıza çıkmaktadır.

Yazılım ürün hattı, eğitim ve tasarım desenleri konularına UYMS’de olan ilgi ge-nelde düşük seviyelerdedir. Yazılım ürün hattı ve eğitim konuları ilgili çalışmalarda da herhangi bir listede yer almamaktadır. Tasarım desenleri ise [15] çalışmasında üzerine en çok yayın üretilen dört konudan biri olarak raporlanmıştır.

UYMS’de eski yazılım (legacy software) konusu hiç irdelenmemiştir. Benzer şe-kilde [1] çalışmasında da yazılım bakımı ve evrimi Türkiye’deki araştırmacıların en az odaklandığı konulardan birisi olarak raporlanmıştır. Mevcut yazılım sistemlerinin sa-yısının arttığını, bu sistemlerin artık eskidiğini ve teknolojinin çok hızlı ilerlediğini göz önüne aldığımızda bu konuya hiç ilginin olmaması üzerine düşünülebilir.

Oluşturulan konu modelinde gereksinim mühendisliği ile ilgili bir başlık bulunma-maktadır. [15] çalışmasına göre YM alanında en çok yayın üretilen konuların başında gereksinim mühendisliği gelmektedir. Dolayısıyla UYMS’de gereksinim mühendisliği üzerine çalışmaların teşvik edilmesi düşünülebilir.

Yazılım sistemlerinin bulut altyapısında barındırıldığı ve elektronik verinin hacmi-nin çok arttığı bir ortamda performans ve güvenlik çok önemli iki konu olarak karşı-mıza çıkmaktadır. [16] çalışmasındaki konu modelinde performans on konudan biri

(11)

olarak yer alırken güvenlik bir konu başlığı olarak yer almamıştır. Bu çalışma kapsa-mında oluşturulan modelde de performans ve güvenlik kelimeleri uygulamalar başlığı altında yer almaktadır. [16] çalışmasına göre performans dergi makalelerinde az da olsa irdelense de konferanslarda hemen hemen hiç irdelenmemektedir. Güvenlik ise ayrı bir konu olarak da ele alınmamaktadır. Benzer şekilde diğer ilgili çalışmaların hiçbirisinde bu iki konu irdelenen bir konu olarak karşımıza çıkmamaktadır. Bu konulardaki ihti-yaçlar düşünüldüğünde konferanslarda ve dergilerde bu konuların irdelenebileceği bir ortamın oluşturulması düşünülebilir.

5.1 Kısıtlar ve Geçerliliğe Yönelik Tehditler

Bu çalışma sadece UYMS’de 2007 ile 2018 yılları arasında sunulan bildirileri kapsa-maktadır. Bu yıllar arasındaki tüm bildiriler analize dahil edilmiştir.

Konu modelleme istatistiğe dayanan bir yöntemle (LDA) yapılmıştır. Elde edilen modelin YM alanını iyi temsil edebilmesi için [16] çalışmasındaki 32.701 yayın bilgisi kullanılmıştır. Bu veri kümesindeki eksiklikler ve hatalar bu çalışmada kullanılan mo-del için bir miktar risk oluşturabilir. Bunun yanında YM alanındaki çalışmaların kaç konu altında sınıflandırılabileceği konusunda bir kural yoktur ve olması beklenemez. Bu çalışma kapsamında [16] çalışmasındaki konu sayısı bir girdi alınarak konu modeli oluşturulmuştur. Şekil 4’te gösterildiği gibi 11 konu sayısının 1 ile 15 arasında en iyi sonucu verme olasılığı olan modeldir. Yine de farklı konu sayıları ile farklı modeller elde edilmesi mümkündür. Benzer şekilde farklı α ve β parametreleri kullanılarak farklı modeller oluşturulabilir. Bu parametreler için de [16] çalışmasında optimize edilmiş değerler aynı veri kümesi ile kullanılmıştır.

Konu modelinde elde edilen konular yazar tarafından isimlendirilmiştir. Bu isimlen-dirme [16] çalışması temel alınarak yapılmıştır. Yine de bu konuların belirlenmesi ve isimlendirmesi sırasında bir taraflılıktan söz etmek mümkündür.

Elde edilen konuların hepsi aynı detay seviyesinde değildir. Yazılım süreci daha ge-nel bir alanı temsil ederken tasarım desenleri daha sınırlı bir alanı temsil etmektedir. Bu durum genel olarak konu modellemede karşılaşılan bir durumdur. Yazarların çeşitli sınıflandırma şemalarına göre (örneğin SWEBOK konu alanları gibi) yaptıkları sınıf-landırmalarda konuların detay seviyelerinin birbirine daha yakın olması beklenebilir. Ancak bu yöntemlerle de çok sayıda yayını sınıflandırmanın maliyeti çok yüksektir.

6

Sonuçlar

Bu çalışma kapsamında 1989 ile 2017 arasında YM alanında yayımlanmış 32.701 ma-kale ve bildiriden oluşan bir belge kümesi kullanılarak YM alanına özgü 11 konudan oluşan bir konu modeli oluşturulmuştur. Bu konu modeli kullanılarak UYMS’de 2007 ile 2018 arasında sunulan 564 bildiri analiz edilmiştir. Elde edilen sonuçlar doğrultu-sunda YM alanında Türkiye'deki araştırmacıların üzerinde çalıştığı konular yıllar bo-yunca belirlenmiştir. Bu bulgular literatürdeki diğer benzer çalışmalardaki bulgularla karşılaştırılarak yorumlanmıştır.

(12)

Kaynakça

1. Garousi, V. (2015). A bibliometric analysis of the Turkish software engineering research community. Scientometrics, 105(1), 23-49.

2. Blei, D.M. (2012). Probabilistic topic models. Commun. ACM 55, 4 (April 2012), 77-84. doi: https://doi.org/10.1145/2133806.2133826

3. Hofmann, T. (1999, July). Probabilistic latent semantic analysis. In Proceedings of the Fif-teenth conference on Uncertainty in artificial intelligence (pp. 289-296). Morgan Kaufmann Publishers Inc..

4. Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of mac-hine Learning research, 3(Jan), 993-1022.

5. Griffiths, T. L., & Steyvers, M. (2004). Finding scientific topics. Proceedings of the National academy of Sciences, 101(suppl 1), 5228-5235.

6. Bittermann, A., & Fischer, A. (2018). How to identify hot topics in psychology using topic modeling. Zeitschrift für Psychologie.

7. Kim, Y. M., & Delen, D. (2018). Medical informatics research trend analysis: A text mining approach. Health informatics journal, 24(4), 432-452.

8. Hall, D., Jurafsky, D., & Manning, C. D. (2008, October). Studying the history of ideas using topic models. In Proceedings of the conference on empirical methods in natural lan-guage processing (pp. 363-371). Association for Computational Linguistics.

9. Glass, R. L., Vessey, I., & Ramesh, V. (2002). Research in software engineering: an analysis of the literature. Information and Software technology, 44(8), 491-506.

10. Cai, K. Y., & Card, D. (2008). An analysis of research topics in software engineering–2006. Journal of Systems and Software, 81(6), 1051-1058.

11. Demir, K.A., Mut, A., Okçu, H., Alpyavuz, O. (2011). Türkiye’deki Yazılım Mühendisliği Konferansları Üzerine Bir İnceleme. 5. Ulusal Yazılım Mühendisliği Sempozyumu. 12. Wang, Z., Li, B., & Ma, Y. (2014). An Analysis of Research in Software Engineering:

As-sessment and Trends. arXiv preprint arXiv:1407.4903.

13. Raulamo-Jurvanen, P., Mantyla, M. V., & Garousi, V. (2015, October). Citation and Topic Analysis of the ESEM papers. In 2015 ACM/IEEE International Symposium on Empirical Software Engineering and Measurement (ESEM) (pp. 1-4). IEEE.

14. Turdaliev, N., Bilgin, B., Deniz, G., Durdu, P. O., Incebacak, D., & Mutlu, A. (2015). UYMS Araştırma Eğilimleri: Bir Sistematik Eşleme Çalışması. 9. Ulusal Yazılım Mühen-disliği Sempozyumu.

15. Garousi, V., & Mäntylä, M. V. (2016). Citations, research topics and active countries in software engineering: A bibliometrics study. Computer Science Review, 19, 56-77. 16. Mathew, G., Agrawal, A., & Menzies, T. (2018). Finding Trends in Software Research.

IEEE Transactions on Software Engineering. doi: 10.1109/TSE.2018.2870388

17. Rehurek, R., & Sojka, P. (2010). Software framework for topic modelling with large cor-pora. In In Proceedings of the LREC 2010 Workshop on New Challenges for NLP Fra-meworks.

18. Röder, M., Both, A., & Hinneburg, A. (2015, February). Exploring the space of topic cohe-rence measures. In Proceedings of the eighth ACM international confecohe-rence on Web search and data mining (pp. 399-408). ACM.

Şekil

Şekil 1. Konu modellemede belgeler, konular ve kelimeler arasındaki ilişkiler.
Tablo 1. YM alanındaki ilgili çalışmalar
Şekil 3. Araştırma sürecinin ana adımları ve her adımın girdileri ve çıktıları.
Tablo 2. Konu modelindeki 11 konu ve her konunun en önemli 10 kelimesi (en önemliden
+3

Referanslar

Benzer Belgeler

Bu noktada Erdoğan ve Bozkurt (2009), yaptıkları araştırmada Türkiye’de cari açık belirleyicilerini MGARCH modeli ile incelemiş, dış ticaret dengesinin ve

臺北醫學大學今日北醫: 附設醫院曹乃文醫師 國內先驅 血管內主動脈開窗術 附設醫院曹乃文醫師 國內先驅

Daha sonra çalışmanın asıl amacına uygun olarak günlük yaşam ile ilgili lisansüstü tezler gerçekleştirildiği anabilim dal- ları, tasarım temel alanı ve endüstriyel

Cerrahi Hastalıkları Hemşireliği Anabilim Dalı’nda yapılan lisansüstü tezlerde 2003 yılından başlayıp devam eden sayısal bir artış olduğu, incelenen

Tempo olarak çok hızlı olan bu bölümde Spiccato başlayan pasajların yayın denge noktasında ve yay telden çok fazla uzaklaştırılmadan çalınması,hızlı ve bağlı onaltılık

Tanı anında akciğer gibi uzak organ metastazı olan hastada karaciğer nakli yönünden kontrendikasyon oluşturmamaktadır; ama bunların nakil öncesi kemoterapi veya

Benzer bir şekilde, Önder ve Brower (2013) aynı dergide 1990-2009 yılları arasında yayınlanan makaleleri bibliyometrik olarak inceleyerek: makalelerin genel olarak

We thank all the participants who shared their studies at various sessions in the symposium, and we would like to emphasize our belief that these efforts will