• Sonuç bulunamadı

Genetik algoritmalar kullanılarak metinlerde otomatik özet çıkarma

N/A
N/A
Protected

Academic year: 2021

Share "Genetik algoritmalar kullanılarak metinlerde otomatik özet çıkarma"

Copied!
4
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

978-1-7281-7206-4/20/$31.00 ©2020 IEEE

Automatic Summary Extraction in Texts Using

Genetic Algorithms

A

Bölümü abdullah.ammar.karcioglu@ege.edu.tr

Celal Bayar Üniversitesi Manisa, Türkiye ahmet.yasa@cbu.edu.tr

Özetçe Otomatik metin özetleme üzerinde uzun süredir

özetleme eliyle amak zordur ve cümle veya tür özetleri geçirildikten sonra söz

girdi olarak verilmektedir. Genetik Algoritma temelli cümle seçimi, özet yapmak için ku

uygunluk fonksiyonu ilk m kelime çifti

veri setini tf-idf taban

kullanarak f-skoru ve Rouge

metrikleri ile

Anahtar Kelimeler

Seçilimli Otomatik Metin Özetleme

Abstract Automatic text summarization is one of the applications of natural language processing that has been studied for a long time. The increase in the amount of information in web resources has increased the need for automatic text summarization methods. It is difficult to design a system to produce abstracts created by human hands. For this reason, many researchers have focused on extracting sentences or paragraphs, which is a kind of summary. In this study, we introduce a method that was created using genetic algorithms to generate such summaries. After the texts are preprocessed, vocabulary is created and given as input to the proposed method. The sentence selection based on Genetic Algorithm is used to summarize and after that the summary is created, it is evaluated using the fitness function. In our first model, the fitness function is based on the frequency of each Word and the word pair frequencies. The results of the applied model are discussed using the same dataset in another method based on tf-idf, with precision, recall, f-score and Rouge metrics.

Keywords Natural Language Processing, Genetic Algorithms, Extractive Automatic Summarization

I. G

bilgi

idir. Otomatik metin

olur. Bir metin

erden orijinal metnin alt

cümleleri kullan a

etmeyebilir, ancak ana konuya

için metin

üretilebilir Extractive) yolu, ori

Abstractive)

Otomatik metotlar ile var

belirleyicidir; (iii) özet içindeki Otomatik metin özetleme pek çok yöntem

yöntemler, öznitelik vektörü temelli yöntemler, kümeleme ve gösterilebilir. çözmede oldukça etkili olan Genetik Algoritmalar ve makine

üzerinden metin öz

seçilmesi, mutasyonlar ve tekrar birey üretimi gibi simülasyon içinde yer al

evreleri içermektedir.

tleyici elde edilebilir [3] Bu

(2)

ve

öznitelik vektörlerinin .

II. ÇA

otomatik metin özetleme,

. Böylece makine bu belgeleri kulla

özetleme görevini

Genetik Algoritma (GA) özellikli öznitelik seçim

mm'un

ünde bir kriter olarak Street ile

otomatik metin

tekniklerini uygulayarak otomatik metin özetleme

tekniklerindeki büyüme nceleme

k fonksiyonundaki ek özellikleri dikkate DUC 2002 veri setinden

Rouge- Rouge-q, her bir kelimenin tek

Genetik Algoritmalar vb. Evrimsel Algoritma tekniklerini entegre ederek, metin özetleme sonucu

Birkaç yineleme için elde edilen sonuçlar, Genetik

gö tir.

tiksel öznitelik ve metnin telik olmak Suanmali ve [7] Genetik ar

ayarlamak içi

özetleyicisi ve Copernic özetleyicisi ile 100 belge ve 62

en iyi ortalama kesinlik (precision), anma (recall) ve f- skoru ölçütünün

da önemli bir

sonra soyut

hibrit özet e

istatistik ve sezgisel yöntemleri

Sistem, istatistik veya istatistik ile sezgisel yöntemlerden

+ sezgisel yöntemde

benzerlik gibi sezgisel

III. VE TASARIM

geçirip daha sonra elde edilen cümleler üzerinde genetik

algoritma ve tf- mler uygulanarak

in

ana ,

küçük harflere

(3)

Cümle segmantasyonunda

dosyadan girdiler okunur, daha sonra düzenli ifadeler

Durak

belgelerin

sözcüklerin Küçük harfe çevirme ve kök alma, n amaç verinin

kelimelerin ortak paydada ifade edilmesidir [13].

her b frekanslar

DEAP kütüphanesiyle genetik algoritma

(kromozomlar), mutasyon olarak sayabiliriz an özetini görev fonksiyonu olarak karakter dizisi formundaki bireyler olarak temsil edilir;

r

uygunluk fonksiyonu sonucu seviyesine gelen bireyler elde edilince -idf (terim frekan - le kelimelerin cümlede sonunda perform

IV. VER VE SONUÇLAR

metinde

edilmelidir. BBC News Summary [10] veri seti 2004 2005

özetlerini e kriterleri precision), f-skoru TP de bulunan cümleler. FP bulunmayan ama TN

True Negative): Referans özette bulunmayan ve özette de yer almayan cümleler. FN

Referans özette yer alan ancak an özette bulunmayan cümleler.

Anma:

Gör arala

-skoru

için aritmetik ortalama yerin

-Tablo- TABLO I. G ANMA, DUYARLILIK VE F -Anma (%) F-Skor (%) 67.35 41.25 51.16 31.03 11.25 16.51 31.17 30.00 30.57 59.57 35.00 44.09 79.55 43.75 56.45 57.89 27.50 37.29 54.84 21.25 30.63 46.30 31.25 37.31 60.71 42.50 50.00 46.51 25.00 32.52 Ortalama Anma (%) Ortalama Ortalama F-Skor (%) 53,49 30,87 39,15

(4)

Tablo-

-ve -veri setinde bulunan referans özet dos

-gibi ortalama d

TABLO II. TF-IDF ANMA, DUYARLILIK VE F

-Anma (%) F-Skor (%) 44.90 22.68 30.14 41.38 18.75 25.81 90.91 32.56 47.95 34.04 19.05 24.43 27.27 15.79 20.00 13.16 8.33 10.20 54.84 34.00 41.98 38.89 28.00 32.56 80.36 43.69 56.60 72.09 34.44 46.62 Ortalama Anma (%) Ortalama Ortalama F-Skor (%) 49.78 25.72 33.92 ölçüt kriteri rouge algoritma ve tf-Recall Oriented Understudy for Gisting Evaluation) otomatik üretilen özet ve

- -1, Rouge-2, Rouge-3...

n; Rouge-1 üretilen özet ve referans özet -2 -L LCS ile en çülmesini hesaplar. Rouge-W ise

Rouge-ile bulunur.

TABLO III. E 1-2-3-L-W SKORLARI

Anma (%) F-Skor (%) Rouge -1 70.00 40.00 50.91 Rouge -2 26.67 13.33 17.78 Rouge -3 0.00 0.00 0.00 Rouge -L 74.17 46.53 57.18 Rouge W 47.72 35.98 41.03

TABLO IV. TF-IDF E 1-2-3-L-W SKORLARI

Anma (%) F-Skor (%) Rouge-1 25.00 33.33 28.57 Rouge-2 0.00 0.00 0.00 Rouge-3 0.00 0.00 0.00 Rouge-L 31.50 40.03 35.26 Rouge-W 18.95 33.33 24.16 Tablo I ve Tab i tf-aras -kelimelerin n-. V. SONUÇLAR VE GELECEK özetlemenin yüksek i sistem tasarlamak sistem K içerisinde yer verebilmek. KAYNAKLAR [1] Philadelphia (2001)

[2] Sparck-Jones, K. Automatic summarizing: factors and directions. In Mani, I.; Maybury, M. Advances in Automatic Text Summarization. The MIT Press (1999) 1-12

[3] Neto, Joel Larocca, Alex A. Freitas, and Celso AA Kaestner. "Automatic text summarization using a machine learning approach." Brazilian Symposium on Artificial Intelligence. Springer, Berlin, Heidelberg, 2002. [4] Silla C.N., Pappa G.L., Freitas A.A., Kaestner C.A.A. (2004) Automatic

Text Summarization with Genetic Algorithm-Based Attribute Selection. In: Lemaître C., Reyes C.A., González J.A. (eds) Advances in Artificial Intelligence IBERAMIA 2004. IBERAMIA 2004. Lecture Notes in Computer Science, vol 3315. Springer, Berlin, Heidelberg

[5] Meena, Y.K., Gopalani, D.: Evolutionary algorithms for extractive automatic text summarization. Procedia Comput. Sci. 48, 244 249 (2015) [6] Neto J.L., Freitas A.A., Kaestner C.A.A. (2002) Automatic Text Summarization Using a Machine Learning Approach. In: Bittencourt G., Ramalho G.L. (eds) Advances in Artificial Intelligence. SBIA 2002. Lecture Notes in Computer Science, vol 2507. Springer, Berlin, Heidelberg

[7] Suanmali, L., Salim, N., & Binwahlan, M. S. (2011). Genetic algorithm based sentence extraction for text summarization. International Journal of Innovative Computing, 1(1)

[8] Bhat, I. K., Mohd, M., & Hashmy, R. (2018). SumItUp: A Hybrid SingleDocument Text Summarizer. In Soft Computing: Theories and Applications (pp. 619-634). Springer, Singapore

[9] Sadiq, A. T., Chawishly, S. A., & Muhamad, K. S. (2009). Text Summarization Using Hybrid Methods. In First Conference of Iraqi IT Association.

[10] http://mlg.ucd.ie/datasets/bbc.html

[11] Meena, Y.K., Gopalani, D.: Evolutionary algorithms for extractive automatic text summarization. Procedia Comput. Sci. 48, 244 249 (2015) [12] Ammar, A., & AYDIN, T. A Comparison of Performance Metrics of

Turkish Twitter Messages Using Text Representations [13]

Turkish and English Twitter Feeds Using Word2Vec Model. In 2019 27th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE. doi: 10.1109/SIU.2019.8806295

Referanslar

Benzer Belgeler

is a large amount of available research, know- ledge and understanding on ballistics, hair, DNA, blood pattern analysis, documentary evidence, crime scene processing, report

Five-year intervals were used to draw the timeline, and all the items for each slice are shown in Fig. The distribution of the categories can be evaluated in four basic clusters,

In 1997 he graduated from Güzelyurt Kurtuluş High School and started to Eastern Mediterranean University, the Faculty of Arts and Sciences, to the Department of Turkish Language

Ceftolozane is a novel cephalosporin antibiotic, developed for the treatment of infections with gram-negative bacteria that have become resistant to conventional antibiotics.. It was

Good water quality can be maintained throughout the circular culture tank by optimizing the design of the water inlet structure and by selecting a water exchange rate so

After generating a social graph of Turkish Twitter users, we used centrality measures to find structural importance and roles. After selecting an event, namely the Istanbul 2014

In contrast to language problems, visuo-spatial-motor factors of dyslexia appear less frequently (Robinson and Schwartz 1973). Approximately 5% of the individuals

The higher the learning rate (max. of 1.0) the faster the network is trained. However, the network has a better chance of being trained to a local minimum solution. A local minimum is