• Sonuç bulunamadı

OTAP Ottoman archives internet interface

N/A
N/A
Protected

Academic year: 2021

Share "OTAP Ottoman archives internet interface"

Copied!
2
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

OTAP Osmanlıca Metinleri Internet Arayüzü

OTAP Ottoman Archives Internet Interface

Emre ¸Sahin

1

, Hande Adıgüzel

1

, Pınar Duygulu

1

, Mehmet Kalpaklı

2

1

Bilgisayar Mühendisli˘gi Bölümü

Bilkent Üniversitesi

06800 Bilkent Ankara

{iesahin, adiguzel, duygulu}@cs.bilkent.edu.tr

2

Tarih Bölümü

Bilkent Üniversitesi

06800 Bilkent Ankara

kalpakli@bilkent.edu.tr

ÖZETÇE

Osmanlı Metin Ar¸sivi Projesi kapsamında Osmanlı Türk-çesi metinlerinin yüklenmesi, ikilile¸stirilmesi, satır ve kelime bölütlenmesi, etiketlenmesi, tanınması ve testlerinin yapılması amacıyla bir Genel A˘g arabirimi geli¸stirilmi¸stir. Bu arabirim sayesinde Osmanlı ar¸sivleriyle çalı¸san ara¸stırmacıların uzman-lık yardımının alınması ve geli¸stirdi˘gimiz tanıma teknolojileri-nin elyazması ar¸sivlere uygulanması mümkün hale gelmi¸stir.

ABSTRACT

Within Ottoman Text Archive Project a web interface to aid in uploading, binarization, line and word segmentation, labe-ling, recognition and testing of the Ottoman Turkish texts has been developed. It became possible to retrieve expert know-ledge of scholars working with Ottoman archives through this interface, and apply this knowledge in developing further tech-nologies in transliteration of historical manuscripts.

1. Giri¸s

Osmanlı Devletinin altı yüzyıllık ömründen kalan ar¸sivleri ara¸s-tırmacıların ilgisini her zaman çekmi¸stir. Ülkeye yayılmı¸s de˘gi-¸sik kütüphanelerde tutulan ar¸sivlerin daha eri¸silebilir hale ge-tirilmesi, çevrimiçi veritabanlarının kurulması, tarihi metin i¸s-leme ve el yazısı tanıma teknolojilerinin kullanımını zorunlu hale getirmektedir. Bilkent Üniversitesi ve University of Was-hington’ın ortak yürüttü˘gü OTAP Osmanlı Metin Ar¸sivi Proje-sinin amacı, hem probleme ili¸skin Bilgisayarla Görme bilimsel ara¸stırmalarına zemin sa˘glamak, hem de Tarih ve Edebiyat gibi alanlarda çalı¸san ara¸stırmacıların teknolojik imkanları kullana-rak ar¸sivlere eri¸simini kolayla¸stırmaktır.

Osmanlıca metin i¸sleme konusunda bu proje kapsamında ve dı¸sında yürütülen çalı¸smalar algoritma geli¸stirmeye odaklan-mı¸stır. Çalı¸smaların oldu˘gu halleriyle Bilgisayar Bilimi dı¸sında

Bu çalı¸sma Türkiye Bilimsel ve Teknik Ara¸stırma Kurumu tarafın-dan 109E006 proje numarasıyla desteklenmektedir.

978-1-4673-0056-8/12/$26.00 c 2012 IEEE

çalı¸san ara¸stırmacıların kullanması zordur. Bu eksikli˘gi gider-mek, bugüne kadar bu proje çatısı altında yapılan çalı¸smalarda edinilmi¸s ilerlemeyi ara¸stırmacıların kullanımına sunmak ama-cıyla Genel A˘g üzerinden çalı¸san bir arabirim geli¸stirilmi¸stir.

Bu arabirim yardımıyla yeni Osmanlıca dokümanlar verita-banına kaydedilebilmekte, ikilile¸stirilmekte, satır bölütleme al-goritmaları çalı¸stırılmakta, uzmanlık bilgisi gerektiren ve göze-timli ö˘grenme için elzem olan etiketleme i¸slemleri gerçekle¸s-tirilebilmekte, etiketlenen metinler üzerinde kelime araması ve etiketlenmemi¸sler üzerinde resim yoluyla arama yapılabilmek-tedir.

Bu çalı¸smada OTAP Ka¸sifi adını verdi˘gimiz bu arabirimin tanıtımını yapmaktayız.

2. Yazılım Katmanları

OTAP Ka¸sifi dört ana bile¸senden olu¸smaktadır. Kullanıcı önyü-zünü olu¸sturan Genel A˘g katmanı, Genel A˘g isteklerini i¸sleyen ve yönlendiren sunucu katmanı, resim ve üstbilgi barındıran ve-ritabanı katmanı ile Bilgisayarla Görme algoritmalarını çalı¸stı-ran algoritmik i¸sleme katmanı.

2.1. Genel A˘g Katmanı

Genel A˘g Katmanı kullanıcının OTAP Ka¸sifiyle etkile¸sti˘gi bi-le¸sendir. Bu bile¸sen sayesinde öncelikle kullanıcıların tanıtlama ve yetkilendirme yapılmaktadır.

Kullanıcılar ellerindeki JPEG, PNG veya PDF formatında taranmı¸s sayfaları bu arabirim sayesinde yükleyebilir. Bu sa-yede ara¸stırmacıların edindikleri dosyaların ortak bir konumda toplanması mümkün olmu¸stur. Yükledikleri belgelere dair ki-tap adı, yazar, tarih gibi künye bilgilerini girdikleri zaman bu bilgiler yoluyla dosyaya eri¸sim mümkün olmaktadır.

Bilgisayarla Görme ara¸stırmalarımız açısından hayati bulu-nan sözcük etiketleme de bu arabirim yardımıyla yapılmaktadır. Elyazmalarında sözcük arası bo¸slukların belirgin olmayı¸sı ne-dediyle otomatik olarak kelimelere ayırmak mümkün de˘gildir. Bu nedenle ara¸stırmacıların satırlara ayrılmı¸s metinlerden ke-limeleri i¸saretleyebilecekleri ve etiketleyebilecekleri bir

(2)

arabi-rim sunulmu¸stur. Kullanıcılar fare yardımıyla, kelimenin altını çizer gibi seçim yapmakta, ta¸smı¸s olan fazlalıkları silebilmekte ve sözcü˘gün okunu¸sunu transliterasyon alfabesiyle yazabilmek-tedir. OTAP Ka¸sifi, hem önceki yıllarda geli¸stirilmi¸s OTAP Os-manlıca Transliterasyon Alfabesini[1], hem de sanal klavye yo-luyla do˘grudan Osmanlıca giri¸sini desteklemektedir.

Kullanıcılar açısından di˘ger önemli i¸slev aramadır. Kulla-nıcı arayüzü üç ¸sekilde aramaya olanak sunmaktadır. Bunlar-dan birincisi etiketler yoluyla sözcüklerin ve onların geçti˘gi metinlerin bulunmasıdır. Bu sözcükler bulunduktan sonra ba˘glı parçalar çıkarılabilmekte ve bu sayede Türkçe çekim ekleri sözcük resimlerinden gerekti˘ginde silinebilmektedir. Üçüncü arama yöntemi serbest metin tabanlı aramadır. Kullanıcı gerek OTAP Transkripsiyon Alfabesiyle, gerek sanal klavye yoluyla metin girebilmekte, bunlar çe¸sitli Arapça ve Farsça fontlar yar-dımıyla resme çevrilmekte ve öznitelikleri çıkarılarak arama ya-pılmaktadır.

2.2. Sunucu Katmanı

Sunucu katmanı Genel A˘g katmanından gelen istekleri yönlen-diren ve Genel A˘g katmanına gerekli bilgileri sa˘glayan katman-dır. Kullanıcı arabirimiyle JSON (JavaScript Object Notation) formatında ileti¸sim kurmakta ve gerekli HTML sayfalarını üret-mektedir. Python dilini kullanan Django çerçevesi yardımıyla veritabanı ileti¸simi ve dinamik web dokümanları üretilmekte-dir.

2.3. Veritabanı Katmanı

Veritabanı katmanı iki farklı biçimde veritabanı bilgilerini sak-lamaktadır. Yüklenen belgelerin künyeleri, resim parçalarının konumları ve hangi sayfaya ait oldukları, etiketleri gibi üst-bilgi bir SQLite veritabanında saklanmaktadır. Sayfa resimle-rinin diskteki konumları da veritabanında saklanmaktadır. Say-faların kendisi ise diskte tutulmakta, bu ¸sekilde resimleri i¸sledi-˘gimiz algoritmaların di˘ger katmanlardan ba˘gımsız ¸sekilde test edilmesi mümkün olmaktadır. Veritabanı yapısı yine Django çerçevesinde yapılmı¸s ve veritabanı yazılımından ba˘gımsızdır, SQLite’ın yetersiz gelmesi durumunda yüksek talep sayısında daha iyi performans sunan PostgreSQL’e geçi¸s yapmak sadece veritabanı ba˘glantı ayarları yapıp, veri aktarımını yaparak müm-kündür.

2.4. Algoritmik ˙I¸sleme Katmanı

Osmanlı metinlerinin i¸slenmesi konusunda yapılmı¸s bir çok ça-lı¸sma ve kaydedilmi¸s ilerleme bu bile¸sen yardımıyla kullanıma sunulmaktadır. Kendi ba¸sına yeterli ve belli bir i¸si yapan küçük komut satırı programları ¸seklinde tasarlanmı¸stır. Grubumuzun [2], [3] ve [4] gibi daha önce yaptı˘gı çalı¸smalar gerek Matlab ve Octave’la aynen, gerek OpenCV kütüphanesini kullanan C++ ve Python programlarına çevrilerek bu katmanda yer almakta-dır.

De˘gi¸sik ikilile¸stirme algoritmaları kulla-nan otap-binarize, sayfaları satırlara ayıran otap-segment, sözcük resimleriyle öznitelik çalı¸s-ması yapan otap-train, bu özniteliklerle arama yapan otap-searchve otap-spot programları çe¸sitli paramet-reler yardımıyla kullanılmaktadır.

3. Sonuç

Bu tanıtımda OTAP Ka¸sifi adını verdi˘gimiz Ta-rihi Metin ˙I¸sleme ve El yazısı i¸sleme arabirimini tanıttık. Çe¸sitli katmanlardan olu¸san bu yazılıma http://retina.cs.bilkent.edu.tr/otap/ adresinden ula¸sılabilir. Konuk hesaplarına ili¸skin bilgiyi iesahin@cs.bilkent.edu.tr adresinden temin edebilirsiniz.

4. KAYNAKÇA

[1] W. G. Andrews, M. Inan, S. Kebeli, and S. Waters, “Ret-hinking the transcription of ottoman texts: The case for re-versible transcription,” http://courses.washington.edu/otap/ reverse/reverse/o_Reverse_trans_article728.html, 2008. [2] E. Ataer and P. Duygulu, “Matching ottoman words: An

image retrieval approach to historical document indexing,” in Proceedings of the 6th ACM international conference on Image and video retrieval, 2007, pp. 341–347.

[3] E. Can and P. Duygulu, “A line-based representation for matching words in historical manuscripts,” Pattern Recog-nition Letters, vol. 32, no. 8, pp. 1126–1138, June 2011. [4] D. Arifoglu, P. Duygulu, and M. Kalpakli, “Segmentation

of historical documents using cross document word matc-hing,” Pattern Recognition Letters, In Review.

Referanslar

Benzer Belgeler

The use of this new approach of mathematical model, incorporating the use of neural networks, lead to an improvement in the mill performance, as can be seen in table 4.4. According

Tez, çok noktalı tanker-şamandıra bağlama sistemi karar verme ve risk problemlerinin çözümünde, önerilen yöntemler için yapılacak hesaplamalarda kullanılmak üzere, 12

This study presents a multi-view hull lines drawing of an 18 th century cargo ship kept at the Russian Navy Archives in St.. Notes on the drawing suggest that the ship serving

conductance regulator (CFTR) gene and looked for clinical correlations in 27 patients with clinically diagnosed congenital bilateral absence of the vas deferens (CBAVD).. METHODS

hesabı gönderilen elektronik posta sayısı ya da tamamlanarak geri ulaşan anket sayısına bağlı olarak değişmektedir.. Web Anket Maliyetinin Diğer

Bu örneklemelerde Metin Bankası, Otap, Ulusal Tez Merkezi ve Michigan projeleri gibi farklı uygulamaların yalnızca web tabanlı ortamda transkripsiyonlu metinlerle

For example, finding a region with dominant blue color (that may be water) and a neighboring beige region (that may be sand) with another blue region (that may be sky) above them

7 Aylin Bayrakçeken Akın, Ölümün Gölgesindeki Kadın, Frankofoni, 25, 143- 149, 2013 (MLA: Modern Language Association of America and Ulakbim) 8 Aylin Bayrakçeken Akın,