• Sonuç bulunamadı

Atatürk'ün el yazmalarının işlenmesi

N/A
N/A
Protected

Academic year: 2021

Share "Atatürk'ün el yazmalarının işlenmesi"

Copied!
4
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

"Bu proje TUBITAK 104E065 ve 109E006 numaralı projeler tarafından desteklenmiútir"

Atatürk’ün El Yazmalarının øúlenmesi

Processing the Manuscripts of Atatürk

Talha Soysal

1

, Hande Adıgüzel

1

, Alp Öktem

1

, Alican Haman

1

, Ethem Fatih Can

1

, Pınar Duygulu

1

,

Mehmet Kalpaklı

2

1. Bilgisayar Mühendisli

÷i Bölümü

Bilkent Üniversitesi

{m_soysal, h_adiguzel, h_oktem, haman}@ug.bilkent.edu.tr {efcan, duygulu}@cs.bilkent.edu.tr

2. Tarih Bölümü

Bilkent Üniversitesi

kalpakli@bilkent.edu.tr

Özetçe

Bu çalıúmada Atatürk'ün el yazmalarının etkin ve kolay eriúimini sa÷layabilecek kelime tabanlı bir arama sisteminin ilk aúaması olarak sayısallaútırılmıú belgelerin ön iúlemesi ve satır ve kelimelere bölütlenmesi konusunda çalıúmalar yapılmıútır. Tarihi el yazması belgeler çeúitli zorluklar getirmekte, basılı belgelerde kullanılan yöntemlerin uygulanması baúarılı sonuçlar üretememektedir. Bu nedenle daha geliúmiú çözümler üzerine yo÷unlaúarak satır bölütlemede Hough dönüúümü [1] tabanlı bir yöntem uyarlanmıú, kelime bölütlemede ise yazıların e÷ikli÷i göz önüne alınmıútır. Afet ønan tarafından sa÷lanan belgelerin [4] 30 sayfası üzerinde yapılan çalıúmalarda elde edilen sonuçlar gelecek çalıúmalar açısından umut vericidir.

Abstract

In this paper, as a first step to an easy and convenient way to access the manuscripts of Atatürk with a word based search engine, the preprocessing of digitalized documents and their line and word segmentation is studied. The techniques that are applied on printed documents may not yield satisfactory results. Due to this fact, more developed techniques are decided to be applied consisting of a technique based on Hough transform [1] for line segmentation and a technique that is based on dealing with skewness of lines for word segmentation. The results, which are acquired through studies that are conducted on the documents provided by Afet ønan and consisting of 30 pages [2], prove to be highly accurate and promising for future researches.

1. Giriú

Tarihi belgelerin etkin ve kolay eriúimi ve analizi sadece tarihçilerin de÷il, konu ile ilgilenen herkesin gerekli bilgiye ulaúmaları açısından çok önemlidir. Bu önem yakın zamanda çok sayıda tarihi belgenin sayısallaútırılması yönünde önemli adımların atılmıú olmasını sa÷lamıú olsa da, hala eriúim ve analiz araútırıcı tarafından bütün belgelerin tek tek incelenmesi ile mümkün olmaktadır. Bu da istenilen bilgiye ulaúmada süreci uzatmakta, çok fazla emek gerektirmekte ve ço÷u bilginin gözden kaçmasına neden olmaktadır. Çözüm olarak

belgelerin otomatik olarak iúlenmesi ve eriúilmesi gerekmektedir. Ancak tarihi belgelerin eski ve yıpranmıú olmaları ve ço÷u zaman el yazısı ile yazılmıú olmaları bu problemin çözümünü zorlaútırmaktadır.

Atatürk'ün el yazmaları yakın tarihimize ıúık tutması açısından çok önemlidir. Atatürk'ün olaylar hakkındaki düúüncelerini, yorumlarını ve notlarını içeren bu el yazmaları aynı zamanda dönemin olaylarına da bakıú açısı sa÷lamaktadır. Ancak belgelerin büyük ço÷unlu÷unun sayısal ortamda bulunmaması ve otomatik yöntemlerin var olmaması nedeni ile belgelerin incelenmesi ve sınıflandırılması elle sürdürülmektedir ki bu da çok emek isteyen ve uzun süren bir iútir. Otomatik sistemlerin geliútirilmesi bu de÷erli belgelerin daha fazla kiúi tarafından ulaúımına ve incelenmesine olanak sa÷layacaktır. Bu çalıúmada amaç, büyük önem taúıyan Atatürk'ün el yazmalarının ulaúılabilir olmasını sa÷lamak konusunda öncü bir çalıúma gerçekleútirmektir. Daha sonra otomatik eriúim ve analiz yöntemlerinde kullanılmak üzere belgelerin sayısallaútırılması ve kelime boyutunda ayrılması konusunda bir sistem geliútirilmiútir.

2. Önerilen yöntem

Atatürk'ün el yazmalarında yazılar ço÷unlukla e÷ik olmakta, ancak ço÷u zaman kelimelerin e÷im açıları birbirinden farklı özellikler göstermektedir. Kelimeler bazen sıkıúık düzende, bazen ise geniú yazılmıúlardır. Az da olsa, satırlarda da bazı e÷imler vardır. Zaman zaman, çeúitli kelimelerin arasında, bir karaktere denk gelen boúluklar vardır. Bu özellikler yazının otomatik olarak bölütlenmesinde zorluklar yaratmakta, literatürde ço÷unlukla yer alan izdüúüm tabanlı yöntemler gibi basılı belgelerde iyi çalıúan sistemlerin uygulanmasını engellemektedir. Bu nedenle bu çalıúmada satır ve kelimelerin bulunmasında tarihi belgelerin özelliklerini göz önünde bulunduracak daha geliúmiú yöntemler uyarlanmıútır. ùekil 1’de de gösterildi÷i üzere izledi÷imiz yöntem üç ana kısımdan oluúmaktadır. Bunların ilki tarayıcı ya da foto÷raf makinesiyle sayısal ortama aktarılmıú resmin gri ölçekli hale getirilmesi sonrasında resmin ikilenmesi, ikincisi ikili resimdeki satırların bölütlenmesi, son olarak da bölütlenmiú satırlardaki kelimelerin bölütlenmesidir.

882

SIU2010 - IEEE 18.Sinyal isleme ve iletisim uygulamalari kurultayi - Diyarbakir

(2)

"Bu proje TUBITAK 104E065 ve 109E006 numaralı projeler tarafından desteklenmiútir" ùekil 1: Sürecin uygulaması Resmin ikilenmesinde izlenilen yöntem Bölüm 2.1’de

detaylı açıklanmıútır. Bölüm 2.2’de Hough dönüúümü yoluyla satırları bölütleme yöntemi, Bölüm 2.3'de izdüúüm ve açı bilgisi yoluyla kelimeleri bölütleme yöntemi açıklanmıútır. Deneyler Bölüm 3’te verilmiú ve önerilen yöntemin gelecekte bütün bir sistem içinde nasıl kullanılabilece÷i Bölüm 4’te tartıúılmıútır.

2.1 Uyarlamalı økileme

Çalıúmanın ilk adımı olan ikilemede genel eúik de÷eriyle ikileme yerine uyarlamalı ikileme uygulanmıútır. Bunun için ilk olarak gri ölçekli görüntüler resmin büyüklü÷üyle orantılı n*m parçaya ayrılır. Sonraki aúamada her parçaya ba÷ımsız olarak tekrarlamalı genel eúikleme uygulanmıútır [2]. Tekrarlamalı genel eúikleme algoritmasının her tekrarında tek kanal görüntünün ortalama görüntü ö÷esi de÷eri hesaplanır ve bu de÷er bütün görüntü ö÷elerinden eksiltilir. Sonradan de÷iúmiú görüntünün sıklık grafi÷i çıkarılır ve grafi÷e dengeleme uygulanır. Tekrarların i. seferinde bulunan ortalama görüntü ö÷esini de÷eri Ti olarak tanımlarsak;

tekrarların bitiúi |Ti - Ti-1| < 0.001 koúuluna denk getirilmiútir.

Algoritmanın sonunda bulunan Ti eúik de÷eri olarak saptanır

ve 3 kanallı el yazması görüntüsünün n*m parçasına uygulanır. økileme yöntemimizin uygulandı÷ı bir belge ùekil 2’de gösterilmiútir.

2.2. Satırlara ayırma

Atatürk’ün el yazmalarında satırların algılanması sürecinde bir takım satırların di÷er satırlardan ba÷ımsız bir e÷im açısının

bulunması, satırların e÷im açısının kendi içinde de÷iúiyor olması, komúu satırlardaki bazı harflerin birbirine de÷iyor olması, satırlar arasındaki boúlukların eúit olmayıúı ve satırlar arasındaki bazı kısımlarda karalamalar ve kelimeler bulunması gibi yapısal zorluklar bulunmaktadır. Bu çeúit zorlukların oldu÷u bir ortamda izdüúüm bilgisi yeterli sonucu veremeyece÷i için daha de÷iúik bir yöntem uygulanmıútır. Genel satır e÷rilerinin çıkarılması için Loulodis ve di÷erlerinin makalesinde izlenilen yöntem uygulanmıútır [3]. Bu yöntem ilk olarak belgedeki ba÷lı bileúenlerin bulunmasını ardından bu bileúen kümesinin üç altkümeye ayrılmasını gerektirmektedir. Bunun için ikili resimde ba÷lı bileúen analizi yapıldıktan sonra bu bileúenler çevreleyen kutularının yükseklik ve geniúli÷ine göre ayrılır. Bunu yapmadan önce bileúenleri çevreleyen kutuların yüksekliklerinin ortalaması alınarak, ortalama karakter yüksekli÷i(OKY) ve ona eúit varsayılan ortalama karakter geniúli÷i(OKG) bulunur. Daha sonra bileúenler bu verilerle kıyaslanarak üç altkümeye ayrılır. Normal karakter taúıyan orta yükseklikteki bileúenler 1. altkümeye, alt satırla bitiúik ya da büyük karakter taúıyan büyük bileúenler 2.altkümeye, noktalama ya da úapka gibi küçük bileúenler ise 3. altkümeye koyulur. Altkümelerine ayrılan bileúenlerin gösterildi÷i bir belge ùekil 3’te verilmiútir. Bu yöntem hem 1. altküme bileúenleriyle satırların izledi÷i çizgiyi kolayca bulunmasını kolaylaútırdı÷ı gibi sorun çıkaracak 2. ve 3. altküme bileúenlerinin baútan ayırt edilmesini sa÷lamaktadır.

ùekil 2: El yazmalarından bir örnek ve ikileme uygulamasının ardından görüntü

883

(3)

"Bu proje TUBITAK 104E065 ve 109E006 numaralı projeler tarafından desteklenmiútir" Bileúenlerin sınıflandırılmasının ardından Hough

dönüúümüne girilecek olan noktalar, 1. altkümeye ait olan tüm bileúenlerin OKY geniúli÷inde küçük parçalarının a÷ırlık merkezlerinden oluúturulur. Böylece sorun taúımayan birinci altküme bileúenleri Hough dönüúümü sonucunda bir çizgi oluúturabilecek kadar nokta oyu verir. Satırların ilk genel da÷ılımı böylece yerleútirilir [4]. A÷ırlık merkezlerinden elde edilen görüntüye Hough dönüúüm uygulanmıútır.

Dönüúümün sonucu ùekil 4-a‘da görülmektedir. Algılanan çizgilerden e÷im açısı -5 ile 5° arasında olmayanlar ve komúu çizgilerden aralarındaki fark ortalama karakter yüksekli÷inden küçük olanlar çıkarılmıútır. Makalede önerildi÷i üzere geriye kalan çizgiler birleútirme aúamasından geçirilerek bir kısmı elenmiútir (ùekil 4-b). Birinci altkümedeki, çizgilere eúleútirilemeyen bileúenler uygun çizgiler ile eúleútirilmiútir. Öncelikle bileúenlerin a÷ırlık merkezlerinin bütün çizgilere olan uzaklıkları bulunarak bileúenlere olan en yakın çizgiler bulunmuútur. En yakın çizgi ile aralarındaki uzaklık ortalama komúu çizgi uzaklı÷ından (OKU) büyükse birinci kümedeki bu bileúenlerin yeni bir çizgi oluúturdu÷u saptanmıútır ve sonuca bu yeni çizgi eklenmiútir (ùekil 4-c). E÷er aralarındaki

uzaklık OKU’dan küçükse bileúen bulunan en yakın çizgiye tahsis edilmiútir. økinci aúamada ikinci altkümedeki bileúenler yüksekliklerine göre kelimelere ayrılmıútır. Sonradan, bu bileúenler ve üçüncü kümedeki bileúenler birinci aúamadaki eúleútirme tekni÷ine benzer bir yöntem ile en yakın çizgilere eúleútirilmiútir.

2.3. Kelime bölütlemesi

Uyguladı÷ımız kelime bölütlemesi, izdüúüm bilgisini temel almaktadır. Ancak, yazının e÷ik özelli÷inden dolayı izdüúüm bilgisi uygulamasından önce, yazının e÷iminin hesaplanarak ona göre düzeltilmesi gerekmektedir. Düzeltmenin bir örne÷i ùekil 5’te verilmiútir. Bu açı ço÷u satır için benzer de÷erler içermekte oldu÷undan, ayrı bir açı hesabı gerekmemiú, belli bir sabit kullanılarak yazının düzeltilmesi sa÷lanmıútır.

Bu düzeltme adımından sonra, ortaya çıkan görüntü her ne kadar kaliteli bir görüntü olmasa da, sonradan uygulanan yatay izdüúüm bilgisi için yeterli biçimde düzeltme sa÷lamaktadır. Düzeltme adımı, verilen sabite göre görüntünün sabitin tersi yönüne sabit kadar döndürülmesi ile sa÷lanır.

ùekil 4-a: Hough Dönüúüm sonrasında bulunan satırlar.

b: Birleútirme iúlemi sonrasında geriye kalan satırlar.

c: Birinci altküme bileúenleri kullanılarak algılanamayan satırların tespit edilmesi.

ùekil 3: Bileúen altkümeleri. 1. altküme sarı, 2. altküme mavi, 3. altküme ise mor gösterilmiútir. (OKY: 41.25)

884

(4)

"Bu proje TUBITAK 104E065 ve 109E006 numaralı projeler tarafından desteklenmiútir" ùekil 5-a: E÷ik yazı örne÷i olan bir satır görüntüsü

ùekil 5-b: a’daki satırın düzeltilmiú hali Ortaya çıkan görüntüye, daha sonra dikey izdüúüm bilgisi

uygulanır ve kelime olma olasılı÷ı yüksek olan bölgeler belirlenir. øzdüúüm bilgisi, daha önceden ikileme uygulanmıú olan görüntüdeki siyah görüntü ö÷elerini diklemesine sayarak kaydetmektedir. Daha sonra siyah görüntü ö÷elerinin yo÷unlaútı÷ı bölgeler iúaretlenmektedir. Bu bölgelerin baúlangıç ve bitiú görüntü ö÷eleri kaydedilerek daha sonra incelenmektedir. Ancak bu kelime bölgelerinde, yazı biçiminden kaynaklanan boúluklar bu süreci zorlaútırmaktadır. Bu problemi aúmak amacıyla, yöntemin belli bir karakter boúlu÷una izin vermesi sa÷lanmıútır.

Bu de÷er, Atatürk’ün el yazmaları için ço÷unlukla sabittir. Bir satırdan çıkarılan sonuç ùekil 6’da verilmiútir. Daha sonra kaydedilen kelimelerin görüntünün içinden ayrı ayrı çıkarılabilmesi için kelimeler kırmızı çizgilerle iúaretlenir. Ancak yine yazının e÷ik özelli÷inden dolayı çizilen çizgiler yüzeye göre dik de÷il, yine sabit bir açıya göre e÷ik çizilir. Daha sonra, bu çizgilere göre kelime görüntüden çıkarılmakta ve kaydedilmektedir.

3. Deney ve Sonuçlar 3.1. Satırlara bölütleme

Geliútirdi÷imiz yöntem, Afet ønan’ın kitabından aldı÷ımız 30 sayfada uygulanmıútır [4]. Ayrıútırması kolay olan belgelerle beraber ortak açılı satırları olan ve farklı açılı satırları bulunan belgelerde seçilmiútir. Resimlerde saptanması gereken 365 adet satır varken bunların 321’ini baúarılı úekilde saptayabilen algoritmanın genelde hata yaptı÷ı yerler úunlardır: Bazı satırlarda fazladan satırlar saptanmıútır. Bunun yanında bazı satırlar hiç algılanmıyorken bazen satır olmayan yerlerde satır saptanmıútır. Bu sorunların genel sebebi el yazılarında satır arası boúlukların belgeler arası de÷iúiklik göstermesi oldu÷u görülmüútür. Yakın satırların elenmesi ortalama karakter yüksekli÷ine göre uygulandı÷ı için bu sonuçla karúılaúılmıútır. Algoritmanın genel baúarısını yüzdelerle ifade etmek gerekirse: 30 belgede %87 do÷ru saptama görülürken saptanması gereken satırların % 8’i saptanamamıútır. Fazladan ya da yanlıú saptanan satırların %40’ı bir satıra fazladan satır atanmıútır. Hataların di÷er kısmıysa yazı olmayan kısımlara satır atanmasından kaynaklanmıútır.

3.2. Kelimelere bölütleme

Önerilen yöntemler Atatürk’ün el yazmalarında denenmiútir. Kelime ayırma yönteminde 10 sayfada 100 satır denenmiútir, deneylerde % 80 baúarı oranına ulaúılmıútır. Hatalı olan 20 satırda, genel olarak karúılaúılan sorunlar noktalama iúaretlerinin kelime tanımakta sorun çıkarması, satırların e÷iminin kesin olarak belirlenememesi, veri kümesinde h, g, y gibi harflerin uçlarının uzatılarak satırın veya kelimenin dıúına kayması olmuútur. Karúılaúılan sorunlar, resimlerde kelime yapısını bozmadan noktalama iúareti ve uzatılan harfleri silerek kelime tanımayı kolaylaútıracak bir ön iúlem yöntemi ile giderilebilir.

4. Tartıúma ve Gelecek Çalıúmalar

Geliútirilen yöntemler sonucunda yaklaúık olarak %80 baúarı oranı elde edilmiútir. Satırlara ayırma çalıúmasında Atatürk’ün el yazmaları veri kümesinin yapısal özellikleri sebebiyle dikey izdüúüm bilgisi yoluyla de÷il de Hough dönüúüm yöntemiyle sonuca varılmıútır. Kelimelere bölütlemede yine veri kümesinin yapısal özellikleri incelenerek satırlar izdüúüm bilgisi yöntemi geliútirilerek ayrıútırma yoluyla iúlenmiú, ancak Atatürk’ün el yazmalarının di÷er el yazmalarına göre farklı oluúu sebebiyle yöntemin daha da geliútirilmesi uygun görülmüútür. Belgelerin kelime eúleme seviyesinde analizi için baúarı oranının daha da artması gerekmektedir. Yapılan bu çalıúma ilerideki kelime eúleme çalıúmaları için bir ön çalıúma özelli÷i taúımaktadır. Önerilen yöntemler sadece Atatürk’ün el yazmalarında da de÷il, baúka el yazmalarında da benzer sonuçlar vermesi düúünülmektedir.

5. Kaynakça

[1] P. Hough, Methods and means for recognizing complex patterns, US Patent 3,069,654, 1962.

[2] Kavallieratou E., Stathis S. “Adaptive Binarization of Historical Document Images”, IEEE proceedings of 18th International Conference on Pattern Recognition (ICPR'06), pp. 742-745, 2006.

[3] G. Louloudis, B. Gatos , I. Pratikakis, C. Halatsis, ‘Text line detection in handwritten documents’, Pattern Recognition 41 3758 – 3772, 2008

[4] ønan, Afet. “Medeni bilgiler ve M. Kemal Atatürk'ün el yazıları”, Ankara: Atatürk Kültür, Dil ve Tarih Yüksek Kurumu Atatürk Araútırma Merkezi, 975-16-1276-4, 2000. ùekil 6: Do÷ru olarak çıkarılan kelimelerde izin verilen boúluklar

885

Referanslar

Benzer Belgeler

Atatürk’ü dış politikada gerçekçilik yönüyle ele almaya çalıştığımız için, onun milli politikasının en genel şekliyle değerlendirilmesini

Mustafa Kemal Atatürk’ün hukukçulara h taben yaptığı aşağıdak k konuşma, Atatürk’ün hukukçulara verd ğ önem ve Türk ye Cumhur yet ’n n çağdaş uygarlık

Atatürk çok sade bir kahvaltı alışkanlığı vardı kahvaltıda bir iki dilim ekmek ile bir bardak ayran veya bir kâse yoğurt tüketirdi... Atatürk’ün en sevdiği yemeklerin

Bu inançla Aziz Milletimizin ve Tüm İslam Aleminin Mübarek Mevlid Kandilini tebrik ediyor, Kandilin Müslümanların ve tüm İnsanlığın huzuruna vesile olmasını.

Ön organize edici, yeni bilgiler için bir yapı oluşturan, yeni bilginin çerçevesini çizen ve yeni bilginin öğrencinin daha önce kazanmış olduğu bilgi ile

Verilerin konumunu tahmin etmek için yaygın olarak medyan ve trimean kullanılırken veri kümesinin yayılımını tahmin etmek için basit bir robust tahmin edicisi

İki çarpı bir Altının beş katı Dört kere yedi Birin sekiz katı Beş çarpı dört Üç kere dokuz Üç çarpı beş İkinin beş katı Dört kere yedi Altının iki katı Dört çarpı

Türk milletinin küllerinden yeniden doğmasını sağlayan Gazi Paşa’nın; büyük önem vererek Türk milletine miras bı- raktığı 105 adet özel evrakından biri olan