• Sonuç bulunamadı

Türkiye Türkçesi Derleminin Geliştirilmesi

N/A
N/A
Protected

Academic year: 2022

Share "Türkiye Türkçesi Derleminin Geliştirilmesi"

Copied!
11
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Türkiye Türkçesi Derleminin Geliştirilmesi

E. Adalı C. Tantuğ

adali@itu.edu.tr Tantug@itu.edu.tr

İstanbul Teknik Üniversitesi Bilgisayar Mühendisliği Bölümü

Özetçe

Bir dilin yapısal ve istatistiksel olarak işlenebilmesi için öncelikle o dilin bütün söz varlığının bir araya getirilmesi gerekmektedir. Ancak bu işlemin tam olarak gerçeklenemeyeceği açıktır. Bunun yerine, dili temsil edecek büyüklük ve nitelikte tümcelerden oluşan bir dağarcık oluşturulur. Bir dilin türlü kullanım alanlarından derlenmiş örneklerinin bilgisayar tarafından okunabilecek biçimde bir araya getirilmiş dağarcığa derlem adı verilmektedir.

Geliştirilecek derlem sayesinde, dildeki gelişmeler değerlendirilecek; sözlük hazırlanabilecek; dil bilgisi ve kuramsal dil bilimi inceleme ve araştırmaları yapılabilecek; yazım yanlışları düzeltilebilecek; konuşma tanıma ve konuşma üretme için altyapı oluşturacak; konuşmayı yazıya, yazıyı sese çevirme çalışmalarına destek verilebilecek; tümcelerin anlamları çıkarılabilecek; metinlerin konusunu belirleme ve özetini çıkarma çalışmalarına olanak sağlayacak; soru yanıtlama konusunda destek verecek; diller arası çeviri yapılabilecek ve diğer Türk dilleri için bir altyapı oluşturulacaktır.

Diller zaman içinde değişime uğramaktadır. Derlem, belli zaman kesitleri içinde dildeki gelişmelerin izlenmesi için önemli katkı sağlamaktadır. Hazırlanacak derlem, Türkçedeki gelişmeleri zamana bağlı olarak değerlendirme olanağı sağlayacaktır.

Giriş

Doğal dillerin özelliklerinin ortaya çıkarılması amacıyla farklı araştırmacılar tarafından 1940’lardan beri çalışmalar yapıldığı bilinmektedir. Yakın geçmişte, bilgisayar teknolojisindeki gelişmeler geniş ölçekli veri toplanmasına ve bu verilerin işlenmesine olanak sağladığından doğal dil özelliklerinin belirlenmesi konusunda önemli gelişmeler yaşanmıştır. Bir doğal dilin özelliklerinin ortaya çıkarılması; dil eğitimi, sözlükler hazırlama, dil çözümleme, anlam çıkarma, konuşma tanıma, diller arası çeviri, verileri şifreleme ve çözme, heceleme, görme ve duyma engellilere yardımcı olma gibi konularda temel yapıyı oluşturmaktadır.

Bir dilin yapısal ve istatistiksel olarak işlenebilmesi için öncelikle o dilin bütün söz varlığının bir araya getirilmesi gerekmektedir. Ancak tüm söz varlığının bir araya getirilmesi olanaklı değildir. Bunun yerine, dili temsil edecek büyüklük ve nitelikte tümcelerden oluşan bir dağarcık oluşturulabilir. Bir dilin türlü kullanım alanlarından derlenmiş örneklerinin bilgisayar tarafından okunabilecek biçimde bir araya getirilmiş kümesine derlem adı verilmektedir.

Bu çalışmanın amacı, Türkçe üzerine çalışmalar için TDK da kurulacak olan merkeze öncelikli kaynakların oluşturulmasıdır. Bu amaca yönelik olarak gerçekleştirilecek işlem, öncelikle Türkiye Türkçesine ilişkin söz varlığının bir araya getirilmesi ve sözcüklerin niteliklerine göre etiketlenerek kullanım amaçlarına göre temel derlem, büyük derlem, dengeli derlem ve tümce derlemi oluşturulmasıdır. Ayrıca, bu çalışmalara koşut olarak sayısal kitaplık oluşturulacaktır. Oluşturulacak derlemler, gerek akademik çalışmalar gerek güncel hayatta kullanılabilir durumda olacak, aşağıda sıralanan alanlarda katkı sağlayacaktır:

 Dildeki gelişmeler değerlendirilecek,

 Sözlük hazırlanabilecek,

 Dil bilgisi ve kuramsal dil bilimi inceleme ve araştırmaları yapılabilecek,

 Yazım yanlışları düzeltilebilecek,

 Konuşma tanıma ve konuşma üretme için altyapı oluşturacak,

 Konuşmayı yazıya, yazıyı sese çevirme çalışmalarına destek verilebilecek,

 Tümcelerin anlamları çıkarılabilecek,

 Metinlerin konusunu belirleme, özetini çıkarma çalışmalarına olanak sağlayacak,

 Soru yanıtlama konusunda destek verecek,

(2)

 Diller arası çeviri yapılabilecek,

 Diğer Türk dilleri için bir altyapı oluşturacaktır.

Yaygın kullanılan diller için amaca uygun derlem çalışmaları yapılmış (Brown Corpus) olmasına karşın Türkçe için gerçek anlamda bir derlem bulunmamaktadır. Türkçe için oluşturulacak bir derlem, Türkçenin altyapı ve yazım birliği konusunda eksiklerini kapatacaktır. Ayrıca Türkiye Cumhuriyeti’nin diğer Türk Cumhuriyetlerine öncü olmasını sağlayacaktır.

Diller zaman içinde değişime uğramaktadır. Derlem, belli zaman kesitleri içinde dildeki gelişmelerin izlenmesi için önemli katkı sağlamaktadır. Dil devrimi ile başlayan yenileşme çalışmaları sonucunda Türkçede önemli değişimlerin olduğu bilinmektedir. Hazırlanacak derlem, Türkçedeki gelişmeleri zamana bağlı olarak değerlendirme olanağı sağlayacaktır.

Derlemin içinde yer alan sözler kullanılarak hazırlanacak bir sözlük; hem içerdiği söz sayısı bakımından hem de yine derlem kullanılarak alınacak tanımları destekleyen örnek tümceler açısından zengin bir sözlük olacaktır.

Derlem içinde yer alan örnek sözcük ve tümceler değerlendirilerek dil bilgisi ve kuramsal dil bilimi inceleme ve araştırmaları daha sağlıklı yapılabilecektir.

Türkçe yazım kuralları açısından son derece kurallı ve düzgün bir dildir. Bu açıdan değerlendirdiğimizde yazım yanlışları konusunda derlemin katkısının, diğer dillere oranla fazla olması beklenmemelidir. Ancak derlem kullanılarak yazım yanlışlarının düzeltilmesi sağlanacaktır.

Konuşmayı yazıya ve yazıyı sese çevirme işlemleri, çok değişik alanlarda kullanılmaktadır. Bu alanlar içinde, sesli yanıt dizgeleri, görme engellilere yardım çözümleri anılabilir. Sözcüklerin okunuş kurallarını gösteren bir alt derlemin hazırlanması ile yazıyı sese ve sesi yazıya çevirme işlemlerinde önemli bir yol alınacaktır. Bu alanlarda çalışacak bilim adamları ve mühendisler için önemli bir kaynak oluşturulmuş olacaktır.

Tümcelerin anlamlarının çıkarılması, bilişim çağında önemli bir konu olarak karşımıza çıkmaktadır. Bir tümcenin anlamının çıkarılmasıyla bu anlamı eyleme dönüştürme olanağı kazanılmaktadır. Yazılı veya sözlü ifadeler, bilgisayar veya bilgisayara bağlı aygıtlar tarafından eyleme dönüştürülebilecektir. Geliştirilecek derlem, anlam çıkarma konusunda önemli katkılar sağlayacaktır.

Savunma ve ticari alanda önemli yeri olan şifreleme konusunda, Türkçenin özelliklerine bağlı çözümler kurulabilecektir. Bunun sonucu olarak bu iki alanda katkı sağlayacaktır.

Diller arası çeviri, üzerinde yoğun çalışılan konular arasındadır. Derlem, çeviri konusunda olmazsa olmaz temel bileşenlerden biridir. Proje kapsamında, öncelikle Türk lehçeleri arasında koşut tümcelerden oluşan derlemlerin oluşturulması ile lehçeler arasında çeviri yapma işlemine önemli katkılar sağlanacaktır.

Derlem Çalışmaları

Doğal dillerin özellikleri, genel olarak yapısal ve istatistiksel olmak üzere iki açıdan incelenmektedir (Shannon, 1951). Yapısal incelemeler; sözcük türleri (eylem, ad, ilgeç, sıfat gibi), kök, gövde ve ekler üzerinde yapılmaktadır. İstatistiksel incelemeler ise harf ve sözcükler üzerinde iki ayrı şekilde sürdürülmektedir: Harf incelemelerinde; harflerin n-li (n=1,2,3...) ardalanma sıklıkları, bir harfin diğerine göre durumu gibi harfler arasındaki ilişkiler, ünlü ve ünsüz harfler, sözcük incelemesinde ise bir sözcükteki harf sayısı, sözcükteki harflerin ardalanma durumları, sözcüklerin n-li ardalanma sıklıkları, tümcedeki sözcük dizilimleri incelenmektedir (Jurafsky ve Martin, 2000).

Derlem, bir dilin türlü kullanım alanlarından derlenmiş örneklerinin bilgisayar tarafından okunabilecek biçimde bir araya getirilmiş kümesidir. Derlem farklı bilim adamları tarafından farklı şekillerde tanımlanmaktadır:

 “Derlem, bir dil hakkında varsayım oluşturmak veya dilin dil birimsel tanımına başlamak için kullanılan yazılı metin veya kayıtlı konuşmalardan oluşabilen dil birimsel bilgi topluluğudur.” (Crystal, 1991).

 “Bir ülkenin karakteristik özelliğini ve dilin çeşitliliğini göstermesi için seçilen, doğal olarak oluşan metin dağarcığıdır.” (Sinclair, 1991).

Derlem, Doğal Dil İşleme (DDİ) alanında kullanılabilen ve sözcükler üzerinde işlemlerin hızlı ve doğru şekilde yapılmasını sağlayabilen metinlerden oluşan özel bir sözcük dağarcığı olarak da tanımlanabilmektedir.

Derlem Türleri

Yetkin bir derlem olabildiğince büyük olmalı (çok fazla sayıda sözcük içermeli) ve dilin tüm özelliklerini taşımalıdır. Derlem üç türlü oluşturulabilmektedir:

(3)

Temel Derlem: Dilin özelliklerini gösteren bir derlemdir ve dildeki metinlerden örnekler içermektedir.

Büyük Derlem: Doğal dil işleme alanında kullanılabilmek üzere daha fazla metin içermektedir.

Tümce Derlemi : Tümce içindeki sözcükler arasındaki bağlılıkları gösteren ağaç yapılı bir derlemdir.

Ayrıca derlem “Dengelenmiş” ve “Dengelenmemiş” olmak üzere ikiye ayrılabilmektedir. “Dengelenmemiş”

derlem genelde büyük derlemdir. İçinde çok sayıda metin bulunur ve bu metinlerin türü ve miktarı önemli değildir.

“Dengelenmiş” derlem ise, o dildeki tüm alanlardan, kullanım oranlarına göre ağırlaştırılmış miktarda ancak eşit boylarda metin alınarak oluşturulmaktadır. Hazırlanması zor ancak gerekli olan bir derlem biçimidir.

“Dengelenmemiş” derlem, daha fazla metin içerdiği için daha değişik alanlarda kullanılabilir. Amaç harf analizi yapmak ise küçük boyutta bir derlem yeterlidir (Dalkılıç, 2001); ancak sözcük analizi yapılacak ise çok büyük boyutta derlem gereklidir. Ayrıca bazı sıra dışı sözcükler için dengesiz derlemler daha kullanışlıdır.

Oluşturulan derlem, güncel yazılı dilin bir örneği olabildiği gibi eski kitap veya belgelerden veya sözlü dili temsil eden konuşmalardan da oluşabilir (Church ve Mercer, 1993). Bir dilde, sözlü anlatımda kullanılan sözcük sayısı, yazılı anlatımda kullanılan sözcük sayısından daha az olmakta, ayrıca sözlü anlatımdaki sözcük yapısı, lehçe farklılıkları veya başka nedenlerle yazılı anlatımlara göre değişiklikler gösterebilmektedir (Jurafsky, Martin, 2000).

Yazılı derlemden farklı olarak sözlü derlem, çoğunlukla noktalama işaretleri içermemekle beraber, sözcük olarak işlenip işlenmeyeceği belirsiz olan sözcükler de içerebilmektedir. Sözcükler yarım kalabilmekte, yazılı derlemde olmayan sözlü (hı, hım gibi) ve sözsüz (sessizlik) duraksama ifadeleri bulunabilmektedir. Ayrıca bu ifadelerin her birinin kendisine özgü bir anlamı da bulunmaktadır. Bu anlamların da araştırılması ve bu sözcüklerin o dile özgü ve derlemde yer alabilecek sözcükler olup olmadıkları belirlenmelidir.

Derlemin oluşturulması sırasında bileşik sözcükler, çoğul sözcükler gibi aynı kökten türeyen ancak farklı anlamlar içerebilen sözcüklerin de ne şekilde değerlendirileceği belirlenmelidir. Bileşik sözcüklerin veya çoğul sözcüklerin derlem içinde ayrı sözcükler olarak değerlendirilmesi, derlemi oluşturan sözcük sayısını etkileyecek, çözümleme algoritmalarının çeşitli değişikliklere uğramasını veya tüm olasılıkları da dikkate alan algoritmaların geliştirilmesini de beraberinde getirecektir.

Dağıtım Merkezleri

Bu çalışma sonunda kurulması planlanan ve dil bilimciler ve bilgisayarla doğal dil işleme alanında çalışan araştırmacılara kaynak sağlayacak dağıtım merkezinin dünyada benzerleri bulunmaktadır. Bunlardan en çok bilineni ABD’de kurulmuş olan ve ağırlığı İngilizce olmakla beraber, Çince, Arapça gibi başka diller için de kaynak dağıtım görevini üstlenen Linguistic Data Consortium (LDC) kuruluşudur. ABD’de Pennsylvania Üniversitesi bünyesinde faaliyetlerini sürdürmektedir (http://www.ldc.upenn.edu/).

Linguistic Data Consortium, dil ile ilgili eğitim, araştırma ve teknoloji geliştirme çalışmalarını desteklemek amacıyla elektronik ortamda veri kaynaklarının, araçların ve standartların oluşturulması ve dağıtılması doğrultusunda çalışmaktadır. LCD’nin organizasyon yapısı şöyledir:

 Üniversiteler, firmalar ve kamu araştırma kuruluşları tarafından oluşturulan bir konsorsiyumdur.

 Merkez yapılanması Pennsylvania Üniversitesi bünyesindedir.

 1992’de Advanced Research Projects Agency (ARPA) ve National Science Foundation (NSF) tarafından tahsis edilen kaynaklarla kurulmuştur.

 Program analistleri, yazılım geliştiriciler, araştırıcılar, işaretleyiciler, pazarlama/iletişim uzmanları gibi çeşitli görevlerde 40 tam zamanlı çalışanı bulunmaktadır.

Hazırlanacak Derlemler için Temel İlkeler

Derlemlerin hazırlanması sürecinde, dil, temsil ve zaman kesiti olarak uyulacak temel ilkeler aşağıda verilmektedir:

a)

Tek dil: Hazırlanacak olan derlem sadece Türkiye Türkçesini içerecektir. Ancak, derlemin altyapısı diğer Türk lehçeleri için de kullanılabilir olacaktır.

b)

Yetkin temsil: Türkiye Türkçesi Derlemi, Türkiye Türkçesini temsil edecek metinlerden oluşacaktır.

(4)

c)

Zaman kesiti: Dillerin zaman içinde değişime uğradığı bir gerçektir. Hazırlanacak olan derlem yeni Türk harflerinin kabul tarihi olan 1 Kasım 1928’den günümüze kadar Danışma Kurulu tarafından seçilmiş olan metinleri içerecektir. Zaman kesitleri Danışma Kurulu tarafından ayrıca belirlenecektir.

Çalışmanın Aşamaları

1. Temel derlem oluşturulması 2. Büyük derlem oluşturulması 3. Tümce derleminin oluşturulması 4. Dengeli derlemin oluşturulması 5. Sayısal kitaplığın oluşturulması 6. Kaynak dağıtım merkezinin kurulması

Çalışma aşamalarının tanıtımına geçmeden önce derlem konusunda bazı ön çalışmalar yapılması gerekir. Bu çalışmalar temel ve destekleyici aşamalar olarak adlandırılmış ve kısaca aşağıda anlatılmıştır:

Temel Aşamalar

a. Kullanılacak sözcük kaynaklarının ve bu kaynakların kendi içinde kullanım yoğunluklarının belirlenmesi.

Metinlerin derleme dâhil edilmesi aşamasında farklı ölçütler kullanılmaktadır. Bu ölçütlerden başlıcaları:

i. Metnin içeriği: Bilgilendirme amaçlı basılan yayınlardır. Bilimsel makale, herhangi bir seviyeye uygun, değişik bilim dalları, sanat, edebiyat, olaylar, düşünceler veya inançlar üzerine yazılan kitap veya metinleri içerir.

ii. Metnin oluşturulma aralığı: Bir konu üzerine yazılan kitap veya süreli olarak basılan gazete bu ölçüt için örnektir.

iii. Metnin diğer özellikleri: Derleme dâhil edilen metinlerin sınıflandırılması için metin büyüklüğü, başlangıç ve bitiş noktaları, yazar özellikleri (isim, yaş vs.), metnin anlaşılabilirlik açısından seviyesi (teknik veya edebî terimlerle dolu olması), yazının hedef kitlesi (yaş, cinsiyet vs.) gibi ölçütler kullanılmaktadır.

b. Temel olarak alınıp kullanılabilecek projeleri değerlendirebilmek amacıyla proje elemanlarının bilgilendirilmesi.

Bilgilendirme konuları:

i. Dünya çapında daha önceden yapılmış ve bu alanda başarıya ulaşmış projeler ii. Türkiye çapında daha önceden yapılmış projeler

iii. Çalışmanın yürütüleceği kurum dâhilinde yapılmış projeler

c. Çalışmanın ana bölümlerini oluşturacak alt görevlerin, bu görevlerin süreçlerinin belirlenmesi ve çalışanlarının atanması.

Projenin ana hatlarını oluşturan bu bölümler:

i. Veri tabanı düzenleyicisi

ii. Kaynak olarak kullanılacak metinleri işleyen düzenleyici

iii. Proje sonunda oluşturulacak derlemi kullanıcılar için hazırlayan düzenleyici iv. Gereksinimler doğrultusunda oluşturulacak diğer yazılımlar

olmak üzere sınıflandırılabilmektedir.

Destekleyici Aşamalar

Çalışmanın konusu olmayan ancak projenin geliştirileceği ortamın sağlanması amacıyla gerçekleştirilmesi gereken işlemlerdir. Bunlar:

a. Gerekli teknolojinin sağlanması ve çalışma ortamının kurulumu

b. Etiketleme kurallarının (standartlarının) belirlenmesi: Geliştirilecek etiket yapısının standart hâle getirilmesi; zaman, maliyet, çalışan etkenleri ve projenin tamamlanması sonrası geliştirme ve bakımı ile ilgili konulara olumlu etki edecektir.

(5)

Dengeli Derlem Oluşturulması

Dengeli bir derlem oluşturulması aşağıda sıralanan çalışmaları kapsamaktadır:

Metin Seçimi

Derlem içinde yer alacak metinlerin seçimi, dil konusunda uzman bir kurul tarafından yapılmalıdır. Bu proje kapsamında Danışma Kurulu bu görevi üstlenecektir. Diğer diller için gerçekleştirilmiş derlem çalışmalarında, metin seçiminde kullanılan ölçütler, bilgilendirmek amacıyla Tablo-1’de verilmiştir.

Metin türlerinin dildeki etkinlikleri oransal olarak belirlenmelidir. Örneğin, güncel basında yer alan metinlerin dile olan katkısı, doğal olarak iki kişi arasında yazılmış olan özel mektupların etkisinden çok fazladır.

Tablo-1: Derlem İçinde Bulunması Önerilen Metin Türleri ve Etki Oranları

Metin türü Alt Başlık

Toplam etki oranı ( % )

Basında yer alan yazılar 17

Gazete yazıları Dergi yazıları

Eğitsel yayınlar 36

Bilimsel yayınlar Dinî yayınlar

Beceri ve uğraşı üzerine yayınlar

Güncel bilgi yayınları 7

Bilgilendirme yayınları Meclis tutanakları

Kurumsal (resmî ve özel) duyurular Üniversite tezleri

Kurmaca yazılar 27

Roman Hikâye Polisiye Bilim kurgu Macera

Gerçek yazılar 6

Hatıra Gezi yazıları Özel mektup Deneme

Mizah 3

T o p l a m m e t i n s a y ı s ı

Metin türleri kendi içinde de dağıtılmalıdır. Örneğin, basında yer alan yazılar, haber, yorum, köşe yazısı gibi kümelere ayrılabileceği gibi siyasi, toplumsal ve spor yazıları olarak da kümelenebilmektedir.

Derlem içeriğinde, her türden yazıya, dile etkileri oranında yer vermek gerektiği gerçeğinden hareket edildiğinde Tablo-2’de verilen sonuçlar elde edilmektedir. Aynı tabloda derlem içinde yer alması öngörülen metinlerin sayılarına da yer verilmektedir.

Derlem içinde yer alması öngörülen metinlerin boyları, derlemde yer alması düşünülen sözcük sayısına bağlı olarak hesaplanmaktadır. Örneğin, yaklaşık 10.000.000 sözcükten oluşması hedeflenen “Dengeli Derlem” için metin boyu ortalama 2500 sözcük olmalıdır.

(6)

Tablo-2 Metin türlerinin derleme önerilen katkı oranları (ayrıntılı)

Metin türü Etki oranı

( % )

Metin sayısı Toplam etki oranı ( % )

Basında yer alan yazılar 740 17

Haberler 360

o Siyasi 2 100

o Spor 2 80

o Toplumsal 2 100

o Günlük 1 60

o Mali / Ekonomi 1 40

o Kültürel 1 40

Köşe yazıları 160

o Köşe yazıları 2 80

o Günlük yorumlar 1 40

o Başyazı 1 40

Yorumlar 160

o Tiyatro 1 40

o Kitap 1 40

o Müzik 1 40

o Sanat 1 40

Eğitsel yayınlar 1480 36

Bilimsel yayınlar 1160

o Fen bilimleri 5 220

o Matematik 2 80

o Teknik ve mühendislik 4 160

o Sosyal bilimler 8 340

o Tıp 2 80

o Siyasal bilimler, hukuk 4 160

o Eğitim 4 160

Dinî yayınlar 4 160

Beceri ve uğraşı üzerine yayınlar 3 120

Güncel bilgi yayınları 280 7

Bilgilendirme yayınları 2 80

Meclis tutanakları 2 80

Kurumsal (resmî ve özel) duyurular 2 80

Üniversite tezleri 1 40

Kurmaca yazılar 1140 27

Roman 7 320

Hikâye 5 220

Polisiye 5 200

Bilim kurgu 5 200

Macera 5 200

Gerçek yazılar 240 6

Hatıra 2 80

Gezi yazıları 2 80

Özel mektup 1 40

Deneme 1 40

Mizah 3 120 3

T o p l a m m e t i n s a y ı s ı 4000

Türlere Ait Metin Seçim Yönteminin Belirlenmesi

Temel derlem, daha çok sözcüklerin belirsizliklerinin giderilmesi amacıyla gerçekleştirilecektir. Bu derlemin dengeli olmasına gerek yoktur. Ancak olabildiğince dengeli kurmaya gayret edilmesinde de yarar vardır. Büyük derlemin dengeli bir derlem olarak oluşturulması şu nedenlerle zordur:

 Gerekli metinlerin elektronik ortamda bulunabilmeleri çok zordur. Basılı kaynaklardan yararlanılması, çok ciddi iş gücü dolayısıyla ve bunun sonucu olarak büyük bir bütçe gerektirecektir.

(7)

 Gerekli metinlerin önemli bir kısmı için telif ödemesi gerekecektir. Bu da önemli bir bütçe gerektirecektir.

Yukarıda açıklanan iki nedenle, Büyük derlemin oluşturulmasında, dengeli olmasına olabildiğince özen gösterilecektir.

Dengeli derlem için kullanılacak öneri ilkeler şöyledir:

 Danışma Kurulu tarafından, belirlenen metin türüne uygun olarak yazarlar belirlenecek, bu kişilere ait ve Danışma Kurulu tarafından öngörülen sayıda eser, derleme aktarılmak üzere seçilecektir. Seçilen metin parçası, paragraf başından başlayıp paragraf sonunda tamamlanacaktır. Örnek metin içindeki sözcük sayısı yaklaşık olarak 2500 sözcük biçiminde belirlenmiştir. Seçilen eserin büyüklüğü 2500 sözcüğü aşıyor ise metin içinde rastgele 2500 sözcüklük bir bölüm alınacaktır. Yazarın yazısının boyu 2500 sözcükten az olduğu durumlarda aynı yazarın birden fazla yazısı birleştirilebilir. Dengeli derlemin toplam sözcük sayısı yaklaşık olarak 10.000.000 olacaktır.

Metinlerin Sağlanması ve Telif İşlemleri

Türkçe derlemin hazırlanması sırasında, 5846 sayılı Fikir ve Sanat Eserleri Kanunu uyarınca, seçilen metinlerin yazarlarından izinlerin alınması gerekmektedir. Bu izinlerin alınması için gerekli girişimler, Danışma Kurulu tarafından yapılacak; yasal düzenlemeler için de girişimlerde bulunulacaktır. İzinler yazılı olarak alınacak böylece ileride doğabilecek sıkıntılar önlenmiş olunacaktır.

Dengeli derlemin hazırlanması sırasında, TDK, Millî Eğitim Bakanlığı ve Kültür ve Turizm Bakanlıklarının yayınlarından yararlanılması, telif ödemelerini en aza indirecektir.

Metinlerin Bilgisayar Ortamına Aktarılması

Derlemde yer alacak metinlerin belli bir kısmı elektronik ortamda bulunabileceği gibi belli bir kısmı basılı eserlerden derlenecektir.

 Derlemde yer alacak metinler, elektronik ortamda bulunabiliyor ise, bu metin doğrudan derleme aktarılacaktır.

 Derlemde yer alacak metinler elektronik ortamda değil ise bu metin optik okuyucu aracılığı ile taranarak bilgisayar ortamına aktarılacak ve karakter tanıma işleminden geçirilecektir. Bu tarama ve çevirme işlemlerinin sonunda bazı karakterlerin yanlış çevrileceği bilinen bir gerçektir.

Basılı metinlerin taranarak elektronik ortama aktarılması işlemi hem emek yoğun hem de teknik güçlüklerle dolu bir çalışma gerektirmektedir. Bu nedenle, metinler olabildiğince elektronik ortamdan sağlanmalıdır. Metin bulunabilecek elektronik ortamlardan bazı örnekler aşağıda sıralanmıştır:

 Basılmış kitapların elektronik kopyaları

 Web ortamı

 Resmî gazete

 Meclis tutanakları

 Internet’te yayımlanan gazete ve dergiler

 Elektronik kitaplar

Metinler nasıl sağlanırsa sağlansın, metnin değişik amaçlara yönelik kullanımı sırasında yararlanılmak üzere örnek metne ilişkin aşağıdaki asgari bilgiler de metinle birlikte kayıt altına alınacaktır:

 Metin yazarının adı

 Eserin veya yazının adı

 Eser veya yazının türü

 Yayın tarihi

 Yayın yeri

 Hedeflediği kitle

Taranmış Metinlerin Düzeltilmesi

Taranmış ve karaktere çevrilmiş metindeki, çevirme yanlışları insan tarafından düzeltilecektir. Bu amaçla hazır olan bazı yazılımlar da kullanılacaktır.

(8)

Metinlerin Ölçünlü Biçime Dönüştürülmesi

Elektronik ortamdan ya da taranarak elde edilmiş metinler üzerinde çalışmak ve ölçünlü bir kalıba dönüştürmek gerekir. Bu çalışma genellikle doğal dil üzerinde çalışan bilişimciler için gereklidir. Metin içinde bulunan noktalama işaretleri, kısaltmalar belli kurallara uyularak aynı biçime bir başka deyişle ölçünlü biçime dönüştürülmelidir.

Metinleri ölçünlü biçime dönüştürme insan emeği ile yapılabilecek bir çalışma değildir. Ancak insan katkısız da yapılamaz. Temel derlem çalışması sırasında, metin dağarcığının belli bir kısmı elle ölçünlü biçime dönüştürülecektir. Bu çalışmaya koşut olarak geliştirilecek yazılım, insanın yaptığı düzeltmelerden öğrenerek diğer kısımları otomatik olarak ölçünlü biçime çevirecektir.

Etiketleme Kurallarının Belirlenmesi

Derlemde bulunacak sözcüklerin çözümleme sonuçlarını gösterebilmek için bir standart oluşturulmasında yarar vardır. Böyle bir standardın Türkçe için olmadığı bilinmektedir. Standart etiketleme kurallarının oluşturulmasının daha sonraki çalışmalar için çok önemli olacağı açıktır.

Biçim Birimsel Çözümleyici Yazılımı

Sözcüklerin biçim birimsel çözümlemelerinin yapılabilmesi için bir yazılım gerekmektedir. Bu konuda, bazı araştırmacıların başarılı ürünleri bulunmaktadır. Mevcut biçim birimsel çözümleyicilerden biri bu çalışma kapsamında kullanılacaktır.

Metinlerin Etiketlenmesi

On milyon sözcükten oluşan temel derlemdeki sözcüklerin etiketlenmesinde aşağıda açıklanan yöntem kullanılacaktır:

1. 10.000.000 sözcükten oluşan bir dağarcık hazırlanacaktır. Bu dağarcıkta yer alacak metinler olabildiğince dengeli seçilecektir. Projenin süresini kısaltmak açısından, metinlerin tümü elektronik ortamdan sağlanacaktır.

2. 10.000.000 sözcükten oluşan dağarcık ölçünlü biçime dönüştürülecektir.

3. 100.000 sözcüklük bir parça bu dağarcıktan alınacak ve elle etiketlenmeye başlanacaktır.

Sözcükleri etiketleme işlemi aslında, biçim birimsel çözümleyicinin ürettiği sonuçlar içinde doğru olanın insan tarafından işaretlenmesi sürecidir. Bir başka deyişle biçim birimsel belirsizliklerin giderilmesi çalışmasıdır. Elle etiketleme işlemi için bir program geliştirilecektir.

Şekil-2’de durum gösterilmiştir.

Şekil-2: Sözcüklerin elle etiketlenmesi süreci

4. Elle işaretlenmiş 100.000 sözcüklü derlemi öğrenme kümesi olarak kullanan bir yazılım ile 200.000 sözcüklük kümenin etiketlenmesine geçilecektir. 200.000 sözcük içeren derlemin etiketlenmesi sırasında, otomatik etiketleme yazılımının yetenekleri sınanacak, eksiklikleri giderilecek ve daha yetkin hâle getirilecektir.

5. 200.000 sözcük üzerinde otomatik etiketleme yazılı ve insan destekli çalışmalar tamamlandığında 500.000 sözcüklük küme üzerinde aynı işlemler yapılacak ve yazılımın iyileştirilmesine devam edilecektir.

Yukarıda anlatılan yöntem ile 10.000.000 sözcük içeren temel derlemin etiketlenmesi tamamlanmış olacaktır.

Biçimbirimsel

Çözümleyici Etiketleme

yazılımı Çözümler

...

...

Etiketlenmiş sözcük Tümce

girişi

(9)

Otomatik Etiketleme Yazılımı

Metinlerin elle etiketlenmesi sırasında, bu işi kendiliğinden yapacak bir yazılım çalışma kapsamında hazırlanacaktır.

Büyük Derlemin Oluşturulması

100 milyon sözcükten oluşacak olan büyük derlemin oluşturulması aşağıda sıralanan çalışmaları kapsamaktadır:

Metin Seçimi

Derlem içinde yer alacak metinler olabildiğince dengeli biçimde seçilecektir.

Büyük derlem için sözcük sayısı olarak 100.000.000 hedeflenmektedir. Bu sayıya erişmek için metin sayısı ve bir metindeki sözcük sayısının arttırılması gerekir. Metin sayıları 10 kat arttırıldığında, büyük derlemin sözcük sayısı kolayca 100.000.000’a ulaşacaktır.

Metinlerin Sağlanması ve Telif İşlemleri

Büyük derlemin hazırlanması sırasında, gerekli izinler alınmaya çalışılacaktır.

Büyük derlemin hazırlanması sırasında, öncelikle TDK, Milli Eğitim Bakanlığı ve Kültür ve Turizm Bakanlıklarının yayınlarından yararlanılması düşünülmekte ve olabildiğince telif ödemelerinin azaltılmasına çalışılacaktır.

Metinlerin Bilgisayar Ortamına Aktarılması

Büyük derlemde yer alacak metinlerin bir kısmı elektronik ortamda bulunabileceği gibi belli bir kısmı basılı eserlerden derlenecektir. Projenin giderlerini azaltmak amacıyla, elektronik ortamda bulunan metinlerin oranı yüksek tutulacaktır.

 Derlemde yer alacak metinler, elektronik ortamda bulunabiliyor ise bu metin doğrudan derleme aktarılacaktır.

 Derlemde yer alacak metinler elektronik ortamda değil ise bu metin optik okuyucu aracılığı ile taranarak bilgisayar ortamına aktarılacak ve karakter tanıma işleminden geçirilecektir. Bu tarama ve çevirme işlemlerinin sonunda bazı karakterlerin yanlış çevrileceği bilinen bir gerçektir.

Metnin değişik amaçlara yönelik kullanımı sırasında yararlanılmak üzere örnek metne ilişkin aşağıdaki asgari bilgiler de metinle birlikte kayıt altına alınacaktır:

 Metin yazarının adı

 Eserin veya yazının adı

 Eser veya yazının türü

 Yayın tarihi

 Yayın yeri

 Hedeflediği kitle

Metinlerin Yazılım Aracılığı ile Düzeltilmesi

Taranmış tüm metinlerdeki tarama yanlışları, mevcut yazılımlar kullanılarak düzeltilecektir.

Metinlerin Ölçünlü Biçime Dönüştürülmesi

Elektronik ortamdan ya da taranarak elde edilmiş metinler üzerinde çalışmak ve ölçünlü bir kalıba dönüştürmek gerekir. Bu çalışma genellikle doğal dil üzerinde çalışan bilişimciler için gereklidir. Metin içinde bulunan noktalama işaretleri, kısaltmalar belli kurallara uyularak aynı biçime bir başka deyişle ölçünlü biçime dönüştürülmelidir.

Metinleri ölçünlü biçime dönüştürme insan emeği ile yapılabilecek bir çalışma değildir. Ancak insan katkısız da yapılamaz. Temel derlem çalışması sırasında, metin dağarcığının belli bir kısmı elle ölçünlü biçime dönüştürülecektir. Bu çalışmaya koşut olarak geliştirilecek yazılım, insanın yaptığı düzeltmelerden öğrenerek diğer kısımları otomatik olarak ölçünlü biçime çevirecektir.

Metinlerin Etiketlenmesi

Temel derlem çalışmaları sırasında geliştirilen otomatik etiketleme yazılımı kullanılarak 100.000.000 sözcük içeren büyük derlemdeki sözcükler etiketlenecektir.

(10)

Tümce Derleminin Oluşturulması

50.000 tümceden oluşan ağaç yapılı tümce derleminin oluşturulması çalışması aşağıda sıralanan kısımlardan oluşmaktadır:

Etiketleme Kurallarının Belirlenmesi

Tümce temelli derlem için yapılması gereken ilk çalışma, tümcenin bileşenlerinin nasıl etiketleneceğinin belirlenmesi işlemidir. Bu kurallar Danışma Kurulu tarafından belirlenecektir.

Örnek Metinlerin Elle Etiketlenmesi

Tümce derlemindeki tüm tümceler, uzman kişiler tarafından işaretlenecektir. İşaretleme sürecinde bilgisayar desteğinden yararlanılacaktır.

Etiketleme Yazılımı Hazırlanması

Tümce bileşenlerinin işaretlenmesi amacıyla bir yazılım hazırlanacaktır.

Tümce Derlemi için Etiketleme Çalışması

Büyük derlemde yer alan tümcelerin etiketlenmesi amacıyla bir yazılım geliştirilecektir. Bu yazılım kullanılarak 50.000 tümcelik derlem oluşturulacaktır.

Sayısal Kitaplığın Oluşturulması

500.000 sayfa metinden oluşan sayısal kitaplığın oluşturulması çalışması aşağıda sıralanan kısımlardan oluşmaktadır:

Metin Seçimi

Sayısal kitaplık içinde yer alacak metinlerin seçimi Danışma Kurulu tarafından yapılacaktır.

Sayısal kitaplık içinde yer alacak sayfa sayısı 500.000 olarak hedeflenmektedir. Bu yaklaşık 2.500 kitap ya da 100.000.000 sözcüğe karşılık gelmektedir.

Metinlerin Sağlanması ve Telif İşlemleri

Gerekli izinler alınacaktır. Sayısal kitaplığın hazırlanması sırasında, öncelikle TDK, Millî Eğitim Bakanlığı ve Kültür ve Turizm Bakanlıklarının yayınlarından yararlanılması düşünülmektedir.

Metinlerin Bilgisayar Ortamına Aktarılması

Sayısal kitaplıkta yer alacak metinlerin belli bir kısmı elektronik ortamda bulunabileceği gibi belli bir kısmı basılı eserlerden derlenecektir. Basılı metinlerin taranarak elektronik ortama aktarılmasının yüksek maliyet getireceği bilindiğinden olabildiğince elektronik ortamda bulunan metinlerden yararlanılacaktır

 Sayısal kitaplıkta yer alacak metinler, elektronik ortamda bulunabiliyor ise bu metin doğrudan derleme aktarılacaktır.

 Sayısal kitaplıkta yer alacak metinler elektronik ortamda değil ise bu metin optik okuyucu aracılığı ile taranarak bilgisayar ortamına aktarılacak ve karakter tanıma işleminden geçirilecektir. Bu tarama ve çevirme işlemlerinin sonunda bazı karakterlerin yanlış çevrileceği bilinen bir gerçektir.

Metnin değişik amaçlara yönelik kullanımı sırasında yararlanılmak üzere örnek metne ilişkin aşağıdaki asgari bilgiler de metinle birlikte kayıt altına alınacaktır:

 Metin yazarının adı

 Eserin veya yazının adı

 Eser veya yazının türü

 Yayın tarihi

 Yayın yeri

 Hedeflediği kitle

Metinlerin Yazılım Aracılığı ile Düzeltilmesi

Taranmış tüm metinlerdeki tarama yanlışları, mevcut yazılımlar aracılığı ile düzeltilecektir.

(11)

Metinlerin Sorgulanması

Değişik dil bilim çalışmaları için gerekli olan temel sorgulama yazılımları hazırlanacaktır. Bu çalışma sonunda elde edilen sorgulama yazılımı, araştırmacıların kullanımına sunulacaktır.

Sonuç

Bu çalışma kapsamında aşağıdaki hedeflere ulaşılmak istenmektedir:

1. Türk dili için bir kaynak ve araç oluşturulması: Bu bağlamda, ilk aşamada şu üç derlemin oluşturulması

a. Temel Derlem b. Büyük Derlem c. Tümce Derlemi

2. Bu çalışmaya koşut olarak

a. Sayısal kitaplığın hazırlanması ve

3. Hazırlanan kaynak ve araçları TDK bünyesinde kurulacak ve işletilecek olan dağıtım merkezine vasıtasıyla araştırmacıların kullanımına sunmaktır.

Kaynaklar

[1] BNC: “What is BNC”. http://www.natcorp.ox.ac.uk, (2005)

[2] Burnard, L. TGCW27, “BNC acceptance procedures - Draft OUCS proposals”. BNC Working Paper.

March 1992.

[3] Burnard, L,. “TGCW30, Corpus Document Interchange Format, version 1.2”, BNC working paper.

September 1992

[4] Choi, S.W. “Some Statistical Properties and Zipf’s Law in Korean Text Corpus”. Journal of Quantitative Linguistics, 7:1, pp. 19-30. (2000).

[5] Church, K. & Gale, W. “Probability Scoring for Spelling Correction”. Statistics and Computing, pp.93- 103. (1991).

[6] Church, K. & Mercer, R. “Introduction to the Special Issue on Computational Linguistics Using Large Corpora.” Computational Linguistics, 19:1, pp. 1-24. (1993).

[7] Crystal,D. “A Dictionary of Linguistics and Phonetics”, Blackwell, 3rd Edition. (1991). Çebi, Y., Dalkılıç, G. “Turkish Word N-gram Analyzing Algorithms for a Large Scale Turkish Corpus-Turco,”

Proc. of the International Conference on Information Technology: Coding and Computing (ITCC’04), IEEE, Las Vegas, Vol 2, pp.236-240, April 2004. (2004).

[8] Goldfarb, Charles. “The SGML handbook”, Oxford University Press. 1990.

[9] Griswold, R. E., Griswold, M. T. “The Icon Programming Language”. Prentice Hall, second edition, 1990

[10] Jurafsky, D. & Martin, J.H. “Speech and Language Processing”, Prentice Hall, pp. 193-199. (2000).

[11] Kukich K. “Technique for automatically correcting words in text”. Periodical Issue Article of ACM Press, pp.377-439. (1992).

[12] Nadas, A. “Estimation of probabilities in the language model of the IBM speech recognition system”.

IEEE Transactions on Acoustics, Speech, and Signal Processing, 32:4, pp. 859-861, (1984).

[13] Shannon C.E.: “A Mathematical Theory of Communication”, The Bell System Technical Journal, 27:379-423, 623-656 pp. (1948)

[14] Shannon, C.E.“Prediction and Entropy of Printed English”.The Bell System Technical Journal, 30:1,pp. 50-64. (1951).

[15] Sinclair,J. “Corpus Concordance, Collocation”. OUP. (1991).

[16] Sperberg-McQueen, C.M., Burnard, L (eds.). TEI P2, “Recommendations of the Text Encoding Initiative.” Chicago & Oxford. 1992.

Referanslar

Benzer Belgeler

«A  Nemzeti  Színházat  először  gróf  Széchenyi  István  álmodta  meg  a  Duna  partjára. Pompázatos 

Ahmet İhsan Tokgöz un 1888-1914 dönemini kapsayan anılan, Tür­ kiye’de yayıncılığın ve dergiciliğin tarihi açısından olduğu gibi, Os­ manlI'nın bu son

Genel Dağılımı: A.B.D., Almanya, Andorra, Arjantin, Avustralya, Belçika, Brezilya Bulgaristan, Cezayir, Çek Cumhuriyeti, Çin Halk Cumhuriyeti, Fas, Finlandiya, Fransa,

As a conclusion, for appropiately short values of the time variable, the spatial decay of end effects in the wave equation problem is faster than that for the

1 orta boy soğan (ince doğranmış) 1/4 bardak su 1/2 bardak zeytinyağı 50 gr çamfıstığı 50 gr kuşüzümü 1 yemek kaşığı şeker, karabiber, tuz 1 çay

Almanya’da yaşayan Türk kökenli göçmenlerin Türkçe konuşmalarında; fonetik, morfosentaktik ve sözcük bilgisi açısından Türkiye Türkçesinden farklı kullanımlar

1.GRUP SESLER ELLE OKUMA YAZMA VE METİN ÇALIŞMASI.. www.leventyagmuroglu.com

Canlı ve cansız bütün varlıkları, duygu, düşünce ve tasarımları, durumları ve bunların birbirleriyle olan ilgilerini karşılayan sözcükler “ad (isim)”; adların