• Sonuç bulunamadı

BÖLÜM 1: YABANCILARA TÜRKÇE ÖĞRETİMİ

1.4. Yabancılara Türkçe Öğretiminde Söz Varlığının Tespitinde Derlem Dilbilimi

Dilin bilimsel incelemesi olarak tanımlanan (Altun, 2018) dilbiliminin kapsamında yer alan Doğal Dil İşleme (DDİ) olarak da adlandırılan bilgisayarlı dilbilim alanı, derlem adı verilen dil örnekçelerini temel alarak, uygulamalı dilbilime (applied linguistics) koşut bir şekilde dil biliminin çeşitli disiplinlerde yoğunlukla kullanmaktadır (Mc Enery, ve ark., 2006: 80-122). Günümüz dil çalışmalarında, teknolojinin gelişmesine paralel olarak, bilgisayar kullanımı geniş dil verilerinin yazılı veya sözlü olarak örnekleme alınmasına olanak sağlamaktadır. Dil verilerinin inceleme konularına göre derlenmesi, düzenlenmesi ve sınıflandırılması işlemi, derlem dilbilimin araştırma alanına girmektedir.

İngilizcede dile ilişkin veri tabanı anlamında kullanılan “corpus” sözcüğü, aslen Latince kökenli olup “vücut” (body) anlamına gelmektedir. Türkçede aynı kavram için “veri tabanı” ya da “derlem” karşılıklarının kullanıldığı görülmektedir (Kolukısa, 2013: 43). Alanyazında derlem terimi için bütünce terimi de kullanılmaktadır. Tahiroğlu, dilbilim kökenli araştırmacıların daha çok bütünce terimini, bilgisayar bilimi kökenli araştırmacıların ise derlem terimini tercih ettiklerini belirtmektedir (Tahiroğlu, 2008:4043).

Bir derlem oluşturulurken üzerinde karar verilmesi gereken en önemli nokta söz konusu derlemin tasarımıdır (Sampson vd. 2005: 174). Derlem tasarımı temel olarak beş ilkeden oluşur: Derlemin temsil gücü, denge, örneklem, zaman içindeki değişim ve derlem metinlerini belirleme (Mc Enery ve arkadaşları, 2006).

Yoshino (2000)’e göre, dilbilimsel araştırmalara yönelik ilk veri tabanı çocukların dil algısını araştırmak amacıyla 1870’li yıllarda oluşturulmuştur (Yoshino, 2000:102). 1960’lı yıllarda W. N. Franchis ve H. Kucera’nın Amerika’daki Brown Üniversitesi’nde oluşturdukları “Brown Veri Tabanı (Brown Corpus)”, bu çalışmalar arasında önemli bir yere sahiptir (Yoshino, 2000:103).

Alanyazında farklı amaçları karşılayan derlemler mevcuttur. Bunların başlıcaları şöyle sıralanabilir: Genel derlemler (general corpora); özel alan derlemleri (specialized

corpora); yazılı derlemler (written corpora); sözlü derlemler (spoken corpora); eş süremli

derlemler (synchronic corpora); art süremli derlemler (diachronic veya historical

corpora); öğrenici derlemleri (learner corpora) ve izlem derlemleri (monitor corpora) (Mc Enery vd. 2006: 59-70). Yukarıda sayılan derlem türlerinden olan genel derlemlere örnek olarak British National Corpus (BNC), American National Corpus (ANC) ve Türkçe Ulusal Derlemi (TUD) gösterilebilir (Özkan, 2013: 435). Genel derlemlerin 1990’lı yıllardan itibaren oluşturulmaya başlandığı, 2000’li yıllardan itibaren ise belirli amaca yönelik özel alan derlemlerinin oluşturulduğu görülmektedir. Özel derlemler, bir dilin belli bir kullanım alanındaki bir kesiti hakkında çıkarımlarda bulunmak amacıyla derlem dilbilim ilke ve yöntemlerine bağlı kalınarak oluşturulan, sahip oldukları sözcükbirim sayısı bakımından genel derlemlere göre sınırlı olan derlemlerdir (Tüfekçioğlu, 2019: 215-219).

Derlem çalışmalarında dikkate alınması gereken en önemli husus, derlemin sahip olduğu dil verilerinin niteliği ve genişliğidir. Derlem çalışmalarında oluşturulan veri tabanındaki sözcükbirimlerin niceliği, derlemin derinliğini ifade etmektedir. Derlemin sahip olduğu sözcükbirim sayısı, o derlemin kullanıldığı araştırmalardan elde edilecek sonuçların geçerliliğini sağlamaktadır.

Derlemler zaman aralığı seçmeleri nedeniyle arşiv gibidirler. Ancak, derlemler arşivlerden farklı olarak denge ve katmanlı örnekleme yoluyla oluşturulmazlar ve doğal iletişim metinleri içermeyebilirler. Sadece belli konu ve sözcük örneklerinden oluşmadıkları için derlemler, dizin veya sözcük listeleri değildir. Metin ve konuşmalar veri bilgileriyle birlikte dilbilimsel çözümleme içerdiği için derlem ham bir veri tabanı değildir. İnternet tarayıcıları aracıyla www’den edinilen metin örneklemleri her ne kadar yeni iletişim ortamları, yeni sözcükler vb. dil kullanımları hakkında bilgi sağlasalar da aynı nedenle derlem olarak kabul edilmez (Ruhi vd.: 264).

Bütün bilimsel araştırmalarda olduğu gibi, derlem araştırmalarının da etik kuralları gözeten uygulamaları bulunmaktadır. Ancak elektronik derlemlerin oluşturduğu veriler, belli kullanım kuralları çerçevesinde geniş araştırma topluluklarınca paylaşıldıkları için

korunması konuları başlı başına bir araştırma alanı oluşturmaktadır. Derlem oluşturma ve derlem araştırması yapmak, etik kurallara uyulmasını gerektirmektedir.

Türkçe ile ilgili derlem oluşturma çalışmalarının bugün itibarıyla ivme kazandığı söylenebilir. Ancak mevcut derlemler, araştırmacıların genel ya da özel amaçlarına hizmet etmekte yetersiz kalmaktadır (Özkan, 2020:9).

Türkçede sözlü derlem çalışmaları başlangıç aşamasında olmakla birlikte, yazılı Türkçenin ilk derlemi olan 2 milyon sözcük hacmindeki ODTÜ Türkçe Derlem’den (Say vd., 2002) söz edilebilir. Ayrıca, ODTÜ Sözlü Türkçe derlemi, Sözlü Türkçenin derlenmesi bakımından da önem arz etmektedir (https:// std.metu.edu.tr/). ODTÜ’nün çalışmasından on yıl sonra 48 milyon hacmindeki Türkçe Ulusal Derlemi (Aksan vd., 2012) hazırlanmış ve derlemin tanıtım sürümü kullanıcıların erişimine açılmıştır. Araştırmacılığı Aksan vd. tarafından yapılan 50 milyon sözcükbirimlik Türkçe Ulusal Derlemi (https://www.tnc.org.tr/tr/) gerek sahip olduğu sözcükbirim genişliği gerek sözlü dile ait birimleri de içermesi bakımından önemli veriler sağlamaktadır. Bununla birlikte, Yeşim Aksan vd. tarafından Frequency Dictionary of Turkish Core Vocabulary for Learners (FDT) (2017; Aksan, Y., Aksan, M., Mersinli, Ü., Demirhan, U. U. (2017). A Frequency dictionary of Turkish core vocabulary for learners. London and New York: Routledge Pub.) başlıklı sözlük oluşturulmuştur. Söz konusu sözlük TUD’a göre Türkçedeki en sık 5000 sözcüğü içermektedir.

Derlemlerle ilgili bir başka önemli çalışma da, Cumhuriyet Dönemi Türkçesinin örneklendiği 1923-2006 yılları arasını kapsayan 12 milyon hacimli Türkçe Derlem-1’dir (Özkan, 2011). Bunların dışında web ortamından veri toplamayı mümkün kılan araçlar sayesinde geliştirilen denge ve temsil gücü açısından sorgulanabilir olmakla birlikte muazzam bir hacme ulaşan derlemler de vardır. Türkçe için webden derlenen malzeme ile hazırlanan bu tür derlemlere yaklaşık 500 milyon hacmindeki TS Corpus (2012) örnek verilebilir. Bunun dışında araştırmacıların kendi çalışmaları için hazırlamış olduğu, genel kullanıma açık olmayan derlemler de mevcuttur (Çalışkan, 2018: 19).

TUD-Alt Derlemin içerdiği metin örneklerinin dağılımları tablo halinde şöyle gösterilebilir: konuşmalar, söyleşi programları, haberler, röportaj ve konferans sunumlarından toplanmıştır (Aksan, Demirhan, 2014:6).

Tablo 1: TUD-Alt Derlem Veri Tabanının Yayın Ortamına Göre Dağılımı

Medya Oran Toplam sözcük sayısı

Kitaplar % 46,10 3.667.944

Süreli Yayınlar % 37,10 2.951.859

Bilimsel Dergiler % 14,90 1.185.466

Gazeteler % 11,10 883.176

Dergiler % 11,10 883.217

Diğer Basılmış Metinler % 6,09 484.550

Basılmamış Yazılı Metinler % 2,50 198.912

Sözlü Metinler % 8,21 653.228

Bütün bu çalışmalara rağmen, bugün itibarıyla oluşturulan derlemlerde Türkçenin ağızları temsil edilse de söz konusu kaynaklar birer ağız derlemleri değildir. Bu bakımlardan konuşma Türkçesinin hem ölçünlü hem de ağız özellikleri bakımından karşılaştırmalı olarak incelenebilmesi için, farklı derlemlerin tasarlanarak yayınlanması gerekmektedir. Türkiye’de Türkoloji geleneğinde ağız araştırmaları için veri toplanmaktadır; ancak söz konusu veriler dil araştırmaları yapan herkese sunulamamaktadır. Öte yandan, söylem çözümlemesi ve edim bilimi araştırmaları için konuşma verilerinin toplama koşullarının el verdiği ölçüde derlem formatlarında yayınlanması, Türkçe araştırmalarında kullanılan veri setlerini zenginleştirecektir.

Sonuç olarak, 1980’lerden itibaren bilgisayar bilimlerinde gerek donanım gerekse yazılım alanında kaydedilen gelişmeler derlem adını verdiğimiz dijital olarak işlenebilir metin havuzlarının oluşturulmasını ve bunlar üzerinde sözcük sıklığı, eş dizimlilik, örüntü başta olmak üzere pek çok dilbilimsel inceleme yapmayı mümkün hâle getirmiştir. Bu doğrultuda başta sözcük bilimi olmak üzere dilbilimin pek çok dalında derleme dayalı araştırmalar ağırlık kazanmıştır. Bugün bu türden araştırmaların beşerî ve sosyal bilimlerin birçok alanında kullanıldığı görülmektedir. Özellikle edebiyat sahasında stilistik incelemelere temel olmak üzere derlemlerden yararlanılması dikkat çekici keşiflere kapı aralamaktadır. Bunun başlıca sebebi sayısal verilerin âdeta kazı yapılması

etmedeki rolü olsa gerektir. Böylece araştırmacı verinin peşinden gittiğinde daha önce fark etmediği noktaları kavrama şansı bulmaktadır. Ayrıca sayısal veriler, okuma sürecinde sezgi düzeyinde kalmış birtakım noktaların da somutlaştırılarak birer tespite dönüşmesini sağlamaktadır (Çalışkan, 2017: 1). Derlem dilbiliminde yapılan araştırmalar öğretmenler için ders planlamasında da kullanılmaktadır. Örneğin, derlem dilbilimi çalışmalarından elde edilen bilgiler, araştırmacılara öğrencilerin sınıf dışında en sık duydukları sözcükler ya da okudukları metinlerde en sık karşılaştıkları dilbilgisel özelliklerle ilgili ışık tutacaktır.

1.4.1. Derlem Çalışmalarında Yöntem ve Veri Toplama Araçları Yardımıyla Söz Varlığının Tespiti

Derlem çalışmalarının öncüleri Henry Kucera ve Nelson Francis’tir. Amerika’da Brown Üniversitesinde 1967’de oluşturulan derlem Brown Derlemi olarak adlandırılmış, bu derlem üzerine Amerikan İngilizcesinin ayrıntılı istatiksel çözümlemeleri gerçekleştirilmiştir. Derlemler, dil öğretiminde, öğreticinin ders ve değerlendirme materyali hazırlaması için veri sunar ve öğrenicinin de doğrudan dil malzemesi ile karşılaşmasına olanak tanır (Çelik, Keser, 2010: 158-160). Günümüzde, gerek anadili, gerekse yabancı dil öğretiminde, ele alınan dillerde en çok geçen, en gerekli sözcüklerin saptanmasına yönelen sözcük sıklık sayımları yapılmakta, böylece elde edilen temel sözvarlığıyla bu öğretim alanlarında daha kısa yoldan, daha çabuk ve daha başarılı sonuca varma amaçlanmaktadır.

Mc Carten (2007) bir derlemin özellikle belirli konularda yeterli olması gerektiğine değinmiş ve bu ölçütleri altı başlık altında toplamıştır:

1. Sıklık,

2. Sözlü ve yazılı dildeki farklılıklar, 3. Kullanım bağlamları,

4. Eş dizimlilik, 5. Dilbilgisi kalıpları,

Derlemler, ana dili olarak konuşurları tarafından üretilmiş metinlerden oluşturulabildikleri gibi ikinci dil öğrenicileri tarafından üretilmiş metinlerle de oluşturulabilirler. İkinci gruba “öğrenci derlemi” adı verilmektedir (Çelik, Keser, 2010: 163-155). Stevens (1995), pedagojik amaçlarla kullanılacak öğrenci derlemine yönelik bir yazılımda bulunması gereken nitelikleri şöyle sıralamaktadır: “Hızlı çalışmalı, çabuk yüklenmeli, herhangi bir aşamada durdurulabilmeli, çok sözcüklü birimleri aramaya imkân vermeli, aramayı kolaylaştıracak pratik öneriler sunabilmeli. Bu özelliklerin tamamı AntConc 3.2.4’te mevcuttur. Aynı zamanda ücretsiz olan bu yazılım, kurulum da gerektirmediği için kullanıcı dostu bir programdır. AntConc 3.2.4 ile uyumluluk, eşdizimlilik, çok sözcüklü birim analizi gibi pek çok uygulama yapılabilmektedir (Çalışkan, 2018:20).