BÖLÜM 1: YABANCILARA TÜRKÇE ÖĞRETİMİ
1.4. Yabancılara Türkçe Öğretiminde Söz Varlığının Tespitinde Derlem Dilbilimi
Dilin bilimsel incelemesi olarak tanımlanan (Altun, 2018) dilbiliminin kapsamında yer alan Doğal Dil İşleme (DDİ) olarak da adlandırılan bilgisayarlı dilbilim alanı, derlem adı verilen dil örnekçelerini temel alarak, uygulamalı dilbilime (applied linguistics) koşut bir şekilde dil biliminin çeşitli disiplinlerde yoğunlukla kullanmaktadır (Mc Enery, ve ark., 2006: 80-122). Günümüz dil çalışmalarında, teknolojinin gelişmesine paralel olarak, bilgisayar kullanımı geniş dil verilerinin yazılı veya sözlü olarak örnekleme alınmasına olanak sağlamaktadır. Dil verilerinin inceleme konularına göre derlenmesi, düzenlenmesi ve sınıflandırılması işlemi, derlem dilbilimin araştırma alanına girmektedir.
İngilizcede dile ilişkin veri tabanı anlamında kullanılan “corpus” sözcüğü, aslen Latince kökenli olup “vücut” (body) anlamına gelmektedir. Türkçede aynı kavram için “veri tabanı” ya da “derlem” karşılıklarının kullanıldığı görülmektedir (Kolukısa, 2013: 43). Alanyazında derlem terimi için bütünce terimi de kullanılmaktadır. Tahiroğlu, dilbilim kökenli araştırmacıların daha çok bütünce terimini, bilgisayar bilimi kökenli araştırmacıların ise derlem terimini tercih ettiklerini belirtmektedir (Tahiroğlu, 2008:4043).
Bir derlem oluşturulurken üzerinde karar verilmesi gereken en önemli nokta söz konusu derlemin tasarımıdır (Sampson vd. 2005: 174). Derlem tasarımı temel olarak beş ilkeden oluşur: Derlemin temsil gücü, denge, örneklem, zaman içindeki değişim ve derlem metinlerini belirleme (Mc Enery ve arkadaşları, 2006).
Yoshino (2000)’e göre, dilbilimsel araştırmalara yönelik ilk veri tabanı çocukların dil algısını araştırmak amacıyla 1870’li yıllarda oluşturulmuştur (Yoshino, 2000:102). 1960’lı yıllarda W. N. Franchis ve H. Kucera’nın Amerika’daki Brown Üniversitesi’nde oluşturdukları “Brown Veri Tabanı (Brown Corpus)”, bu çalışmalar arasında önemli bir yere sahiptir (Yoshino, 2000:103).
Alanyazında farklı amaçları karşılayan derlemler mevcuttur. Bunların başlıcaları şöyle sıralanabilir: Genel derlemler (general corpora); özel alan derlemleri (specialized
corpora); yazılı derlemler (written corpora); sözlü derlemler (spoken corpora); eş süremli
derlemler (synchronic corpora); art süremli derlemler (diachronic veya historical
corpora); öğrenici derlemleri (learner corpora) ve izlem derlemleri (monitor corpora) (Mc Enery vd. 2006: 59-70). Yukarıda sayılan derlem türlerinden olan genel derlemlere örnek olarak British National Corpus (BNC), American National Corpus (ANC) ve Türkçe Ulusal Derlemi (TUD) gösterilebilir (Özkan, 2013: 435). Genel derlemlerin 1990’lı yıllardan itibaren oluşturulmaya başlandığı, 2000’li yıllardan itibaren ise belirli amaca yönelik özel alan derlemlerinin oluşturulduğu görülmektedir. Özel derlemler, bir dilin belli bir kullanım alanındaki bir kesiti hakkında çıkarımlarda bulunmak amacıyla derlem dilbilim ilke ve yöntemlerine bağlı kalınarak oluşturulan, sahip oldukları sözcükbirim sayısı bakımından genel derlemlere göre sınırlı olan derlemlerdir (Tüfekçioğlu, 2019: 215-219).
Derlem çalışmalarında dikkate alınması gereken en önemli husus, derlemin sahip olduğu dil verilerinin niteliği ve genişliğidir. Derlem çalışmalarında oluşturulan veri tabanındaki sözcükbirimlerin niceliği, derlemin derinliğini ifade etmektedir. Derlemin sahip olduğu sözcükbirim sayısı, o derlemin kullanıldığı araştırmalardan elde edilecek sonuçların geçerliliğini sağlamaktadır.
Derlemler zaman aralığı seçmeleri nedeniyle arşiv gibidirler. Ancak, derlemler arşivlerden farklı olarak denge ve katmanlı örnekleme yoluyla oluşturulmazlar ve doğal iletişim metinleri içermeyebilirler. Sadece belli konu ve sözcük örneklerinden oluşmadıkları için derlemler, dizin veya sözcük listeleri değildir. Metin ve konuşmalar veri bilgileriyle birlikte dilbilimsel çözümleme içerdiği için derlem ham bir veri tabanı değildir. İnternet tarayıcıları aracıyla www’den edinilen metin örneklemleri her ne kadar yeni iletişim ortamları, yeni sözcükler vb. dil kullanımları hakkında bilgi sağlasalar da aynı nedenle derlem olarak kabul edilmez (Ruhi vd.: 264).
Bütün bilimsel araştırmalarda olduğu gibi, derlem araştırmalarının da etik kuralları gözeten uygulamaları bulunmaktadır. Ancak elektronik derlemlerin oluşturduğu veriler, belli kullanım kuralları çerçevesinde geniş araştırma topluluklarınca paylaşıldıkları için
korunması konuları başlı başına bir araştırma alanı oluşturmaktadır. Derlem oluşturma ve derlem araştırması yapmak, etik kurallara uyulmasını gerektirmektedir.
Türkçe ile ilgili derlem oluşturma çalışmalarının bugün itibarıyla ivme kazandığı söylenebilir. Ancak mevcut derlemler, araştırmacıların genel ya da özel amaçlarına hizmet etmekte yetersiz kalmaktadır (Özkan, 2020:9).
Türkçede sözlü derlem çalışmaları başlangıç aşamasında olmakla birlikte, yazılı Türkçenin ilk derlemi olan 2 milyon sözcük hacmindeki ODTÜ Türkçe Derlem’den (Say vd., 2002) söz edilebilir. Ayrıca, ODTÜ Sözlü Türkçe derlemi, Sözlü Türkçenin derlenmesi bakımından da önem arz etmektedir (https:// std.metu.edu.tr/). ODTÜ’nün çalışmasından on yıl sonra 48 milyon hacmindeki Türkçe Ulusal Derlemi (Aksan vd., 2012) hazırlanmış ve derlemin tanıtım sürümü kullanıcıların erişimine açılmıştır. Araştırmacılığı Aksan vd. tarafından yapılan 50 milyon sözcükbirimlik Türkçe Ulusal Derlemi (https://www.tnc.org.tr/tr/) gerek sahip olduğu sözcükbirim genişliği gerek sözlü dile ait birimleri de içermesi bakımından önemli veriler sağlamaktadır. Bununla birlikte, Yeşim Aksan vd. tarafından Frequency Dictionary of Turkish Core Vocabulary for Learners (FDT) (2017; Aksan, Y., Aksan, M., Mersinli, Ü., Demirhan, U. U. (2017). A Frequency dictionary of Turkish core vocabulary for learners. London and New York: Routledge Pub.) başlıklı sözlük oluşturulmuştur. Söz konusu sözlük TUD’a göre Türkçedeki en sık 5000 sözcüğü içermektedir.
Derlemlerle ilgili bir başka önemli çalışma da, Cumhuriyet Dönemi Türkçesinin örneklendiği 1923-2006 yılları arasını kapsayan 12 milyon hacimli Türkçe Derlem-1’dir (Özkan, 2011). Bunların dışında web ortamından veri toplamayı mümkün kılan araçlar sayesinde geliştirilen denge ve temsil gücü açısından sorgulanabilir olmakla birlikte muazzam bir hacme ulaşan derlemler de vardır. Türkçe için webden derlenen malzeme ile hazırlanan bu tür derlemlere yaklaşık 500 milyon hacmindeki TS Corpus (2012) örnek verilebilir. Bunun dışında araştırmacıların kendi çalışmaları için hazırlamış olduğu, genel kullanıma açık olmayan derlemler de mevcuttur (Çalışkan, 2018: 19).
TUD-Alt Derlemin içerdiği metin örneklerinin dağılımları tablo halinde şöyle gösterilebilir: konuşmalar, söyleşi programları, haberler, röportaj ve konferans sunumlarından toplanmıştır (Aksan, Demirhan, 2014:6).
Tablo 1: TUD-Alt Derlem Veri Tabanının Yayın Ortamına Göre Dağılımı
Medya Oran Toplam sözcük sayısı
Kitaplar % 46,10 3.667.944
Süreli Yayınlar % 37,10 2.951.859
Bilimsel Dergiler % 14,90 1.185.466
Gazeteler % 11,10 883.176
Dergiler % 11,10 883.217
Diğer Basılmış Metinler % 6,09 484.550
Basılmamış Yazılı Metinler % 2,50 198.912
Sözlü Metinler % 8,21 653.228
Bütün bu çalışmalara rağmen, bugün itibarıyla oluşturulan derlemlerde Türkçenin ağızları temsil edilse de söz konusu kaynaklar birer ağız derlemleri değildir. Bu bakımlardan konuşma Türkçesinin hem ölçünlü hem de ağız özellikleri bakımından karşılaştırmalı olarak incelenebilmesi için, farklı derlemlerin tasarlanarak yayınlanması gerekmektedir. Türkiye’de Türkoloji geleneğinde ağız araştırmaları için veri toplanmaktadır; ancak söz konusu veriler dil araştırmaları yapan herkese sunulamamaktadır. Öte yandan, söylem çözümlemesi ve edim bilimi araştırmaları için konuşma verilerinin toplama koşullarının el verdiği ölçüde derlem formatlarında yayınlanması, Türkçe araştırmalarında kullanılan veri setlerini zenginleştirecektir.
Sonuç olarak, 1980’lerden itibaren bilgisayar bilimlerinde gerek donanım gerekse yazılım alanında kaydedilen gelişmeler derlem adını verdiğimiz dijital olarak işlenebilir metin havuzlarının oluşturulmasını ve bunlar üzerinde sözcük sıklığı, eş dizimlilik, örüntü başta olmak üzere pek çok dilbilimsel inceleme yapmayı mümkün hâle getirmiştir. Bu doğrultuda başta sözcük bilimi olmak üzere dilbilimin pek çok dalında derleme dayalı araştırmalar ağırlık kazanmıştır. Bugün bu türden araştırmaların beşerî ve sosyal bilimlerin birçok alanında kullanıldığı görülmektedir. Özellikle edebiyat sahasında stilistik incelemelere temel olmak üzere derlemlerden yararlanılması dikkat çekici keşiflere kapı aralamaktadır. Bunun başlıca sebebi sayısal verilerin âdeta kazı yapılması
etmedeki rolü olsa gerektir. Böylece araştırmacı verinin peşinden gittiğinde daha önce fark etmediği noktaları kavrama şansı bulmaktadır. Ayrıca sayısal veriler, okuma sürecinde sezgi düzeyinde kalmış birtakım noktaların da somutlaştırılarak birer tespite dönüşmesini sağlamaktadır (Çalışkan, 2017: 1). Derlem dilbiliminde yapılan araştırmalar öğretmenler için ders planlamasında da kullanılmaktadır. Örneğin, derlem dilbilimi çalışmalarından elde edilen bilgiler, araştırmacılara öğrencilerin sınıf dışında en sık duydukları sözcükler ya da okudukları metinlerde en sık karşılaştıkları dilbilgisel özelliklerle ilgili ışık tutacaktır.
1.4.1. Derlem Çalışmalarında Yöntem ve Veri Toplama Araçları Yardımıyla Söz Varlığının Tespiti
Derlem çalışmalarının öncüleri Henry Kucera ve Nelson Francis’tir. Amerika’da Brown Üniversitesinde 1967’de oluşturulan derlem Brown Derlemi olarak adlandırılmış, bu derlem üzerine Amerikan İngilizcesinin ayrıntılı istatiksel çözümlemeleri gerçekleştirilmiştir. Derlemler, dil öğretiminde, öğreticinin ders ve değerlendirme materyali hazırlaması için veri sunar ve öğrenicinin de doğrudan dil malzemesi ile karşılaşmasına olanak tanır (Çelik, Keser, 2010: 158-160). Günümüzde, gerek anadili, gerekse yabancı dil öğretiminde, ele alınan dillerde en çok geçen, en gerekli sözcüklerin saptanmasına yönelen sözcük sıklık sayımları yapılmakta, böylece elde edilen temel sözvarlığıyla bu öğretim alanlarında daha kısa yoldan, daha çabuk ve daha başarılı sonuca varma amaçlanmaktadır.
Mc Carten (2007) bir derlemin özellikle belirli konularda yeterli olması gerektiğine değinmiş ve bu ölçütleri altı başlık altında toplamıştır:
1. Sıklık,
2. Sözlü ve yazılı dildeki farklılıklar, 3. Kullanım bağlamları,
4. Eş dizimlilik, 5. Dilbilgisi kalıpları,
Derlemler, ana dili olarak konuşurları tarafından üretilmiş metinlerden oluşturulabildikleri gibi ikinci dil öğrenicileri tarafından üretilmiş metinlerle de oluşturulabilirler. İkinci gruba “öğrenci derlemi” adı verilmektedir (Çelik, Keser, 2010: 163-155). Stevens (1995), pedagojik amaçlarla kullanılacak öğrenci derlemine yönelik bir yazılımda bulunması gereken nitelikleri şöyle sıralamaktadır: “Hızlı çalışmalı, çabuk yüklenmeli, herhangi bir aşamada durdurulabilmeli, çok sözcüklü birimleri aramaya imkân vermeli, aramayı kolaylaştıracak pratik öneriler sunabilmeli. Bu özelliklerin tamamı AntConc 3.2.4’te mevcuttur. Aynı zamanda ücretsiz olan bu yazılım, kurulum da gerektirmediği için kullanıcı dostu bir programdır. AntConc 3.2.4 ile uyumluluk, eşdizimlilik, çok sözcüklü birim analizi gibi pek çok uygulama yapılabilmektedir (Çalışkan, 2018:20).