3. BULGULAR VE YORUM
3.3. Öz Değerlendirmeye Dayalı Bulgular
3.3.3. Açık Uçlu Sorular
Outro desfecho do período estruturalista de pesquisa linguística diz respeito ao uso de grandes corpora de dados extraídos de textos orais ou escritos para a análise de diferentes estruturas linguísticas – tendência que remete ao que hoje é chamado de Linguística de Corpus (McENERY; HARDIE, 2012, p. 1-3).46 Segundo Geeraerts (2010, p. 166), o trabalho com corpora descende, de certa maneira, de estudos estruturalistas justamente por levar em consideração o âmbito sintagmático de um item lexical para que seu significado possa ser descrito. Porém, o mesmo autor comenta que essa relação de parentesco com o estruturalismo precisa ser relativizada, uma vez que a Linguística de Corpus como um todo (e não somente os estudos lexicológicos que derivam dessa abordagem) parte do princípio de que a estrutura linguística deve ser analisada por meio de seu uso real, isto é, não como um sistema em isolamento, completamente afastado de contextos específicos de sua performance. A esse respeito, para a abordagem baseada em corpora, língua e contexto são elementos que não se dissociam para a condução efetiva da análise linguística. No que se refere especificamente ao estudo do significado dos itens lexicais, essa perspectiva ancorada exclusivamente no uso linguístico contribui para que as barreiras teóricas existentes entre a semântica e pragmática sejam mais “porosas”, mais permeáveis (GEERAERTS, 2010, p. 168).
Com efeito, no que tange à pesquisa em Semântica Lexical, essas últimas premissas fazem com que a noção ‘contexto’ seja definida como o conjunto de elementos que coocorrem com algum item lexical em destaque. A reboque dessa constatação, submete-se o estudo do significado ao fenômeno da ‘colocação’ (ou collocation), definido como se segue:
In short, the term collocation denotes the idea that important aspects of the meaning of a word (or another linguistic unit) are not contained within the word itself, considered in isolation, but rather subsist in the characteristic associations that the word participates in, alongside other words or
46 Um dos estudos mais recentes que ilustram essa abordagem teórico-metodológica aplicada à realidade do
structures with which it frequently co-occurs […] (McENERY; HARDIE, 2012, p. 122-123).47
Nesse sentido, um ‘colocado’ passa a ser o item lexical (ou expressão) que coocorre com outro item (tido como ‘nódulo’) em certo escopo sintagmático e que, além disso, contribui bastante para a definição desse mesmo nódulo. A definição de um colocado é baseada, usualmente, na frequência que este apresenta em conjunto com seu respectivo nódulo em um dado corpus.48
A título de exemplo inicial, pretende-se, aqui, ilustrar essa rede de relações semânticas sintagmaticamente estabelecidas por meio do verbete Heimat49 retirado do Digitales Wörterbuch der Deutschen Sprache (DWDS – Dicionário Digital da Língua Alemã):
Figura 1: Rede de colocados para o termo Heimat
47 Tradução e grifo do autor: “Em resumo, o termo colocado denota a ideia de que aspectos importantes do
sentido de uma palavra (ou outra unidade linguística) não estão contidos dentro da própria palavra, considerada em isolamento, mas sim subexiste nas associações características das quais a palavra participa, ao lado de outras
palavras ou estruturas com as quais ela frequentemente coocorre [...].” 48
Se essa frequência deve ser estatisticamente manipulada ou não, é ainda debatido pela comunidade linguística que se ocupa com tais questões. Para um resumo das perspectivas teórico-metodológicas em torno dos
‘colocados’, ver McEnery; Hardie (2012, p. 122-133).
Figura 2: Rede de colocados em função atributiva
Como se pode ver a partir da primeira figura acima, todas as palavras e expressões constantes da caixa (ou “nuvem”) são consideradas termos ‘colocados’ do item Heimat, isto é, contribuem para a definição semântica deste.50 Nesse caso, o escopo de ‘colocados’ foi definido para 20 itens, como se pode perceber no canto direito superior das imagens – podendo o mesmo escopo ser expandido até 100 colocados. Convém mencionar, ainda, que o título da caixa de colocados (Überblick zu ‘Heimat’) se refere a todas as relações sintáticas que subjazem aos colocados em destaque. Caso o usuário queira sistematizar sua busca e limitá-la a somente uma relação sintagmática entre o nódulo e seus colocados, é preciso somente selecionar uma das possíveis opções logo abaixo da “nuvem”. Por exemplo, a relação ‘Heimat’ hat Attribut (Heimat possui atributo – na segunda imagem) estabelece a lista dos 20 adjetivos que mais frequentemente coocorrem com o termo Heimat.
Fazem-se, além disso, necessários alguns apontamentos a respeito de como esse dicionário chegou a esse resultado. A saber, a importância dos termos ‘colocados’ relacionados na caixa de leitura (ver a primeira imagem) foi definida por um teste de significância estatística chamado de Mutual Information (Informação Mútua – MI log Freq) e
50 Também é possível que os colocados mais frequentes sejam mostrados em forma de lista, com as seguintes
informações referentes a cada item em específico: (i) classe de palavra; (ii) grau de Associação Mútua com o nódulo e (iii) frequência.
faz referência ao trabalho de Church e Hanks (1990), os quais fizeram uso de tal procedimento a fim de que, por meio de evidências matemáticas, pudessem constatar que a coocorrência de certos itens não fosse simplesmente atribuída ao acaso.
Segundo esses autores, o teste estatístico foi utilizado para que a medida de frequência dos itens colocados em relação a seus nódulos fosse calculada com mais objetividade metodológica e rapidez. A esse respeito, McEnery e Hardie (2012, p. 127) afirmam que essa abordagem estatística “also allows analysts to be much more explicit about the criteria used to determine whether or not a specific word is a collocate of a given node”.51 Ainda de acordo com esses teóricos, porém, afirma-se que uma abordagem linguística como a proposta por Church e Hanks passa a ser subordinada pela manipulação estatística, isto é, somente por meio dos cálculos matemáticos é que se pode decidir o que, de fato, caracteriza- se como colocado.
Outro fator importante a se considerar a respeito da Linguística de Corpus e suas contribuições para a Semântica Lexical se refere à tecnologia da informação, utilizada para que grandes quantidades de textos (escritos ou transcritos a partir da fala) possam ser processadas rapidamente e, acima de tudo, não se submetam a erros de contagem feitos pelo homem, por exemplo. Na verdade, de acordo com as afirmações de Kilgarriff e Tugwell (2002, p. 126), foi justamente devido ao trabalho de Church e Hanks (1990) que os estudos baseados em corpora começaram a ser assistidos pela Linguística Computacional. Interessante, além disso, é perceber que, devido à crescente utilização de softwares para a compilação e manipulação de corpora, muito foi feito para que a prática lexicográfica fosse aprimorada.
Nesse sentido, autores como Teubert (2001, p. 127) declaram ser a Linguística de Corpus uma ferramenta extremamente útil para que, por exemplo, definições de verbetes baseadas em uso linguístico autêntico possam ser delineadas. No caso, com base em Teubert, diz-se que principalmente por meio do trabalho de John Sinclair52 (com o dicionário COBUILD, em 1987) que se constituiu o primeiro dicionário (ao menos em parte) cujas
51Tradução do autor: “também permite aos analistas serem muito mais explícitos sobre os critérios utilizados para determinar se uma palavra específica é ou não um colocado de um dado nódulo.”
52 SINCLAIR, J. M.; HANKS, P. et al.. Collins Cobuild English Language Dictionary. London and Glasgow:
definições foram baseadas em corpora. Segundo Hanks (2009, p. 218), as maiores contribuições dos corpora para esse dicionário foram, a saber, “(1) to structure the entries, placing the most important meaning of each word first; (2) to write accurate definitions reflecting actual usage; (3) as a source for example sentences and (4) to help decide what to leave out”.
Hanks, além disso, ressalta o fato de que, por meio da utilização de corpora para a confecção de dicionários, a avaliação do trabalho lexicográfico se torna mais eficiente. De fato, a mesma acepção passa a ser comparável através de várias obras, visto que estas são formatadas, a princípio, por parâmetros metodológicos explícitos baseados em corpora. De acordo com o autor, a similaridade encontrada na microestrutura de dicionários mais modernos não se deve, no caso, a cópias ou ao uso do mesmo corpus,
[…] but because the salient features of word meanings are generally the
same across many different corpora. Minor details differ; old decaying senses are more fully represented in some dictionaries than in others, but the
salient features of the architecture of a word’s meaning are waiting there, to
be discovered through painstaking corpus analysis. (HANKS, 2009, p. 224)53
Dessa forma, o surgimento do COBUILD fez com que várias empreitadas procurassem fazer uso de corpora para a composição da microestrutura (o conjunto de definições relacionadas a um verbete específico) de dicionários.
Sendo essas as principais notas a serem tomadas a respeito da relação entre a Semântica Lexical e a Linguística de Corpus, convém relembrar que não se pretende, aqui, construir um corpus em torno do tema pátria entre brasileiros e alemães, para que, enfim, esses verbetes possam ser mais bem definidos. Propõe-se, na verdade, o uso de dicionários baseados em corpora para uma abordagem semântica inicial dos itens pátria e Heimat, a qual servirá de ponto de partida para o restante da análise comunicacional. Esta, porém, será tema da seção reservada às análises e discussões decorrentes da pesquisa, a fim de que se dê prosseguimento à fundamentação teórica que contextualiza e justifica o presente estudo.
53Tradução e grifos do autor: “[...] mas porque os traços salientes de significados de palavras são geralmente os
mesmos através de muitos corpora distintos. Detalhes menores diferem; acepções mais antigas em desuso estão mais bem representadas em alguns dicionários que outros, mas os traços salientes da arquitetura do sentido de uma palavra estão esperando lá para serem descobertas por meio de meticulosa análise de corpus.”