• Sonuç bulunamadı

considerarmos a totalidade dos dados linguísticos.

Destacamos acima a importância da análise quantitativa de dados de corpora. Ressaltamos, porém, que o objetivo da LC não é apenas relatar dados quantitativos, mas sim explorar a importância desses dados para se compreender os padrões de uso da língua (BIBER et al., 1998, p. 9). Assim, para a LC, tanto abordagens qualitativas quanto abordagens quantitativas para a análise de dados são necessárias (MCENERY & WILSON, 2001). Enquanto a análise quantitativa fornece resultados estatisticamente confiáveis e generalizáveis, a análise qualitativa de um corpus favorece uma interpretação desses resultados e uma descrição rica e precisa dos fenômenos linguísticos, sendo também base para a formação de categorias para mais análises.

Resumindo a discussão feita até agora nesta seção, podemos dizer que a LC traz uma série de vantagens para estudos linguísticos. Com a disponibilidade de corpora eletrônicos, é possível (I) pesquisar, recuperar, organizar e realizar cálculos com um número de dados linguísticos antes inimaginável, (II) analisar a língua de forma mais objetiva e sistemática, em oposição a métodos introspectivos, (III) controlar diversos fatores contextuais ao mesmo tempo e (IV) ter acesso a diversas informações sobre os contextos de produção dos textos, tais como a idade e o sexo do autor, a variedade da língua utilizada, o gênero textual etc. Com tantas vantagens, abordagens baseadas em corpora são atualmente utilizadas em praticamente todos os ramos da Linguística (XIAO, 2009, p. 991).

Apontamos mais acima que uma das razões para linguistas voltarem sua atenção para o uso efetivo da língua é o fato de existirem dados empíricos que vão de encontro ao que assumem alguns modelos gramaticais categoriais baseados na introspecção e/ou em sentenças produzidas por poucos falantes. Voltamos a abordar essa questão na seção 2.2, quando introduzimos outro modelo teórico que compartilha características com a Linguística de Corpus: a Linguística Probabilística.

2.2 Abordagem probabilística para estudos linguísticos

Vimos na introdução desta tese que um mesmo verbo pode ser encontrado em diferentes construções da estrutura argumental. As sentenças abaixo (KEMMERER, 2006, p. 350) fornecem

37 mais exemplos desse fenômeno.

6) Ocorrência do verbo kick (chutar) em diferentes padrões sintáticos: a) Bill kicked the ball. / Bill chutou a bola.

b) Bill kicked the ball into the lake. / Bill chutou a bola no lago. c) Bill kicked Bob the ball. / Bill chutou a bola para o Bob.

Sobre a interação entre verbos e construções da estrutura argumental, é interessante observar que dados empíricos revelam alguns comportamentos de verbos que se diferem do que é previsto por teorias gramaticais categóricas. Por exemplo, o verbo do inglês quiver (tremer, sacudir) é considerado “intransitivo”, porém é encontrado em sentenças do tipo: “the Bird sat, quivering its wings” (ATKINS & LEVIN, 1995 apud MANNING, 2003, p. 298). De fato, as línguas se mostram mais flexíveis e variáveis do que muitas vezes se assume. Uma solução possível para a sentença mencionada com o verbo quiver seria incluir uma nova “subcategorização” para esse verbo. Porém, dessa forma perderíamos a informação importante de que o verbo quiver ocorre raramente na forma transitiva, sendo que sua forma intransitiva, apontada tradicionalmente como “a correta”, é a que representa o maior número de ocorrências desse verbo. Por outro lado, tais aspectos sobre o uso do verbo quiver podem ser capturados através da abordagem probabilística para estudos linguísticos.

Ilustremos como a abordagem probabilística lida com as possibilidades de interação entre verbos e padrões sintáticos através de outro exemplo dado por Manning (2003). Em uma investigação sobre o uso do verbo regard, o autor objetivou calcular a probabilidade de esse verbo ocorrer em diferentes padrões sintáticos. Para tal, ele analisou 300 ocorrências de regard retiradas do The New York Times, contou quantas vezes o verbo ocorreu em cada padrão sintático identificado na amostra analisada e dividiu o resultado pelo total de expressões de sua amostragem, ou seja, por 300. Desta forma, ele obteve a probabilidade da ocorrência de regard com os diferentes padrões frasais. Fica claro, portanto, que na perspectiva da Linguística Probabilística, “regras” gramaticais são substituídas pelas probabilidades de uso de um padrão ou

38 de associação entre esse padrão e fatores linguísticos e não-linguísticos. Captura-se, assim, o que é linguisticamente provável, ao invés do que é linguisticamente possível ou gramatical (CHATER & MANNING, 2006, p. 335).

Com base no exposto acima, observa-se que, assim como a Linguística de Corpus, a Linguística Probabilística considera o uso da língua em sua totalidade e possibilita descrições mais completas sobre fenômenos linguísticos. A partir dessa compreensão, seguimos Manning (2003) e adotamos uma perspectiva probabilística para nosso estudo sobre construções usadas para expressar transferência de posse no português, no inglês e na interlíngua português/inglês. Outra razão para recorrermos à Linguística Probabilística é o fato de essa ser apontada como uma abordagem ideal para investigar como falantes escolhem recursos de suas línguas para se comunicarem (Ibidem), como nos propomos a fazer nesta tese ao perguntarmos “O que influencia a escolha por uma das construções dativas?”. Vale a pena salientar que incluir informações acerca de preferências gramaticais, tradicionalmente vistas como parte da performance, em descrições linguísticas, significa expandir o escopo da gramática para nela incluir fatores semânticos e discursivos. Ademais, passa-se a admitir que grande parte dos exemplos de variabilidade na gramática fazem parte da competência, ao invés de serem simplesmente atribuídos à performance (Ibidem, p. 308).

Nossa opção por uma abordagem probabilística para nosso estudo fundamenta-se também no reconhecimento crescente de que a cognição humana baseia-se em processamentos probabilísticos (BOD, HAY & JANNEDY, 2003). Por essa razão, compreendemos que perspectivas cognitivas da língua devem investigar o papel de probabilidades na linguagem humana, vista nessa perspectiva como não-autônoma em relação a outras habilidades cognitivas. Pesquisas recentes nesse âmbito têm mostrado que as probabilidades - números que variam entre 0 (impossibilidade) e 1 (certeza) representando as chances de ocorrência de um dado evento em uma série de observações (BOD, 2003) - exercem de fato um papel central na aquisição, na representação, na compreensão e na produção linguística (BOD, HAY & JANNEDY, 2003).

Já foi constatado, por exemplo, que o processamento e a representação de palavras são fortemente influenciados pelas frequências de itens lexicais, que probabilidades de co-ocorrência de palavras são capturadas por falantes, que as probabilidades de sentenças ocorrerem podem ser previstas pelas probabilidades combinadas das subpartes das sentenças, e que alternâncias entre

39 construções linguísticas apresentam propriedades de contínuo e comportamento gradiente (Ibidem). As probabilidades se fazem presentes também em processos de desambiguação de expressões, tão comuns na experiência linguística dos falantes. Por exemplo, as probabilidades com que um verbo pode interagir com diferentes construções da estrutura argumental afetam a resolução de ambiguidade de sentenças (JURAFSKY, 2003). Em tarefas desse tipo, falantes tentam calcular, com base em distribuições probabilísticas, o mapeamento entre forma e significado condicionado pelo contexto em que a expressão ocorre. Resultados como os citados neste parágrafo mostram que os elementos básicos da teoria de probabilidades, os efeitos de frequência, atuam no sistema linguístico.

No que tange à aquisição, Pierrehumbert (2003) defende que adicionar probabilidades à Linguística torna o problema de aquisição mais fácil. Segundo o autor, com a atribuição de probabilidades às estruturas linguísticas, a aquisição dependeria apenas de evidência positiva do insumo. Sua argumentação é a de que padrões linguísticos seriam aprendidos com base em inferências estatísticas que se tornariam cada vez mais robustas com o aumento do tamanho da amostragem (insumo linguístico). Sub-representações estatísticas funcionariam como evidência negativa.

A proposta de um sistema linguístico probabilístico leva a reformulações de alguns conceitos da Linguística para aqueles que adotam a Linguística Probabilística. Em relação à noção de gramaticalidade, no lugar da distinção clara entre expressões julgadas categoricamente como gramaticais ou agramaticais, postula-se um contínuo de boa formação no qual algumas expressões são mais preferidas, algumas são menos frequentes e algumas não são usadas (BOD, HAY & JANNEDY, 2003, p. 5). A competência linguística, por sua vez, antes vista como consistindo em um conjunto mínimo de regras e de restrições categoriais, passa a incluir propriedades distribucionais, gradiência e variabilidade.

Para enfatizarmos o contraste entre abordagens categoriais e não categoriais, vejamos como cada uma delas trataria a seguinte ocorrência de as least as encontrada em um jornal: “By

the time their son was born, though, Honus Whiting was beginning to understand and privately share his wife’s opinion, as least as it pertained to Empire Falls” (RUSSO, 2001 apud

MANNING, 2003, p.292). Se, por um lado, a tradição linguística poderia considerar essa expressão como o resultado de um “erro”, por outro lado, abordagens probabilísticas

40 investigariam em outros textos se há mais ocorrências de “as least as”, como Manning (2003) fez. Após analisar textos dos anos 1994, 1995 e 2000, ele levantou a hipótese de que, apesar de muito menos comum que at least as, as least as indica uma mudança linguística em desenvolvimento, em direção ao uso dessa forma quando seguida por <as adjetivo as>, como na seguinte sentença: "Steven P. Jobs has reemerged as a high-technology captain of industry, as

least as far as the stock market is concerned” (Ibidem, p. 293). Observa-se, portanto, que

linguistas que assumem propriedades probabilísticas da língua buscam motivações para os dados empíricos que “fogem do esperado” antes de considerá-los “agramaticais” ou “falhas de produção”.

Mudanças proporcionadas por uma concepção probabilística da linguagem também têm ocorrido no que tange à noção de restrições linguísticas, as quais passam a serem compreendidas como generalizações estatisticamente robustas (PIERREHUMBERT, 2003). Manning (2003) explica que tais generalizações variam entre leves e rígidas de uma língua para a outra de acordo com as probabilidades a elas associadas em cada língua. Para ilustrar a gradiência das restrições linguísticas, o autor cria um evento hipotético no qual um policial o adverte. Tal evento poderia ser relatado por ele através de duas expressões semanticamente semelhantes: “O policial me advertiu” (construção ativa) e “Eu fui advertido pelo policial” (construção passiva). As seguintes restrições operantes no mapeamento entre o input semântico hipotético e sua expressão sintática são colocadas pelo autor (Ibidem, p. 318): (I) é preferível que o sujeito de uma sentença expresse o agente da ação descrita na mesma (restrição de mapeamento); (II) é preferível que a informação dada discursivamente (informação mais velha) seja o sujeito (restrição discursiva); (III) é preferível que participantes de primeira ou segunda pessoa sejam o sujeito (restrição de pessoa). Se a probabilidade da ativação da restrição (I) em uma língua é de 100%, a passiva nunca ocorrerá. Já no caso do inglês, nenhuma dessas restrições é categorial, de forma que ambas as construções podem ser utilizadas. Não obstante, tais restrições não deixam de atuar no inglês como restrições leves na seleção de uma das construções em questão, como mostram Bresnan, Dingare, and Manning (2001 apud Manning, 2003). Através da análise do corpus Switchboard4, os autores investigaram a influência da restrição de pessoa na seleção da construção passiva e constataram que a frequência da passiva com 1ª e 2ª pessoas agindo sobre terceira pessoas é significativamente menor, enquanto que a frequência da passiva com 3ª pessoas agindo sobre 1ª e

4

41 2ª pessoas é consideravelmente maior. Assim, ao invés de ditarem o que é e o que não é possível, as restrições passam a apontar o que é mais ou menos provável em uma língua.

Até agora, para falarmos sobre a Linguística de Corpus e a Linguística Probabilística, temos usado os termos “estruturas” e “padrões” da língua. Na próxima seção, explicitamos ainda mais a nossa compreensão sobre a natureza dessas “estruturas”, focalizando em especial aquelas que analisamos nesta tese.