• Sonuç bulunamadı

II. BÖLÜM

2.3. KUR REJİMİ TERCİHİ VE KUR REJİMİ TERCİHİNDE ETKİLİ OLAN

2.3.1. Kur Rejimi Tercihi Tartışması

Ao se compilar um corpus de pesquisa, é necessário atentar para alguns aspectos. Um deles é a necessidade de autenticidade dos textos a serem incluídos nele. Para Tognini-Bonelli (2001, p. 55, tradução nossa)52, “os textos são selecionados de acordo com critérios explícitos para capturar as regularidades de uma língua, de uma variedade da língua ou de uma sub- língua.” Por outro lado, Berber Sardinha (2004, p. 7) ainda acrescenta a característica da extensão, como o corpus caracterizando-se por um conjunto de dados linguísticos “[...], suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, [...].”

Embora pesquisa baseada em corpora seja uma nova forma de investigação, em grande parte dos casos com eficiência e inovação, para esta pesquisa, não encontramos um corpus no sentido estrito do termo, que tivesse as características supracitadas e que também atendesse aos nossos propósitos.

Primeiramente, a localização de centros de pesquisa em Linguística de Corpus não é igualitária; o investimento no desenvolvimento de corpora voltados tanto para o italiano quanto para o PB não é tão expressivo, diferentemente do inglês, por exemplo. Outro fator é que este estudo parte de um objeto com um campo lexical específico, e não tivemos êxito em obter um conjunto de dados linguísticos que contemplasse o material idiomático escolhido.

A fim de elucidar essa dificuldade, exemplificaremos por meio da consulta realizada a dois corpora italianos a que tivemos acesso, em que, na forma de tentativa, fizemos uma pesquisa com a palavra-chave cuore (coração). Na pesquisa realizada dentro do CORIS/CODIS Corpus di Italiano Scritto contemporaneo (Corpus do Italiano Escrito Contemporâneo), um corpus com 100 milhões de palavras, não foi apontado nenhum resultado. O outro corpus que consultamos foi o LIP Lessico di frequenza dell'italiano parlato (Léxico de frequência do italiano falado) – um corpus que totaliza 500.000 palavras e que apresentou alguns resultados, porém pouco significativos: somente oito ocorrências de sentido conotativo e que configuram expressões idiomáticas. Em contraposição a esse resultado, coletamos 71 expressões idiomáticas que abrangem a lexia cuore nos dicionários monolíngues italianos. Sem dúvida, se comparados esses resultados, há uma diferença bastante expressiva. Tal diferença torna-se ainda maior, se levarmos em conta que o segundo corpus citado possui

52 The texts are selected according to explicit criteria in order to capture the regularities of a language, a language variety or a sub-language.

uma natureza mais informal, natureza essa que deveria favorecer a presença de EIs, por serem combinações mais típicas em textos com esse caráter.

Para ratificar essa dificuldade que tivemos, podemos mencionar a investigação realizada por Deignan e Potter (2004), que comparam o inglês com o italiano, tendo como foco a análise de colocados (collocates) com as seguintes lexias: nariz, boca, olho e coração. Na análise empreendida por essas autoras, elas chamam a atenção para o fato de terem encontrado poucas ocorrências (quase raras) de expressões idiomáticas nos corpora pesquisados (os corpora do inglês e do italiano são de referência). Além disso, tal trabalho é capaz de validar também o que afirmamos sobre a diferença entre as línguas, ou seja, a probabilidade de se encontrar ocorrências em corpora da língua inglesa é maior. Segundo a exposição de Deignan e Potter (2004), expressões em inglês foram encontradas uma vez por mil citações de coração e de nariz, enquanto a expressão italiana avere il cuore sulle labbra (com o correspondente idiomático “falar do coração” no PB) só uma vez em todo o corpus.

Dadas essas circunstâncias que enfrentamos, observamos que bases textuais conhecidas registram poucas expressões idiomáticas, e, até mesmo, em bases textuais que esperávamos encontrar mais, a expectativa não se concretizou. Segundo Xatara (2008, p. 771),

as bases textuais conhecidas não registram grande quantidade de textos coloquiais, que são a maior fonte para se observar as EIs em uso. Mesmo programas de gerenciamento de bases textuais, como Wordsmith Tools, Folio Views ou Hyperbase, não são eficazes na identificação de unidades lexicais complexas.

Por esses motivos, além das fontes lexicográficas expostas, recorremos à web, base textual que vem ganhando destaque em pesquisas que a utilizam como corpus e que foi de grande valia na nossa pesquisa. Entretanto, a web possui traços que a diferencia de outros corpora, e, por isso, muitas vezes, tem seu uso questionado.

Nesses termos, a web corpus não é um corpus no sentido entendido pela Linguística de Corpus. Não se trata de um corpus construído e reunido pelo próprio linguista no referido ambiente digital, e sobre o qual tenha controle total dos dados. Ademais, até a quantidade total de palavras disponíveis em cada língua não é conhecida, pois o motor de busca faz uma cópia de apenas uma parte da web (COLSON, 2003).

Outra crítica reside nas características dos textos. Uma delas é sua rápida obsolescência; outra é que o material é produzido por uma grande variedade de autores, na maioria das vezes, sem nenhum critério, sem sistematicidade e com uma propensão maior à

presença de erros, o que denota que não há uma preocupação quanto à exatidão. Com relação a esse caráter que propicia acharmos erros, Kilgariff e Grefenstette (2003) ainda apontam a web como um corpus sujo, no entanto, segundo esses autores, o uso esperado é muito mais frequente do que aquele considerado incorreto. Dessa forma, ancorando-nos nesses pressupostos teórico-metodológicos, acreditamos que seja possível confiar na sua validade.

Apesar desses inconvenientes atribuídos à web, há particularidades nela que não são vistas em nenhum outro corpus. Uma delas consiste em comportar o maior número total de palavras existentes e é uma base textual que apresenta grande capacidade para armazenar unidades fraseológicas (COLSON, 2007). Além dessas particularidades, do nosso ponto de vista, há outra vantagem: a web é um meio essencialmente híbrido, que tem a capacidade de armazenar diferentes tipos de textos, tanto de natureza formal quanto principalmente informal.

Foi essa capacidade que nos interessou diretamente, uma vez que coletamos as ocorrências de uso de expressões idiomáticas italianas em textos presentes em jornais, revistas, blogs e fóruns de discussão. Na verdade, o conteúdo presente nessas fontes é o nosso grande interesse. Conforme Xatara (2008, p. 772) argumenta, “[...] a dimensão da web corresponde mais adequadamente tanto para a demonstração do idiomatismo em um contexto real quanto para acrescentar importantes informações concernentes à significação e uso de cada EI.”

Além disso, este trabalho de examinar expressões idiomáticas exige uma atenção especial, tanto do ponto de vista de quem se serve da web como corpus quanto daqueles que utilizam corpora tradicionais, incluindo concordanciadores de bases textuais. Essa postura justifica-se pelo fato de que, embora as ferramentas computacionais ofereçam uma grande facilidade ao trabalho do linguista, não suprem a sua tarefa. Em qualquer base textual, é preciso observar atentamente se a expressão é conotativa ou não, se realmente configura uma EI, por isso, o trabalho desse profissional é legitimado, não se constituindo como um fazer automático. Dessa maneira, um dos instrumentos que favorecem esse exame é o motor de busca Google. Por meio de tal ferramenta, é possível ter uma visão mais ampla do todo, diferentemente do que se observa em concordanciadores que produzem linhas de concordância, posto que restringem um pouco o tamanho do texto.

Nesse sentido, para melhor entendimento das definições e a verificação dos contextos de uso, valemo-nos da web como corpus por intermédio do motor de busca Google. Como nem tudo aquilo que está na web é escrito por falantes nativos, é necessário tomar alguns cuidados ao pesquisar, por exemplo, o de limitar a pesquisa por domínios – procedimentos esses que explicitaremos na seção seguinte.