1. BÖLÜM
5.3. Adnan Menderes Döneminde Dil Politikaları
De acordo com o que se viu em Sardinha (2004), entende-se que para se compor um corpus é necessário considerar os seguintes aspectos: origem, propósito, composição, formatação, representatividade e extensão.
a) Origem: segundo Sardinha (2004), um corpus precisa ser autêntico, escrito em linguagem natural, ou seja, por seus falantes nativos. No caso específico deste trabalho, tomou-se a liberdade de se estender o conceito de naturalidade para o gênero religioso. Ou seja, para ser natural e retratar a realidade linguística de falantes específicos, no caso, religiosos, o corpus precisava ser escrito ou falado por pessoas que compartilham dessa crença. O autor deve ser, necessariamente, um participante natural do ramo religioso eleito. Assim, foram excluídos do corpus textos críticos sobre religião ou vinculados ao assunto que não tivessem sido escritos por participantes da denominação eleita. Não foram igualmente selecionados textos de autoria de pessoas de outras denominações religiosas.
b) Propósito: o corpus precisa ter a finalidade de ser um objeto de estudo linguístico. Nesta pesquisa, a finalidade é o estudo comparativo do léxico de três correntes religiosas.
c) Composição: a escolha do corpus seguiu critérios de autenticidade e naturalidade. Pesquisaram-se sites das igrejas escolhidas e tomou-se o cuidado de se verificar se o texto realmente era de autoria de um participante daquela igreja (é muito comum encontrar nesses sites textos de autoria desconhecida ou de autores de outras igrejas).
d) Formatação: os dados precisam ser legíveis por computador. Como foram coletados na internet, os dados são manipuláveis computacionalmente de forma mais segura (pois não houve transcrição ou digitação, o que possibilita erros). Os textos foram analisados usando-se o programa AntConc, descrito mais a frente.
e) Representatividade: conforme explicitado por Sardinha (2004), para ser representativo o corpus precisa ser o mais extenso possível e contemplar o maior número de gêneros textuais. Dessa forma, a seleção se deu da seguinte forma:
Extensão: para cada igreja foram coletados textos dentro dos critérios propostos até se alcançar o número de 250 mil palavras, de forma que se trabalhasse com um total de 750 mil de palavras. Segundo o autor, esse seria um corpus de dimensão média.
Gêneros textuais: como o objeto desta pesquisa é o léxico do discurso religioso, optou-se por trabalhar exclusivamente com o gênero sermão. Entende-se que esse gênero, por sua natureza essencialmente religiosa e por abordar sempre temas bíblicos, teológicos, morais, fornecerá o essencial do discurso religioso de cada corrente religiosa em estudo. Em relação à tipologia proposta por Sardinha (2004), o corpus desta pesquisa é:
a) Quanto ao modo: escrito;
b) Quanto ao tempo: sincrônico (contemporâneo); c) Quanto à seleção: equilibrado;
d) Quanto ao conteúdo: especializado; e) Quanto à autoria: de língua nativa; f) Quanto à finalidade: de estudo.
Para se obter um controle maior dos dados, limitou-se a autoria dos textos ao gênero masculino. A idade dos autores foi um dado não disponível, portanto, impossível de controlar. Contudo, a escolaridade foi um fator de certa forma controlável, pois todos os textos são de teólogos (padres ou pastores), o que pressupõe curso superior, ainda que não reconhecido pelo MEC.
De forma resumida, o corpus se apresenta da seguinte forma:
Tabela 2: Composição do corpus das igrejas
Correntes religiosas Igrejas
respectivas Gênero textual Gênero dos autores Escolaridade dos autores Número de palavras por igreja Total de palavras do corpus Catolicismo Protestantismo Pentecostalismo ICAR IASD IEAD
Para a análise, trabalhar-se-á com o que Biderman (1998, p. 168) chama de palavras plenas, ou lexicais: “palavras que constituem o núcleo do vocabulário do português e podem ser consideradas como essenciais para a comunicação neste idioma”. As palavras plenas se constituem basicamente de substantivos, adjetivos e verbos. Assim, não serão consideradas as palavras instrumentais, ou gramaticais: artigos, pronomes, preposições, advérbios e conjunções.
Por meio de ferramenta computacional, será feita uma lista inicial com as 150 palavras mais frequentes de cada igreja. Esse critério se justifica por uma questão de exequibilidade e também porque uma grande parte do corpus é composta pelos chamados
hapax legomena – palavras raras, que ocorrem uma única vez. Segundo Biderman (1998,
p. 175), pelo menos 25% de um corpus são formados por esse tipo de palavra, chegando, às vezes, a mais de 40% do total. Além disso, Biderman trabalhou com palavras com frequência acima de 500 e comparou seu próprio trabalho com outros trabalhos de natureza semelhante, concluindo que os resultados eram muito próximos, ainda que o número de palavras de cada corpus variasse. Usando-se o critério das 150 palavras mais frequentes, serão incluídas na lista palavras com frequência menor que 500, o que garante que as principais palavras estarão contempladas.
A lista inicial será gerada automaticamente pelo programa AntConc e considerará cada variante de cada palavra. A partir dela, será formulada uma nova lista apenas com os lemas, o que vai mostrar a real frequência dos itens. No processo de lematização serão eliminados nomes próprios e topônimos (com exceção de nomes e topônimos bíblicos), bem como variações de gênero, número e grau; flexões verbais etc. Homonímias de adjetivos e substantivos serão agrupados sob um mesmo lexema; e particípios passados serão classificados como verbos. Esse processo será feito manualmente, pois o programa não é capaz de executá-lo. Como o número de lexemas é variável, cada igreja terá uma lista lematizada não necessariamente com o mesmo número de itens, apesar de todas partirem de uma lista geral com as 150 lexias mais frequentes.
A partir dos lemas, será possível propor campos léxicos, comparar as listas de cada igreja e elaborar redes semânticas.