O corpus foi submetido à análise lexical ou estatística textual desenvolvida com o auxílio do software ALCESTE (Análise Lexical por Contexto de um Conjunto de Segmentos de Texto), produzido em 1979, por Max Reinert. A conciliação de diversas análises estatísticas (Classificação Hierárquica Descendente, Análise de Correspondência e Teoria das Nuvens dinâmicas), faz com que o programa seja considerado não somente uma técnica, mas também uma metodologia de exploração e descrição de dados (Kronberguer & Wagner, 2008).
Oliveira, Gomes e Marques (2005) apontam que o ALCESTE utiliza ―mecanismos independentes de análise de conteúdo‖ (p.158) de caráter quantitativo, a fim de conhecer a distribuição e ocorrência das palavras no texto. Segundo Bauer (2008) a análise de conteúdo serve para diminuir a complexidade de conjuntos de textos dando uma descrição curta de suas características, sendo assim, consegue apresentar análises de grandes volumes de material,
33
que não poderiam se perceber de outra maneira. A análise de conteúdo ―permite construir indicadores e cosmovisões, valores, atitudes, opiniões, preconceitos e estereótipos e compará- los entre comunidades‖ (Bauer, 2008, p.192).
O princípio que embasa a análise desenvolvida pelo ALCESTE é o de que um texto formulado por diferentes indivíduos pode apresentar pontos de vistas partilhados pelo grupo social, ou seja, ―pontos de referência diferentes produzem diferentes maneiras de falar, isto é, o uso de um vocabulário específico é visto como uma fonte para detectar maneiras de pensar sobre um objeto‖ (Kronberguer & Wagner, 2008, p.427).
Segundo Oliveira, Gomes e Marques (2005), o ALCESTE busca a mensuração de sentidos presentes nos enunciados, a partir da constatação de padrões de ocorrência de palavras, da ―distância lexical‖ (p.158) ou da observação das ―leis de distribuição do vocabulário‖ (p.160) . A ―análise lexical consiste tão somente em selecionar alguns indicadores de bons ‗núcleos de sentido‘, a partir da redundância presente nos diversos enunciados, estatisticamente mensurados‖ (p.195).
Destacam-se duas condições básicas para o uso do programa, quais sejam: o corpus deve apresentar coerência temática e deve ser volumoso o suficiente para a execução das operações estatísticas. O tamanho mínimo recomendado para obtenção de uma boa análise deve ser de 10.000 palavras ou 50.000 caracteres (Oliveira, Gomes & Marques, 2005; Kronberguer & Wagner, 2008).
Verificada a adequação de tamanho e conteúdo do corpus, antes de ser submetido à análise ALCESTE, o mesmo sofre alguns ajustados para o padrão aceito pelo software (Pedrosa, 2012): a) todo o corpus deve ser salvo num único arquivo de texto editável, como ―texto sem formatação‖ com ―quebra de linha‖, o nome do arquivo deve ser curto e sem espaços; b) foram retirados estilos de fonte e destaques; c) todo o texto deve ser mantido em caixa baixa (letras minúsculas); d) hífens foram trocados por traço inferior (underline); e) palavras que devem ser lidas em conjunto foram unidas por traço inferior; f) foram eliminados ou colocados por extenso os caracteres especiais (asteriscos, aspas, apóstrofos, parênteses, colchetes, chaves, percentagem, cifrão e acentos).
Como indicado por Bardin (2009) a análise lexical mediada por computadores viabiliza determinados procedimentos de análise de conteúdo, a partir da instrução clara e objetiva por parte do pesquisador, dos critérios a serem considerados estatisticamente. No ALCESTE o programa irá reconhecer as divisões no texto apresentado a partir da ocorrência de linhas de comando que iram delimitar as Unidades de Contexto Iniciais (UCI), ou seja, as separações iniciais definidas pelo pesquisador no conjunto de textos, como por exemplo, em
matérias, fragmentos ou respostas a uma pergunta. Em nossa pesquisa as UCI são as reportagens, trechos ou comentários vindos de edições diferentes da revista.
As linhas de comando ou linhas estreladas podem começar com um número de identificação ou por uma seqüência de quatro asteriscos. Nela o pesquisador acrescentará variáveis ou palavras estreladas (compostas de informações extra-corpus) essenciais para a análise e caracterização do objeto investigado. O número de palavras estreladas não deve exceder 255 caracteres, nem 18 caracteres por palavra (Oliveira, Gomes & Marques, 2005). No presente trabalho, as linhas de comando tiveram a seguinte configuração:
**** *ed_17 *dec_1 *ano_1969 *cont_1 *sex_4 *ator_8 *loc_4
A primeira palavra estrelada, ―ed‖ se refere à edição da revista em que a matéria aparece e serve de número de identificação da ocorrência, pois não apresenta repetições. As demais palavras estreladas são variáveis úteis a análise: ―dec‖ representa a década ou período em que a matéria ocorreu; ―ano‖ está ligada a data de ocorrência da matéria, podendo variar entre 196934e 2010; ―cont‖ se refere ao tipo de conteúdo da matéria; ―sex‖ representa o sexo do(s) principal(is) envolvido(s) com o tráfico de drogas apresentado na matéria; ―ator‖ trata no lugar ocupado pelo envolvido na dinâmica social; ―loc‖ refere-se ao local em que o tráfico de drogas é situado pela matéria.
O quadro 1 lista os códigos utilizados nas linhas de comando e suas descrições. O mesmo não inclui as variáveis ―ed‖ e ―ano‖ que tem grande variação numérica.
Códigos Descrição
*dec_1 Período entre 1968-1979 *dec_2 Década de 80 (1980-1989) *dec_3 Década de 90 (1990-1999) *dec_4 Década de 2000 (2001-2010) *cont_1 Principal (Íntegra)
*cont_2 Secundário (Trecho) *sex_1 Masculino
*sex_2 Feminino
*sex_3 Homens e Mulheres *sex_4 Não se aplica *ator_1 Traficante *ator_2 Jovem *ator_3 Político
34
Códigos Descrição *ator_4 Polícia/Militares *ator_5 Criminoso *ator_6 Artista *ator_7 Mafiosos *ator_8 Consumidor *ator_9 Mulher de militar *ator_10 Mulher de político *ator_11 FARC/ELN/AUC *ator_12 Terrorista *ator_13 Esportista *ator_14 Banqueiro *ator_15 Jogo do Bicho *ator_16 Menor/Criança *ator_17 Pastor
*ator_18 Milionária *ator_19 Não se aplica *loc_1 Brasil *loc_2 Internacional
*loc_3 Fronteira ou Conexão entre Brasil e outro país *loc_4 Não se aplica
Quadro 1. Códigos utilizados nas linhas de comando e suas descrições.
A análise desenvolvida pelo ALCESTE pode ser sintetizada em quatro etapas principais (Kronberguer& Wagner, 2008; Oliveira, Gomes & Marques, 2005; Menandro, Trindade & Almeida, 2010; Pedrosa, 2012):
1ª Etapa: o programa identifica as UCI através da leitura das linhas de comando. Em seguida, realiza a identificação de Unidades de Contexto Elementar – UCE, isto é, afirmativas do texto, dimensionadas em função do tamanho total do corpus (em torno de 3 a 6 linhas, com no máximo 250 caracteres), mas respeitando a pontuação e o tamanho das frases. No trabalho com as UCE o programa prioriza as chamadas ―palavras com conteúdo‖ ou ―palavras plenas‖ (substantivos, verbos, adjetivos e advérbios), em detrimento de ―palavras com função‖ ou ―palavras ferramentas‖ (artigos, pronomes, preposições, conjunções e verbos auxiliares). As palavras são reduzidas aos seus radicais ou raízes (formas reduzidas) e são calculadas as suas freqüências. ―É a partir da vinculação das palavras do corpus a essas UCE que o Alceste vai estabelecer as matrizes através das quais será efetuado o trabalho de classificação‖ (Reinert, 2000, citado por Oliveira, Gomes & Marques, 2005).
2ª Etapa: ocorre a identificação de classes através da Classificação Hierárquica Descendente. Esta classificação ocorre mediante sucessivas comparações realizadas pelo programa, entre as UCE identificadas e as formas reduzidas das palavras plenas. A etapa inicia-se com a identificação do conjunto das UCE como uma primeira classe (matriz). As divisões em pares serão realizadas sucessivamente até que não sejam mais possíveis divisões posteriores. O critério para a divisão é o qui-quadrado (Q²) das palavras reduzidas, ou seja, a distribuição média de uma palavra é comparada com a distribuição na classe, a fim de identificar vocabulários diferenciados no discurso. As palavras são organizadas de maneira a não se repetirem. O resultado é a chamada hierarquia de classes, baseada no princípio da maior homogeneidade interna a classe e da maior diferenciação possível entre as classes.
3ª Etapa: são apresentados cálculos como as listas de palavras referentes às classes (freqüência; porcentagem; qui-quadrado). Ocorre a Análise Fatorial de Correspondência que mensura a dependência entre as classes e a apresentação da hierarquia de classes através de um dendrograma.
4ª Etapa: ocorrem cálculos complementares e a obtenção das ―UCE mais características, os segmentos repetidos e uma lista de palavras mais características‖ (Menandro, Trindade & Almeida, 2010, p.78). O programa fornece a Classificação Hierárquica Ascendente, que apresenta as palavras mais associadas entre si nas classes.
Os resultados serão discutidos tendo em vista o papel interpretativo do pesquisador (Souza & Menandro, 2007; Menandro, Trindade & Almeida, 2010) que fará inferências em diálogo constante com as teorias que embasam o estudo.―A análise ALCESTE, desse modo, não permite interpretar o que é dito, mas saber em que meio é dito‖ (Oliveira, Gomes & Marques, 2005, pp. 167-167), caberá ao pesquisador a leitura dos resultados, a nomeação das classes apresentadas pelo ALCESTE, e a interpretação das relações apontadas pelas análises estatísticas, que somente farão sentido mediante o conhecimento prévio do pesquisador sobre o campo empírico e teórico acerca do objeto.