2. GENEL BİLGİLER
2.3. İMGELEM VE YÖNLENDİRİLMİŞ İMGELEM
2.3.2. Yönlendirilmiş İmgelem Tanımı ve Uygulanışı
Para a realização dos estudos mencionados acima, é preciso que grandes quantidades de dados linguísticos (provenientes de um corpus) sejam compilados e organizados, de modo a serem posteriormente analisados com o auxílio de ferramentas computacionais.
Nesse sentido, Conrad, Biber e Reppen (1998) enfatizam que as técnicas baseadas em corpus facilitam muito a realização de estudos detalhados sobre registros. Os computadores tornaram possível armazenar um grande número textos, analisar um grande número de características linguísticas presentes nos textos e fazer comparações dos resultados entre os registros, permitindo um estudo mais sistemático das particularidades de cada registro.
A título de ilustração, os autores apresentam algumas questões de pesquisa que confirmam a relevância de se manter os três requisitos apresentados anteriormente:
1. Como registros falados e escritos diferem em relação ao emprego das orações subordinadas?
Esta questão de pesquisa ilustra as técnicas baseadas em corpus usadas para estudar diferenças de registro no que diz respeito a um único tipo de construção: as orações subordinadas. No passado, muitos estudos supunham que as partes constitutivas dessas orações tinham finalidades e distribuições similares. No entanto, hoje pesquisas mostram que o uso dessas orações varia dependendo do registro. Além disso, os autores demonstram como a inclusão de poucos textos ou poucas características linguísticas pode conduzir a caracterizações imprecisas do registro.
2. Como se realizam os discursos falado e escrito em inglês? Especificamente, quais os padrões no uso de determinadas características linguísticas que são importantes para diferenciar os principais registros falados e escritos? No que se refere a essas características, os registros falados e escritos são diferentes ou similares?
Por muitos anos, as diferenças entre o discurso falado e escrito foram um tópico de interesse dos linguistas. Responder a esta questão de pesquisa exige uma análise muito mais detalhada de características linguísticas do que a primeira pergunta. Em razão disso, os autores introduziram a Análise Multidimensional (AMD) para investigar a variação de registro. Trabalhando no âmbito do estudo do corpus, a AMD permite a investigação dos padrões principais da variação em características linguísticas dos registros falado e escrito.
3. Como textos de áreas acadêmicas diferentes se distinguem no que diz respeito aos padrões da variação linguística?
Essa questão de pesquisa interessa ao uso do inglês para fins específicos. Atualmente, pesquisas mostram como artigos de duas áreas acadêmicas diferentes variam em seus padrões de uso da linguagem, e como esses padrões linguísticos estão relacionados às finalidades e métodos de cada área. Essa questão mostra como a AMD pode ser usada para investigar registros específicos.
4. Quanto as seções dos textos de um único registro acadêmico variam linguisticamente?
Essa pergunta ilustra a análise de registros muito específicos, por exemplo, as seções dentro dos artigos de Biologia. Nesse caso, aplica-se a estrutura multidimensional a cada uma das seções dentro dos artigos de Biologia, centrando-se mais detalhadamente sobre a variação nas seções: a introdução, os métodos, os resultados e a discussão.
Finalizando, Biber, Conrad e Reppen (1998) afirmam que, para todas as perguntas acima, certamente, em todas as análises da variação do registro, deve-se enfatizar que as técnicas quantitativas não são suficientes. Particularmente, as interpretações qualitativas são necessárias para examinar as bases funcionais que determinam os padrões de características linguísticas.
2.4.2.1 Análise Multidimensional de Variação de Registro (AMD)
A Análise Multitraço e Multidimensional de Variação de Registro (Multifeature Analysis of Register Variation) foi criada por Douglas Biber com o objetivo de permitir uma descrição rica e complexa de corpora inteiros de textos por meios estatísticos, bem como a extração precisa de características textuais em comum entre corpora. O nome dessa abordagem deriva do conceito de dimensão de variação. Dimensão, nesse caso, constitui um conjunto de traços que subjazem a um corpus. Esse método de análise possibilita utilizar concomitantemente uma variedade de traços linguísticos empregados na análise textual e aplicar a codificação desses traços a um número de textos maior do que se poderia fazer manualmente, utilizando computadores e técnicas estatísticas. Como para Biber o ideal é combinar a descrição firmada em características situacionais com a descrição baseada em traços linguísticos, a AMD fornece o instrumental para a identificação de padrões de coocorrência dos dois tipos de características, visando a caracterização de uma língua, ou de um conjunto de tipos de textos, de modo abrangente. Por meio dela, a variação entre textos e registros pode ser mais adequadamente descrita por meio de múltiplos parâmetros, possibilitando a utilização de um aparato quantitativo de descrição, o qual permite a especificação da coocorrência dos traços linguísticos de modo preciso (BERBER SARDINHA, 2004).
O processo estatístico da AMD é chamado de Análise Fatorial (AF), que considera a frequência das variáveis utilizadas em todos os textos do corpus para buscar
correlações entre elas e extrair um determinado número de fatores. Ressalte-se que um fator enfeixa variáveis coocorrentes, e cada fator é responsável por uma parcela da variação linguística observada no corpus de estudo. Portanto, para Biber, a partir da interpretação dos fatores, é possível identificar as dimensões10 (KAUFFMANN, 2005). Sendo assim, é necessário recorrer à utilização de técnicas qualitativas de interpretação, uma vez que as dimensões são rotuladas, e constatar que se combina a análise de nível macro com análise de nível micro, já que a microdescrição dos traços de cada texto permite a indução dos macroagrupamentos textuais ou genéricos (BERBER SARDINHA, 2004).
Berber Sardinha (2004) afirma que:
―A variação entre registro era investigada por meio de poucos parâmetros (por exemplo, formalidade ou planejamento) e, por conseguinte, a distinção que se fazia entre textos era incompleta, pois privilegiava apenas uma das muitas diferenças que podem existir entre os textos. O emprego de poucos parâmetros também tinha o efeito de polarizar a descrição, assim havia uma tendência para descrever textos através de dois opostos, por exemplo, formal X informal, ou planejado X espontâneo. Por último, a descrição da coocorrência feita através de meios intuitivos podia ser falha, já que o analista não oferecia uma descrição objetiva dos traços que supostamente ocorriam‖ (BERBER SARDINHA, 2004, p.301).
Portanto, com a AMD deve-se utilizar uma quantidade maior de parâmetros para permitir uma comparação mais abrangente. O analista deve dispor de um conjunto que inclua o maior número possível de características linguísticas, já que o aumento da quantidade de parâmetros implica um número maior de traços linguísticos necessários para cobrir a maior gama de características.
2.4.2.1.1 Pressupostos da AMD
De caráter essencialmente quantitativo e computacional, os pressupostos da AMD são os seguintes (BERBER SARDINHA, 2004):
permitir descrever a língua por meio de um conjunto variado e extenso de características linguísticas;
basear-se na análise fatorial;
utilizar uma maior quantidade de características linguísticas, de forma a aumentar a quantidade de parâmetros de comparação entre corpora;
não descartar a utilidade de técnicas qualitativas de interpretação, uma vez que as dimensões são rotuladas;
combinar análise macro com análise micro, já que a microdescrição dos traços de cada texto permite a indução dos macroagrupamentos textuais ou genéricos;
ser de caráter cumulativo, pois permite a descrição de banco de dados em crescimento;
ser flexível, pois acomoda diversos traços linguísticos.
2.4.2.1.2 Etapas na realização de uma Análise Multidimensional
De modo geral, as três etapas básicas para execução de uma análise multidimensional são (BIBER, CONRAD, REPPEN, 1998; BERBER SARDINHA, 2004):
1) revisão da literatura em busca de traços linguísticos relevantes, coleta do corpus e codificação dos textos de acordo com o elenco de características linguísticas selecionadas;
2) análise fatorial, fase em que é feito o agrupamento das características linguísticas em fatores e a interpretação funcional desses fatores a fim de descobrir um traço comunicativo dominante subjacente ao fator, dando origem às dimensões;
3) cálculo de escores de cada texto em relação a cada fator e a interpretação das dimensões à luz dos textos que as compõem.
Sendo assim, seguem as principais etapas da AMD:
levantamento das características linguísticas relevantes através de uma ampla consulta à literatura;
coleta ou adoção de um corpus de dados linguístico representativo e compatível com as metas da análise;
transformação das características linguísticas em variáveis quantificáveis; codificação dos dados baseada nas variáveis selecionadas, com a utilização
de ferramentas computacionais para análise automática, semiautomática ou mesmo manual;
conferência manual da codificação feita por computador para checar sua exatidão;
padronização das frequências para permitir a comparação entre variedades (textos, registros ou corpora) de extensões diferentes;
computação de frequências médias de cada variável;
análise fatorial inicial para obter os pesos (loadings) de cada variável em cada variedade;
determinação do número de fatores por meio da aplicação de técnicas como observação dos valores eigen (eigenvalues) em um gráfico scree (scree plot);
análise fatorial posterior, com a rotação dos fatores;
cálculo de escores de cada texto por fator pela padronização dos escores com base na média e no desvio padrão;
cálculo de escores médios de cada variedade por fator; interpretação de cada fator e rotulação das dimensões.
No Brasil, além do projeto de Kauffmann (2005), que aplicou a AMD, há o projeto CORPOBRAS. Esse projeto, coordenado por Lucia Pacheco de Oliveira e desenvolvido na PUC-RJ, tem a finalidade de fornecer subsídios para o estudo de diversos gêneros do discurso (oral e escrito). Atualmente, o corpus é constituído de cerca de 660.000 palavras, mas pretente atingir 1 milhão de palavras, e conta com 21 gêneros discursivos. Além disso, como pretende fornecer resultados de estudos sincrônicos, o corpus enfoca textos contemporâneos, considerando os textos de domínio acadêmico, comercial e jornalístico (artigos científicos, circulares, notícias, editoriais, etc) da última década do século passado e os primeiros anos deste século (1990-2006). Já no caso do domínio literário e pessoal, ou seja, romances, contos, crônicas, cartas pessoais, o corpus considera um escopo maior, mas ainda dentro da contemporaneidade – de 1901 a 2001 (OLIVEIRA, 2003).
Diante do que foi exposto, a importância da AMD para este projeto deve-se às suas etapas básicas, que se enquadram no tipo de análise de gênero empreendido por
esta pesquisa, e aos seus pressupostos, os quais orientam uma análise bastante detalhada de gêneros para fins de classificação. Ressalte-se ainda a adoção de parâmetros para comparação de corpora, bem como a utilização de técnicas qualitativas de interpretação.