2.1. Seramiğin Tarihçesi ve Tanımı
2.1.2. Tanım (Teknikler ve Yöntemler)
Como um primeiro comentário, faz-se importante esclarecer que as análises e comparações feitas entre os corpora são justas por três principais características de sua arquitetura, quais sejam: i. o tamanho deles, que é equiparado, o que reduz a possibilidade de haver margem para discrepâncias na quantificação dos dados; ii. o fato de se tratarem de
corpora da mesma modalidade, a escrita; e iii. o fato de eles serem corpora do mesmo
registro, o acadêmico, e terem sido compilados sob critérios e condições semelhantes. Outra observação que merece atenção se trata do cuidado mantido ao longo das análises das linhas de concordância com os quantificadores a few e few, as quais não foram provenientes de apenas um aprendiz, o que garante a eliminação de conclusões tendenciosas, baseadas em apenas um informante como parâmetro.
Em se tratando dos tipos de análises feitas, tem-se a seguinte subdivisão:
3.2.1 O apanhado geral
As análises transcorreram da seguinte forma: em primeiro lugar, analisando as linhas de concordância do Br-ICLE com few, foi feito um apanhado qualitativo geral com os dois seguintes objetivos: o primeiro foi separar as ocorrências que possuíam expressões de tempo – considerando que são numerosas (como ‘in a few decades’, ‘for a few weeks’, ‘over
the past few years’, etc.) – seguindo o nódulo em questão a fim de verificar o uso dos
colocados à direita relacionados a tempo e fazer uma comparação com a seção acadêmica do COCA (gerando o quadro de colocados mais frequentes à direita), e também com a parte do LOCNESS (após separar as linhas manualmente, conforme feito com o Br-ICLE); e o segundo foi investigar os colocados à esquerda de few, além do artigo a, na seção acadêmica do COCA com o intuito de obter um parâmetro vindo de um corpus de referência e averiguar, comparativamente, os resultados que seriam gerados desses colocados para o Br-ICLE e também para o LOCNESS.
3.2.2 O apanhado com nuances de prosódia semântica
Tendo em vista que um dos objetivos desse trabalho era verificar se há alguma relação entre o uso de quantificadores e seus colocados com a manifestação de uma prosódia semântica característica na expressividade do discurso acadêmico, foi necessário fazer uma checagem de como os nativos fizeram isso no LOCNESS a fim de comparar com o que sucedeu, também nessa direção de análise, no Br-ICLE.
Para tanto, foram separadas manualmente, e observando o contexto expandido, as linhas de concordância que satisfaziam esse propósito de pesquisa para tentar buscar por um padrão seguido pelos nativos e identificar as inadequações cometidas pelos aprendizes. Nesse momento, foi necessário contar com o respaldo estatístico do Fisher’s Exact Test,30 para uma melhor interpretação quantitativa dos dados no sentido de testar sua significância estatística e obter a validação devida dos resultados.
Sabe-se que a maioria do que se deseja medir geralmente está sujeita a um grau de flutuação randômica, e por isso é recomendado se valer de testes de significância a fim verificar se um determinado resultado é uma mera coincidência ou se é fruto de um fenômeno significativo, a partir do qual vale a pena investir em mais pesquisas.
Dunning (1993) destaca diferentes testes que podem ser usados por pesquisadores, dependendo do tipo de dados que possuem, como o teste chi-quadrado, o teste t e o teste log-
likelihood. Para o presente trabalho, como já dito, nenhum desses três testes foi usado, devido
ao tamanho dos corpora sendo comparados. Cumpre informar que o teste chi-quadrado, por exemplo, costuma presumir uma distribuição normal para os dados, e tal distribuição não é típica para dados linguísticos. Enquanto a distribuição normal é graficamente representada por uma curva senoidal, o gráfico que é comumente plotado para a distribuição de palavras é o de uma curva decrescente, revelando a característica de haver poucas palavras – em sua grande maioria, as palavras gramaticais – que são muito frequentes, um número significativo de palavras de frequencia média – em geral, as palavras funcionais, – e muitas palavras de frequencia baixa, das quais as várias listadas nos diversos últimos lugares do ranqueamento por frequencia são as denominadas hapax legomena (as que possuem apenas uma ocorrência no corpus).
30
Teste de significância estatística geralmente aplicado em amostras de tamanho pequeno. Em português, Teste Exato de Fisher. Há páginas online que disponibilizam a aplicação desse teste, e o endereço visitado quando da realização do teste foi http://www.physics.csbsju.edu/stats/fisher.form.html.
Assim, pode-se dizer que o chavão “poucos gigantes e muitos anões” reflete essa configuração, que é, inclusive, estatisticamente prevista pela Lei de Zipf31, e na sessão de Anexos (ANEXO F) há um exemplo de um gráfico com a curva típica para a distribuição de palavras em um corpus. Desse modo, por presumir uma distribuição normal, e também por ser recomendada a sua aplicação em corpora maiores, o teste chi-quadrado, bem como os demais mencionados no parágrafo anterior, não seriam indicados para aferir quantitativamente a significância do fenômeno da prosódia semântica sendo aqui tratado. Para evitar, portanto, uma interpretação distorcida ou tendenciosa dos dados, a melhor opção de teste estatístico a ser empregado recaiu sobre o Teste Exato de Fisher, que obtém preferência no caso de amostras pequenas. Mais ainda, nesse momento, o Co-RAP também se fez relevante para informar acerca de características dos agrupamentos com quantificadores produzidos pelos nativos de português que também possuíam nuances de prosódia semântica. A partir disso, então, tornou-se possível adquirir uma noção, ainda que um pouco restrita, da extensão da influência da interlíngua na escrita de aprendizes avançados de inglês, e lançar uma discussão a esse respeito.
3.2.3 O detalhamento dos dados dos aprendizes
Após os passos descritos nos dois itens acima, partiu-se para a explanação mais individualizada das ocorrências com few provenientes dos dados dos aprendizes. Assim sendo, foram reunidas em quadros todas as linhas de concordância que estavam adequadas e todas as que não estavam.
A partir daí, foram feitos comentários gerais sobre os acertos dos aprendizes e, para o tratamento com as inadequações, foram estabelecidas cinco categorias de erros. Feito isso, foi possível organizar melhor os tipos de inadequações, agrupando-as dentro das categorias e detalhando-as mais criteriosamente.
Nesse capítulo, a arquitetura de cada corpus utilizado como fonte de dados para essa pesquisa foi descrita, bem como os procedimentos metodológicos empregados ao longo do trabalho a fim de alcançar os objetivos traçados e obter respostas para as perguntas de pesquisa delineadas no capítulo 1. No capítulo seguinte, os resultados das análises conduzidas serão apresentados e discutidos.
31
Mais detalhes sobre a descrição dessa lei podem ser encontrados na obra de George Zipf: Human Behavior