3. YÖNTEM
3.3. Veri Toplama Araçları
3.3.1. Nicel Veri Toplama Araçları
3.3.1.2. Maddenin Tanecikli Yapısı Ünitesi Akademik Başarı Test
Tomada a decisão de selecionar as palavras de nossos experimentos com base na freqüência de ocorrência, outra questão se apresentou: em que corpus do PB iríamos basear nossa contagem de freqüência? Nossas opções para buscas por freqüência de ocorrência, conforme vimos nas subseções anteriores, eram o Corpus NILC/São Carlos e o LAEL, já que o ASPA ainda estava em fase de elaboração quando a metodologia desta tese foi definida.
Um primeiro critério adotado para a escolha de um dos dois corpora foi a quantidade de dados que cada um deles disponibiliza. Em nossa tese, como estamos analisando itens que, em termos de classe, apresentam baixa freqüência de tipo, é importante que o corpus tenha um número significativo de dados, a fim de que as ocorrências de palavras pertencentes aos grupos em –ão, –l e ditongo em –u sejam registradas. Com relação ao quantitativo de dados, o NILC/São Carlos tem 41.372.943 itens, enquanto o LAEL tem 1.182.994. De acordo com esse parâmetro, portanto, o Corpus NILC/São Carlos tem prevalência sobre o LAEL, pois seus dados são 35 vezes em maior quantidade que os do LAEL.
Por outro lado, um segundo critério importante para a escolha do corpus é que ele seja representativo, também, da língua falada, já que é nessa modalidade que as variações lingüísticas se originam. Com relação a esse parâmetro, o Corpus LAEL tem preferência, porque ele disponibiliza dados de fala e de escrita, enquanto o NILC/São
Carlos tem itens apenas de escrita. No entanto, os dados de fala do LAEL contabilizam apenas 16,7% do total das ocorrências do corpus, então não se pode afirmar que esse quantitativo seja altamente expressivo.
Para tentar sanar as dificuldades encontradas na seleção do corpus mais apropriado para nossa análise (LAEL Fala, LAEL Escrita ou Corpus NILC/São Carlos), resolvemos fazer uma análise comparativa. Já havíamos pesquisado, no ASPA e no Novo Dicionário Aurélio Eletrônico, todas as palavras pluralizadas em –ões, –ãos e –ães (Tabelas 5 e 6, no Capítulo 3, “Revisão de Literatura”). Conforme vimos, desses morfemas, –ãos e –ães apresentavam freqüência de tipo bem inferior à de –ões. Por causa disso, pesquisamos, no LAEL Fala, no LAEL Escrita e no Corpus NILC/São Carlos, a freqüência de ocorrência de todas as palavras que se flexionavam em –ãos e –ães etimológicos. Já que esses morfemas apresentavam baixa quantidade de tipos, essa busca foi possível sem dificuldades. Montamos, então, um banco de dados com a freqüência de ocorrência de todas as palavras em –ãos e –ães nos corpora mencionados. A partir desses dados, selecionamos as cinco palavras mais freqüentes desse grupo (de plurais em –ãos e –ães) e montamos uma tabela comparativa sobre os corpora com esses números. Gostaríamos de ter feito a mesma comparação para os demais plurais em análise nesta tese, no entanto, como os demais grupos apresentavam freqüência de tipo maior (Cf. Tabelas 8, 9, 10 e 11), essa busca de freqüência de ocorrência para cada uma das palavras se tornou inviável. Ficamos, então, apenas com a comparação sobre os dados pluralizados em –ãos e –ães. Apresentamos os resultados na tabela a seguir:
Tabela 17: Comparação entre as cinco palavras mais freqüentes de plural em –ãos e –ães nos corpora NILC/São Carlos e LAEL (Escrita e Fala)
Corpora Palavras Ocorrências
mãos 2.949 órgãos 1.578 irmãos 1.125 alemães 1.025 NILC/São Carlos cidadãos 887 mãos 170 órgãos 37 cidadãos 22 irmãos 15 LAEL Escrita grãos 09 mãos 08 alemães 05 órgãos 05 cidadães 04 LAEL Fala irmãos 04
Na tabela acima, percebemos que, nos três corpora consultados, as cinco palavras mais freqüentes são basicamente as mesmas. As únicas diferenças são: 1) No LAEL Escrita, a palavra “alemães” não figura entre as mais freqüentes. Em quinto lugar nesse corpus está o item “grãos”, que não aparece nas demais listas; 2) No LAEL Fala, a palavra “cidadães” (variação de “cidadãos”) figura na lista. À parte essas divergências, as cinco palavras mais recorrentes nos três corpora são as mesmas.
Quanto à comparação entre os números de ocorrências das palavras, observamos, nitidamente, que, mesmo que os itens mais freqüentes (em –ãos e –ães) tenham sido basicamente os mesmos, o quantitativo maior de dados do Corpus NILC/São Carlos se reflete na freqüência de ocorrência das palavras consultadas. Nos três corpora, o item mais freqüente é “mãos”, sendo que, no NILC/São Carlos, sua freqüência é de 2.949 ocorrências, no LAEL Escrita, é de 170 ocorrências e, no LAEL Fala, apenas oito. Essa grande diferença numérica é similar em relação a todas as palavras dos três corpora, da primeira à quinta palavra mais freqüente. Essas discrepâncias numéricas refletem a diferença na quantidade de dados dos corpora comparados. O NILC/São Carlos tem 41.372.943 dados, o LAEL Escrita tem 985.093 e o LAEL Fala tem 197.901. Considerando em conjunto o LAEL Escrita e o LAEL Fala, eles apresentam 35 vezes menos dados que o
Corpus NILC/São Carlos, daí as grandes diferenças numéricas quanto às palavras mais freqüentes nos grupos pluralizados em –ãos e –ães. A partir dessa comparação, percebemos que, como nossa tese analisa grupos de palavras com baixa freqüência de tipo, é necessário adotar um corpus que contenha maior número de dados, a fim de que possamos encontrar, nesse corpus, quantidades significativas de ocorrências para cada uma das classes de plural sob análise. Em um corpus como o LAEL (Fala ou Escrita), como existe um número bem menor de dados que no NILC/São Carlos, seria inviável dividir as palavras em faixas de freqüência baixa, média e alta, porque a maioria das palavras dos grupos investigados já apresenta, tipicamente, baixa freqüência de ocorrência. Pode ser, inclusive, que não encontremos, para os grupos de plurais investigados, um quantitativo suficiente de palavras para preencher cada uma das faixas de freqüência, devido, justamente, à baixa quantidade total de dados nesses dois corpora (LAEL Fala e LAEL Escrita). Um corpus maior, como o NILC/São Carlos, poderá apresentar maior quantidade de dados para as palavras individualmente, possibilitando, assim, a separação dos itens léxicos em diferentes faixas de freqüência. Assim, nossa opção pelo Corpus NILC/São Carlos para a contagem de freqüência de ocorrência em nossa tese ocorreu porque a maior quantidade de dados disponibilizada por esse corpus permite que mais variações nas classes de plural analisadas sejam registradas.
Sanada a questão da opção por um corpora de análise, outro problema relativo à contagem de freqüência se apresentou: para cada palavra, havia duas possibilidades diferentes de freqüência: de singular e de plural. Como nosso objetivo era organizar as palavras em faixas de freqüência, a dificuldade que encontramos foi: qual das duas possibilidades de freqüência (singular ou plural) seria considerada para essa divisão? Após algumas considerações, resolvemos optar pela freqüência de plural, por dois motivos: 1) Conforme o Modelo de Redes postula, as palavras são estocadas como unidades inteiras, então as formas de plural são listadas no léxico do falante, estabelecendo interconexões morfológicas com as formas de singular. Portanto, a freqüência do plural deve ser considerada, já que itens pluralizados estão armazenados no léxico e é sua freqüência (não a dos itens singulares isoladamente) que pode interferir nas generalizações de plural; 2) Se as teorias de representações mentais postulam que palavras mais freqüentes são acessadas mais facilmente, devemos adotar o número de plural, porque o fato de a palavra ser freqüente na sua forma plural pode ajudar na manutenção de sua flexão, evitando possíveis generalizações.
Uma última dificuldade quanto às medidas de freqüência de ocorrência foi encontrada: como definir, para os fenômenos analisados, o que poderiam ser consideradas faixas de freqüência baixa, média e alta? Com relação aos valores numéricos adotados como limiar para cada uma das faixas de freqüência, Bybee (2006) afirma o seguinte:
The impossibility at the moment of specifying ranges for extreme high, medium and low is only a function of the state of our knowledge. As more empirical studies appear, absolute frequency ranges for each phenomena (sic) will eventually be specifiable. (BYBEE; 2006, p. 06)
Então, não há, até o presente momento, definições numéricas precisas para contagens de freqüência, mas precisávamos encontrar alternativas para dividir as palavras em faixas de freqüência, mesmo que o Modelo de Redes não apresentasse as implicações teóricas e práticas para essa definição. Avaliamos, inicialmente, que a divisão das faixas de freqüência deveria levar em consideração a interação entre as freqüências de tipo e de ocorrência dos itens léxicos que compunham as classes de plurais sob análise. Já havíamos feito, anteriormente, buscas de freqüência de tipo para as palavras terminadas em –ão, –l, e ditongo em –u. Essa busca foi realizada em um corpus de uso da língua (ASPA, conforme Tabelas 5, 8 e 9 do Capítulo 2, “Revisão de Literatura”), e no Novo Dicionário Aurélio Eletrônico (Cf. Tabelas 6, 10 e 11, no mesmo capítulo). Com essa pesquisa, já havíamos observado que os três grupos de plurais sob análise nesta tese (–ão, –l, e ditongo em –u) apresentavam baixa freqüência de tipo nos dois corpora consultados, sendo a classe em ditongo em –u menos freqüente que as demais (em termos de tipo). Portanto, a busca por tipos já havia sido realizada e era necessário fazer a pesquisa por ocorrências, a fim de utilizar essas duas fontes de dados para a definição das faixas de freqüência. Para essa busca por freqüência de ocorrência, recorremos ao Corpus LAEL (Fala e Escrita), já que ele disponibiliza uma lista de todos os itens léxicos de que é composto, da palavra mais freqüente à menos freqüente, nas modalidades falada e escrita60. Apresentamos abaixo os resultados para essa busca:
60 O Corpus NILC/São Carlos não foi adotado para esta busca porque ele não disponibiliza uma listagem de suas palavras em ordem de freqüência, como o LAEL. Por causa disso, não foi possível definir as palavras mais freqüentes (dos grupos em –ão, –l e ditongo em –u) no Corpus NILC/São Carlos.
Tabela 18: As palavras mais freqüentes de cada grupo de plural, no LAEL Fala e no LAEL Escrita
LAEL Fala61 LAEL Escrita
Grupos de Plural Palavras Freq. % no corpus Palavras Freq. % no corpus
Plural em –ão condições 41 0,02 informações 573 0,05
Plural em –l hospitais 16 0,008 principais 239 0,02
Plural em dit. –u graus 06 0,003 graus 18 0,001
Através da comparação dos dados da tabela acima, percebemos que os três grupos de plurais apresentam quantitativos numéricos diferenciados nos corpora consultados. No entanto, observamos que, nos dois corpora, a distribuição dos grupos por ordem de freqüência é exatamente a mesma: os itens em ditongo em –u são os menos freqüentes, o grupo em –l está na faixa intermediária e a classe mais freqüente é a de –ão. O diferencial numérico decorre, portanto, da diferente quantidade de dados dos corpora (o LAEL Fala apresenta 197.901 dados e o LAEL Escrita, 985.093). Apesar dessas diferenças numéricas, observamos que, no percentual em relação ao total do corpus, as palavras mais freqüentes de cada classe de plural apresentam quantitativos similares. No LAEL Fala, essa porcentagem varia de 0,003% a 0,02%; no LAEL Escrita, as porcentagens são maiores, entre 0,001% e 0,05%, mas também não existe grande diferencial entre os três grupos de palavras analisadas. Nenhuma das porcentagens das classes de plural ultrapassa, portanto, 0,05% do total dos corpora. Por causa desse percentual similar em relação ao total de dados nos dois corpora consultados e devido à baixa freqüência de tipo dos três grupos de plurais sob análise, optamos por adotar as mesmas faixas de freqüência para todos os plurais. Ficamos, portanto, com as seguintes medidas: freqüência baixa entre zero e 99 ocorrências, freqüência média entre 100 e 500 ocorrências, freqüência alta com mais de 500 ocorrências. Estamos cientes de que os três casos sob análise apresentam diferentes freqüências de tipo e de ocorrência (Cf. tabelas mencionadas acima), no entanto, como o Modelo de Redes não define medidas precisas que determinem os limiares entre as freqüências, optamos por adotar os mesmos valores para todos os grupos. Escalonar diferentes faixas de freqüência a partir da quantidade de tipos e ocorrências para cada uma das classes de plural analisadas demandaria um conhecimento ainda não definido pelo Modelo de Redes, por isso
61 As porcentagens fornecidas referem-se ao quantitativo de dados dos dois corpora on-line: o LAEL Fala apresenta 197.901 dados e o LAEL Escrita, 985.093. Nessa tabela, foram considerados somente os substantivos e adjetivos flexionados a partir de cada um dos grupos de plurais.
mantivemos os mesmos parâmetros de freqüência de ocorrência para todos os grupos de plurais, mesmo cientes de que essa opção é questionável.
A próxima subseção discute a codificação dos dados e as hipóteses para cada variável considerada na análise.