• Sonuç bulunamadı

2.1. Dünyada Yükseköğretim Sistemleri

2.1.1. Amerika Birleşik Devletleri’nde Yükseköğretim Sistemi

O programa selecionado para esta pesquisa foi o WordSmith Tools, versão 5, desenvolvido por Mike Scott115. O WordSmith possibilita, entre outras

ações, a obtenção de listas de palavras de todo o corpus de estudo, em ordem alfabética e de frequência. Esse programa também disponibiliza dados estatísticos sobre o corpus da pesquisa: o número de palavras no texto (tokens), o número de palavras distintas nos texto (types), a razão tokens- types, o tamanho do corpus em bytes e outros dados relacionados com a composição lexical e estrutural do texto.

As cinco versões do WordSmith Tools possuem as ferramentas: WordList, KeyWords, Concord, e os utilitários: FileManager, Splitter, Text Converter, e Viewer and Aligner. Para a investigação de nossos corpora, utilizamos as seguintes ferramentas:

– WordList, que possibilita obter o cômputo total das palavras no texto (tokens), o número de palavras distintas no texto (types), o número total de

115 O program WST é comercializado pela Oxford University Press. Ele pode ser obtido pela

internet, no endereço http://www.lexically.net/downloads/download.htm, ou acessando http://www.lexically.net.

frases e as listas de palavras dos dois corpora em ordem alfabética e de frequência, enfim, uma verdadeira radiografia do texto.

A figura 1 abaixo mostra os trinta primeiros vocábulos (tradução usada por Berber Sardinha (1990) para o termo type) de nosso corpus de estudo em

português. A primeira coluna mostra a ordem de classificação desses vocábulos de acordo com a sua frequência no corpus, a segunda coluna relaciona os vocábulos do referido corpus. Como é de praxe, os vocábulos mais frequentes são palavras gramaticais, tais como: artigos (a, as, o, um); preposições (de, em, com); conjunções (e, mas); pronomes (me, eu, ela, ele, meu). A terceira coluna mostra a frequência absoluta desses vocábulos no corpus, ou seja, quantas vezes a palavra ocorreu e a quarta coluna a sua frequência percentual, que corresponde à percentagem do total de palavras do texto. Há 4.222 ocorrências do vocábulo de (frequência absoluta) no corpus de estudo português original, o que significa que ele representa 3,77% (frequência percentual) de todos os itens (tradução usada por Berber Sardinha (1990) para o termo tokens) presentes no referido corpus.

Figura 1 - Trinta primeiros vocábulos do Corpus de Estudo Português Original.

– KeyWords, que fornece a seleção de palavras-chave por meio da comparação automática de dois corpora: geralmente um corpus de estudo (menor e mais especializado) com um corpus de referência (maior e mais

geral) e relaciona as palavras-chave do corpus mais especializado, ou seja, do corpus de estudo. O corpus de estudo, representado por uma lista de frequência de palavras gerada a partir do corpus ou dos corpora que se pretende descrever, é comparado com o corpus de referência, também

formatado como uma lista de frequência de palavras.

O resultado dessa comparação pode mostrar, por exemplo, as palavras- chave, ou seja, aquelas que aparecem com uma alta frequência no corpus de

uma frequência incomum se comparadas às palavras do corpus de referência (BOWKER, 2002: 167). As palavras-chave são classificadas de acordo com o seu nível de chavicidade, ou seja, “o grau de destaque das palavras no sentido de serem anormalmente frequentes no corpus de estudo em relação ao corpus

de referência.” (GERBER, 2007).

Segundo Berber Sardinha (2004, p. 102), “o tamanho recomendado de um corpus de referência é cinco vezes o tamanho do corpus de estudo” porque retornam mais palavras-chave do que aqueles de menores dimensões.

A figura 2, a seguir, mostra as trinta primeiras palavras-chave geradas pela comparação da lista de palavras do Corpus de Estudo em Português Original, (que na tabela aparece com o nome de EPO.LST) com a lista de palavras do Corpus de Referência Banco de Português (que na tabela aparece com o nome de PO3.LST). A coluna N mostra a ordem de classificação desses vocábulos de acordo com a sua chavicidade no corpus.

A coluna WORD é composta pelas palavras consideradas “chave”; a coluna FREQ. informa a frequência absoluta da palavra no corpus de estudo; a coluna EPO.LST % traz a frequência percentual da palavra, ou seja, a porcentagem da palavra em relação ao total do corpus de estudo; a coluna FREQ. mostra a frequência absoluta da palavra-chave no corpus de referência; a coluna PO3.LST% indica a porcentagem da palavra-chave com relação ao total do corpus de referência; a coluna KEYNESS refere-se à chavicidade da palavra, ou seja, o resultado da estatística de comparação entre os corpora de estudo e o de referência e a coluna P contém o valor da significância atingido pelo resultado da estatística.

Figura 2 - Trinta primeiras palavras-chave do Corpus de Estudo Português Original. A ferramenta KeyWord oferece a opção de dois tipos de testes estatísticos para se calcular a chavicidade das palavras: o qui-quadrado e o log-likelihood . Nesta pesquisa, utilizou-se como fórmula estatística o log- likelihood porque ele é usado para comparar listas de palavras de grandes tamanhos, informa Gerber (2007, p.89). O valor de p utilizado nesta pesquisa foi 0,001, isso significa que há 0,1%, o que representa um caso em mil, de probabilidade de o resultado ser devido ao acaso. Um percentual bastante seguro, pois na área de “Ciências Sociais, 5% de risco é um resultado

considerado aceitável”. A frequência mínima foi estipulada em 10 ocorrências. Quanto ao índice de chavicidade, apenas as palavras com índice superior a 50 seriam candidatas à análise, a delimitação do escopo da análise fez com que se optasse por esse índice. De acordo com o manual de informação do programa WST (SCOTT,1998), índices de chavicidade acima de 4,0 são considerados significativos.

A figura 3 abaixo mostra a tela do setting contendo as configurações que foram utilizadas para gerar as listas de palavras-chave.

Figura 4 - Concordance da palavra de busca “olhos” do corpus de estudo português original. O Concord, que produz concordâncias ou listas de ocorrências de uma palavra ou frase escolhida pelo pesquisador. O item selecionado é denominado palavra de busca ou nódulo. A palavra de busca vem acompanhada de um texto cujo escopo é estipulado pelo pesquisador. Os tipos de concordância variam de acordo com a posição da palavra de busca, a mais comum é a KWIC (Key Word in Context), em que a palavra de busca aparece na posição central da linha de concordância e é acompanhada do co-texto anterior e posterior a

ela. É, também, possível organizar a busca de uma palavra específica ordenando alfabeticamente as palavras anteriores ou posteriores à palavra de busca. Essa ferramenta também informa o número total de ocorrências da palavra de busca no texto. A figura 4 abaixo mostra uma concordância da palavra de busca “olhos” que faz parte do Corpus de Estudo em Português Original.

O programa WST (WordSmith Tools) oferece, por meio do utilitário

Viewer and Aligner, a possibilidade de alinhar os textos original e traduzido. O alinhamento permite visualizar as sentenças ou parágrafos dos textos original e traduzido de forma alternada. Essa visualização, apesar de clara, não pode ser feita lado a lado. A figura 5 abaixo apresenta o resultado desse alinhamento:

Figura 5 - Alinhamento dos textos original e traduzido do romance Budapeste.