Passa-se, neste momento, à descrição dos critérios de seleção que nortearam a construção dos corpora utilizados para a análise contrastiva proposta pelo presente projeto de pesquisa. Além disso, são descritos os algoritmos de buscar utilizados e os procedimentos necessários para refinar de busca, uma vez que a seleção muitas vezes se deu, em um primeiro momento, com a ajuda de ferramentas de busca e, em um momento seguinte, empreendeu-se uma rotina de avaliação da circunvizinhança linear das ocorrências para que constassem nos corpora apenas aquelas ocorrências que estivessem de acordo com os critérios estabelecidos para a busca. Dado que foram necessários procedimentos diferentes para cada língua, a descrição também foi dividida em duas etapas.
Conforme já mencionado, a elaboração dos critérios de seleção seguiu diferentes procedi- mentos. Para a seleção das ocorrências que constituem o corpus de língua alemã foram utilizados dois procedimentos básicos.
O primeiro constituiu-se a partir de uma busca por meio da ferramenta Cosmas II em que foram levados em consideração parâmetros relativos à posição dos conectores oracionais sintáticos em relação à estrutura linear do texto; ou seja, uma vez que os conectores oracionais desse tipo encontram-se, na língua alemã, confinados à periferia esquerda da segunda oração que conectam, o algoritmo de busca, representado e descrito pela Figura 6, foi elaborado para pesquisar ocorrências dos conectores da, denn e weil que tivessem a sua esquerda diferentes sinais de pontuação (vírgula, dois-pontos, ponto final, ponto e vírgula, etc).
1 ABSTAND ( 2 {R} ODER ( 3 {R} ODER 4 ({ R} ’. ’ ,{R}’,’), 5 {R} ODER 6 ({ R} ’; ’ ,{R } ’: ’) 7 ), 8 {P } ’\+ w1 ’, 9 {R} LEM ({ S}’ denn ’) 10 )
Figura 6 – Amostra do algoritmo de busca empregado no software Cosmas II
Em que as funções de busca são definidas da seguinte maneira:
ABSTAND(<R>,<P>,<R>) Orienta a busca de dois elementos <R> que podem ser uma palavra, sintagma ou mesmo uma relação lógica do tipo “OU” ou “E” e que apresentem entre si uma determinada distância <P>, controlada pelo comando \w.
ODER(<R>,<R>) Orienta a busca de dois elementos a partir da relação lógica “OU”, sendo que o resultado total se constitui a partir dos resultados parciais dos argumentos <R>.
LEM(<S>) Orienta a busca a partir do lema de um determinado item lexical especificado pelo argumento <S>.
Da busca realizada com a ajuda do algoritmo acima no corpus de língua alemã, resultou o seguinte total de ocorrências para cada um dos conectores a ser analisado:
Conector Total de ocorrências da 52 530 denn 38 409 weil 27 794
Tabela 2 – Total de ocorrências encontradas no corpus de língua alemã.
A pesquisa, dessa forma, beneficiou-se da norma ortográfica alemã que dita que orações subordinadas e orações coordenadas introduzidas por alguns tipo de conectores são separadas da oração principal por meio de vírgula, sendo que os demais sinais de pontuação indicam os casos em que as orações subordinadas encontram-se topicalizadas ou em que as orações introduzidas por denn não se encontram integradas ao primeiro termo da coordenação. O resultado esperado deveria ser orações como as seguintes:
(6) a. Die Veranstaltung fand im Kinderdörfel statt, da die Referentinnen dort arbeiten und der Veranstaltungsort auch zu einer guten Atmosphäre beitrug.
b. Da einige Läden die Größe eines veritablen Kaufhauses haben, sollte man ausrei- chend Zeit für die Einkaufstour einplanen.
(7) a. Wir mussten auf Nummer sicher gehen, denn ich wollte weder Passagiere ins Meer schicken noch Panik verbreiten, und es hätte unnötig Tote gegeben.
b. Der Tod eines dunkelhäutigen Teenagers hat in den USA eine Welle der Empö- rung ausgelöst. Denn der 17-Jährige wurde von dem Anführer einer Bürgerwehr erschossen, der immer noch frei herum läuft.
(8) a. Robert wird von seinen Freunden noch bis zur Haustür gebracht, weil er angetrun- ken gewesen sein soll.
b. Weil ein Anruf bei der Tierärztlichen Hochschule ergebnislos verlief, machten sich Carsten Scholz und seine Ehefrau Marion erst einmal selbst auf die Suche nach Würmern.
Uma vez que uma análise de todas as ocorrências encontradas nessa primeira fase da seleção seria inviável, preferiu-se por uma restrição de busca, de forma que o o programa foi configurado para extrair aleatoriamente apenas 500 ocorrências de cada conector a partir do montante acima apresentado.
Uma vez que apenas esse procedimento de busca automático não foi capaz de realizar uma busca precisa das ocorrências, o segundo procedimento realizado foi a seleção manual dos exemplos. Foram deixados de lado aqueles exemplos em que, apesar de cumprirem os quesitos da busca automática, as ocorrências representavam usos de formas homônimas dos conectores. Em especial, este procedimento foi empregado para a seleção das ocorrências de daque, além de conector oracional sintático (subordinador), também pode exercer a função de advérbio, enquadrando-se, portanto, na classe dos conectores referenciais (9). Foram excluídas também ocorrências em que da apresenta a função de pronome relativo e retoma anaforicamente expressões espaciais ou temporais (10).
(9) Es wurde unterwegs immer windiger. Da sind die fehlenden Sekunden hängengeblieben. (‘Durante o percurso o vento ficou cada vez mais forte. Aí ficaram os segundos que faltaram.’)
(10) Jetzt, da ich lese, dass Mannheim Modellkommune in Sachen Radkultur werden will, muss ich doch meinen seit Langem aus Zeitmangel vor mir hergeschobenen Leserbrief loswerden.
(‘Agora que estou lendo que Mannheim quer se tornar uma comunidade-modelo no assunto cultura das bicicletas, preciso livrar-me de minha carta do leitor que, por falta de tempo, há muito tenho adiado.’)
Os critérios de seleção foram eficazes na coleta de dados referentes aos conectores denn e weil. As ocorrências da partícula de atenuação homônima de denn foram facilmente descartadas pela ferramenta de busca, já que elas se encontram necessariamente em posição posterior ao verbo flexionado, o que a busca concentrada na periferia esquerda pode eliminar. E o conector weil não apresenta formas homônimas que ocupem a periferia esquerda das orações.
Assim, das quinhentas ocorrências aleatoriamente selecionadas pela ferramenta de busca, foram excluídas todas aquelas que não se enquadravam nos critérios de seleção acima. Das ocorrências restantes, foram selecionadas cinquenta para cada conector para servir de objeto da análise. Para a composição dessa amostra final, procurou-se respeitar o volume proporcional de cada um dos periódicos, de forma que a amostra final fosse proporcionalmente congruente com a amostra de ocorrências aleatórias.