Durante as etapas de revisão do corpus, após o processo de digitalização e de aplicação do OCR, e de etiquetagem para a análise da AFE&P, uma vez que o corpus se encontrava alinhado em duas colunas (lado a lado) em formato doc, foram observados alguns elementos tipográficos, principalmente um uso recorrente do itálico, e algumas características no uso da pontuação, tanto nos TOs como nos TTs, e alguns exclusivos das traduções. Dentre
95
esses elementos, destaca-se o uso do itálico e de uma segmentação maior dos textos traduzidos, por meio do ponto e da vírgula.
Essas observações mais gerais, algumas delas feitas a partir da comparação entre a versão digitalizada do corpus e a versão impressa, durante a revisão e preparação do corpus, conduziram-nos à inclusão de alguns desses aspectos, no conjunto do quadro de análise desta pesquisa. Principalmente, o intuito dessa inclusão foi determinado pelo interesse em realizar uma triangulação dos dados, juntamente com os resultados obtidos a partir do levantamento das palavras-chave e da AFE&P, em prol da identificação de marcas e/ou padrões, que possam ser atribuídos ao estilo dos textos traduzidos. Por meio de alguns dos elementos incluídos nesta seção, procura-se captar as intervenções explícitas do tradutor.
2.2.4.1. Itálicos
Em termos procedimentais, com o intuito de não perder a marca tipográfica do ITÁLICO, no momento da conversão do corpus ao formato de texto plano TXT, e para facilitar o acesso às anotações feitas pelo tradutor, seja no corpo do texto, seja em forma de notas de rodapé, adotou-se o critério de inserção de etiquetas para a identificação dessas ocorrências.
Assim, para marcar a presença do itálico, foi inserida a etiqueta <itálico> no início da ocorrência e a etiqueta </itálico> no término. Considerou-se necessário assinalar o ponto em que concluem as ocorrências porque, embora em algumas passagens essa marca tipográfica corresponda apenas a um termo, em outras abarca a extensão de uma sentença, um parágrafo inteiro ou um trecho de obra citada.
Após a captura de todas as ocorrências do itálico, por meio do estabelecimento de linhas de concordância a partir da busca pela etiqueta <itálico>, os resultados foram salvos em arquivos com o formato cnc, um para cada texto do corpus, numa pasta denominada ITÁLICOS. Além da quantificação das ocorrências em cada texto, a análise contrastiva entre cada par de TO e TT possibilitou a classificação dos itálicos em mantidos (tal como no TO, também no TT), omitidos (no TT não é enfatizada a ocorrência destacada no TO) e
acrescentados (no TT é destacado um elemento, independentemente do TO). Além dessa
96
organizadas em nomes, títulos de obras, lugares, elementos culturais, entre outros, e, também, segundo a funcionalidade correspondente à ocorrência enfatizada com o itálico.
A Figura 2.17 ilustra um levantamento parcial de ocorrências de itálico, com a ferramenta Concord, numa passagem do corpus alinhado no par El túnel/O túnel. A descrição e análise desses elementos serão realizadas na seção correspondente do Capítulo V.
Figura 2.17: Linhas de concordância com itálico
2.2.4.2. Pontuação
Para os diferentes elementos de PONTUAÇÃO, tais como o ponto, dois pontos,
vírgula, ponto e vírgula, parênteses, aspas, entre outros, não foi necessário empregar
etiquetas, uma vez que é possível gerar linhas de concordância utilizando esses elementos como critério de busca. No entanto, foi necessário separar esses elementos de seus termos adjacentes, depois de comprovar que, em caso de não separá-los, os resultados apresentavam inconsistências: um número de ocorrências de alguns sinais de pontuação muito baixo, se considerado o tamanho do corpus; apenas eram reconhecidas pela ferramenta as ocorrências de sinais de pontuação quando estavam junto a outro sinal ortográfico, por exemplo, quando o ponto ocorre imediatamente após o parêntese final.
Esse procedimento de separação dos sinais de pontuação, conhecido como
itemização e utilizado principalmente na etiquetagem morfossintática, ―consiste na separação
97
quebras de linha entre elas‖ (BERBER SARDINHA, 2004, p. 128). Alguns dos programas para etiquetagem morfossintática fazem automaticamente a itemização.
O recurso utilizado para itemizar os elementos de pontuação foi o seguinte: com cada um dos textos, abertos no formato doc, foi dado o comando localizar e substituir, trocando, por exemplo, o ponto por um ponto com um espaço antes do sinal ortográfico. Esse mesmo procedimento foi empregado com as vírgulas, os dois pontos, o ponto e vírgula, os parênteses, as aspas e os sinais de interrogação e exclamação finais. Com os parênteses, as aspas e os sinais de interrogação e exclamação iniciais (estes últimos nos textos em língua espanhola), o espaço foi inserido após os sinais ortográficos.
Para testar os procedimentos, foram contrastados os resultados obtidos com o corpus sem itemizar e com o corpus itemizado. As diferenças observadas foram notórias. Por exemplo, na quantificação do ponto, foram obtidas 367 ocorrências com o corpus de TTs sem
itemizar; já com o mesmo corpus de TTs itemizado, o número alcançado foi de 3.588
ocorrências do ponto. Esses mesmos testes foram realizados com cada um dos elementos de pontuação e foram constatados os mesmos tipos de discrepâncias.
A partir dessas observações, decidiu-se utilizar o corpus itemizado para realizar a quantificação correta dos sinais de pontuação. Desse modo, foi salva uma versão do corpus
itemizado e, para a simplificação dos procedimentos de análise dos demais aspectos
envolvidos no capítulo, utilizou-se a mesma versão do corpus etiquetado para identificação dos itálicos e das notas do tradutor e de rodapé. Entretanto, os resultados obtidos a partir do levantamento de cada um dos sinais de pontuação, de itálico e das notas, foram salvos em subpastas separadas, identificando cada arquivo com o nome do texto no corpus e uma sigla para o aspecto analisado. Por exemplo: 01A-IT (para os itálicos em ET_Sabato); 02B-VIR (para as vírgulas em ADF_Molina), etc.
Ainda cabe observar que, para estabelecer corretamente as linhas de concordância, a partir do sinal de interrogação final, descobriu-se a necessidade de inseri-lo entre parênteses angulares <?>. Chegou-se a esse recurso, após diversas tentativas em que, a busca pelo sinal de interrogação final apresentava resultados discrepantes. Unicamente com a inserção do sinal dentro de parênteses angulares, foi possível contabilizar as frases interrogativas. A quantificação tanto dos itálicos como dos elementos analisados da pontuação foi registrada
98
em diversas tabelas, que incluíram as frequências em números absolutos, as porcentagens e também a significância estatística das diferenças encontradas entre as proporções.
A Figura 2.18 mostra uma imagem parcial da tela do Concord, a partir da busca pela vírgula, num dos textos que compõem o corpus. Na imagem, pode-se apreciar, também, o espaço presente imediatamente antes do sinal ortográfico:
Figura 2.18: Linhas de concordância a partir da vírgula com o corpus itemizado