1.3.1.4.1 Base de dados textuais
A grande vantagem do desenvolvimento informático para a elaboração de dicionários reside no fato de oferecerem aos dicionaristas grandes quantidades de dados aos quais eles podem ter acesso e na qualidade das ferramentas de que dispõem para tratar a informação (GRUNDY, 1996, p.129).
Cada vez mais se torna imprescindível a utilização da ferramenta informática em todas as áreas do saber e
A Lexicologia e a Terminografia são indubitavelmente as áreas do conhecimento humano que mais se beneficiaram com as informações propiciadas pelos corpora de língua escrita e falada e pelas ferramentas computacionais. Para configurar o lemário de um dicionário, por exemplo, são muito úteis, tanto para incluir palavras novas como para excluir palavras desusadas. E também: para detectar as diferentes acepções em que as palavras estão sendo utilizadas, para detectar as co-ocorrências entre os vocábulos, a combinatória sintática, etc. (BIDERMAN, 2001, p.92).
A Lingüística de Corpus, uma área de pesquisa que tem experimentado um crescimento vertiginoso nos últimos anos e que tem tido um impacto considerável na Lingüística, ocupa-se da exploração de grandes quantidades de dados textuais em formato eletrônico (corpora), por meio de programas de computador (BERBER SARDINHA, 2002). Trabalha com dados reais tão exaustivos quanto possível e que, portanto, possam reproduzir com a máxima fidelidade a realidade lingüística (BIDERMAN, 2001, p.81). Para tanto, uma das necessidades da pesquisa em Lingüística de Corpus é a existência de programas acessíveis e flexíveis, que permitam a investigação de uma gama ampla de questões lingüísticas.
A construção de imensas bases de dados textuais, também conhecidas como corpora, constitui um avanço de grande valia para o ofício de elaborar dicionários, pois possibilita ao pesquisador o acesso a milhões de dados, provenientes de diversos textos, sem maiores esforços. Para a Terminologia, corpus [textual] é um “conjunto de textos selecionados que servem de base para realizar uma análise terminológica”20 (PAVEL; NOLET, 2002, p.106).
A coleta de textos pode ser feita pela captura via Internet ou pela utilização de um scanner. Esse sistema de coleta de textos elimina custos e diminui possibilidades de erros, sendo preciso apenas adaptar os arquivos importados ao formato exigido pelo programa utilizado.
Para a montagem desses bancos e bases de dados textuais, os estudiosos da linguagem contam, atualmente, com programas que fazem mais do que um tratamento meramente quantitativo dos textos. Trata-se de programas que permitem a interação homem-máquina de modo a facilitar e otimizar não somente a busca e a organização, mas também a análise de dados lingüísticos, auxiliando, assim, sobremaneira na elaboração de dicionários, sejam eles de língua geral ou especializados. Alguns dos programas mais conhecidos são o WordSmith Tools, Xtract, Tact e Hyperbase.
As informações que acabamos de apresentar têm apenas a função de demonstrar a atual tendência em pesquisas terminológicas/terminográficas: a elaboração de grandes bases de dados textuais com o auxílio de ferramentas computacionais que facilitam a organização dos textos e a extração dos termos. Devido à exigüidade de tempo do Mestrado, não foi possível montarmos nossa própria base de dados textuais e, portanto, não utilizamos nenhuma das ferramentas que acabamos de citar. Os termos em francês foram coletados de dicionários disponíveis em formato eletrônico e, com o auxílio da programa de busca Google, os contextos foram extraídos de textos coletados na Internet.
1.3.1.4.2 Ficha terminológica
Quanto ao registro dos dados sobre cada termo, aconselha-se que seja efetuado em fichas individuais, as quais trazem o “registro completo e organizado de informações referentes a um dado termo”, ou seja, constituem um verdadeiro dossiê do termo (KRIEGER; FINATTO, 2004, p.136).
De acordo com os objetivos do trabalho, o terminógrafo determinará quais dados deverão constar na ficha e elaborará um modelo compatível com os mesmos. Alguns dos principais dados sugeridos são: termo principal (sinônimos, se houver), contexto ou definição,
fonte, data de publicação da fonte, parâmetros gramaticais e domínio de aplicação (DUBUC, 1985, p.76).
Certamente nem todos esses dados precisam constar em uma ficha terminológica, assim como outros, além dos que acabamos de expor, podem ser incluídos. Desse modo, haverá diferentes tipos de ficha de acordo com os objetivos pretendidos, como afirmam Krieger & Finatto:
Cada trabalho, em suas especificidades, pode exigir um tipo distinto de ficha terminológica que, em linhas gerais, alimentará tipos diferentes de verbetes e de dicionários. Desse modo, não se pode imaginar que haja um modelo único de ficha que pudesse atender a todas as especificidades dos diferentes trabalhos. O fundamental é que esse documento, a ficha, seja um registro bem planejado com todas as informações coletadas e que essas informações sejam tanto facilmente recuperáveis quanto perfeitamente entendidas por todos os membros da equipe. Por isso, a ficha é tão importante para o andamento do trabalho (KRIEGER; FINATTO, 2004, p.136).
Em suma, as fichas terminológicas são de extrema importância na elaboração de dicionários, pois estas armazenam de modo organizado todas as informações coletadas sobre o termo, permitindo, assim, que os dados necessários, sobretudo para a organização dos verbetes, sejam recuperados mais facilmente.
1.3.1.4.3 Base de dados terminológicos
Atualmente, já contamos com ferramentas computacionais que auxiliam na criação das fichas terminológicas e no armazenamento dos dados eletronicamente.
Sobretudo quando se trabalha com uma nomenclatura muito extensa ou com grandes quantidades de dados, contamos hoje com as bases e os bancos de dados terminológicos, definidos respectivamente como “conjunto estruturado de fichas terminológicas e organizado num sistema de informação eletrônica”21 (ISO 1087, 1990, p.12) e um “conjunto de bases de
21 base de donnés terminologiques: Ensemble structuré de fiches terminologiques (6.1.3) et constitué en système d’information électronique.
dados ligadas de forma lógica e colocadas à disposição dos usuários” 22 (PAVEL; NOLET, 2002, p.104). Neles, são armazenados os dados relativos ao conjunto de termos tratados em uma pesquisa terminológica.
Para cada termo é destinada uma ficha eletrônica, sendo que em cada campo desta são registrados dados específicos. Existem inúmeros softwares que permitem a criação deste tipo de base. O mais utilizado pelos usuários de produtos Microsoft é o Access 2000, também adotado por nós neste trabalho.
O Access é um sistema de gerenciamento de banco de dados que pode ser utilizado para armazenar e organizar os mais diversos tipos de dados. Tais dados são armazenados, inicialmente, em tabelas. Posteriormente, para interagir com o banco de dados utilizando uma interface gráfica mais aprimorada, são criados formulários. Ainda podem ser criados relacionamentos entre as tabelas e planilhas de consultas de dados, que fornecem as respostas a determinadas perguntas. Para resumir as informações e imprimir os dados, o terminólogo pode criar relatórios ou gráficos.