D. MEVDUDİ’NİN HÂKİMİYET ANLAYIŞI
2. Hâkimiyet Hakkı
No caso específico desta etapa, houve restrições temporais e conjunturais que permitiram somente o levantamento da coleção de termos, sem que fosse possível a
análise quanto à inco ncial do instrumento
fica a C consecuçã
empíricos nto, não teria sido
possível sem as ferramentas de extração automática que, assim como o corpus de validaç
desenvolv envolvidos
4.3 – Ferramentas utilizadas
O trabalho de análise necessário à consecução da metodologia acima descrita pressupôs um enorme esforço computacional, ao longo do processo. Para que fosse
rporação no tesauro. Esta funcionalidade pote penas como uma indicação de trabalho futuro.
abe ressaltar novamente que a proposta metodológica apresentada para a o do objetivo geral foi prospectiva, e sofreu alterações à medida que os dados fossem manipulados e analisados. Esse trabalho, entreta
ão da extração automática, foram gentilmente cedidas pelos proprietários e edores. Em seguida passamos à descrição dessas ferramentas e os processos
possível a
de forma etapas. A FIG. 10
explic
análise dos descritores, os SNs tiveram que ser extraídos automaticamente e bastante veloz, mas esse processo foi composto por várias
ita os relacionamentos entre os processos e as ferramentas de software:
Figura 10 – Ferramentas utilizadas na metodologia As ferramentas foram utilizadas na seguinte seqüência:
I. Os textos dos corpora foram escolhidos pelo autor desta tese e transformados em formato de texto simples, sem caracteres especiais, utilizando as ferramentas ADOBE ACROBAT36 e MICROSOFT WORD37;
II. Em seguida, os textos tratados foram submetidos sucessivamente ao processamento do analisador sintático (parser) “PALAVRAS”, da Southern University of Denmark, e ao software “Palavras Xtractor”, desenvolvido em conjunto pela Universidade do Vale do Rio dos Sinos (Unisinos) de São
36
Informações no endereço da Internet http://www.adobe.com/products/acrobat/main.html. 37
Leopoldo, RS, e a Universidade de Évora, em Portugal, tendo como resultado os documentos sintaticamente marcados em arquivos XML;
III. Após a identificação sintática das palavras dos textos, foi utilizado o software
to morfossintático de textos digitalizados em português chamada “Palavras”,
que irtual
Intera
textos completos em uma das ling
tos marcados. As análises podem ser feitas em diferentes níveis (morfológico, sintático, semântico) e o site VISL oferece uma interface gráfica que permite aos usuários diver
003). O proce
XML SPY38 para aplicação da transformação XSL nos arquivos XML com uma folha de estilos específica (como explicado na seção 3.1.2), para extração de arquivos HTML com os SNs, e estes SNs foram tratados estatisticamente utilizando o software MICROSOFT EXCEL39.
Os pesquisadores da Unisinos e da Universidade de Évora cederam, para os propósitos desta tese, interface integrada através da qual grande parte do processamento automático envolvido; o desempenhado pelo parser do site dinamarquês foi realizado, durante os meses de agosto e setembro de 2003. Em seguida vamos descrever em mais detalhes as principais ferramentas, utilizadas na fase II descrita na FIG. 10.
4.3.1 – O VISL e o processador “Palavras”
A Southern University of Denmark desenvolveu e tornou público uma ferramenta de processamen
faz parte de um conjunto de ferramentas multilingües chamado VISL40 (V ctive Syntax Learning).
No VISL, para cada idioma suportado, há ferramentas que operam em modo automático ou semi-automático, nas quais um usuário submete sentenças ou
uagens admitidas (dentre as quais o português) e recebe de volta os tex
sidade de opções de consulta em várias formas de visualização, como textos simples, árvores sintáticas ou marcação com cores (BICK, 1996, 2001 e 2
ssador Palavras é baseado em uma interface de páginas HTML, scripts CGI41,
38
Informações no endereço da Internet http://www.altova.com
39
Informações no endereço da Internet http://office.microsoft.com/pt-br/FX010858001046.aspx 40
Disponível no endereço da Internet: http://visl.sdu.dk/visl/. 41
Informações no endereço da Internet
aplica
ara a análise automática dos textos subm
co. ada oração e seus componentes são marcados, inicialmente, em todas as suas
orfológico baseado ia de ambigüidades é então processada através da
c nça, de que formas sintáticas são impossíveis (que são
ersistem) e quais são mandatárias (que são . Através da aplicação sucessiva e repetida dessas regras, resolvem-se
paula e, ao final, resta
apen
ndo cerca de 50.000 lexemas;
tribuição de funções baseadas em contexto;
tivos Java42 e scripts em PERL43; um conjunto de ferramentas chamadas de “Constraint Grammar” (gramática de restrições), p
etidos.
A abordagem da gramática de restrições analisa o texto na perspectiva dos lexemas, grupos de palavras e das próprias orações, nos níveis ortográfico, sintático e semânti C
possibilidades sintáticas e semânticas, através do uso do analisador m em léxico. Essa lista provisória e che
análise, no ontexto da sente
descartadas), quais são possíveis (que p escolhidas)
tinamente as ambigüidades da classificação sintática na sentença
as uma e somente uma possível classificação para cada palavra, o que caracteriza a abordagem como extremamente robusta. Mesmo em textos sintaticamente mal- construídos, há algum resultado ao final, mesmo que incorreto (BICK, 1996, 2001 e 2003; VISL, 2003).
O parser, na versão atual, apresenta os seguintes módulos e níveis de análise: 1. Um analisador morfológico que trata as categorias morfossintáticas, inflexões, derivações, expressões fixas e os verbos. O analisador utiliza um léxico manualmente construído composto de 70.000 entradas, representa
2. Um desambiguador morfológico que utiliza 1700 regras da gramática de