4. Um desambiguador sintático que utiliza 1500 regras da gramática de restrições; 5. Um desambiguador de valência e o desambiguador de classes semânticas, ainda não totalmente operacionais, baseados em 2200 regras da gramática de restrições;
42
Informações no endereço da Internet
A submissão sucessiva a estes módulos permite que se obtenha um resultado único para a classificação morfossintática, como descrito.
A FIG. 11 mostra o resultado do parsing do excerto de documento, com o texto “Considerações iniciais na companhia de Edgar Morin”, submetido ao processamento morfossintático do processador PALAVRAS, na qual podemos ver a análise realizada: Considerações [consideração] <*> N F P
iniciais [inicial] ADJ M/F P [inicial] N F P [iniciar] V PR 2P IND VFIN em [em] <*> <sam-> PRP
a [o] <-sam> <artd> DET F S companhia [companhia] N F S
de [de] PRP
Edgar=Morin [Edgar=Morin] <*> PROP M/F S/P (...)
Figura 11 – Resultado de um texto submetido ao processador PALAVRAS
do arquivo de saída aparecem a forma do le
Observamos na FIG. 11 que em cada linha
xema, tal qual ocorre no texto submetido, e em seguida a forma canônica do lexema e por fim a classificação morfossintática deste. No exemplo acima, temos para o lexema “considerações” a forma canônica “consideração”, e as classificações N (substantivo), F (feminino), P (plural); e na segunda linha, as três classificações possíveis para a palavra “iniciais”, a saber, ADJ (adjetivo – “inicial”), N (substantivo – “inicial”), e V (verbo – “iniciar”), com suas inflexões e gêneros respectivos. Para consultar o conjunto de símbolos completo do VISL, pode-se visitar o endereço na Internet:
http://visl.sdu.dk/visl/pt/info/symbolset-manual.html.
Além da possibilidade da submissão de textos e sentenças do usuário, o site do VISL ainda mantém grandes corpora de sentenças previamente assinaladas, disponíveis para estudiosos e pesquisadores. Além disso, os usuários têm acesso a dicionários e ferramentas de tradução de textos.
Uma das possibilidades de marcação oferecidas pelas ferramentas do site indica as to de uma oração. Através to posterior, é possível extrair os sintagmas nominais das Esse pós-processamento pode ser feito manualmente, através da
categorias gramaticais e a função de cada palavra no contex desta marcação e processamen
sentenças de um texto.
ernet
et.com/sDefinition/0,,sid39_gci214291,00.html
43
Informações no endereço da Int
análi
os protótipos se mostre funcionais. A grande falha do processador PALA
o de um no. Podemos esperar, entretanto, que essa situação venha a melhorar,
essador está sendo continuamente refinado. tração automática de SNs
a ferramenta computacional “Palavras” do VISL, o Laboratório de a Linguagem do Programa Interdisciplinar de Pós Graduação de icada da Universidade do Vale do Rio dos Sinos, sob a coordenação da ora doutora Renata Vieira, em parceria com o departamento de Informática da
Unive no escopo do projeto de cooperação
DIRP
internamente de “Palavras Xtractor”. Os progr
njunto das palavras, arquivo com as categorias morfossintáticas, e de agrupamentos; exemplificados a seguir:
word_32">incremento</word> <word
<word id= <word <word
se das funções marcadas, ou pode ser automatizado. Na subseção seguinte será apresentada a abordagem para esse pós-processamento baseada no padrão XML e nas folhas de estilo XSL.
O projeto VISL é altamente orientado a produtos e processos, uma vez que novas ferramentas têm sido constantemente disponibilizadas gratuitamente na Internet na medida em que
VRAS é a fraca interoperabilidade do sistema, causada pela falta de padrões para os arquivos de saída, além de problemas específicos no vocabulário do sistema, que ainda não permitem uma análise sintática próxima do nível de perfeição esperad
analisador huma haja vista que o proc
4.3.2 – A ex A partir d Engenharia d Computação Apl profess
rsidade de Évora, de Portugal, desenvolveu,
I (PROJETO DIRPI, 2001), um conjunto de programas de interface e de pós- processamento dos resultados, chamados
amas estabelecem acesso ao site VISL, enviam textos para o analisador sintático PALAVRAS para o português (BICK, 2000 apud GASPERIN et al, 2003). O resultado do processamento dos arquivos de texto submetidos ao analisador é convertida em um conjunto de três arquivos em formato XML: arquivo com o co
<word id="word_27">Desenvolver</word> <word id="word_28">capacidades</word> <word id="word_29">de</word> <word id="word_30">controle</word> "word_31">e</word> <word id= <word id=" id="word_33">de</word> "word_34">o</word> id="word_35">fluxo</word> id="word_36">de</word> <word id="word_37">o</word> <word id="word_38">conhecimento</word> Figura 12 – Arquivo de palavras
A FIG. 12 exemplifica um trecho do primeiro dos três arquivos, de terminação “words.xml”. Esse arquivo contém, em cada linha, os lexemas do texto original, etiqu "word_27"> <v canon="desenvolver"> <inf/> </v> <word <prp ca
etados pelas tags <word>, cada uma trazendo a informação do número de ordem da palavra na seqüência do texto. No trecho, exemplificado acima, vemos a análise do excerto de texto “Desenvolver capacidades de controle e incremento do fluxo do conhecimento”.
A FIG. 13 exemplifica um trecho do segundo dos três arquivos, de terminação “pos.xml”, que contém, entre conjuntos de tags <word>, informações relativas às categorias morfossintáticas respectivas a cada um dos lexemas do texto original.
<word id=
</word>
<word id="word_28">
<n canon="capacidade" gender="F" number="P"/> </word>
id="word_29"> non="de"/> </word>
<word id="word_30">
<n canon="controle" gender="M" number="S"/> </word>
Figura 13 – Arquivo de Categorias Morfossintáticas
No trecho exemplificado acima, podemos observar a análise das quatro primeiras palavras do excerto apresentado na FIG. 12.
E finalmente a FIG. 14 exemplifica um trecho do terceiro dos três arquivos, de
termi ras sintáticas das
sente
<chunk id="chunk_2" ext="subj" form="np" span="word_1..word_2"> <chunk
</chun
nação “chunks.xml”, que contém informações sobre as estrutu
nças do texto original – etiquetados pelas tags <sentence> - que, por sua vez, fazem parte de um parágrafo – etiquetado pelas tags <paragraph>.
<text>
<paragraph id="paragraph_1">
<sentence id="sentence_1" span="word_1..word_26">
<chunk id="chunk_1" ext="sta" form="fcl" span="word_1..word_25"> id="chunk_3" ext="n" form="adj" span="word_1">
k>
Figura 14 – Arquivo de agrupamentos
O excerto acima exemplificado descreve o início do primeiro parágrafo, com uma sentença que contém as palavras 1 a 26 do texto e alguns agrupamentos (chunks) que
ocorrem nessa sentença. Nos agrupamentos é que se identificam os lexemas que compõem os sintagmas nominais.
A partir destes três arquivos em formato XML, gerados para cada documento submetido, pode-se trabalhar com desenvoltura, em comparação com o arquivo de saída do site VISL, pois através do uso de folhas de estilo (XSL) específicas é possível então extrair os sintagmas nominais de qualquer texto ou corpus da língua portuguesa. Assim como são extraídos os sintagmas nominais, é possível extrair outras instâncias morfo
resentados a seguir:
ssintáticas, como sintagmas verbais, verbos, pronomes, e outros, dependendo do interesse da pesquisa em questão, bastando para tanto o desenho de uma nova folha de estilo.
Os sintagmas nominais utilizados nesta tese foram obtidos, utilizando-se a folha de estilo específica para extração de sintagmas nominais, cedida gentilmente pela pesquisadora da Unisinos Claudia Camerini Correa Perez.
Finalmente, cabe registrar que o equipamento utilizado para todo o processamento local – que exclui aquele realizado pela interface oferecida pela Unisinos – foi um computador AMD Athlon XP 2600+ de 256 MB de memória RAM, gentilmente cedido pelo Núcleo de Informação Tecnológica e Gerencial (NITEG), da Escola de Ciência da Informação - UFMG. Não é o equipamento ideal, entretanto, pois o processamento eficaz de documentos maiores exigiria equipamento mais veloz e com mais recursos de memória.
4.4 – Critérios de corte e avaliação dos descritores extraídos
Para que a metodologia proposta anteriormente fosse corretamente parametrizada e avaliada, foi necessário estabelecer os critérios de corte – para estabelecer a quantidade desejada de descritores – e os instrumentos de avaliação da relevância, determinando a viabilidade do processo. Esses tópicos são ap
4.4.1 – Considerações gerais sobre a quantidade de descritores extraídos
O primeiro parâmetro a ser estabelecido para a metodologia automática de atribuição de descritores a documentos foi a quantidade desejada desses. Embora a limitação última possa ser considerada a quantidade total de SNs extraídos, isto pode não ser desejável, pelas razões que serão expostas em seguida. Deve-se procurar responder
à questão: qual seria um número razoável de descritores para um determinado documento textual? Ou seja, qual é a exaustividade desejada para o índice?
LANCASTER (1993, p. 20-41), considerando o uso de palavras-chave, aponta para a grande variação nas faixas de termos selecionados, e aconselha que não sejam estabelecidos limites absolutos para as quantidades, e sim parâmetros indicativos, e que o grau de importância do item para os usuários do sistema justificaria uma indexação mais
3, p. 235-239). Mesmo que em proce
anual – o indexador atribui grau de importância aos descritores escolhidos (LANCASTER, 1993, p. 174-187); é
possível adotar um ranki acordo com parâmetros de
seleç
Essa análise estrutural é possível de ser implem me ticas,
em
ento do número de termos descritores
aumenta a rev ão, diminuindo
cons
esentados de forma ordenada, em termos de importância semântica, pode-se realizar uma indexação “modulada”, em que a alteração
ou menos exaustiva.
Usualmente, observamos quantidades que variam entre 5 a 25 descritores por documento, mas em documentos de algumas áreas do conhecimento – como a química, por exemplo – não é incomum observarmos uma centena ou mais de descritores. LANCASTER ainda aponta, no caso da indexação manual, o fenômeno da diminuição da coerência da indexação, a medida que aumenta a quantidade de termos índices escolhidos (1993, p. 61-74). Entretanto, essa coerência certamente aumentará se o processo for automatizado e seguir determinado algoritmo para a seleção de descritores, em oposição à subjetividade da indexação manual (199
ssos automáticos não seja possível a adoção de algum tipo de indexação ponderada nos mesmos moldes em que acontece com a indexação m
ng criado automaticamente, de ão e corte.
KOBASHI (1994) associa a quantidade de descritores no processo de indexação à completa caracterização de informações fundamentais presentes no texto, num processo que considera a estrutura temática do texto analisado, a seleção de categorias fundamentais para a caracterização da temática e a política de indexação do sistema.
entada em todologias automá bora não seja o propósito desta pesquisa.
Já se mencionou o fato de que o aum
ocação dos documentos no processo de recuperaç
eqüentemente a precisão. Contudo, se após o processo de análise conceitual automatizada os descritores forem apr
de p tos descritores sejam desejáveis, segundo a conveniência do usuário, ou as determinações presentes na política de indexação. Observa-se que no caso de metodologias automatizadas baseadas em freqüência, essa parametrização é facilmente implementada no pr
to, um número excessivo de desc
res freqüentes a prio
A metodologia que pretendia extrair descritores para avaliar a relevância semântica dos SNs c
os seguintes valores aos SNs, de acordo com a relevância semântica percebida, segundo o mesmo esquema cromático apresentado no Anexo B, dos resultados da aplicação da metodologia prospectiva:
Relevância descritiva do SN Símbolo Valor associado
arâmetros – maior precisão ou maior revocação – permita a escolha de quan
ocesso de seleção de descritores, desde que estes sejam apresentados em ranking relativo de importância semântica.
O pressuposto adotado é o fato de que, idealmente, quanto maior o número de descritores extraídos – número este que está relacionado à estrutura e ao tamanho dos documentos, e à metodologia de identificação e seus parâmetros – maior é a caracterização do assunto do documento. Entretan
ritores pode não ser conveniente, por diminuir em demasia a precisão das buscas baseadas nesses índices, o que nos impele a desenvolver uma metodologia flexível e parametrizada, que permita a escolha a priori ou a posteriori de qualquer quantidade desejada de descritores, dependendo da escolha por maior taxa de precisão ou revocação, quando da recuperação destes documentos.
Na aplicação da metodologia prospectiva não foram excluídos descrito ri. Na metodologia consolidada, esse recurso pode ser adotado.
4.4.2 – Critérios de avaliação da metodologia
andidatos a descritores, definimos os conceitos de “Pontuação” e “Taxa de Relevância”. Para efeitos de pontuação, associamos
SN extremamente relevante como descritor SN*** 1,0
SN razoavelmente relevante como descritor SN** 0,5
SN moderadamente relevante como descritor SN* 0,25
SN não relevante como descritor SN – 0,0
Tabela 6 – Valor atribuído ao SN de acordo com sua relevância
Computamos valores ponderados (pontuação) relativos à qualidade dos SNs como descritores, segundo a fórmula a seguir:
(
desc
) (
.
***
)
0,5
(
.
**
)
0,25
(
*
Pontuação
=
NúmSN
+
x
NúmSN
+
x
NúmSN
)
E definimos também a taxa de relevância dos SNs, para determinada freqüência:
(
)
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
=
s
ocorrência
das
soma
desc
Pontuação
lev
Tx Re
A pontuação foi mensurada atribuindo-se valor numérico arbitrário aos SNs de acordo com sua relevância percebida como descritores, e a taxa de relevância apresentou esse valor normalizado. Quanto maior a taxa de relevância, melhor seria a representação
do a áximo é 1 – valor este que seria
alcançad s incomum m
Pode-s
julgamento ue foi o próprio autor desta tese que classificou
os SNs entre extremamente relevantes, relevantes e
está necess scritores no processo
de análise de assunto (CESARINO, 1980; UNISIST, 1981; NAVES, 1996).
Os valores arbitrários de 1,0, 0,5 e 0,25 atribuídos de acordo com a relevância relati
ssunto pelos descritores, sendo que o valor m
o e a totalidade dos descritores fosse extremamente relevante, caso bastante esmo para processos de indexação manual.
e objetar quanto a certo grau de subjetividade envolvido no processo de de relevância, uma vez em q
razoavelmente relevantes, moderadamente não relevantes como descritores. Entende-se, porém, que a subjetividade ariamente presente quando se propõe a escolha de de
va dos descritores não foram considerados absolutamente, mas apenas como parâmetros para a possível avaliação das aplicações da metodologia.
Esses valores e as fórmulas utilizados nesta investigação são discutidos nos capítulos a seguir, quando da análise dos dados.