• Sonuç bulunamadı

Mevdudi’nin, Ayetlere Hâkimiyetle İlgili Getirdiği Yorumlar

4. Um desambiguador sintático que utiliza 1500 regras da gramática de restrições; 5. Um desambiguador de valência e o desambiguador de classes semânticas, ainda não totalmente operacionais, baseados em 2200 regras da gramática de restrições;

42

Informações no endereço da Internet

A submissão sucessiva a estes módulos permite que se obtenha um resultado único para a classificação morfossintática, como descrito.

A FIG. 11 mostra o resultado do parsing do excerto de documento, com o texto “Considerações iniciais na companhia de Edgar Morin”, submetido ao processamento morfossintático do processador PALAVRAS, na qual podemos ver a análise realizada: Considerações [consideração] <*> N F P

iniciais [inicial] ADJ M/F P [inicial] N F P [iniciar] V PR 2P IND VFIN em [em] <*> <sam-> PRP

a [o] <-sam> <artd> DET F S companhia [companhia] N F S

de [de] PRP

Edgar=Morin [Edgar=Morin] <*> PROP M/F S/P (...)

Figura 11 – Resultado de um texto submetido ao processador PALAVRAS

do arquivo de saída aparecem a forma do le

Observamos na FIG. 11 que em cada linha

xema, tal qual ocorre no texto submetido, e em seguida a forma canônica do lexema e por fim a classificação morfossintática deste. No exemplo acima, temos para o lexema “considerações” a forma canônica “consideração”, e as classificações N (substantivo), F (feminino), P (plural); e na segunda linha, as três classificações possíveis para a palavra “iniciais”, a saber, ADJ (adjetivo – “inicial”), N (substantivo – “inicial”), e V (verbo – “iniciar”), com suas inflexões e gêneros respectivos. Para consultar o conjunto de símbolos completo do VISL, pode-se visitar o endereço na Internet:

http://visl.sdu.dk/visl/pt/info/symbolset-manual.html.

Além da possibilidade da submissão de textos e sentenças do usuário, o site do VISL ainda mantém grandes corpora de sentenças previamente assinaladas, disponíveis para estudiosos e pesquisadores. Além disso, os usuários têm acesso a dicionários e ferramentas de tradução de textos.

Uma das possibilidades de marcação oferecidas pelas ferramentas do site indica as to de uma oração. Através to posterior, é possível extrair os sintagmas nominais das Esse pós-processamento pode ser feito manualmente, através da

categorias gramaticais e a função de cada palavra no contex desta marcação e processamen

sentenças de um texto.

ernet

et.com/sDefinition/0,,sid39_gci214291,00.html

43

Informações no endereço da Int

análi

os protótipos se mostre funcionais. A grande falha do processador PALA

o de um no. Podemos esperar, entretanto, que essa situação venha a melhorar,

essador está sendo continuamente refinado. tração automática de SNs

a ferramenta computacional “Palavras” do VISL, o Laboratório de a Linguagem do Programa Interdisciplinar de Pós Graduação de icada da Universidade do Vale do Rio dos Sinos, sob a coordenação da ora doutora Renata Vieira, em parceria com o departamento de Informática da

Unive no escopo do projeto de cooperação

DIRP

internamente de “Palavras Xtractor”. Os progr

njunto das palavras, arquivo com as categorias morfossintáticas, e de agrupamentos; exemplificados a seguir:

word_32">incremento</word> <word

<word id= <word <word

se das funções marcadas, ou pode ser automatizado. Na subseção seguinte será apresentada a abordagem para esse pós-processamento baseada no padrão XML e nas folhas de estilo XSL.

O projeto VISL é altamente orientado a produtos e processos, uma vez que novas ferramentas têm sido constantemente disponibilizadas gratuitamente na Internet na medida em que

VRAS é a fraca interoperabilidade do sistema, causada pela falta de padrões para os arquivos de saída, além de problemas específicos no vocabulário do sistema, que ainda não permitem uma análise sintática próxima do nível de perfeição esperad

analisador huma haja vista que o proc

4.3.2 – A ex A partir d Engenharia d Computação Apl profess

rsidade de Évora, de Portugal, desenvolveu,

I (PROJETO DIRPI, 2001), um conjunto de programas de interface e de pós- processamento dos resultados, chamados

amas estabelecem acesso ao site VISL, enviam textos para o analisador sintático PALAVRAS para o português (BICK, 2000 apud GASPERIN et al, 2003). O resultado do processamento dos arquivos de texto submetidos ao analisador é convertida em um conjunto de três arquivos em formato XML: arquivo com o co

<word id="word_27">Desenvolver</word> <word id="word_28">capacidades</word> <word id="word_29">de</word> <word id="word_30">controle</word> "word_31">e</word> <word id= <word id=" id="word_33">de</word> "word_34">o</word> id="word_35">fluxo</word> id="word_36">de</word> <word id="word_37">o</word> <word id="word_38">conhecimento</word> Figura 12 – Arquivo de palavras

A FIG. 12 exemplifica um trecho do primeiro dos três arquivos, de terminação “words.xml”. Esse arquivo contém, em cada linha, os lexemas do texto original, etiqu "word_27"> <v canon="desenvolver"> <inf/> </v> <word <prp ca

etados pelas tags <word>, cada uma trazendo a informação do número de ordem da palavra na seqüência do texto. No trecho, exemplificado acima, vemos a análise do excerto de texto “Desenvolver capacidades de controle e incremento do fluxo do conhecimento”.

A FIG. 13 exemplifica um trecho do segundo dos três arquivos, de terminação “pos.xml”, que contém, entre conjuntos de tags <word>, informações relativas às categorias morfossintáticas respectivas a cada um dos lexemas do texto original.

<word id=

</word>

<word id="word_28">

<n canon="capacidade" gender="F" number="P"/> </word>

id="word_29"> non="de"/> </word>

<word id="word_30">

<n canon="controle" gender="M" number="S"/> </word>

Figura 13 – Arquivo de Categorias Morfossintáticas

No trecho exemplificado acima, podemos observar a análise das quatro primeiras palavras do excerto apresentado na FIG. 12.

E finalmente a FIG. 14 exemplifica um trecho do terceiro dos três arquivos, de

termi ras sintáticas das

sente

<chunk id="chunk_2" ext="subj" form="np" span="word_1..word_2"> <chunk

</chun

nação “chunks.xml”, que contém informações sobre as estrutu

nças do texto original – etiquetados pelas tags <sentence> - que, por sua vez, fazem parte de um parágrafo – etiquetado pelas tags <paragraph>.

<text>

<paragraph id="paragraph_1">

<sentence id="sentence_1" span="word_1..word_26">

<chunk id="chunk_1" ext="sta" form="fcl" span="word_1..word_25"> id="chunk_3" ext="n" form="adj" span="word_1">

k>

Figura 14 – Arquivo de agrupamentos

O excerto acima exemplificado descreve o início do primeiro parágrafo, com uma sentença que contém as palavras 1 a 26 do texto e alguns agrupamentos (chunks) que

ocorrem nessa sentença. Nos agrupamentos é que se identificam os lexemas que compõem os sintagmas nominais.

A partir destes três arquivos em formato XML, gerados para cada documento submetido, pode-se trabalhar com desenvoltura, em comparação com o arquivo de saída do site VISL, pois através do uso de folhas de estilo (XSL) específicas é possível então extrair os sintagmas nominais de qualquer texto ou corpus da língua portuguesa. Assim como são extraídos os sintagmas nominais, é possível extrair outras instâncias morfo

resentados a seguir:

ssintáticas, como sintagmas verbais, verbos, pronomes, e outros, dependendo do interesse da pesquisa em questão, bastando para tanto o desenho de uma nova folha de estilo.

Os sintagmas nominais utilizados nesta tese foram obtidos, utilizando-se a folha de estilo específica para extração de sintagmas nominais, cedida gentilmente pela pesquisadora da Unisinos Claudia Camerini Correa Perez.

Finalmente, cabe registrar que o equipamento utilizado para todo o processamento local – que exclui aquele realizado pela interface oferecida pela Unisinos – foi um computador AMD Athlon XP 2600+ de 256 MB de memória RAM, gentilmente cedido pelo Núcleo de Informação Tecnológica e Gerencial (NITEG), da Escola de Ciência da Informação - UFMG. Não é o equipamento ideal, entretanto, pois o processamento eficaz de documentos maiores exigiria equipamento mais veloz e com mais recursos de memória.

4.4 – Critérios de corte e avaliação dos descritores extraídos

Para que a metodologia proposta anteriormente fosse corretamente parametrizada e avaliada, foi necessário estabelecer os critérios de corte – para estabelecer a quantidade desejada de descritores – e os instrumentos de avaliação da relevância, determinando a viabilidade do processo. Esses tópicos são ap

4.4.1 – Considerações gerais sobre a quantidade de descritores extraídos

O primeiro parâmetro a ser estabelecido para a metodologia automática de atribuição de descritores a documentos foi a quantidade desejada desses. Embora a limitação última possa ser considerada a quantidade total de SNs extraídos, isto pode não ser desejável, pelas razões que serão expostas em seguida. Deve-se procurar responder

à questão: qual seria um número razoável de descritores para um determinado documento textual? Ou seja, qual é a exaustividade desejada para o índice?

LANCASTER (1993, p. 20-41), considerando o uso de palavras-chave, aponta para a grande variação nas faixas de termos selecionados, e aconselha que não sejam estabelecidos limites absolutos para as quantidades, e sim parâmetros indicativos, e que o grau de importância do item para os usuários do sistema justificaria uma indexação mais

3, p. 235-239). Mesmo que em proce

anual – o indexador atribui grau de importância aos descritores escolhidos (LANCASTER, 1993, p. 174-187); é

possível adotar um ranki acordo com parâmetros de

seleç

Essa análise estrutural é possível de ser implem me ticas,

em

ento do número de termos descritores

aumenta a rev ão, diminuindo

cons

esentados de forma ordenada, em termos de importância semântica, pode-se realizar uma indexação “modulada”, em que a alteração

ou menos exaustiva.

Usualmente, observamos quantidades que variam entre 5 a 25 descritores por documento, mas em documentos de algumas áreas do conhecimento – como a química, por exemplo – não é incomum observarmos uma centena ou mais de descritores. LANCASTER ainda aponta, no caso da indexação manual, o fenômeno da diminuição da coerência da indexação, a medida que aumenta a quantidade de termos índices escolhidos (1993, p. 61-74). Entretanto, essa coerência certamente aumentará se o processo for automatizado e seguir determinado algoritmo para a seleção de descritores, em oposição à subjetividade da indexação manual (199

ssos automáticos não seja possível a adoção de algum tipo de indexação ponderada nos mesmos moldes em que acontece com a indexação m

ng criado automaticamente, de ão e corte.

KOBASHI (1994) associa a quantidade de descritores no processo de indexação à completa caracterização de informações fundamentais presentes no texto, num processo que considera a estrutura temática do texto analisado, a seleção de categorias fundamentais para a caracterização da temática e a política de indexação do sistema.

entada em todologias automá bora não seja o propósito desta pesquisa.

Já se mencionou o fato de que o aum

ocação dos documentos no processo de recuperaç

eqüentemente a precisão. Contudo, se após o processo de análise conceitual automatizada os descritores forem apr

de p tos descritores sejam desejáveis, segundo a conveniência do usuário, ou as determinações presentes na política de indexação. Observa-se que no caso de metodologias automatizadas baseadas em freqüência, essa parametrização é facilmente implementada no pr

to, um número excessivo de desc

res freqüentes a prio

A metodologia que pretendia extrair descritores para avaliar a relevância semântica dos SNs c

os seguintes valores aos SNs, de acordo com a relevância semântica percebida, segundo o mesmo esquema cromático apresentado no Anexo B, dos resultados da aplicação da metodologia prospectiva:

Relevância descritiva do SN Símbolo Valor associado

arâmetros – maior precisão ou maior revocação – permita a escolha de quan

ocesso de seleção de descritores, desde que estes sejam apresentados em ranking relativo de importância semântica.

O pressuposto adotado é o fato de que, idealmente, quanto maior o número de descritores extraídos – número este que está relacionado à estrutura e ao tamanho dos documentos, e à metodologia de identificação e seus parâmetros – maior é a caracterização do assunto do documento. Entretan

ritores pode não ser conveniente, por diminuir em demasia a precisão das buscas baseadas nesses índices, o que nos impele a desenvolver uma metodologia flexível e parametrizada, que permita a escolha a priori ou a posteriori de qualquer quantidade desejada de descritores, dependendo da escolha por maior taxa de precisão ou revocação, quando da recuperação destes documentos.

Na aplicação da metodologia prospectiva não foram excluídos descrito ri. Na metodologia consolidada, esse recurso pode ser adotado.

4.4.2 – Critérios de avaliação da metodologia

andidatos a descritores, definimos os conceitos de “Pontuação” e “Taxa de Relevância”. Para efeitos de pontuação, associamos

SN extremamente relevante como descritor SN*** 1,0

SN razoavelmente relevante como descritor SN** 0,5

SN moderadamente relevante como descritor SN* 0,25

SN não relevante como descritor SN – 0,0

Tabela 6 – Valor atribuído ao SN de acordo com sua relevância

Computamos valores ponderados (pontuação) relativos à qualidade dos SNs como descritores, segundo a fórmula a seguir:

(

desc

) (

.

***

)

0,5

(

.

**

)

0,25

(

*

Pontuação

=

NúmSN

+

x

NúmSN

+

x

NúmSN

)

E definimos também a taxa de relevância dos SNs, para determinada freqüência:

(

)

⎟⎟

⎜⎜

=

s

ocorrência

das

soma

desc

Pontuação

lev

Tx Re

A pontuação foi mensurada atribuindo-se valor numérico arbitrário aos SNs de acordo com sua relevância percebida como descritores, e a taxa de relevância apresentou esse valor normalizado. Quanto maior a taxa de relevância, melhor seria a representação

do a áximo é 1 – valor este que seria

alcançad s incomum m

Pode-s

julgamento ue foi o próprio autor desta tese que classificou

os SNs entre extremamente relevantes, relevantes e

está necess scritores no processo

de análise de assunto (CESARINO, 1980; UNISIST, 1981; NAVES, 1996).

Os valores arbitrários de 1,0, 0,5 e 0,25 atribuídos de acordo com a relevância relati

ssunto pelos descritores, sendo que o valor m

o e a totalidade dos descritores fosse extremamente relevante, caso bastante esmo para processos de indexação manual.

e objetar quanto a certo grau de subjetividade envolvido no processo de de relevância, uma vez em q

razoavelmente relevantes, moderadamente não relevantes como descritores. Entende-se, porém, que a subjetividade ariamente presente quando se propõe a escolha de de

va dos descritores não foram considerados absolutamente, mas apenas como parâmetros para a possível avaliação das aplicações da metodologia.

Esses valores e as fórmulas utilizados nesta investigação são discutidos nos capítulos a seguir, quando da análise dos dados.

Benzer Belgeler