• Sonuç bulunamadı

Construções utilizadas nas gramáticas para descrever línguas tendem a ser livres de contexto, ou seja, uma produção não depende das produções vizinhas ou dos terminais vizinhos para ser aplicada. Contudo, Jurafsky e Martins (2008) apontam trabalhos que apresentam casos sensíveis ao contexto para o Alemão9.

Gramáticas gerativas e suas variações podem ser empregadas na construção de analisadores sintáticos de constituintes ou de dependências sintáticas, por meio de análises ascendentes (bottom-up), isto é, das folhas da árvore até a raiz, ou descendentes (top-down) da raiz até a folha. Além disso, tais gramáticas podem ser estendidas com o acréscimo de probabilidades em suas produções. Assim, quando mais de uma árvore é admissível, a desambiguação pode ser feita com base na árvore mais provável. Jurafsky e Martins (2008) discutem as análises ascendentes e descendentes detalhadamente, indicando vantagens de desvantagens de cada uma, suas estratégias de processamento, e algoritmos baseados em programação dinâmica, semelhantes ao algoritmo de Viterbi (1967), criados para reduzir substancialmente o tempo de processamento gasto na análise das possíveis árvores.

A ambiguidade, ubíqua em todos os níveis de análise da língua, é também um problema durante a análise sintática, nesse caso denominada de ambiguidade estrutural. Diversas frases aceitam múltiplas árvores sintáticas. Um exemplo pode ser visto em “muitos jovens e idosos foram afetados pela doença”, pois “muitos” pode referir-se apenas a “jovens” ou a “jovens e idosos”. Uma variação de um exemplo comumente usado para ilustrar ambiguidade estrutural é a frase “Maria viu João com o binóculo subindo a montanha”, na qual não fica totalmente claro qual dos dois estava subindo a montanha e qual estava segurando o binóculo. Embora, por senso comum, um leitor humano possa optar por uma das quatro variações possíveis, todas elas podem ocorrer naturalmente na língua, sendo necessário contexto adicional para uma desambiguação definitiva. Um caso semelhante para o Inglês é “I know you like your brother”, que pode ser traduzido como “eu sei que você gosta de seu irmão” ou “eu conheço você como seu irmão”. Técnicas automáticas de análise sintática da língua não atingem tal nível de sofisticação no estado da arte atual, geralmente sendo aceitável como correta qualquer uma das análises possíveis.

A frase de exemplo anterior ilustra também o conceito de dependências de longa

9 O modelo conceitual de gramáticas livres de contexto ou sensíveis ao contexto é associado a máquinas teóricas com memória infinita. Contudo, um projetista de gramática pode reduzir o nível de uma gramática (até mesmo para o nível regular) se for levado em conta que um leitor humano possui uma memória de trabalho relativamente limitada, e se um dado limite aceitável de memória for fixado. Nesse caso, o processo para redução de níveis deve ser feito cuidadosamente de modo a evitar uma explosão nos números de produções durante a conversão entre os tipos.

distância, isto é, o posicionamento não canônico de nós da árvore, isto é, nós que aparecem em posições não usuais. Na situação em que Maria porta os binóculos (“binóculo” é normalmente associado ao verbo “ver”) e João sobe a montanha (assumindo que Maria não apenas viu João com os binóculos, mas o viu realizando uma ação). Nesse caso, além de “João” exercer o papel objeto direto de “viu”, também é utilizado como sujeito de “subir”, sendo separado de seu predicado por “com os binóculos”10.

2.2.3 Analisadores sintáticos

Como visto na Seção 2.2.2, analisadores sintáticos podem ser divididos em parciais como o usado por Siddharthan (2006) ou completos, por exemplo, o proposto por Collins (2003). Podem ainda ser baseados em regras manuais, como o desenvolvido por Bick (2000) ou em conhecimento adquirido automaticamente de córpus, como o de Collins. Essa dicotomia às vezes aparece na literatura como analisadores simbólicos (DOUGHERTY, 1994), normalmente baseados em regras manuais (BICK, 2000), ou estatísticos (COLLINS, 2003), treinados a partir de treebanks (córpus anotados sintaticamente).

A análise de constituintes é geralmente avaliada com as medidas Parseval (BLACK et al., 1991), que consistem na precisão (número de constituintes corretamente identificadas em relação ao número de constituintes identificadas), na cobertura (número de constituintes corretamente identificadas em relação ao número de constituintes corretas na frase) e em uma terceira medida crossing brackets que leva em conta as constituintes identificadas incorretamente cujas bordas cruzam as constituintes corretas.

A análise de dependências é geralmente avaliada com as medidas interligação rotulada (labeled attachment score) e interligação não rotulada (unlabeled attachment score). Na primeira, as arestas da árvore de dependências, suas direcionalidades e seus rótulos sintáticos são analisados. Na segunda, apenas as arestas e direcionalidades são levadas em conta. Em ambas, a pontuação não é considerada. As medidas foram utilizadas nas edições de 2006, 2008 e 2009 da conferência CoNLL (Conference on Computational Natural Language Learning) (STEVENSON & CARRERAS, 2009), cujo objetivo é o uso de aprendizado de máquina para diferentes tarefas do PLN, e, nas edições indicadas, focou-se em avaliações conjuntas para análise de dependências independente de língua e análise de dependências integrada com análise semântica, incluindo modelos testados em Língua Portuguesa em sua edição de 2006 (MÀRQUEZ & KLEIN, 2006).

Siddharthan (2006) aplica a análise sintática parcial para detectar limites de orações na Língua Inglesa. A técnica empregada consiste no uso de redes sem camadas escondidas do tipo Winnow (CARLSON et al., 1999), e, juntamente com algoritmos adicionais empregados no processo, serve de base para a simplificação sintática de textos da Língua Inglesa. Os limites das orações são detectados com acurácia de 91,1% no córpus de avaliação criado pelo autor a partir de frases do Penn TreeBank.

Bick (2000) aplica gramáticas de restrições (constraint grammars) no analisador sintático Palavras, criado para analisar a Língua Portuguesa, com acurácia de 97% para anotação de dependências e 99% para anotação morfossintática. Gramática de restrições é um formalismo gramatical combinado com regras para anotação da língua em diferentes níveis. O Exemplo 2.3, apresenta o formalismo, sendo dividido em duas partes: (a) as definições dos lexemas com suas possíveis desambiguações e (b) as regras de desambiguação. O lexema para exemplificar o formalismo é o altamente ambíguo “como”, no contexto da frase de exemplo é “nunca como peixe”. A regra exemplificada permite desambiguar “como” como um verbo finito transitivo.

// possíveis etiquetas <nunca>

nunca adjetivo <como>

como advérbio relativo como advérbio interrogativo como conjunção subordinativa como verbo finito transitivo <peixe>

peixe substantivo <.>

// exemplo de regra de desambiguação para "como"

selecione (verbo finito transitivo) para lexema em análise se ( lexema à esquerda não possui etiquetas verbo, finito e

lexema à direita não possui etiquetas verbo, finito)

Exemplo 2.3: Desambiguação de “como” via gramáticas de restrições (BICK, 2000).

Benzer Belgeler