O processamento da linguagem natural ou PLN teve início como uma disciplina autônoma em meados da década de 50 e incorporou rapidamente ferramentas e técnicas da inteligência artificial, da ciência da computação e da linguística propriamente dita, tendo como objetivo a compreensão da linguagem humana em computadores, através de algoritmos criados para esse fim.
No entanto, apenas recentemente as pesquisas saíram dos laboratórios e passaram a compor sistemas de informações automatizados como tradutores, sistemas de perguntas e respostas, comandos de voz em automóveis e dispositivos móveis.
Atualmente existem inúmeras visões3 relativas ao campo do PLN, o que
decorre do fato de existirem inúmeros produtos que podem ser gerados ou que podem em algum momento fazer uso dele. Genericamente, qualquer modelo possui uma ou várias das etapas apresentadas na Figura 6.
3 ALLEN, J. Natural Language Understanding. Menlo Park: Benjamin/Cummings, 1987.
BATES, M.; WEISCHEDEL, R. M. (ed.). Challenges in Natural Language Processing. Cambridge: Cambridge Univ. Press, 1993.
GAZDAR, G.; MELLISH, C. Natural Language Processing in {LISP}. Reading: Addison-Wesley, 1989.
SMITH, G. W. Computers and Human Language. Oxford: Oxford Univ. Press, 1991. WINOGRAD, T. Language as a Cognitive Process. Reading: Addison- Wesley, 1983.
Figura 6 – Pipeline de um sistema para PLN genérico
Fonte: BATES (1993).
A maioria dos sistemas de PLN tem algum tipo de pré-processador que faz análise morfológica, realiza consultas a dicionários, realiza substituições lexicais (para normalizar as abreviaturas, por exemplo) e faz atribuição do discurso. A ordem em que estes processos são realizados, as técnicas utilizadas para realizá-las e os formatos do resultado são algo altamente idiossincrático (BATES, 1993).
Conforme Covington (1997), a pesquisa em PLN está voltada, essencialmente, a três aspectos da comunicação em linguagem natural, a saber: fonologia, morfologia e sintaxe, e semântica e pragmática.
No que diz respeito à identificação do sintagma nominal utilizando os mecanismos de PLN, várias são as contribuições de instituições e de pesquisadores individuais. Dentre os principais trabalhos podemos destacar: Miorelli (2001), Othero (2004), Santos (2005), Arcoverde (2007), Costa (2007), David (2007) e Lopes (2009).
Miorelli (2001), no Departamento de Ciência da Computação da Pontifícia Universidade Católica do Rio Grande do Sul, construiu um método chamado ED- CER para extração de SNs aplicando as regras estruturais de sintagmas nominais de Perini (1996). Com esse trabalho, a autora objetivou a formalização de um método para extração de SNs em língua portuguesa, aplicando ferramentas do PLN no intuito de possibilitar uma maior funcionalidade dos SRIs. Assim, o trabalho tem como meta encontrar palavras-chave ou expressões-chave para representar os
conteúdos em formato digital dos resumos das dissertações do Programa de Pós- Graduação em Ciência da Computação da Pontifícia Universidade Católica do Rio Grande do Sul, que constituem o corpus da pesquisa (SILVA, 2014).
Othero (2004a) desenvolveu um parser, na área de Letras, que faz análise de sentenças do português, o Grammar Play. O tipo de frase analisada por essa ferramenta é a declarativa que contenha um único verbo e que não esteja na forma interrogativa, salvo quando estiver estruturada por meio dos pronomes de interrogação “QU” (que, qual) (SILVA, 2014).
Santos (2005), na área de Ciência da Computação, apresentou uma nova abordagem de molde de regras para o TBL (Aprendizado Baseado em Transformações): o termo atômico com restrição (TA com restrição), que consiste na verificação de uma possível dependência entre a preposição a ser classificada e o verbo precedente. Dessa maneira, geram-se regras específicas para observar a relação entre essa preposição e o verbo antecedente. É importante que isso seja observado porque muitos SNs, estando inseridos dentro de um sintagma preposicional, estão na função de objeto e são precedidos por uma preposição (SILVA, 2014).
Arcoverde (2007), com o objetivo de representar textos, constrói um modelo híbrido que utiliza dois tipos de conhecimento, o linguístico e o estatístico. Esses tipos de conhecimento, aplicados a sistemas de RI, possibilitam um processo de pós-filtragem de informação. Na construção do modelo, o autor usa a Categorização de Textos integrada a um sistema de RI, em que recursos de PLN proporcionam experiências na busca de informações relevantes ao usuário (SILVA, 2014).
Costa (2007), com seu projeto na área de Ciência da Computação, apresenta uma gramática computacional para o português, chamada de LXGram30, em desenvolvimento na Universidade de Lisboa. Os objetivos do LXGram são analisar frases, no intuito de produzir uma descrição formal do seu significado, e gerar frases a partir de representações desse significado. O autor foca na modelagem e na implementação da sintaxe e da semântica de SN da língua portuguesa (SILVA, 2014).
David (2007) desenvolve um programa de computador, no Programa de Pós- Graduação em Linguística da Universidade Federal do Ceará, que atribui a estas expressões sua estrutura de constituintes e sua representação, por meio de colchetes rotulados e de árvores, com o objetivo de analisar expressões nominais da
língua portuguesa. Outro objetivo expresso pela autora é testar a hipótese de que sintagmas determinantes têm como núcleo pronomes pessoais.
Lopes (2011), do Programa de Pós Graduação em Ciência da Computação da Pontifícia Universidade Católica do Rio Grande do Sul, tem o objetivo de extrair automaticamente conceitos para um domínio caracterizado por um corpus em língua portuguesa. Para tanto, a autora define um método de extração de termos candidatos a conceitos a partir de um corpus marcado linguisticamente, ordena os termos extraídos segundo sua relevância, identifica, dentre os termos extraídos, quais devem ser considerados conceitos do domínio, e constrói um conjunto de recursos linguísticos a partir desses conceitos, facilitando a sua compreensão, manipulação e visualização.