ÇALIŞMA GRUBU
BAROLARLA YAPILAN DENEYİM PAYLAŞIM TOPLANTISININ DEĞERLENDİRİLMESİ
O PLN é uma área multidisciplinar que busca desenvolver sistemas capazes de realizar tarefas linguísticas específicas, como a correção ortográfica e gramatical, a tradução, a extração de informação, a sumarização automática (SA), entre outras.
Na SA, subárea do PLN, busca-se automatizar a produção de sumários a partir de um ou mais documentos, ou seja, a geração de versões condensadas de um ou mais textos (MANI, 2001). Os sistemas que realizam tal tarefa são denominados sumarizadores automáticos.
Buscando emular na máquina os processos humanos, Mani e Maybury (1999) sugerem que a SA envolva idealmente os 3 processos: (i) análise dos textos-fonte, (ii) transformação e (iii) síntese. O paralelo entre as etapas humanas e automáticas de sumarização é apresentado na Figura 1.
Figura 1 - Etapas de sumarização humana e automática
Fonte: Adaptada de Endres-Niggemeyer (1998) e Mani e Maybury (1999)
A primeira delas é a ―análise‖, que corresponde à interpretação dos textos-fonte e gera uma representação do conteúdo linguístico expresso em termos computáveis.
A segunda é a ―transformação‖, etapa em que o conteúdo formalizado dos textos-fonte é selecionado e condensado em uma representação computável, ou seja, não-textual. O ponto central da seleção de conteúdo é reconhecer as unidades de significado do texto-fonte (p.ex.: palavras, sintagmas, orações, sentenças, etc.) que contêm as ideias centrais do mesmo para compor o sumário (MANI, 2001).
A terceira (e última) etapa é a ―síntese‖. Nela, o conteúdo condensado é expresso em língua natural na forma de um sumário. Para tanto, métodos de justaposição, ordenação, fusão
e correferenciação dos segmentos textuais selecionados podem ser utilizados (SPARCK JONES, 1993).
Tais etapas são guiadas pela taxa de compressão, ou seja, o tamanho desejado do sumário; um sumário com taxa de compressão de 70% apresenta tamanho equivalente a 30% do tamanho do texto original (em geral, medido em número de palavras).
Quanto ao número de textos-fonte sob processamento, a SA pode ser monodocumento ou multidocumento.
Na SA monodocumento, produz-se um sumário de um único texto-fonte. Na SAM, produz-se um sumário a partir de uma coleção de textos-fonte que abordam um mesmo tópico (MCKEOWN; RADEV, 1995; MANI, 2001).
A SA monodocumento é uma aplicação ―tradicional‖ do PLN, sendo muito explorada e discutida por inúmeros autores há várias décadas (p.ex.: LUHN, 1958; EDMUNDSON, 1969; O‘DONNELL, 1997a; SALTON et al., 1997; MARCU, 2000; PARDO; RINO, 2002; PARDO et al., 2003; RINO et al., 2004; UZÊDA et al., 2010; CLARKE; LAPATA, 2010; LOUIS et al., 2010; entre outros).
O interesse pela SAM, como se vê com mais detalhes na próxima seção, é mais recente e tem se fortalecido com o aumento do volume de informação disponível na web e pelo pouco tempo que os usuários têm para absorvê-la.
Assim como na sumarização humana, vários parâmetros influenciam a realização das etapas de SA. Além da taxa de compressão, a qual determina o quanto a informação do texto- fonte deve ser condensada e transposta para o sumário, a audiência determinará a produção automática de um sumário genérico ou focado nos interesses do usuário e a função determinará a geração de sumários informativos, indicativos ou críticos.
Um sumário genérico não considera um usuário específico e, por isso, ele simplesmente oferece a informação mais relevante contida no(s) texto(s)-fonte. Por outro lado, os sumários focados no interesse do usuário, ou especializados, são produzidos a partir de uma consulta e buscam englobar as informações que satisfaçam essa consulta (JURAFSKY, 2007). A sumarização genérica é feita de forma mais direta, ou seja, modela-se o documento, dá-se importância aos segmentos textuais e, por fim, selecionam-se os mais salientes para compor o sumário final. Na sumarização focada, esses processos são feitos de forma diferente. Quando se parte de uma palavra-chave, por exemplo, a pontuação dos segmentos é feita em função dela. Assim, os segmentos textuais que contiverem todo ou parte do requisito da consulta serão levados em consideração para uma seleção posterior mais cuidadosa.
O sumário informativo, ou autocontido, contém as informações principais de um texto-fonte de forma coerente e coesa ao ponto de dispensar a leitura do original. O indicativo, ou indexador, não substitui o texto-fonte, apenas diz do que ele trata, sendo utilizado, por exemplo, quando o leitor deseja fazer uma busca por um documento referente a determinado tópico, decidindo qual documento merece mais atenção. O sumário crítico, ou avaliativo, apresenta, além da informação principal do texto-fonte, avaliações sobre ele (MANI; MAYBURY, 1999).
A SA, além de considerar a audiência e a função do sumário, também pode fazer uso de diferentes níveis de conhecimento linguístico, os quais caracterizam suas abordagens (MANI, 2001).
Caso a escolha seja pela utilização de pouco ou nenhum conhecimento linguístico, a abordagem de SA é dita superficial, pois o conhecimento que se utiliza é empírico/estatístico. Por exemplo, uma abordagem que produz um sumário a partir da seleção e justaposição das sentenças do texto-fonte que apresentam as palavras mais frequentes do texto é classificada como superficial.
Caso a opção seja pelo uso de teorias ou modelos linguísticos, a abordagem é classificada como profunda (SPARCK JONES, 1999; MANI, 2001).
A abordagem, aliás, determina a formação do sumário a ser gerado. A partir do processo de SA superficial, originam-se necessariamente extratos (ou seja, sumários compostos por trechos inalterados dos textos-fonte), ao passo que, a partir da sumarização profunda, podem-se produzir extratos ou abstracts (isto é, sumários desenvolvidos a partir da manipulação linguística dos textos-fonte, os quais sofrem operações de reescrita).
Apesar das inúmeras pesquisas em SA, a qualidade dos sumários automáticos ainda deixa a desejar, principalmente quanto à coesão/coerência e informatividade.
Na sequência, discorre-se com mais detalhes sobra a SAM.