A anotação RST foi realizada no ano 2011, no escopo deste trabalho de doutorado. A anotação RST foi realizada por 8 anotadores, sendo que 4 deles tinham um conhecimento mais profundo da teoria RST e mais experiência na anotação. A tarefa de anotação foi realizada em duas etapas: treinamento e anotação de fato. Na etapa de treinamento, foi realizado um estudo profundo da teoria RST, tendo como base o relato técnico de Mann e Thompson (1987) e o manual de Carlson e Marcu (2001). Durante a etapa de treinamento, foram estudadas as regras de segmentação de Carlson e Marcu, e também foram adaptadas algumas delas para o Português. Inicialmente, as regras de Carlson e Marcu foram projetadas para a língua inglesa. No entanto, na tentativa de adaptar essas regras, observou- se que algumas delas não se adequavam ao Português do Brasil. Por esse motivo, algumas regras foram adaptadas. Em particular, determinou-se que todas as orações relativas deveriam ser segmentadas, e não apenas as não restritivas. O motivo dessa nova regra foi a dificuldade de distinguir as orações restritivas das não restritivas para textos em português. Também foi determinado que os complementos de verbos atributivos deveriam ser segmentados somente se o sujeito correspondente fosse animado (p.ex. pessoas, instituições ou grupos de pessoas). Discursos internos também deveriam ser segmentados, se algumas das outras regras de segmentação fossem aplicáveis. Por exemplo, um discurso entre aspas pode ser segmentado se alguma regra é aplicável. Também devem ser segmentadas todas as orações que tivessem verbo elíptico ou sujeito implícito. Além disso, foram estabelecidos alguns marcadores fortes para o Português, já que os marcadores fortes também indicam segmentação. Em particular, alguns dos marcadores fortes considerados para a anotação do
73 córpus CSTNews foram: “porque”, “por meio de”, “além de”, “após”, “apesar de”, “durante”, “mas”, entre outros.
As regras de segmentação utilizadas para a anotação do córpus CSTNews são listadas na Tabela 8. O símbolo “
|
” é utilizado para indicar o ponto em que ocorre a segmentação.Tabela 8: Regras de Segmentação para anotação RST
#Regra Descrição da Regra Exemplo
1 Segmentam-se as sentenças que
terminam em: “.”, “!” ou “?”. A menina foi para a escola.
|
2 Segmentam-se orações com verboexplícito ou orações sem verbo explícito, mas com marcador forte (p.ex., mas, apesar de, etc.).
O aluno foi bem em matemática,
|
mas reprovou física.|
3 Não se segmentam complementos de verbo ou sujeito.
É muito raro alguém perder o jogo e arrancar a classificação no campo do adversário.
|
4 Segmentam-se orações conjuntas onde o sujeito está implícito ou o verbo é elíptico.
Maria lavou a roupa
|
e a louça.|
5 Segmentam-se orações em particípio se estiver bem delimitado (p.ex., por meio do uso da vírgula).
Terminada a tarefa,
|
João voltou para casa.|
6 Segmentam-se orações relativas tanto
restritivas quanto explicativas. A menina dos olhos azuis
|
que ganhou o premio,|
mora em São Paulo.|
7 Segmentam-se orações com verbos atributivos (p.ex., disse que, anunciou, explicou que) e que tenham sujeito animado (e.g. instituições, pessoas, etc.).
A presidenta disse que
|
criará programas de inversão estrangeira.|
8 Segmentam-se quaisquer trechos de texto que sejam informação contida entre parênteses.
Seja qual for a escolha dela
|
(da Maria)|
será boa.9 Segmentam-se todas as orações que estiverem dentro de aspas ou qualquer outra forma de citação, utilizando
"Torço pelo Rodrigo,
|
que é meu amigo,|
mas todos74 qualquer uma das regras acima, se for
o caso. são merecedores."
|
Após uma semana de estudo e treinamento das regras de segmentação, incorporou-se ao treinamento a tarefa de anotação das relações RST. Tanto para a segmentação quanto para a anotação das relações RST, foi utilizada a ferramenta RSTTool (O’Donnell, 2000), que possui um ambiente gráfico que permite segmentar e anotar os segmentos de acordo com a teoria RST.
Após duas semanas de treinamento, começou a etapa de anotação dos textos do córpus CSTNews. Essa etapa durou aproximadamente dois meses, durante os quais, a anotação foi realizada por períodos de 5 dias semanais. A cada dia, um texto era anotado por um grupo de 2 ou 3 pessoas. No total, cada dia eram 3 ou 4 grupos que anotavam textos diferentes. Todos os dias os grupos eram reorganizados para evitar possíveis tendências. A cada 10 textos anotados, todos os grupos trabalhavam no mesmo texto, com o objetivo de calcular a concordância na segmentação e na anotação.
A tarefa foi realizada incrementalmente, ou seja, primeiro eram anotados os segmentos dentro das sentenças, logo as sentenças adjacentes dentro de um parágrafo, e finalmente, os parágrafos adjacentes. Esse padrão de anotação nem sempre foi possível, já que, dependendo do discurso, essa forma de anotação nem sempre era aplicável.
A concordância foi calculada usando a ferramenta RSTeval (Maziero e Pardo, 2009) . A metodologia usada por essa ferramenta baseia-se na comparação de duas ou mais árvores retóricas para um mesmo texto. Para essa comparação, uma das árvores correspondentes ao texto é selecionada como “ideal” e as outras árvores são comparadas com ela, em cada um dos seguintes elementos:
− segmentos textuais simples;
− segmentos textuais mais complexos (p.ex., dois ou mais segmentos ligados por uma mesma relação);
− núclearidade de cada segmento; − relação RST entre segmentos.
As medidas Precisão, Cobertura e Medida-F são calculadas para cada um dos elementos listados acima, em cada uma das árvores RST e, desse modo, determina-se quão similares são as árvores entre si. A medida de Precisão indica o número de elementos corretos (C) de uma árvore T (em comparação com a árvore “ideal”), dividido pelo número total de elementos da árvore T. A medida de cobertura indica o número de elementos corretos (C) da árvore T, dividido pelo número de elementos da árvore “ideal” I. A Medida-F representa a média harmônica entre Precisão e Cobertura. Estas medidas são expressas nas equações a seguir:
75 | T | C Precisão = (35) | I | C Cobertura = (36) Cobertura Precisão Cobertura Precisão 2 F - Medida + × × = (37)
Na Tabela 9, mostra-se a concordância obtida na anotação RST do córpus CSTNews, usando as medidas descritas acima.
Tabela 9: Concordância na anotação RST
Elemento avaliado Precisão Cobertura Medida-F
Segmento Simple 0.91 0.91 0.91
Segmento Complexo 0.78 0.78 0.78
Núcleo 0.78 0.78 0.78
Relação RST 0.66 0.66 0.66
De acordo com esses resultados, a concordância mais alta é atingida pela tarefa de segmentação, na qual foi obtido um valor 91% de Precisão, Cobertura e Medida-F. Por outro lado, a concordância nas relações entre segmentos foi mais baixa, obtendo apenas 66% de concordância. Dada a subjetvidade da tarefa, os resultados são considerados satisfatórios.
76