A anotação CST foi realizada no ano 2009, como parte do trabalho de mestrado que precede a este trabalho. A anotação foi realizada por uma equipe de 4 pessoas da área de Linguística Computacional. A tarefa de anotação foi realizada em duas etapas: o treinamento e a anotação de fato. A etapa de treinamento durou aproximadamente três meses, período em que os anotadores estudaram a teoria e experimentaram a anotação de alguns textos não pertencentes ao córpus. Durante essa etapa, surgiram discussões que resultaram em um refinamento das relações da teoria. Esse refinamento consistiu na eliminação de algumas relações da teoria original e a junção de outras. A decisão da eliminação de algumas relações (p.ex., Reader Profile, Change of Perspective) foi tomada sobre a hipótese de que essas relações não iriam acontecer no córpus. A decisão de junção de algumas relações (p.ex. Elaboration, Description e Refinement) foi tomada sobre a hipótese de que algumas das relações tinham definições muito similares, o que foi percebido pelos anotadores. No total, foram mantidas 14 relações da teoria CST, as quais foram classificadas em uma tipologia Maziero et al. (2010), que também resultou do processo de treinamento. Na Figura 12, é mostrada a classificação das 14 relações de acordo com essa tipologia.
Figura 12: Tipologia de relações CST proposta por Maziero et al.(2010)
Pode-se observar que, no primeiro nível, a tipologia tem duas subdivisões principais: relações de conteúdo e relações de apresentação/forma. Na categoria de conteúdo, estão as relações que expressam similaridade, contradição ou complementaridade entre as informações textuais, ou seja, relações que, de fato, referem-se ao conteúdo dos segmentos relacionados. Essa categoria se divide, por sua vez, em três subcategorias: redundância, complemento e contradição. Na subcategoria redundância, incluem-se as relações que
Relações
Conteúdo Apresentação/Form
Redundância Complemento Contradição Autoria Estilo
Total Parcial Temporal Não-Temporal
Identity Equivalence Summary Subsumption Overlap Follow-up Historical background Elaboration Contradiction Citation Attribution Modality Indirect-Speech Translation
69 expressam similaridade parcial ou total das informações. Por exemplo, as relações Identity, Equivalence e Summary expressam similaridade total entre segmentos, já que as informações podem ser idênticas ou equivalentes; as relações Overlap e Subsumption indicam certa similaridade entre as informações, já que pode haver informações diferentes nos segmentos que estão sendo relacionados. Na subcategoria complemento, incluem-se todas as relações que elaboram as informações principais, quer seja com informações históricas, fatos que dão continuidade a um evento, ou com informação contextual. As relações que indicam informações históricas e de fatos que dão continuidade a um evento (Historical background e Follow-up) são consideradas temporais, enquanto as relações que indicam contexto de um fato (atual, em geral) são consideradas não temporais. A última subcategoria da categoria conteúdo é Contradição, em que está a relação Contradiction, que indica informações contraditórias entre dois segmentos.
A segunda categoria no primeiro nível da tipologia é Apresentação/Forma, na qual são incluídas todas as relações que lidam com aspectos secundários da informação, como a atribuição de uma informação a determinado autor ou fonte (Attribution, Citation), o estilo de escrita e o posicionamento do autor do texto (Indirect Speech, Modality) e a língua utilizada (Translation).
É importante dizer que, de acordo com essa tipologia, mais de uma relação pode ser estabelecida entre um mesmo par de unidades informativas, se e somente se, as relações pertencerem a diferentes categorias. Por exemplo, a relação Attribution pode ocorrer com qualquer relação que pertence à categoria conteúdo: Subsumption, Overlap, etc. O que não pode ocorrer é que, mais de uma relação de uma mesma categoria seja estabelecida para um mesmo par de unidades informativas. Tal decisão ajuda a evitar a ambigüidade e a controlar, na medida do possível, a subjetividade envolvida na anotação textual.
Além do refinamento e da classificação das relações, as definições das relações foram formalizadas. Essa definição é dada com base em dois atributos principais: direcionalidade e restrições. Dado um par de sentenças, S1 e S2, a direcionalidade pode ser nula (S1−S2), à esquerda (S1←S2) ou à direita (S1→S2). As restrições especificam as situações em que se deve estabelecer a relação indicada. A seguir é mostrado um exemplo de definição de relação CST. Além da direcionalidade e das restrições, também é incluído um exemplo que ajuda a entender melhor a definição em cada caso. A definição de todas as relações consideradas neste trabalho é mostrada no Apêndice A.
Quadro 1: Definição formal da relação Overlap
Nome da Relação: Overlap Direcionalidade: Nula
Restrições: S1 e S2 apresentam informações em comum e ambas apresentam
informações adicionais distintas entre si.
Comentários: S1 contém as informações X e Y,e, S2 contém as informações X e Z.
70
S1. Um terremoto de 6.8 graus na escala Richter, com epicentro a 17 quilômetros
de profundidade, atingiu a costa noroeste do Japão às 10h13m desta segunda-feira ( 22h13m de domingo em Brasília).
S2. Um forte terremoto matou ao menos cinco pessoas no noroeste do Japão nesta
segunda-feira.
No exemplo, as sentenças S1 e S2 apresentam informação em comum sobre um terremoto no Japão, mas a sentença S1 apresenta informações particulares sobre a magnitude, lugar de origem e horário de acontecimento do terremoto; a sentença S2 apresenta informações particulares do número de mortos.
Para a anotação do córpus, foi utilizada a ferramenta CSTTool (Aleixo e Pardo, 2008). A CSTTool é uma ferramenta semiautomática para a anotação de múltiplos textos de acordo com a teoria CST. Com essa ferramenta, é possível realizar duas tarefas: a segmentação e a anotação de fato. A tarefa de segmentação é realizada automaticamente pela ferramenta, a qual, pela sua vez, utiliza o sistema de segmentação SENTER (Pardo, 2006), para segmentar os textos em sentenças. Após a segmentação dos textos, a ferramenta determina automaticamente as sentenças candidatas a serem relacionadas pela CST. Para determinar quais são as sentenças que têm maior chance de se relacionar via CST, a CSTTool calcula a similaridade lexical das sentenças por meio da medida Word Overlap, indicada na equação (34) a seguir. 2 1 2 1 2 1 S em palavras de nro. S em palavras de nro. S e S entre comum em palavras de nro. ) S , S ( ap word_overl + = (34)
O resultado dessa equação é um valor entre 0 e 1, sendo que valores mais próximos de zero indicam sentenças com menos palavras em comum, e valores mais próximos de 1 indicam maior número de palavras em comum. Para selecionar os pares de sentenças candidatas, estabelece-se um valor threshold, que indica o valor mínimo de word-overlap para considerar as sentenças de um par devam ser conectadas por uma relação CST. Para anotação do córpus CSTNews, o valor de threshold estabelecido foi 0.12, assim como foi estabelecido por Zhang e Radev (2002). É importante destacar que, apesar da ferramenta CSTTool selecionar automaticamente os pares de sentenças candidatas, isso não impede ao anotador adicionar mais pares ou mudar outros de acordo com o seu critério.
Após a anotação dos textos foram extraídas as freqüências com as quais as relações CST ocorreram no córpus. Isso é mostrado na Tabela 5, a seguir.
Tabela 5: Frequência das relações CST no córpus CSTNews
Relação Frequência
71 Elaboration 343 Follow-up 293 Subsumption 207 Identity 85 Historical background 77 Attribution 69 Contradiction 46 Equivalence 39 Indirect Speech 18 Summary 4 Translation 2 Modality 1 Citation 0
Essas frequências mostram que as relações mais observadas no córpus são aquelas que representam redundância, complementaridade e contradição entre as informações dos textos, ou seja, aquelas que modelam os principais fenômenos multidocumento.
Para a anotação, foi avaliada a concordância entre os anotadores usando a medida kappa (Carletta, 1996), que é uma medida estatística que mede o nível de concordância, excluindo a concordância do acaso. Foi calculada a medida kappa de três parâmetros: as relações, a direcionalidade e as relações agrupadas (isto é, relações que pertencem a uma mesma categoria de acordo com a tipologia de Maziero et al. (2010)). Na Tabela 6, são mostrados os resultados da medida kappa, os quais são valores entre 0 e 1, sendo que, valores mais próximos de 1 indicam maior nível de concordância, e os valores mais próximos de zero indicam baixo nível de concordância.
Tabela 6: Medida kappa da anotação CST no córpus CSTNews Parâmetros de concordância Valor Kappa Relações 0.50 Direcionalidade 0.44 Relações agrupadas 0.61
Além da medida kappa, também foi utilizada uma medida de porcentagem para avaliar a concordância. Com essa medida foram avaliados três tipos de concordância: a concordância total (isto é, todos os anotadores indicavam a mesma relação, direcionalidade ou relações
72 agrupadas), concordância parcial (isto é, a maioria dos anotadores indicavam a mesma relação, direcionalidade ou relações agrupadas) e concordância nula (isto é, nenhum dos anotadores indicava a mesma relação, direcionalidade ou relações agrupadas). Na Tabela 7, mostra-se a medida de porcentagem de concordância no córpus CSTNews.
Tabela 7: Porcentagem de concordância no córpus CSTNews Parâmetros de concordância Concordância Total Concordância Parcial Concordância Nula Relações 54 27 18 Direcionalidade 58 27 14 Relações agrupadas 70 21 9
Esses resultados mostraram que há 81% de concordância parcial ou total para as relações, 85% de concordância parcial ou total para a direcionalidade e um 91% de concordância parcial ou total para as relações agrupadas. Esses resultados se mostram melhores que os resultados obtidos por Zhang et al. (2002) , que obtiveram apenas 58% de concordância parcial ou total das relações, para textos anotados na língua inglesa.