Do que pudemos constatar pela leitura dos resultados obtidos da avaliação efectuada pelos avaliadores. Podemos destacar de imediato que três medidas apresentam um grau de concordância substancial, nomeadamente o Phi-Square, o Least Tf-Idf e o
Least Bubbled Median Phi-Square.
Constata-se também, que estas mesmas medidas apresentam termos com maior significado semântico que as outras medidas avaliadas, nas quais predominam muito verbos, adjectivos e advérbios.
125 Mais, sabendo que o avaliador Prof. Gabriel Lopes avaliou uma amostra de nove documentos. As precisões totais médias, obtidas para as medidas que foram avaliadas na totalidade pode ser visto na seguinte Tabela 4.19. Onde podemos observar que em média, a precisão total mais elevada para todos os limites considerados (5,10,15,20) são obtidos pelas medidas Phi-Square, Least-Tf-Idf e Least Bubbled Median Phi-
Square. Podemos ver uma ilustração da distribuição da precisão total pelos
documentos avaliados pelo avaliador na secção 8.6.
Precision \
Threshold Phi^2 Least Tf-Ifd Least M Rvar Least M MI Least M B Phi^2 Least M B Rvar T. Prec. Avg (5) 0,727777778 0,638888889 0,462962963 0,424074074 0,622222222 0,516666667
T. Prec. Avg (10) 0,725 0,660978836 0,355202822 0,353968254 0,613580247 0,483289242
T. Prec .Avg (15) 0,68026048 0,640761091 0,347985348 0,351628002 0,62049062 0,453106153
T. Prec. Avg (20) 0,621251386 0,645621202 0,345351328 0,334064942 0,626377422 0,414740896 Tabela 4.19 – Precisões Totais médias para Português para o Avaliador Prof. Gabriel Lopes
Na secção 8.7, podemos ver gráficos que apresentam a relação entre a precisão total de cada documento e a média da precisão. Estes gráficos só conseguem ser produzidos para um limite de cada vez, ou seja, para se observar o comportamento da precisão para os vários limites, seria necessário fazer quatro gráficos distintos. Devido a esse facto, optou-se por mostrar os gráficos para o limite 5 e 20. A amostra de gráficos não será exaustiva para todas as medidas, mas somente a algumas que apresentam melhores resultados de precisão e a algumas que apresentam piores resultados de precisão.
Uma outra leitura que podemos fazer, dos gráficos ilustrados da Figura 8.17 à Figura 8.20 é a de que a medida Least Median Rvar e a medida Least Median MI apresentam muitas semelhanças em termos da precisão dos documentos em relação à média.
Já na secção 8.8 podemos ver a média de precisão total para todas as medidas desenvolvidas nesta dissertação, pelos resultados das avaliações do avaliador Prof. Gabriel Lopes. Na qual podemos constatar que os resultados para as medidas base,
Rvar e MI, bem como algumas variantes destas mesmas medidas (com excepção das
que foram obrigatoriamente avaliadas) não apresentam resultados. Isto deve-se aos maus resultados produzidos por estas medidas. Como podemos ver na Tabela 8.25 e na Tabela 8.26 de termos apresentados aos avaliadores para a medida Rvar e MI, respectivamente., verificamos que não apresentam muitos termos em comum com as
126
suas variantes (Tabela 4.7, Tabela 4.10 e Tabela 4.16), daí a propagação de avaliações de possíveis termos comuns torna-se impraticável.
Outra leitura que podemos constar da Tabela 8.25 e da Tabela 8.26 é a incapacidade do Rvar e do MI de conseguirem fazer uma diferenciação de termos. Todos os termos tem o mesmo valor de medida, isto torna uma hierarquização de termos impossível pelo seu peso.
O avaliador Prof. Joaquim Ferreira da Silva avaliou uma amostra de cinco documentos. As precisões totais médias, obtidas para as medidas que foram avaliadas na totalidade pode ser visto na seguinte Tabela 4.20. Podemos observar também que em média, a precisão total mais elevada para todos os limites considerados (5,10,15,20) são obtidos pelas medidas Phi-Square e Least Bubbled Median Phi-
Square.
Prec \ Threshold Phi^2 Least Tf-Ifd Least M Rvar Least M MI Least M B Phi^2 Least M B Rvar
T. Prec. Avg (5) 0,84 0,56 0,76 0,72 0,76 0,8
T. Prec. Avg (10) 0,8 0,7 0,72 0,74 0,66 0,66
T. Prec. Avg (15) 0,746666667 0,706666667 0,64 0,64 0,68 0,605714286
T. Prec. Avg (20) 0,75 0,73 0,62 0,63 0,68 0,614210526
Tabela 4.20 – Precisões Totais médias para Português para o Avaliador Prof. Joaquim Ferreira da Silva
Na secção 8.13 podemos ver a média de precisão total para todas as medidas desenvolvidas nesta dissertação, pelos resultados das avaliações do avaliador Prof. Joaquim Ferreira da Silva. Podemos constatar também que os resultados para as medidas base, Rvar e MI, bem como algumas variantes destas mesmas medidas, em menor quantidade que as do avaliador anterior e com excepção das que foram obrigatoriamente avaliadas, não apresentam resultados. Isto deve-se, como já foi dito, ao facto de as medidas base Rvar e MI não apresentarem muitos termos em comum com as suas variantes.
A diferenciação dos resultados entre estes dois autores, deve-se ao facto de que, por parte do avaliador Prof. Joaquim Ferreira da Silva o uso da classificação de “Near Good Descriptor‖ foi mais usado do que por parte do avaliador Prof. Gabriel Lopes. Este facto, pode ser constatado pelas tabelas das avaliações efectuadas pelos mesmos, no anexo 2, nas secções 8.2 e 8.3. Este facto leva a que as precisões totais médias
127 alcançadas para o avaliador Prof. Joaquim Ferreira da Silva sejam mais equitativas entre as medidas.
No que diz respeito à cobertura média alcançada por parte destes avaliadores, podemos ver as seguintes tabelas.
Recall \ Threshold Phi^2 Least Tf-Ifd Least M Rvar Least M MI Least M B Phi^2 Least M B Rvar Recall Avg (5) 0,162332188 0,140275652 0,057282204 0,061528327 0,136911887 0,055350608
Recall Avg (10) 0,303927597 0,245604161 0,079072186 0,078817157 0,234905856 0,088076416
Recall Avg (15) 0,399484185 0,347772559 0,102677377 0,104421022 0,292186886 0,110701215
Recall Avg (20) 0,484566035 0,463789118 0,143163089 0,1321988 0,352236805 0,133545601 Tabela 4.21 - Recall médio para Português para o Avaliador Prof. Gabriel Lopes
Recall \
Threshold Phi^2 Least Tf-Ifd Least M Rvar Least M MI Least M B Phi^2 Least M B Rvar Recall Avg (5) 0,100914266 0,062085921 0,085279527 0,084681554 0,080534448 0,089853115
Recall Avg (10) 0,166227626 0,135645273 0,155097352 0,158861147 0,137478892 0,146752468
Recall Avg (15) 0,211752786 0,208842305 0,19441078 0,193804458 0,198855961 0,197265355
Recall Avg (20) 0,285856612 0,291097308 0,228846158 0,234336855 0,255690645 0,26465666 Tabela 4.22 - Recall médio para Português para o Avaliador Prof. Joaquim Ferreira da Silva
Pelas mesmas razões já descritas sobre as avaliações por parte destes avaliadores, podemos constatar que as mesmas medidas que tinham melhor precisão total média na avaliação fo Prof. Gabriel Lopes também têm a melhor cobertura. Já no que concerne à cobertura média nos resultados do Prof. Joaquim Ferreira da Silva estes são mais equitativos, pelo que diferenciar claramente é difícil mas a medida Phi-Square e Least Tf-Idf mostram maior cobertura.
Nas secções 8.8 e 8.14 podemos ver os resultados das coberturas para todas as medidas utilizadas nesta dissertação.
128