A maior parte da an´alise da avalia¸c˜ao come¸ca a partir de uma matriz de confus˜ao, que exibe a quantidade de classifica¸c˜oes corretas e incorretas de cada classe, podendo ser vista na figura 7. Os verdadeiros positivos (em inglˆes, true positives, TP) e verdadeiros negativos (do inglˆes, true negative, TN) s˜ao as classifica¸c˜oes corretas. Um falso positivo (do inglˆes, false positive, FP) ocorre quando o resultado est´a previsto incorretamente como positivo, quando na verdade ´e negativo. Um falso negativo (do inglˆes false negative, FN)
2.6 Crit´erios de Avalia¸c˜ao de Algoritmos de Classifica¸c˜ao 53
ocorre quando o resultado ´e incorretamente previsto como negativo quando realmente ´e positivo. A taxa de verdadeiros positivos ´e igual ao TP dividido pelo n´umero total de positivos, o que ´e TP + FN, e a taxa de falsos positivos ´e igual ao FP dividido pelo n´umero total de negativos, FP + TN. A taxa de sucesso geral ´e o n´umero de classifica¸c˜oes corretas dividido pelo n´umero total de classifica¸c˜oes:
Sucesso Geral = T P + T N
T P + T N + F P + F N (2.5)
Finalmente, a taxa de erro ´e um menos isso [16].
Figura 7: Exemplo de matriz de confus˜ao [20]
2.6.1
Precis˜ao
A precis˜ao de um classificador ´e o percentual de casos corretamente classificados em um conjunto de teste, medindo qu˜ao bem o classificador reconhece casos das diferentes classes [17]. Ou seja, ´e representada pela mesma f´ormula 2.5.
2.6.2
Area sob a Curva ROC´
A curva ROC foi desenvolvida no contexto de detec¸c˜ao de sinais eletrˆonicos e pro- blemas com radares, durante a Segunda Guerra Mundial, com o objetivo de quantificar a habilidade dos operadores dos radares (chamados de receiver operators) em distinguir um sinal de um ru´ıdo. Esta habilidade era, pois, chamada de receiver operating charac- teristic, ou ROC. Nos anos 70, essa metodologia foi amplamente disseminada dentro da
2.6 Crit´erios de Avalia¸c˜ao de Algoritmos de Classifica¸c˜ao 54
pesquisa biom´edica, com o objetivo de auxiliar a classifica¸c˜ao de indiv´ıduos em doentes e n˜ao doentes. Para se entender melhor essa curva ´e necess´ario compreender dois conceitos, o da sensibilidade e o da especificidade. A sensibilidade ´e definida como a probabilidade do teste sob investiga¸c˜ao fornecer um resultado positivo, dado que indiv´ıduo ´e realmente portador da enfermidade. J´a a especificidade ´e definida como a probabilidade do teste fornecer um resultado negativo, dado que o indiv´ıduo est´a livre da enfermidade. A ex- press˜ao matem´atica da sensibilidade pode ser vista na equa¸c˜ao 2.6 e a da especificidade est´a na equa¸c˜ao 2.7. ´E importante salientar que essas duas medidas n˜ao s˜ao calculadas sobre os mesmos indiv´ıduos, ou seja, no c´alculo da sensibilidade utilizam-se apenas os indiv´ıduos doentes e no caso da especificidade utilizam-se os n˜ao doentes. Portanto, essa duas medidas s˜ao independentes entre si. Al´em disso, ambas as medidas n˜ao s˜ao afeta- das pela prevalˆencia da doen¸ca sobre a popula¸c˜ao [21]. Como o resultado de sistemas de classifica¸c˜ao em classes geralmente s˜ao cont´ınuos, ou seja, produzem um valor situado dentro de um determinado intervalo cont´ınuo, como [0;1], ´e necess´ario definir um ponto de corte, ou um limiar de decis˜ao, para se classificar e contabilizar o n´umero de predi¸c˜oes positivas e negativas (como diagn´osticos verdadeiros e falsos no caso de ocorrˆencia de uma patologia). Como este limiar pode ser selecionado arbitrariamente, a melhor pr´atica para se comparar o desempenho de diversos sistemas ´e estudar o efeito de sele¸c˜ao de diversos limiares sobre a sa´ıda dos dados. Para cada ponto de corte s˜ao calculados valores de sen- sibilidade e especificidade, que podem ent˜ao serem dispostos em um gr´afico denominado curva ROC, que apresenta no eixo das ordenadas os valores de sensibilidade e nas abscis- sas o complemento da especificidade, ou seja, o valor (1-especificidade). Um classificador perfeito corresponderia a uma linha horizontal no topo do gr´afico, por´em esta dificilmente ser´a alcan¸cada. Na pr´atica, curvas consideradas boas estar˜ao entre a linha diagonal e a linha perfeita, onde quanto maior a distˆancia da linha diagonal, melhor o sistema. A linha diagonal indica uma classifica¸c˜ao aleat´oria, ou seja, um sistema que aleatoriamente seleciona sa´ıdas como positivas ou negativas, como jogar uma moeda para cima e esperar cara ou coroa. Uma medida padr˜ao para a comparacao de sistemas ´e a ´area sob a curva (AUC), que pode ser obtida por m´etodos de integra¸c˜ao num´erica, como por exemplo, o m´etodo dos trap´ezios. Teoricamente, quanto maior a AUC, melhor o sistema [20]. Por exemplo, um classificador ideal tem uma AUC de 1 enquanto um classificador mais pobre tem uma ´area de 0,5 [17]. Um exemplo ilustrativo mostrando as curvas ROC, perfeita, aleat´oria e boa est´a na figura 8.
Sensibilidade = T P
2.6 Crit´erios de Avalia¸c˜ao de Algoritmos de Classifica¸c˜ao 55
Especificidade = T N
T N + F P (2.7)
Figura 8: Exemplo de curvas ROC [20]
2.6.3
Estat´ıstica
Kappa
A porcentagem total de casos corretamente classificados reflete uma avalia¸c˜ao sim- ples de um classificador, a mesma avalia¸c˜ao pela ´area sob a curva de funcionamento do receptor (ROC). Porque um classificador contando com sele¸c˜ao aleat´oria de casos, com freq¨uˆencia classifica alguns casos corretamente, o ´ındice Kappa ´e utilizado para controlar essas instˆancias que podem ter sido corretamente classificadas apenas por acaso. Al´em disso, pode ser avaliada a precis˜ao de cada classificador por sua medida-F (do inglˆes, F- measure), que representa a m´edia harmˆonica entre a precis˜ao e o recall [22]. A estat´ıstica Kappa ´e utilizada para avaliar a precis˜ao de qualquer caso de medida,e ´e usualmente utilizada para distinguir entre a confiabilidade dos dados coletados e a sua validade. A pontua¸c˜ao Kappa m´edia de um algoritmo para que possa se tornar confi´avel gira em torno de 0,6-0,7 [23]. Pode ser calculada atrav´es da taxa de concordˆancia observada (tco) e da taxa de concordˆancia esperada(tce) se as respostas das duas ocasi˜oes fossem estatistica- mente independentes. Como exemplo, utiliza-se a matriz de confus˜ao da figura 9. Nesse caso, a taxa de concordˆancia observada ´e igual `a somas dos valores nos quais as duas
2.6 Crit´erios de Avalia¸c˜ao de Algoritmos de Classifica¸c˜ao 56
ocasi˜oes classificaram negativos como negativos e positivos como positivos, ou seja, ´e a soma dos valores da diagonal principal (24 + 17) dividida pelo total de classifica¸c˜oes (50). Isso resulta em 0,82. J´a para taxa de concordˆancia esperada primeiro se calcula a proba- bilidade dos casos negativos em rela¸c˜ao ao total de casos tanto para a ocasi˜ao 1 como para a ocasi˜ao 2, ou seja, ser´a igual a 27/50 multiplicado por 30/50. Faz-se o mesmo agora para os casos positivos, e tem-se 23/50 multiplicado por 20/50. Depois, somam-se essas duas quantias e tem-se 0,51 como resultado. Finalmente, o valor de kappa ser´a igual `a 0,63 de acordo com a equa¸c˜ao 2.8:
kappa = tco− tce
1 − tce (2.8)
Figura 9: Exemplo de Matriz de Confus˜ao [24]
2.6.4
Medida F
A medida F ´e usada porque, apesar da precis˜ao e do recall serem m´etricas v´alidas, uma pode ser otimizada em detrimento da outra. A medida F somente produz um resultado elevado quando tanto a precis˜ao quanto o recall est˜ao balanceados, tornando portanto esta medida bastante significativa[25].
A precis˜ao ´e a propor¸c˜ao de resultados relevantes que estavam corretos:
Precis˜ao (%) = T P
F P + T P (2.9)
J´a o Recall, ´e a propor¸c˜ao de resultados relevantes que foram identificados correta- mente:
Recall (%) = T P
F N + T P (2.10)