3. Son Çekim Edatları:
3.1. YÜKLEMİN TÜRÜNE GÖRE CÜMLELER
3.3.3 SORU CÜMLELERİ
3.4
Valida¸c˜ao de Agrupamentos
A valida¸c˜ao de um agrupamento, em geral, ´e feita com base em ´ındices estat´ısticos, que julgam, de uma maneira quantitativa e objetiva, o m´erito das estruturas encontradas (Jain and Dubes 1988). Um ´ındice quantifica alguma informa¸c˜ao a respeito da qualidade de um agrupamento. A maneira pela qual um ´ındice ´e aplicado para validar um agrupamento ´e dada pelo crit´erio de valida¸c˜ao. Assim, um crit´erio de valida¸c˜ao expressa a estrat´egia utilizada para validar uma estrutura de agrupamento, enquanto que um ´ındice ´e uma estat´ıstica pela qual a validade ´e testada (Jain and Dubes 1988). Estudos sobre processos de valida¸c˜ao de agrupamentos podem ser encontrados em (Jain and Dubes 1988; Gordon 1999; Halkidi et al. 2001; Halkidi et al. 2002a; Halkidi et al. 2002b; Handl et al. 2005).
Atualmente, existem trˆes tipos de crit´erios para investigar a validade de um agrupa- mento (Jain and Dubes 1988):
Crit´erios relativos: comparam diversos agrupamentos para decidir qual deles ´e o melhor em algum aspecto (qual ´e o mais est´avel ou qual apresenta o melhor valor para uma dada medida, por exemplo). Podem ser utilizados para comparar diversos algoritmos de agrupamento ou para determinar o valor mais apropriado para um parˆametro de um algoritmo. Por exemplo, pode-se medir quantitativamente qual das hierarquias melhor se ajusta aos dados, se a obtida com o LM ou se a obtida com o LS. Outro exemplo ´e, dado um conjunto de parti¸c˜oes com diferentes n´umeros de
clusters, obtidas com o KM, determinar qual ´e o n´umero de clusters mais apropriado. Crit´erios internos: medem a qualidade de um agrupamento com base apenas nos dados originais (matriz de objetos ou matriz de proximidade). Por exemplo, um crit´erio interno pode medir o grau em que uma parti¸c˜ao obtida por um algoritmo de agru- pamento ´e justificado pela matriz de proximidade.
Crit´erios externos: avaliam um agrupamento de acordo com uma estrutura pr´e-especi- ficada, imposta ao conjunto de dados, e que reflete a intui¸c˜ao do pesquisador sobre a estrutura presente nos dados. Essa estrutura pr´e-especificada pode ser uma parti¸c˜ao que se sabe previamente existir nos dados, ou um agrupamento constru´ıdo por um especialista da ´area com base em conhecimento pr´evio. Por exemplo, um crit´erio externo pode medir o grau de correspondˆencia entre o n´umero clusters obtidos com o agrupamento e os r´otulos dos dados conhecidos previamente.
Existem v´arios ´ındices que podem ser empregados com crit´erios relativos. Esses ´ındices, em geral, podem tamb´em ser empregados em crit´erios internos (Jain and Dubes 1988). O que distingue a utiliza¸c˜ao de um ´ındice em um ou outro crit´erio ´e a maneira como o ´ındice ´e aplicado. A forma mais comum de aplica¸c˜ao de um ´ındice como um crit´erio
relativo consiste do c´alculo do seu valor para v´arios agrupamentos que est˜ao sendo com- parados, obtendo-se uma seq¨uˆencia de valores. O melhor agrupamento ´e determinado pelo valor que se destaca nessa seq¨uˆencia, como o valor m´aximo, m´ınimo ou o de inflex˜ao na curva do gr´afico constru´ıdo com a seq¨uˆencia (Jain and Dubes 1988).
Os crit´erios externos e internos s˜ao baseados em testes estat´ısticos e tˆem um alto custo computacional (Halkidi et al. 2001). Seu objetivo ´e medir o quanto o resultado obtido confirma uma hip´otese pr´e-especificada. Neste caso, s˜ao utilizados testes de hip´otese para determinar se uma estrutura obtida ´e apropriada para os dados. Isso ´e feito testando se o valor do ´ındice utilizado ´e significativamente grande ou pequeno, o que requer o esta- belecimento de uma popula¸c˜ao base ou de referˆencia. O mesmo ´ındice pode ser utilizado em um crit´erio externo e interno, embora as distribui¸c˜oes de referˆencia do ´ındice sejam diferentes (Jain and Dubes 1988; Gordon 1999). A diferen¸ca entre esses crit´erios est´a nas informa¸c˜oes utilizadas para o c´alculo do ´ındice. Nos crit´erios externos, como j´a men- cionado, o c´alculo do ´ındice considera a utiliza¸c˜ao de uma estrutura dos dados conhecida previamente, enquanto nos crit´erios internos, apenas os dados s˜ao considerados.
Um grande problema em valida¸c˜ao externa ou interna de agrupamentos ´e o estabeleci- mento da distribui¸c˜ao dos ´ındices (estat´ısticas) sob a hip´otese nula e conseq¨uentemente a determina¸c˜ao dos limiares que dizem se uma parti¸c˜ao/hierarquia ´e adequada de acordo o ´ındice. Na pr´atica, os testes de valida¸c˜ao s˜ao geralmente definidos utilizando ferramentas estat´ısticas, como an´alise de Monte Carlo e bootstrapping (Jain and Dubes 1988). Por´em, essas ferramentas s˜ao bastante custosas e de dif´ıcil aplica¸c˜ao.
Uma revis˜ao mais completa das abordagens de valida¸c˜ao e dos ´ındices mais comuns pode ser obtida em (Faceli et al. 2005d).
Neste trabalho, a avalia¸c˜ao dos resultados ser´a feita utilizando um ´ındice externo, o Rand corrigido (CR, do inglˆes Corrected Rand )(Hubert and Arabie 1985). O CR ´e um dos ´ındices de valida¸c˜ao externa mais utilizados nas avalia¸c˜oes e compara¸c˜oes de algoritmos de agrupamento. Al´em disso, esse ´ındice n˜ao ´e sens´ıvel ao n´umero de clusters, como outros ´ındices de valida¸c˜ao externa tradicionais (Jain and Dubes 1988).
O ´ındice Rand determina a similaridade entre duas parti¸c˜oes, πa e πb, pela concordˆan- cia, positiva ou negativa, na associa¸c˜ao de pares de objetos aos clusters. Ou seja, o ´ındice penaliza as associa¸c˜oes diferentes de pares de objetos nas duas parti¸c˜oes. Por exemplo, se dois objetos x1 e x2 s˜ao associados ao mesmo cluster em πa e a clusters diferentes em πb, isso resulta em um decr´escimo do valor do ´ındice. O CR ´e uma normaliza¸c˜ao do ´ındice Rand, proposta por Hubert and Arabie (1985) e ´e dado pela Equa¸c˜ao 3.5. Esse ´ındice apresenta um valor pr´oximo de 0 (podendo inclusive ser negativo) para parti¸c˜oes aleat´orias e o valor 1 quando as parti¸c˜oes casam perfeitamente (Jain and Dubes 1988; Gordon 1999). Para a sua utiliza¸c˜ao com informa¸c˜ao externa, uma das parti¸c˜oes deve ser
3.4 Valida¸c˜ao de Agrupamentos
uma estrutura dos dados previamente conhecida, enquanto a outra parti¸c˜ao ´e a que est´a sendo avaliada. CR = Ka P i=1 Kb P j=1 cai ∩ cbj 2 ! − " Ka P i=1 |ca i| 2 ! Kb P j=1 cbj 2 !# / n 2 ! " Ka P i=1 |ca i| 2 ! + Kb P j=1 cbj 2 !# /2− " Ka P i=1 |ca i| 2 ! Kb P j=1 cbj 2 !# / n 2 ! (3.5)
Outros dois ´ındices de interesse para este trabalho, que n˜ao dependem de informa¸c˜oes externas, s˜ao a variˆancia intra-cluster - tamb´em chamada desvio total em (Handl and Knowles 2004; Handl and Knowles 2005a) e homogeneidade m´edia em (Shamir and Sharan 2002), e a conectividade (Handl et al. 2005).
A variˆancia intra-cluster (var) de uma parti¸c˜ao π ´e calculado como a soma total das distˆancias entre os objetos e o centro dos seus clusters. Essa medida corresponde ao mesmo crit´erio otimizado no k-m´edias. Ela mede a qualidade de um agrupamento em termos da compacta¸c˜ao ou homogeneidade de seus clusters. Formalmente, var ´e dada pela Equa¸c˜ao 3.6, em que µk ´e o centr´oide do cluster ck e d(., .) ´e a fun¸c˜ao de distˆancia (no k-m´edias, a distˆancia Euclideana).
var(π) =X ck∈π
X xi∈ck
d(xi, µk) (3.6)
Quanto menor o valor do ´ındice var, melhor a parti¸c˜ao. Contudo, essa medida favorece
clusters esf´ericos e n˜ao apresenta bons resultados para agrupamentos cujos clusters n˜ao
estejam bem separados. O valor dessa medida melhora com o aumento do n´umero de
clusters.
A conectividade (con) est´a ligada ao conceito de encadeamento ou liga¸c˜ao. Esse ´ındice reflete o grau com que objetos vizinhos s˜ao colocados no mesmo cluster em uma parti¸c˜ao. Ele ´e dado pela Equa¸c˜ao 3.7, em que nnij ´e o j-´esimo vizinho mais pr´oximo do objeto xi, e v ´e o n´umero de vizinhos mais pr´oximos que contribuem para a conectividade.
con(π) = n X i=1 v X j=1 a(xi, nnij) (3.7) a(xi, nnij) = ( 1 j, se ∄ck : xi, nnij∈ ck 0, caso contr´ario (3.8)
Quanto menor o valor do ´ındice con, melhor o agrupamento. Essa medida n˜ao apre- senta restri¸c˜oes quanto a forma dos clusters, isto ´e, ela ´e apropriada para a avalia¸c˜ao
de clusters de formas arbitr´arias. Entretanto, o ´ındice con, da mesma maneira que o ´ındice var, n˜ao ´e robusto para clusters sobrepostos. O valor dessa medida melhora com
a diminui¸c˜ao do n´umero de clusters.