• Sonuç bulunamadı

1. BÖLGESEL KALKINMADA KÜMELENME

1.2. Kümelenme

1.2.2. Kümelenme Kavramının Gelişim Süreci

Considerando o padr˜ao A ⇒ B, na Tabela 3.1 s˜ao apresentadas algumas medidas objetivas utilizadas por Carvalho, Rezende, & Castro (2007), que realizou um estudo das medidas objetivas mais apropriadas para avalia¸c˜ao de regras de associa¸c˜ao generalizadas. As medidas apresentadas nesta se¸c˜ao foram selecionadas por possuir um intervalo fechado (bem definido) e a condi¸c˜ao de estarem implementadas no ambiente de p´os-processamento

denominado RulEE (a ser descrito na Se¸c˜ao 3.4.6). ´E importante ressaltar que, neste pro- jeto, foram utilizadas medidas com intervalo fechado para as visualiza¸c˜oes da metodologia (a ser descrita no Cap´ıtulo 4), pelo fato de serem mais facilmente mapeadas para uma representa¸c˜ao visual 2D.

As medidas confian¸ca e suporte foram definidas na Se¸c˜ao 2.3.1, pois isso n˜ao ser˜ao repetidas aqui.

IS/Cosine (IS) A medida IS pode ser interpretada como o cosseno do ˆangulo entre dois vetores (Tan, Steinbach, & Kumar, 2005). Segundo Tan, Steinbach, & Kumar (2005) a medida IS mede tanto o interesse quanto a significˆancia do padr˜ao.

Jaccard ´E um coeficiente que mede a similaridade entre conjuntos. Se A e B s˜ao dois conjuntos ent˜ao a similaridade entre eles ´e medida pela raz˜ao entre o n´umero de elementos em comum e o n´umero de elementos diferentes (Louren¸co, Lobo, & Ba¸c¨ao, 2004). O valor Jaccard = 1 implica em uma total correspondˆencia entre os objetos (Borlund & Ingwersen, 1998).

Laplace ´E uma medida muito utilizada nos algoritmos de indu¸c˜ao de regras. A medida Laplace ´e uma varia¸c˜ao da medida confian¸ca e foi desenvolvida com o objetivo de penalizar regras muito espec´ıficas, ou seja, regras que cobrem poucos exemplos (transa¸c˜oes) para evitar o overfitting (Smaldon & Freitas, 2006).

Suponha, por exemplo, que um determinado itemset ocorra em apenas uma transa¸c˜ao, assim como todos os seus subconjuntos pr´oprios n˜ao nulos. Sem a corre¸c˜ao proposta pela medida Laplace, a confian¸ca desse itemset seria de 100%(1/1) (Equa¸c˜ao 3.1), um valor muito otimista para uma regra extremamente espec´ıfica. Sendo assim, levando-se em considera¸c˜ao o n´umero de classes contidas no dom´ınio pela medida Laplace, obt´em-se uma valor mais real, que no caso do exemplo acima seria de 67%((1 + 1)/(1 + 2)) (Equa¸c˜ao 3.5) (Smaldon & Freitas, 2006). O n´umero 2 no denominador indica o n´umero de classes no caso das regras de associa¸c˜ao, o qual representa a presen¸ca ou ausˆencia de um item em uma transa¸c˜ao.

Medidas Intervalo F´ormula

Confian¸ca [0...1] Conf = P (B|A) (3.1) Suporte [0...1] Sup= P (AB) (3.2) IS/Cosine (IS) 0...pP (AB)...1 IS= P(AB)

pP (A)P (B) = A• B |A| × |B| = Cosine (3.3) Jaccard [0...1] P(A, B) P(A) + P (B) − P (A, B) ≡ P(A, B) P(A ∪ B) (3.4) Laplace [0...1] N× P (AB) + 1 N× P (A) + 2 (3.5) φ-coefficient [-1...0...1] P(AB) − P (A)P (B) pP (A)P (B)(1 − P (A))(1 − P (B)) (3.6)

Piatetsky-Shapiro’s [-0.25...0...0.25] P(A, B) − P (A)P (B) (3.7) Gini [0...1] P(A)[P (B|A)2

+ P (B|A)2 ] + P (A)[P (B|A)2 + P(B|A)2 ] − P (B)2 − P (B)2 (3.8)

Added Value [-1...0...1] P(B|A) − P (B) = Conf (A, B) − P (B) (3.9) Kappa [-1...0...1] P(A, B) + P (A, B) − P (A)P (B) − P (A)P (B)

1 − P (A)P (B) − P (A)P (B) (3.10)

Certainty Factor [-1...0...1]

P(B|A) − P (B)

1 − P (B) (3.11)

Tabela 3.1: Algumas Medidas Objetivas

φ-coefficient Essa medida indica o grau de associa¸c˜ao (correla¸c˜ao) entre duas vari´aveis (Tan, Kumar, & Srivastava, 2004). Um valor de φ = −1 indica uma correla¸c˜ao

negativa perfeita entre A e B, φ = 1 uma correla¸c˜ao positiva perfeita entre A e B e, φ = 0 que n˜ao h´a correla¸c˜ao entre A e B, ou seja, A e B s˜ao independentes. Piatetsky-Shapiro’s Tamb´em conhecida como Rule Interest, Novelty e Leverage. Essa

medida calcula a porcentagem de transa¸c˜oes adicionais cobertas por uma regra de associa¸c˜ao que est˜ao acima do esperado (Gon¸calves & Plastino, 2004). Em outras palavras, compara o valor observado da ocorrˆencia de A e B e o valor esperado de ocorrˆencia se A e B fossem independentes. Se P iatetsky − Shapiro′s = 0 diz-se que A e B s˜ao independentes. Se P iatetsky − Shapiro′s > 0 diz-se que A e B s˜ao dependentes positivamente; caso contr´ario, dependentes negativamente.

Gini Essa medida ´e freq¨uentemente utilizada como medida de sele¸c˜ao de atributo na indu¸c˜ao de ´arvores de decis˜ao. Ela ´e usada para medir o decr´escimo esperado na impureza ou incerteza de uma determinada classe (vari´avel meta), condicionada ao conhecimento do valor de uma determinada vari´avel (vari´avel preditora) (Fisher, 1996). Sendo assim, se duas vari´aveis estiverem altamente associadas, ent˜ao a quan- tidade de redu¸c˜ao ser´a grande.

Added Value Essa medida indica o quanto a freq¨uˆencia do conseq¨uente aumenta a presen¸ca do antecedente, ou seja, mede o ganho de B na presen¸ca de A. Se P (B|A) > P (B) tem-se que a freq¨uˆencia de B aumenta na presen¸ca de A. Se P (B|A) < P (B) tem-se que a freq¨uˆencia de B diminui na presen¸ca de A. Se P (B|A) = P (B) tem-se uma coincidˆencia aleat´oria, ou seja, A n˜ao aumenta em nada a freq¨uˆencia de B (independˆencia estat´ıstica). Portanto, quanto maior for o ganho de B em rela¸c˜ao a A mais relacionadas est˜ao as vari´aveis.

Kappa ´E um coeficiente de concordˆancia. A medida kappa ´e calculada pela raz˜ao (P (O) − P (E))/(1 − P (E)), onde P (O) representa a concordˆancia observada entre dois indiv´ıduos, isto ´e, a propor¸c˜ao de vezes que os indiv´ıduos concordam, e P (E) a concordˆancia esperada, isto ´e, a propor¸c˜ao de vezes que se espera que os indiv´ıduos concordem por chance (Eugenio & Glass, 2004). Se Kappa = 1 tem-se concordˆancia absoluta; se Kappa = 0 tem-se que a concordˆancia ´e igual a chance (isto ´e, coin-

cidˆencia puramente aleat´oria); se Kappa = −1 tem-se discordˆancia absoluta, isto ´e, a propens˜ao dos indiv´ıduos em evitar classifica¸c˜oes feitas por outros indiv´ıduos. Observa¸c˜ao: P (O) = P (A, B) + P (A, B) e P (E) = P (A)P (B) − P (A)P (B). Certainty Factor P (B) reflete a cren¸ca em B. Ent˜ao 1 − P (B) pode ser visto como

uma estimativa da descren¸ca em rela¸c˜ao a verdade de B. Se P (B|A) for maior que P (B), significa que A aumenta a cren¸ca em B diminuindo a sua descren¸ca em rela¸c˜ao a verdade de B. Sendo assim, essa medida mede o aumento da cren¸ca em B em conseq¨uˆencia da observa¸c˜ao de A. Em outras palavras, mede a diminui¸c˜ao proporcional na descren¸ca da hip´otese B como resultado da observa¸c˜ao de A. Se CF = 1 ent˜ao P (B|A) = 1 (A e B possuem dependˆencia positiva). Se CF = −1 ent˜ao P (B|A) = 1 (A e B possuem dependˆencia negativa). Se CF = 0 significa que A n˜ao confirma nem contradiz B, isto ´e, A e B s˜ao independentes.

Nesta se¸c˜ao foram descritas as medidas objetivas que ser˜ao utilizadas na visualiza- ¸c˜ao de regras de associa¸c˜ao generalizadas da metodologia a ser descrita no Cap´ıtulo 4. Como argumentado, estas medidas foram selecionadas entre as apresentadas em Carvalho, Rezende, & Castro (2007), que realizou um estudo das medidas objetivas utilizadas para avalia¸c˜ao de regras de associa¸c˜ao generalizadas. A sele¸c˜ao destas medidas foram condi- cionadas `a restri¸c˜ao de possuirem um intervalo fechado e estarem implementadas no am- biente de explora¸c˜ao de regras RulEE (descrito na Se¸c˜ao 3.4.6). Uma s´ıntese de outras medidas objetivas s˜ao apresentadas em Melanda (2004); Tan, Steinbach, & Kumar (2005); Geng & Hamilton (2006); Pecina & Schlesinger (2006); Carvalho, Rezende, & Castro (2007).