T´ecnicas ou algoritmos de agrupamento (clustering) permitem a constru¸c˜ao de im- portantes ferramentas para a an´alise explorat´oria de dados para os quais existe pouco ou nenhum conhecimento pr´evio (Jain and Dubes 1988; Handl et al. 2005; Xu and Wunsch 2005). O objetivo de uma t´ecnica de agrupamento ´e encontrar uma estrutura de clus-
ters (grupos) nos dados, em que os objetos pertencentes a cada cluster compartilham
alguma caracter´ıstica ou propriedade relevante para o dom´ınio do problema em estudo (Jain and Dubes 1988; Handl et al. 2005; Xu and Wunsch 2005). Embora a id´eia do que constitui um cluster seja intuitiva, n˜ao existe uma defini¸c˜ao formal ´unica e precisa para esse conceito. Ao contr´ario, existe uma grande variedade de defini¸c˜oes na literatura. Isso ´e resultado da grande diversidade de vis˜oes/objetivos dos pesquisadores de diferentes ´areas que utilizam/desenvolvem t´ecnicas de agrupamento. Algumas defini¸c˜oes comuns para cluster s˜ao (Barbara 2000):
em um determinado cluster est´a mais pr´oximo (ou ´e mais similar) a cada outro ponto nesse cluster do que a qualquer ponto n˜ao pertencente a ele.
cluster baseado em centro: um cluster ´e um conjunto de pontos tal que qualquer ponto em um dado cluster est´a mais pr´oximo (ou ´e mais similar) ao centro desse
cluster do que ao centro de qualquer outro cluster. O centro de um cluster pode ser
um centr´oide, como a m´edia aritm´etica dos pontos do cluster ou um med´oide (isto ´e, o ponto mais representativo do cluster ).
cluster cont´ınuo (vizinho mais pr´oximo ou agrupamento transitivo): um cluster ´e um conjunto de pontos tal que qualquer ponto em um dado cluster est´a mais pr´oximo (ou ´e mais similar) a um ou mais pontos nesse cluster do que a qualquer ponto que n˜ao pertence a ele.
cluster baseado em densidade: um cluster ´e uma regi˜ao densa de pontos, separada de outras regi˜oes de alta densidade por regi˜oes de baixa densidade.
cluster baseado em similaridade: um cluster ´e um conjunto de pontos que s˜ao similares, enquanto pontos em clusters diferentes n˜ao s˜ao similares.
Uma no¸c˜ao intuitiva do que ´e um cluster resulta em um princ´ıpio indutivo (Estivill- Castro 2002). A formula¸c˜ao matem´atica de um princ´ıpio indutivo, chamada crit´erio de agrupamento ou fun¸c˜ao objetivo, consiste de uma forma de selecionar uma estrutura (ou modelo) para representar os clusters que melhor se ajuste a um determinado conjunto de dados (Estivill-Castro 2002). Em outras palavras, o crit´erio de agrupamento ´e uma forma de expressar o objetivo do agrupamento. Esse crit´erio, geralmente, ´e baseado na defini¸c˜ao de cluster empregada e/ou em uma distribui¸c˜ao esperada dos dados em um dom´ınio de aplica¸c˜ao espec´ıfico (Jiang et al. 2004).
Um princ´ıpio indutivo associado a um conjunto de dados resulta em um problema de otimiza¸c˜ao. Em geral, esse problema de otimiza¸c˜ao ´e intrat´avel, ou tem uma complexidade muito alta, para ser resolvido para conjuntos de dados grandes. Por isso, a solu¸c˜ao do problema ´e aproximada por alguma heur´ıstica que busque um bom equil´ıbrio entre a qualidade da otimiza¸c˜ao e o esfor¸co computacional (Estivill-Castro 2002). Na maioria das vezes, essa heur´ıstica, representada por um algoritmo, define uma medida de proximidade e um m´etodo de busca para encontrar uma parti¸c˜ao ´otima ou sub-´otima dos dados, de acordo com o crit´erio de agrupamento adotado (Jiang et al. 2004).
O processo de agrupamento compreende diversas etapas que v˜ao desde a prepara¸c˜ao dos objetos, at´e a interpreta¸c˜ao dos clusters obtidos. A Figura 3.1 resume as etapas do processo de agrupamento com as informa¸c˜oes utilizadas e geradas em cada etapa. As
3.2 Defini¸c˜oes
etapas e a figura apresentada s˜ao baseadas nas informa¸c˜oes apresentadas por Jain et al. (1999) e Barbara (2000).
Figura 3.1: Etapas do processo de agrupamento.
Prepara¸c˜ao:
Os objetos a serem agrupados podem representar um objeto f´ısico, como uma cadeira, ou uma no¸c˜ao abstrata, como um estilo de escrita. Tais objetos tamb´em s˜ao comumente chamados de padr˜oes, exemplos, amostras, instˆancias ou pontos. A prepara¸c˜ao dos dados para o agrupamento envolve v´arios aspectos relacionados ao seu pr´e-processamento e `a forma de representa¸c˜ao apropriada para sua utiliza¸c˜ao por um algoritmo de agrupamento.
O pr´e-processamento pode envolver, por exemplo, normaliza¸c˜oes, convers˜ao de tipos e redu¸c˜ao do n´umero de atributos por meio de sele¸c˜ao ou extra¸c˜ao de caracter´ısticas (Jain et al. 1999). V´arios trabalhos discutem formas de padroniza¸c˜ao dos dados, sele¸c˜ao de atributos e outros aspectos relativos `a prepara¸c˜ao dos dados, como os
de Jain and Dubes (1988), Gordon (1999), He (1999), Jain et al. (1999), Barbara (2000) e Berkhin (2002).
Quanto `a representa¸c˜ao, na maioria dos casos, os objetos a serem agrupados s˜ao representados por uma matriz de objetos Xn×d = {x1, x2, ..., xn}, em que xi = {xi1, xi2, ..., xid}, n ´e o n´umero de objetos e d ´e o n´umero de atributos que represen- tam os objetos, isto ´e, a dimensionalidade dos objetos.
Algumas vezes, apenas a rela¸c˜ao de proximidade entre os objetos ´e conhecida. Algo- ritmos de agrupamento podem ainda exigir uma forma de representa¸c˜ao espec´ıfica. Al´em da matriz de objetos, outras duas formas de representa¸c˜ao bastante comuns s˜ao a matriz e o grafo de proximidade (Jain and Dubes 1988).
Proximidade:
Esta etapa consiste da defini¸c˜ao de uma medida de proximidade apropriada ao dom´ınio da aplica¸c˜ao. Essa medida de proximidade pode ser uma medida de simila- ridade ou de dissimilaridade entre dois objetos. A escolha da medida de proximidade a ser empregada com um algoritmo de agrupamento deve considerar os tipos e es- calas dos atributos que definem os objetos e tamb´em as propriedades dos dados que o pesquisador deseja focalizar. Por exemplo, o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois objetos ´e suficiente ou seu valor absoluto deve ser considerado (Gordon 1999). As medidas de proximidade, em geral, consideram que todos os atributos s˜ao igualmente importantes.
Jain and Dubes (1988) e Gordon (1999) descrevem detalhadamente as medidas de proximidade mais apropriadas para cada tipo e escala de atributo poss´ıvel. Uma das medidas de proximidade mais comum para objetos cujos atributos s˜ao todos cont´ınuos ´e a distˆancia Euclideana (Equa¸c˜ao 3.1).
d(xi, xj) = v u u t d X l=1 (xil− xjl)2 (3.1) Agrupamento:
Esta etapa consiste da aplica¸c˜ao de um algoritmo de agrupamento apropriado para agrupar os dados de acordo com um objetivo espec´ıfico. Existem in´umeros algo- ritmos que podem ser aplicados nesta etapa. Os algoritmos de agrupamento de interesse para este trabalho s˜ao apresentados na Se¸c˜ao 3.3.
3.2 Defini¸c˜oes
Esta etapa se refere `a avalia¸c˜ao do resultado de um agrupamento e deve, de forma objetiva, determinar se os clusters s˜ao significativos, ou seja, se a solu¸c˜ao ´e represen- tativa para o conjunto de dados analisado. Uma estrutura de agrupamento ´e v´alida se n˜ao ocorreu por acaso ou se ´e “rara” em algum sentido, j´a que qualquer algoritmo de agrupamento encontrar´a clusters, independentemente de existir ou n˜ao similari- dade nos dados (Jain and Dubes 1988). A Se¸c˜ao 3.4 cont´em uma descri¸c˜ao mais detalhada do processo de valida¸c˜ao, bem como de alguns dos ´ındices mais utilizados. Interpreta¸c˜ao:
Refere-se ao processo de examinar cada cluster com rela¸c˜ao a seus objetos para rotul´a-los, descrevendo a natureza do cluster. A interpreta¸c˜ao de clusters ´e mais que apenas uma descri¸c˜ao. Al´em de ser uma forma de avalia¸c˜ao dos clusters encon- trados e da hip´otese inicial, de um modo confirmat´orio, os clusters podem permitir avalia¸c˜oes subjetivas que tenham um significado pr´atico. Ou seja, o especialista pode ter interesse em encontrar diferen¸cas semˆanticas de acordo com os objetos e valores de seus atributos em cada cluster.
Mais detalhes sobre cada um desses passos podem ser obtidos em (Faceli et al. 2005a). Especificamente sobre a fase de valida¸c˜ao, uma revis˜ao mais completa pode ser obtida em (Faceli et al. 2005d).
Como j´a mencionado, existe um grande n´umero de algoritmos de agrupamento des- critos na literatura (Estivill-Castro 2002; Xu and Wunsch 2005). N˜ao existe, por´em, um algoritmo de agrupamento universal, capaz de revelar toda a variedade de estruturas que podem estar presentes em um conjunto de dados. Al´em disso, como lembra Hartigan (1985), “diferentes agrupamentos s˜ao adequados para diferentes prop´ositos. Dessa forma, n˜ao ´e poss´ıvel afirmar que um agrupamento ´e melhor que outro”. Isso tudo leva a dificul- dades na escolha do melhor algoritmo a ser aplicado a um problema espec´ıfico. Apesar de tamb´em existir uma grande diversidade de t´ecnicas de valida¸c˜ao capazes de auxiliar nessa escolha, em geral, cada uma apresenta uma tendˆencia de favorecer um tipo de algoritmo, por ser baseada no mesmo conceito que o crit´erio de agrupamento dos algoritmos desse tipo (Handl et al. 2005).
Al´em da dificuldade da escolha do melhor algoritmo para uma dada aplica¸c˜ao, muitos dos algoritmos apresentam restri¸c˜oes. Alguns dos problemas comuns a v´arios algoritmos de agrupamento s˜ao (Jain and Dubes 1988; Handl and Knowles 2005a):
• Adequa¸c˜ao a dom´ınios e/ou conjuntos de dados restritos. • Restri¸c˜ao dos formatos da estrutura que pode ser encontrada.
• Necessidade de conhecimento pr´evio do n´umero de clusters presentes nos dados ou o dif´ıcil ajuste de parˆametros.
• Instabilidade dos resultados obtidos. V´arias execu¸c˜oes de um algoritmo produzem agrupamentos diferentes, associando um mesmo objeto a clusters diferentes. V´arias abordagens de ensemble de agrupamentos e agrupamento multi-objetivo tˆem sido investigadas para superar essas restri¸c˜oes. O Cap´ıtulo 4 apresenta algumas dessas abordagens.
Um ´ultimo t´opico relacionado `a an´alise de agrupamento de interesse para este trabalho ´e o agrupamento semi-supervisionado (Handl and Knowles 2006b; Demiriz et al. 1999), que consiste na integra¸c˜ao de conhecimento pr´evio sobre os dados para guiar o processo de agrupamento. Embora diferente da abordagem tradicional de agrupamento, que ´e n˜ao supervisionada, alguns aspectos do agrupamento semi-supervisionado ser˜ao considerados neste trabalho e encontram-se descritos na Se¸c˜ao 3.5.