Para avaliar o desempenho das medidas e algoritmos propostos, devemos submetê-los a situações que representam desafios na área de agrupamento. Em geral, essa avaliação é feita através da aplicação em dados reais. No entanto, muitas vezes, pela própria comple- xidade dos dados, a interpretação dos resultados fica prejudicada.
Para isso, os trabalhos científicos da área mostram a eficiência das suas proposições em conjuntos de dados construídos artificialmente para demonstrar cada situação dese- jada. Ou seja, uma maneira de garantir que essas situações existam é construir conjuntos de dados sintéticos que simulem essas situações.
Alguns autores construíram e disponibilizaram tais dados em repositórios virtuais para que sirvam de referência em futuras análises. Nesse contexto, este trabalho selecio- nou alguns desses dados de forma que contivessem a máxima diversidade de característi- cas em sua natureza. A seleção levou em consideração os seguintes atributos:
• número de grupos; • tamanho de cada grupo;
• formato dos grupos (individualmente); • dispersão de dados;
• sobreposição de elementos.
Mais especificamente, bases de dados de dois desses repositórios foram utilizados:
• Repositório A: criado pelo grupo de pesquisa em Databionics da Philipps-Universität Marburg-http://www.uni-marburg.de/fb12/datenbionik/data?language_ sync=1
• Repositório B: desenvolvido pelos pesquisadores da unidade de processamento de imagem e voz da University of Eastern Finland http://cs.joensuu.fi/sipu/ datasets/
Cada repositório contém dados que representam problemáticas rotineiras no contexto de agrupamento. Desse modo, existem diversas bases de dados semelhantes para simular o mesmo problema. Com o objetivo de reduzir a redundância de dados, nós escolhemos de cada repositório somente as bases que melhor representam um problema específico.
Aliado aos dados dos repositórios públicos, bases de dados construídas pelos autores, algumas presentes no trabalho deMartins(2005), também foram usadas. Nós agrupamos esses dados no Repositório C.
Todos os dados sintéticos estão em duas ou três dimensões. A baixa dimensionalidade implica em um conjunto que leva em consideração somente a escala espacial dos dados, o que muitas vezes é uma amostra pouco representativa do conjunto de atributos que um problema pode ter. No entanto, a possibilidade de visualização dos dados compensa essa forma de caracterização.
Adiante, nas Figuras5.1,5.2,5.3e5.4, todos os conjuntos de dados podem ser visua- lizados. As ilustrações trazem a totalidade de informações que possuímos sobre os dados, ou seja, a disposição espacial e a rotulagem devida. Em cada imagem, objetos com cores ou símbolos diferentes indicam que pertencem a grupos diferentes.
0 5 10 15 20 25 30 35 40 0 5 10 15 20 25 30 (a) aggregation 5 10 15 20 25 30 35 40 45 0 5 10 15 20 25 30 (b) compound
Figura 5.1: Conjuntos de dados retirados do repositório A. .
A maior parte dos dados possui uma separação não-linear com alta complexidade es- pacial. No entanto, as dificuldades simuladas vão além da forma da superfície de separa- ção dos dados. Para dar mais detalhes, adiante segue uma breve descrição da problemática abordada por cada um.
−40 −20 0 20 40 −50 0 50 −50 0 50 (a) atom 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 −1.5 −1 −0.5 0 0.5 1 1.5 (b) twodiamonds −3 −2 −1 0 1 2 3 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 (c) wingnut
Figura 5.2: Conjuntos de dados retirados do repositório B. .
−10 −5 0 5 10 15 −10 −5 0 5 10 15 −4 −2 0 2 4 6 (a) circles 0 2 4 6 8 10 0 1 2 3 4 5 6 7 8 9 10 (b) ee −10 −5 0 5 10 −10 −5 0 5 10 0 10 20 (c) eee 400 600 800 1000 1200 1400 1000 1100 1200 1300 1400 1500 1600 1700 1800 (d) md 400 600 800 1000 1200 1400 1000 1100 1200 1300 1400 1500 1600 1700 1800 (e) oa 200 400 600 800 1000 1200 1400 1600 1800 2000 800 1000 1200 1400 1600 1800 2000 (f) proximity
Figura 5.3: Conjuntos de dados retirados do repositório C. .
−15 −10 −5 0 5 10 −12 −10 −8 −6 −4 −2 0 2 4 6 8 (a) spirals −5 0 5 −5 0 5 −1 0 1 (b) springs −20 −10 0 10 20 30 40 −20 −15 −10 −5 0 5 10 15 20 (c) xp
Figura 5.4: Conjuntos de dados retirados do repositório C (cont.). .
em um espaço bidimensional. Todos os grupos são compactos e, com exceção de um, são isotrópicos. O grande desafio na separação dos dados é a presença de ruído entre grupos e pouca separação entre alguns deles.
atom: esse conjunto traz uma características presente no conjunto compound, que é a existência de um grupo interno ao outro. No entanto, os 800 pontos dessa base só estão divididos em dois grupos, mas com o agravante de estarem dispostos em três dimensões. Nesse caso, o desafio é separar dois grupos que possuem um centro comum, mas com dispersões muito diferentes.
circles: É o conjunto de dados sintético com o maior número de classes (8 grupos) e elementos (5032 pontos) dentre os testados. Nesse caso, o desafio é conseguir generali- zar o poder de agrupamento conseguido com amostras menores para conjuntos de dados maiores.
compound: possui 399 pontos no espaço bidimensional separados em seis grupos. Apesar de possuir uma quantidade de grupos similar ao conjunto aggregation, a dispo- sição dos grupos é bem menos sistematizada. Nesse caso, a maior parte dos grupos não são isotrópicos e o número de pontos é bem menor, deixando, inclusive, alguns grupos com uma quantidade bem pequena de elementos. O ponto difícil desse conjunto é con- seguir separar os grupos que estão limitados externamente por outro grupo e conseguir associar os poucos pontos dispersos que alguns grupos possuem.
ee: esse conjunto está em sintonia com xp e spirals na perspectiva de desafiar a téc- nica de agrupamento a separar dados com características peculiares e que não obedecem a uma distribuição de dados específica. Um algoritmo capaz de dividir esse conjunto de forma correta tem que ser capaz de detectar os diferentes comportamentos dos dados em um mesmo grupo, o que não é trivial, já que a maioria dos algoritmos usam um critério uniforme para agrupar os dados.
eee: é uma versão tridimensional da base ee onde os grupos possuem ramificações que, nesse caso, partem de um ponto comum mas se dispersam ao longo de “braços” alongados. O número de pontos para essa versão é de 1604.
md: apesar de parecer simples, os dados multi-densidade tornam a separação dos gru- pos quase impossível para algoritmos baseados em vizinhança ou centro. A distribuição dos 1893 pontos é bastante desbalanceada para os dois grupos existentes.
oa: possui a região de separação entre os grupos muito reduzida, deixando alguns pontos de cada grupo quase sobrepostos. Além disso, a natureza multi-formato dos dados
torna difícil para os algoritmos que só possuem um objetivo separar os grupos. O conjunto possui 3521 pontos divididos em duas classes.
proximity: essa base possui três grupos com densidades bem diferentes. O desafio para esses dados é conseguir agrupar e recuperar os grupos considerando que existem regiões de sobreposição de pontos entre os grupos. O total de pontos do conjunto de dados é 3306.
spirals: conjunto que simula a ideia de entrelaçamento dos dados. Esse comporta- mento mostra que há uma correlação entre os dados que compões os dois grupos existen- tes. Além disso, essa similaridade natural dos dados ocorre de maneira que os vales entre grupos fiquem bem restritos. São 772 pontos para serem divididos entre as duas espirais. springs: similar ao spirals, os dados aqui estendem a ideia de entrelaçamento para uma dimensão mais alta. Com isso, o número de pontos aumentou para 2000 tornando cada conjunto mais representativo na dimensão atual.
twodiamonds: é composto por 800 pontos distribuídos em um espaço com duas di- mensões. Os pontos são divididos em dois grupos com formato de losango uniformemente distribuídos em cada um. A característica mais marcante desse conjunto é inexistência de separação entre os grupos, o que provoca uma dificuldade para o agrupamento dos dados. wingnut: apesar de parecerem semelhantes, os dois grupos formados pelos 1016 pontos deste conjunto possuem densidades bem diferentes. Os pontos bidimensionais não estão distribuídos de maneira uniforme ao longo dos dois grupos e, apesar de uma clara separação entre eles, o problema de agrupamento aqui é a falta de padronização na dispersão dentro de um mesmo grupo.
xp: possui 804 pontos com duas dimensões divididos em dois grupos. Nesse conjunto a região entre grupos é muito estreita e não-linear. Como os dois conjuntos possuem partes alongadas, com densidades variadas, distinguir entre os dois conjuntos não é uma tarefa simples, principalmente, aqueles algoritmo que tentam minimizar o erro quadrático médio.
Todos os conjuntos de dados podem ser resumidos na Tabela5.1, onde são mostrados o total de pontos (n), a distribuição desses pontos por grupo, a quantidade de grupos do conjunto (k) e a dimensão dos dados (d).
Conjunto de dados k Distribuição dos pontos n d aggregation 7 170,34,273,102,130,45,34 788 2 atom 2 400,400 800 3 circles 8 629,629,629,629,629,629,629,629 5032 3 compound 6 50,92,38,45,158,16 399 2 ee 2 584,584 1168 2 eee 2 802,802 1604 3 md 2 1722,171 1893 2 oa 2 2157,1364 3521 2 proximity 3 96,2970,240 3306 2 spirals 2 367,405 772 2 springs 2 1000,1000 2000 3 twodiamonds 2 400,400 800 2 wingnut 2 508,508 1016 2 xp 2 402,402 804 2
Tabela 5.1: Conjuntos de dados sintéticos.