Nevşehir ilindeki köpeklerde Listeriosis ve Toxoplasmosis’in seroprevalansının araştırılması

Para analisar empiricamente o desempenho do MCCK, decidiu-se comparar seus resultados com aqueles fornecidos pelo COP-K-means (Wagstaff et al., 2001) (como algoritmo baseline) e também com outros dois algoritmos bem-conhecidos na literatura, especificamente: Seeded-K- means(Basu et al., 2002) e Constrained-K-means (Basu et al., 2002). Estes algoritmos foram escolhidos por serem bem-conhecidos, assumirem que a supervisão é em forma de rótulos de classes e que, além disso, há um grupo por classe. Dessa forma, pretende-se com esses experi- mentos apresentar evidências de que assumir um grupo por classe pode ser prejudicial em bases de dados comumente usadas como benchmarks.

Foram realizados experimentos em oito base de dados comumente usadas na literatura. A maioria está disponível no repositório da UCI (Asuncion e Newman, 2007). Adicionalmente, foi utilizada a base de dados 9Gauss5 _{(Campello et al., 2009). As bases de dados Letters e} Pendigits foram utilizadas com apenas as classes I, J, L e 3, 8 e 9 — conforme feito na Seção 5.5 e em Bilenko et al. (2004). Finalmente, foi utilizada também a base de dados Ovarian Cancer (Petricoin III et al., 2002). As principais características das bases de dados utilizadas são sumarizadas na Tabela 6.1.

Tabela 6.1: Bases de dados usadas nos experimentos. Base de dados N M # Classes

9Gauss 900 2 9 Breast Cancer 683 9 2 Ionosphere 351 34 2 Iris 150 4 3 Letters 2.263 16 3 Ovarian Cancer 253 15.154 2 Pendigits 3.165 16 3 Wine 178 13 3

Conforme mencionado na Seção 6.1, considera-se o cenário em que restrições são derivadas de objetos rotulados. Para a geração de restrições, foram considerados casos em que o número de objetos rotulados por classe pertence ao conjunto {3, 4, 5, 6, 7, 10, 15, 20, 25, 30}. De cada conjunto de objetos rotulados, todas as restrições ML e CL são deduzidas. Os objetos usa- dos para derivar as restrições foram selecionados aleatoriamente. Devido à sensibilidade na inicialização dos centróides e na ordem de processamento dos objetos, o algoritmo MCCK foi executado cinco vezes. A melhor partição, de acordo com o critério da Silhueta Simplificada (Hruschka et al., 2006)6_{, foi selecionada. Todo o processo foi repetido 100 vezes para se obter} melhores estimativas das estatísticas de interesse.

As análises foram divididas em duas etapas. Na primeira etapa foram comparadas as parti- ções obtidas por cada algoritmo, enquanto que, na segunda etapa, o impacto da quantidade de supervisão fornecida no erro de classificação é analisado.

5_{Descrita na Seção 3.4.}

6.3 Análise Empírica 93 Tabela 6.2: Número médio de grupos por classe estimados pelo MCCK (considerando todas as quantidades de objetos rotulados).

Base de dados Letters Wine Ovarian Cancer Ionosphere Classe I J L C1 C2 C3 Cancer Normal Good Bad

# Grupos 7 9 5 6 10 11 6 7 6 9

Base de dados Iris Breast Cancer Pendigits Classe Setosa Versicolor Virginica Benign Malign #3 #8 #9

# Grupos 1 4 4 2 4 6 4 11

Base de dados 9Gauss

Classe C1 C2 C3 C4 C5 C6 C7 C8 C9

# Grupos 5 6 5 6 7 6 5 6 5

6.3.1 Comparando as Partições dos Dados

A qualidade das partições obtidas foi avaliada utilizando o Adjusted Rand Index (ARI) (Hu- bert e Arabie, 1985; Vinh et al., 2010), comparando as partições de referência fornecidas pelas classes com as obtidas por cada algoritmo. Para o MCCK, a partição resultante é obtida re- rotulando cada rótulo de grupo pelo rótulo de sua classe.

As Figuras 6.2(a)-6.2(h) apresentam a média de ARI obtida por cada algoritmo. Inicial- mente, considere os resultados obtidos para a base de dados 9Gauss (Figura 6.2(a)). Como esta é uma base de dados artificial, o número de grupos correto é conhecido, e que neste caso cor- responde ao número de classes. Portanto, este é um exemplo de uma base de dados para a qual a premissa de um grupo por classe é válida. É possível verificar que os algoritmos da literatura podem obter partições com valores altos de ARI (os erros são devido à sobreposição entre os grupos), enquanto que o MCCK obtém os piores resultados. Isto é esperado porque o algoritmo pode se confundir por causa de restrições envolvendo alguns poucos objetos nas regiões de so- breposição. Resultados similares foram obtidos nas bases de dados Breast Cancer e Wine — Figuras 6.2(b) e 6.2(h). No entanto, MCCK obtém resultados sensivelmente melhores que os demais algoritmos nas bases de dados Ionosphere, Iris, Letters, Ovarian Cancer e Pendigits. Estes resultados sugerem que, para estas bases de dados, a premissa de um grupo por classe não se sustenta. De fato, a Tabela 6.2 mostra que, na maioria dos casos, MCCK encontrou mais de dois grupos por classe.

6.3.2 Avaliando o Erro de Classificação

Nesta seção, foi avaliado o erro de classificação obtido considerando as partições encon- tradas pelos algoritmos, como se estas fossem resultados obtidos por classificadores. Para en- contrar o mapeamento ótimo entre grupos e classes, o algoritmo Húngaro é utilizado (Kuhn, 1955). Apesar de classificação semissupervisionada não ser o foco principal deste trabalho, esta medida é útil por permitir mensurar o impacto da supervisão no processo de agrupamento. Especificamente, tendo como foco a análise exploratória de dados, para qual sumarização de dados é de grande importância, a relação do erro de classificação em função da quantidade de objetos rotulados pode ser importante. Além disso, analisando o impacto no uso de restri-

3 4 5 6 7 10 15 20 25 30 0.74 0.76 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 MCCK Seededk-means Constrainedk-means COPk-means AR I

Número de objetos rotulados

(a) 9Gauss 3 4 5 6 7 10 15 20 25 30 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 MCCK Seededk-means Constrainedk-means COPk-means AR I

Número de objetos rotulados

(b) Breast Cancer 3 4 5 6 7 10 15 20 25 30 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 MCCK Seededk-means Constrainedk-means COPk-means AR I

Número de objetos rotulados

(c) Ionosphere 3 4 5 6 7 10 15 20 25 30 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 MCCK Seededk-means Constrainedk-means COPk-means AR I

Número de objetos rotulados

(d) Iris 3 4 5 6 7 10 15 20 25 30 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 MCCK Seededk-means Constrainedk-means COPk-means

Número de objetos rotulados

AR I (e) Letters 3 4 5 6 7 10 15 20 25 30 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 MCCK Seededk-means Constrainedk-means COPk-means AR I

Número de objetos rotulados

(f) Ovarian Cancer 3 4 5 6 7 10 15 20 25 30 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 MCCK Seededk-means Constrainedk-means COPk-means

Número de objetos rotulados

AR I (g) Pendigits 3 4 5 6 7 10 15 20 25 30 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 MCCK Seededk-means Constrainedk-means COPk-means AR I

Número de objetos rotulados

(h) Wine

Figura 6.2: Valores médios de ARI obtidos para cada quantidade de objetos rotulados por classe. ções obtidas a partir de poucos objetos rotulados, pode-se observar que a acurácia do MCCK é melhor do que os demais algoritmos analisados.

Os resultados da taxa de erro médio obtidos usando 3, 7 e 30 objetos rotulados por classe para gerar as restrições são apresentados na Tabela 6.3. Comparando as taxas de erro obtidas com três e sete objetos rotulados, pode-se observar que um pequeno aumento no número de objetos rotulados permite ao MCCK apresentar uma maior redução no erro — i.e., na média 4% contra 1% do Constrained-K-means e COP-K-means, enquanto para o Seeded-K-means o erro aumentou em cerca de 0,1%. Isto indica que, mesmo com uma pequena quantidade de su- pervisão, MCCK a incorpora satisfatoriamente no processo de agrupamento. Especificamente, para as bases de dados Letters e Ovarian Cancer, melhoras de mais de 11% foram obtidas. Além disso, ao considerar a redução de erro obtida usando 30 e 3 objetos rotulados, existem diferenças significativas de acurácia entre os algoritmos estudados. Neste caso, o MCCK obteve uma redução de erro de 13% (na média), contra uma redução de 6% do Constrained-K-means e COP-K-means e um aumento de erro de 0,1% do Seeded-K-means.

6.4 Considerações Finais

Neste capítulo, foi apresentado um novo algoritmo de ADR, denominado Multiple Clusters per Class K-means(MCCK). Diferentemente de outros algoritmos de ADR, MCCK é de uso

6.4 Considerações Finais 95 Tabela 6.3: Taxas de erro médias (%) para diferentes quantidades de objetos rotulados por classe (# OR).

Algoritmo MCCK Seeded K-means Constrained K-means COP K-means

#OR 3 7 30 3 7 30 3 7 30 3 7 30 9Gauss 10.86 12.70 7.85 6.19 6.18 6.13 5.98 5.69 4.27 9.86 6.67 4.83 Letters 34.48 22.58 8.75 50.55 51.53 51.67 50.43 51.10 49.18 48.04 48.33 47.30 Wine 33.79 29.36 13.84 29.78 29.78 29.78 28.53 26.19 13.62 30.74 29.81 19.45 Ovarian Cancer 39.80 28.13 11.47 43.91 43.89 43.57 43.72 43.00 32.31 44.36 44.28 34.12 Ionosphere 26.25 22.66 13.02 28.83 28.80 28.83 28.63 28.29 24.16 28.77 28.18 24.70 Iris 8.38 4.11 1.68 11.15 11.19 11.30 10.33 9.01 3.63 10.77 10.54 8.81 Breast Cancer 4.09 4.08 4.34 3.90 3.88 3.87 3.85 3.78 3.37 3.90 3.88 3.89 Pendigits 14.68 9.81 3.93 14.62 14.25 14.25 14.49 14.03 13.55 30.24 23.98 26.13

mais amigável, uma vez que não necessita que o usuário forneça valores para parâmetros que são difíceis de se ajustar na prática. De fato, o MCCK necessita apenas do conjunto de dados e de um conjunto de restrições ML e CL derivadas de objetos rotulados, sob a premissa de que pelo menos dois objetos por classe estão rotulados.

Resultados experimentais evidenciam que para algumas bases de dados, que costumam ser usadas como benchmark, a premissa de um grupo por classe não é válida. Em especial, o MCCK foi capaz de apresentar resultados melhores que algoritmos tradicionais de agrupamento semissupervisionado, até mesmo sendo capaz de reduzir o erro de classificação mesmo quando a quantidade de objetos rotulados fornecidos era pequena.

O algoritmo desenvolvido, bem como as análises experimentais reportadas nesta tese, foram publicados em Sestaro et al. (2012). Além disso, o MCCK também foi utilizado em conjunto com uma abordagem de construção de árvores de decisão de forma bottom-up. Neste trabalho, o MCCK realizou o papel de decompor um problema de classificação em subproblemas que fossem fáceis de serem resolvidos por uma Máquina de Vetor de Suporte Transdutiva com kernellinear. O resultado dessa frente de pesquisa foi publicado em Covões et al. (2013b)7_.

No próximo capítulo, é apresentado um algoritmo que estende as ideias do MCCK para o modelo de matrizes de covariâncias irrestritas. Para atacar este problema, faz-se uso de um Algoritmo Evolutivo (AE).

Nevşehir ilindeki köpeklerde Listeriosis ve Toxoplasmosis’in seroprevalansının araştırılması

6.3.1

Comparando as Partições dos Dados

6.3.2

Avaliando o Erro de Classificação

6.4

Considerações Finais

CAPÍTULO

7

Algoritmo Evolutivo para Modelos de

Mistura de Gaussianas que Utiliza

Restrições