• Sonuç bulunamadı

BÖLÜM 1: KURAMSAL TEMELLER VE İLGİLİ ARAŞTIRMALAR…. 9

1.4. Eğitimde Akreditasyon

A essˆencia do framework proposto ´e o algoritmo de ensemble multi-objetivo, MOCLE (do inglˆes, Multi-Objective Clustering Ensemble). A id´eia geral do MOCLE ´e, dado um conjunto de objetos, X = {x1, x2, ..., xn}, utilizar um algoritmo gen´etico multi-objetivo baseado em Pareto para encontrar um conjunto conciso e est´avel de parti¸c˜oes alternativas de alta qualidade.

Como qualquer ensemble, o MOCLE ´e composto de dois pontos principais: (1) gera¸c˜ao de um conjunto diverso de parti¸c˜oes iniciais a serem combinadas e (2) determina¸c˜ao do consenso. O MOCLE difere dos ensembles tradicionais em dois aspectos principais, rela- cionados `a obten¸c˜ao do consenso. Primeiramente, o MOCLE busca por um conjunto de parti¸c˜oes consenso, ao inv´es de uma ´unica parti¸c˜ao. Na verdade, o conjunto de solu¸c˜oes que o MOCLE retorna pode conter tanto parti¸c˜oes que resultam da combina¸c˜ao de outras parti¸c˜oes, quanto parti¸c˜oes de alta qualidade que j´a apareciam dentre as parti¸c˜oes iniciais. Al´em disso, o MOCLE combina pares de parti¸c˜oes, iterativamente, em um processo de otimiza¸c˜ao que garante diferentes compromissos de qualidade das solu¸c˜oes. Mais detalha- damente, o MOCLE deve ter as seguintes particularidades para atingir as metas descritas na Se¸c˜ao 5.3:

5.4 Ensemble Multi-objetivo - MOCLE

• O algoritmo gen´etico deve ser baseado em Pareto, para gerar como solu¸c˜ao um conjunto de nS parti¸c˜oes, ΠS =

{πS1, πS2, ..., πSnS

}, com diferentes compromissos dos objetivos otimizados. Essa caracter´ıstica contribui com a segunda meta, que se refere `a obten¸c˜ao das v´arias estruturas alternativas presentes nos dados.

• Deve ser constru´ıda uma popula¸c˜ao inicial especial, ΠI = {πI1, πI2, ..., πIn

I

}, em que nI ´e o n´umero de parti¸c˜oes iniciais e πIi =

{cIi

1, cIi2, ..., cIiKIi} ´e uma parti¸c˜ao

de X em KIi clusters, tal que ∪KIi

j=1cIij = X. ΠI deve ser constru´ıda utilizando di- versos algoritmos de agrupamento que otimizam diferentes crit´erios. Isso permite a obten¸c˜ao de v´arios tipos de cluster nas parti¸c˜oes finais. Diversas configura¸c˜oes dos parˆametros dos algoritmos tamb´em devem ser empregadas de modo a gerar par- ti¸c˜oes com diferentes n´ıveis de refinamento (por exemplo, parti¸c˜oes com diferentes n´umeros de clusters ou parti¸c˜oes com clusters de v´arias densidades). Em resumo, a popula¸c˜ao inicial deve conter parti¸c˜oes com diferentes tipos de clusters e em di- ferentes n´ıveis de refinamento, visando fornecer subs´ıdios para que o maior n´umero poss´ıvel de estruturas subjacentes do conjunto de dados seja descoberto. Isso con- tribui para a robustez da abordagem diante de diferentes propriedades dos dados, tamb´em relacionada `a meta de diversidade. A popula¸c˜ao inicial constru´ıda dessa maneira garante a diversidade necess´aria ao conjunto de parti¸c˜oes iniciais.

• Um operador de recombina¸c˜ao especial tamb´em deve ser empregado. Esse operador deve resultar em uma parti¸c˜ao que seja o consenso entre duas parti¸c˜oes pais, ou seja, ele ´e respons´avel pela parte de combina¸c˜ao (ensemble) da abordagem, tornando- a diferente da abordagem de agrupamento multi-objetivo de Handl and Knowles (2004). Al´em disso, esse operador permite a estabilidade e a concis˜ao do conjunto de solu¸c˜oes, pois restringe a busca `as solu¸c˜oes iniciais e suas combina¸c˜oes. Um operador desse tipo s´o faz sentido se o conjunto de parti¸c˜oes inicias j´a contiver parti¸c˜oes boas em rela¸c˜ao aos objetivos otimizados, o que ´e garantido com o procedimento para gerar a popula¸c˜ao inicial.

Com esse operador, as parti¸c˜oes s˜ao combinadas duas a duas, iterativamente, no processo de evolu¸c˜ao. As parti¸c˜oes consenso geradas em cada aplica¸c˜ao do operador tamb´em s˜ao consideradas nas pr´oximas combina¸c˜oes. Isso tudo d´a `a combina¸c˜ao realizada com esse operador, em rela¸c˜ao `as t´ecnicas tradicionais de ensembles, a vantagem de evitar que as parti¸c˜oes iniciais de baixa qualidade tenham um peso negativo na qualidade do resultado final. Em resumo, as parti¸c˜oes iniciais de baixa qualidade s˜ao eliminadas gradativamente, enquanto as melhores solu¸c˜oes iniciais e as boas combina¸c˜oes v˜ao sendo mantidas, contribuindo para novas combina¸c˜oes. Nesse sentido, esse operador tamb´em contribui para a qualidade das solu¸c˜oes.

• As fun¸c˜oes objetivo a serem otimizadas devem corresponder a medidas de qualidade de uma parti¸c˜ao. Elas devem avaliar essa qualidade de diferentes maneiras, que se complementem. Podem, por exemplo, favorecer cada um dos diferentes crit´erios empregados para gerar a popula¸c˜ao inicial. De fato, a utiliza¸c˜ao de tais fun¸c˜oes serve para selecionar as parti¸c˜oes de melhor qualidade, sob diferentes aspectos, para compor o conjunto de solu¸c˜oes. A otimiza¸c˜ao de fun¸c˜oes diferentes tamb´em con- tribui para a robustez da abordagem frente a diferentes caracter´ısticas dos dados, o que est´a relacionado `a meta de diversidade. Os valores das medidas de qualidade tamb´em servem como informa¸c˜oes complementares que podem ser empregadas pelo especialista na an´alise das solu¸c˜oes.

Entre outras coisas, elas permitem ao especialista escolher as parti¸c˜oes que tenham as caracter´ısticas que mais lhes interessem, dentre todas as presentes no conjunto de solu¸c˜oes, para fazer uma investiga¸c˜ao mais detalhada. Por exemplo, o especialista pode preferir analisar as parti¸c˜oes com clusters mais compactos, ou ent˜ao as par- ti¸c˜oes que n˜ao misturem as classes conhecidas (contexto semi-supervisionado). Essas informa¸c˜oes tamb´em podem ser utilizadas para estabelecer as melhores solu¸c˜oes do conjunto, com base no formato do fronte de Pareto obtido, como feito por Handl and Knowles (2004). Esse tipo de informa¸c˜ao complementar ´e gerado pela abor- dagem proposta. Entretanto, neste trabalho, n˜ao ser´a dada ˆenfase `a an´alise da sua utiliza¸c˜ao, por demandar a contribui¸c˜ao de um especialista, abrindo um novo leque de experimentos a serem realizados.

Um operador de muta¸c˜ao poderia ser empregado para um ajuste fino das parti¸c˜oes consenso. Esse operador possibilitaria a obten¸c˜ao de parti¸c˜oes diferentes das consenso. Como o foco principal deste trabalho est´a na combina¸c˜ao das parti¸c˜oes, n˜ao ser´a utilizado o operador de muta¸c˜ao. Com isso, o espa¸co de busca fica limitado `as combina¸c˜oes das parti¸c˜oes iniciais. Assim, o algoritmo gen´etico ´e empregado para selecionar as melhores combina¸c˜oes, e n˜ao para explorar todo o espa¸co das poss´ıveis parti¸c˜oes.

A Figura 5.5 cont´em uma representa¸c˜ao do funcionamento geral do MOCLE. Nessa figura, nA ´e o n´umero de algoritmos diferentes utilizados. Resumidamente, v´arios algo- ritmos de agrupamento, com v´arias configura¸c˜oes de seus parˆametros, geram a popula¸c˜ao inicial do algoritmo gen´etico. Essa constitui a fase de agrupamento propriamente dita. Essas parti¸c˜oes iniciais s˜ao ent˜ao selecionadas (valida¸c˜ao) e combinadas (ensemble) no processo de otimiza¸c˜ao do algoritmo gen´etico, resultando em um conjunto de parti¸c˜oes conciso e de alta qualidade.

A utiliza¸c˜ao integrada de todos esses aspectos como um framework para a an´alise de agrupamento ´e o que reduz a necessidade de conhecimento pr´evio, tanto sobre os dados quanto em an´alise de agrupamento, auxiliando na sele¸c˜ao autom´atica de modelo.

Benzer Belgeler