von II. Gompcrz, Platon«
E. UMUMİ SONUÇLAR
Os algoritmos Top-Down convencionais e Selective Top-Down geram ao fi- nal do treinamento uma árvore de classificadores. Nessa árvore, cada nó é constituído por um classificador, que é responsável pela predição dos exem- plos durante a classificação Top-Down. Porém, uma extensão possível para essa árvore de classificadores é permitir que cada nó seja constituído por uma combinação de classificadores e não apenas por um classificador. Essa nova variação da abordagem Top-Down foi denominada Ensemble Top-Down.
A motivação para a exploração de algoritmos Top-Down baseados na com- binação de classificadores neste projeto se deu pelo fato de o custo compu- tacional exigido ser similar ao requerido para o Selective Top-Down, uma vez que nos dois casos vários classificadores são gerados. No caso do algoritmo Selective Top-Down, um classificador é treinado para cada técnica e, ao final do procedimento seletivo, a técnica escolhida é utilizada para indução de um classificador a partir de todo o conjunto de treinamento. Dessa forma, se L técnicas estão envolvidas no algoritmo Selective Top-Down, L+1 classificadores são induzidos. No caso dos algoritmos Ensemble Top-Down, um classificador é gerado para cada técnica a partir de todo o conjunto de treinamento. Dessa forma, são induzidos L classificadores. A vantagem da combinação de classi- ficadores é que, ao invés de escolher apenas um dos classificadores e treiná-lo novamente, descartando os demais, como ocorre no Selective Top-Down, to- dos os classificadores podem ser utilizados na predição final, por meio de uma combinação de suas saídas. Além disso, não se tem conhecimento de trabalho prévios com essa alternativa.
A abordagem adotada para a geração dos classificadores a serem combi- nados foi a de manipulação do algoritmo de aprendizado (ver Seção 2.4). Po- rém, ao invés de utilizar variações de uma mesma técnica para gerar diferen- tes classificadores, foram utilizadas diferentes técnicas de AM na geração dos classificadores.
Como discutido na Seção2.4, existem diferentes formas para a combinação das saídas dos classificadores bases. Além das formas citadas na seção - vo- tação por maioria, votação ponderada e generalização stack, foram derivadas mais duas novas formas de combinação: uma derivada da votação ponderada, que utiliza um esquema de ranqueamento entre os classificadores para fazer a votação ponderada; e outra derivada da estratégia da generalização stack, que utiliza um procedimento seletivo na escolha de qual técnica é utilizada para gerar o classificador que combina as saídas dos classificadores bases.
Para facilitar a identificação dos algoritmos desenvolvidos a partir das di- ferentes formas de combinação das saídas dos classificadores, bem como
a representação dos seus resultados, foram atribuídos nomes para tais al- goritmos: Ensemble Top-Down com Votação por Maioria (EnsTPVotM), En- semble Top-Down com Votação Ponderada (EnsTPVotP), Ensemble Top-Down com Votação Ponderada por Ranking (EnsTPVotR), Stack Ensemble Top-Down (StackEnsTP), e Stack Ensemble Top-Down com Procedimento Seletivo (Stac- kEnsTPSel).
Ensemble Top-Down com Votação por Maioria - EnsTPVotM
Nesse algoritmo, foi implementada a estratégia de votação por maioria para a combinação das sáidas dos classificadores. De acordo com essa estratégia, a classe que for votada pelo maior número de classificadores é escolhida como a classe predita.
Em caso de empate entre duas ou mais classes, a estratégia de desempate consiste em verificar qual das classes que estão empatadas aparece com maior freqüência na conjunto de dados. Se mesmo assim o empate persistir entre duas ou mais classes, é utilizado o critério aleatório para a escolha da classe predita.
Ensemble Top-Down com Votação Ponderada - EnsTPVotP
Nesse algoritmo, foi implementado a estratégia de votação ponderada para combinação das saídas dos classificadores. Para determinação do peso atri- buído ao voto de cada classificador, foi utilizada a TA obtida para o conjunto de treinamento. Então, se um classificador tiver acerto de 100% no conjunto de treinamento, seu voto valerá 1; em contrapartida, se um classificador tiver acerto de 50%, seu voto valerá 0.5.
Em caso de empate entre duas ou mais classes, a estratégia de desempate adotada é a mesma utilizada para o EnsTPVotM: inicialmente, verifica-se qual das classes empatadas apresenta a maior freqüência no conjunto de dados e depois, se o empate persistir, o critério aleatório é utilizado.
Ensemble Top-Down com Votação Ponderada por Ranking - EnsTP-
VotR
Nesse algoritmo, foi utilizada uma estratégia de combinação derivada da votação ponderada. A idéia principal dessa estratégia é conferir pesos com valores inteiros para os votos dos classificadores por meio de um esquema de ranqueamento. Por isso, essa estratégia foi denominada de Votação Ponderada por Ranking.
O primeiro passo é obter as TAs dos classificadores para o conjunto de trei- namento, assim como na votação ponderada convencional. Porém, ao invés de utilizar tais taxas para ponderar a votação, elas são ranqueadas de modo que, em uma combinação de k classificadores, o classificador com maior TA receba peso k para seu voto e o classificador com menor TA receba peso 1 para seu voto. Se houver empate entre TAs entre m classificadores, é feita um média aritmética entre os pesos inteiros que seriam assumidos pelas pró- ximas m posições livres do ranking. Para ilustrar essa atribuição de valores, considere o exemplo da Tabela3.1. Essa tabela possui as TAs obtidas na clas- sificação dos dados de treinamento para cinco classificadores e os respectivos pesos atribuídos a cada classificador de acordo com a sua posição no ranking. O classificador com maior TA - classificador 5 - recebe o maior peso: peso 5. A segunda posição fica com classificador 1, que recebe peso 4. Como os classificadores 2 e 4 empatam e as duas próximas posições do ranking são a terceira e a quarta posição, esses classificadores recebem a média aritméti- ca dos valores associados a essas posições do ranking: a terceira e a quarta posição correspondem aos valores 3 e 2, respectivamente; logo, cada um dos classificadores recebe peso 2.5. O classificador 3, que apresentou a menor TA para os dados de treinamento, recebe o menor peso: peso 1.
Tabela 3.1: Exemplo de um caso de atribuição de pesos para o Ensemble Top- Down com Votação Ponderada por Ranque - EnsTPVotR.
Class. 1 Class. 2 Class. 3 Class. 4 Class. 5
TA 0.90 0.85 0.70 0.85 0.95
Peso 4 2.5 1 2.5 5
Em caso de empate entre duas ou mais classes, a estratégia de desempate obedece aos meus critérios utilizados na votação por maioria e na votação ponderada.
Stack Ensemble Top-Down - StackEnsTP
No StackEnsTP, um classificador é treinado para combinar as predições que são fornecidas como saídas do classificadores bases. Como nesse caso a decisão de qual é a classe predita pelo modelo combinado é uma decisão de um classificador, não é necessário o estabelecimento de critérios de desempate entre classes. Porém, para o uso desse algoritmo, é necessário o estabeleci- mento de critérios para a definição de qual técnica de AM deve ser utilizada para treinamento do classificador responsável pela combinação das saídas dos classificadores bases.
Dessa forma, optou-se por selecionar, dentre as técnicas utilizadas para a indução dos classificadores bases, aquela que gerar o classificador base com maior TA para o conjunto de treinamento original. Caso haja empate, utiliza- se informações do histórico de vitórias. Assim como no Selective Top-Down, a técnica escolhida é aquela que, dentre as técnicas que estão empatadas, tiver sido selecionada mais vezes nos demais nós da árvore de classificadores que está sendo gerada. Se o mesmo assim o empate persistir, uma das técnicas empatas é escolhida de forma aleatória.
Após uma das técnicas ter sido escolhida, ela é utilizada para treinar o classificador que combina as saídas dos classificadores bases. Para isso, o novo conjunto de treinamento, formado a partir das saídas de cada um desses classificadores para os dados originais de treinamento, é utilizado.
Stack Ensemble Top-Down com Procedimento Seletivo - StackEnsTP-
Sel
Com o intuito de verificar possibilidades de melhoramentos do StackEnsTP, foram feitas algumas modificações em sua implementação, originando um novo algoritmo. No StackEnsTP, as TAs obtidas para os dados de treinamento do conjunto original são utilizadas como critério principal de escolha entre as técnicas. Em contraste, o StackEnsTPSel utiliza as TAs obtidas para o novo conjunto de treinamento, formado a partir das saídas de cada um dos classi- ficadores para os dados originais de treinamento.
A motivação para essa mudança é que se tratam de conjuntos diferentes, embora um tenha sido originado do outro. Assim, nesse novo algoritmo, a escolha da técnica para geração do algoritmo de combinação é pautada no próprio conjunto de dados usado para treinamento desse classificador.
Para essa escolha, é realizado um processo seletivo similar ao empregado no Selective Top-Down. Por essa razão, esse algoritmo foi denominado de Stack Ensemble Top-Down com Procedimento Seletivo - StackEnsTPSel. No proce- dimento seletivo, parte do novo conjunto de treinamento é reservado para validação e o restante é utilizado para treinar classificadores utilizando todas as técnicas envolvidas na combinação. A técnica que apresentar a maior TA para os dados de validação é escolhida. Se houver empate entre duas ou mais técnicas, os mesmos critérios do procedimento seletivo do Selective Top-Down são utilizados: primeiramente, o histórico de vitórias é utilizado; se o empate persistir, a técnica é escolhida de forma aleatória. Uma vez selecionada uma das técnicas, o treinamento do classificador de combinação de saídas é refeito, dessa vez com todo o conjunto de treinamento.