Classis: Monocotyledones
IV. LEAST CONCERN (LC): En Az Endişe Veric
5. SONUÇ ve TARTIŞMA
Os algoritmos de aprendizagem utilizados nesta pesquisa foram retirados do framework WEKA (WITTEN; FRANK, 2005). Esse framework é uma coleção de algoritmos de apren- dizado de máquina que foi desenvolvida pela University of Waikato na Nova Zelândia. Esse am- biente inclui uma variedade de ferramentas para transformação de dados, tais como algoritmos de discretização, bem como implementações de métodos para mineração de dados (classificação, agrupamento, regras de associação). É válido mencionar, ainda, que esse framework vem sendo, recentemente, bastante adotado como base de desenvolvimento e validação de novas abordagens de aprendizado de máquina, notadamente, aquelas baseadas em comitês de classificadores (SO- ARES et al., 2006; CANUTO et al., 2007).
No estudo, foram adotados M = 10 diferentes algoritmos de aprendizagem representativos de cinco classes distintas de indutores retirados do repositório WEKA (WITTEN; FRANK, 2005):
• o algoritmo Naïve Bayes (NB) simples, baseado em estatística bayesiana;
• redes neurais RBF e máquinas de vetores-suporte treinadas via algoritmo SMO, que se baseiam em funções numéricas não-lineares;
• os algoritmos J48 e REP Tree (RT), baseados em árvores de decisão;
• o algoritmo IBk, baseado nos conceitos de vizinhança e aprendizado local; e
• os algoritmos Decision Stump (DS), OneR, PART e Decision Table (DT), os quais se ba- seiam em regras.
O algoritmo J48 é uma implementação em Java do algoritmo de árvore de decisão C4.5 (QUIN- LAN, 1993). Trata-se de uma versão melhorada do algoritmo C4.5, a versão anterior a C5.0, que
é comercial. Gera um modelo em árvore via cálculo da entropia1dos atributos, sendo que cada folha da árvore resultante representa uma classe e os demais nós especificam testes condicionais a serem realizados em um determinado atributo. Cada possível valor de um atributo gera um ramo na árvore.
O algoritmo REP Tree constrói de forma otimizada e rápida uma árvore de decisão com base no ganho de informação (QUINLAN, 1992) ordenando os atributos durante o treinamento. Os nós representam decisões que dividem os dados em dois grupos, usando, de todos os atributos ainda não considerados, o que leva a um ganho maior. As folhas da árvore representam pontos em que uma classificação é atribuída. A árvore é então podada, com recurso à técnica de reduced error pruning (REP), substituindo subárvores por folhas. Se essa substituição reduzir o erro esperado, minimiza-se a adaptação aos erros (error fitting) e reduz-se a complexidade da árvore. A nova árvore é então o modelo de classificador, pronto para ser utilizado sobre novos dados.
O algoritmo Decision Stump constrói uma árvore de decisão simples com um nível binário e produz classes de probabilidade (WITTEN; FRANK, 2005). Ele é baseado na ideia de ganho de informação, utilizada no algoritmo C4.5 que divide os conjuntos de dados através do atributo mais informativo. Este ganho de informação mede o erro após se ter dividido o conjunto de dados de acordo com os valores do atributo utilizado no nó de decisão. Posteriormente o algoritmo é avaliado mediante validação cruzada, e o valor obtido é utilizado como atributo para caracterizar o conjunto de dados.
O algoritmo OneR produz regras simples, fundamentando-se na utilização do classificador 1R (HOLTE, 1993). O modelo OneR é usado em problemas de classificação e baseia-se no pressuposto de que “frequentemente um atributo é suficiente para determinar a classe”. O atributo escolhido pelo OneR é aquele que possuir menor erro. É considerado o algoritmo mais simples. Como o nome sugere, este sistema “gera” uma regra (One Rule). Em algumas circunstâncias é tão poderoso quanto algoritmos mais sofisticados, como o J48 e o PART.
O algoritmo PART (FRANK; WITTEN, 1998) é um indutor de modelos baseados em regras de decisão, e utiliza internamente o algoritmo C4.5. Ele constrói árvores de decisão parciais a cada iteração e transforma a melhor folha da árvore atual em uma regra. Após escolher a melhor folha, o algoritmo retira todas as instâncias que se encaixem na regra gerada pela folha para gerar 1A entropia é usada para estimar a aleatoriedade dos valores dos atributos para as classes que eles representam.
uma nova árvore, e, por conseguinte, uma nova regra. Esse processo é realizado iterativamente até que não se tenha mais instâncias a serem utilizadas. Como não usa a base inteira para gerar as árvores, este algoritmo, geralmente, incorre em um bom desempenho computacional quando da indução do modelo de classificação.
O algoritmo Decision Table é um indutor de modelos baseados em regras que representam o conhecimento na forma de tabela (KOHAVI, 1995). Uma tabela de decisão é um modelo de representação de uma função. Ela permite uma visão tabular da lógica de decisão de um problema. Indica qual o conjunto de condições que é necessário ocorrer para que um determinado conjunto de ações deva ser executado. Uma tabela de decisão é basicamente composta de: uma área de condições, onde são relacionadas as condições que devem ser verificadas para que seja executado um conjunto de ações; uma área de ações, que exibe o conjunto de ações que deve ser executado caso um determinado conjunto de condições ocorra; e regras de decisão, representadas pelas colunas, que apresentam a combinação das condições com as ações a serem executadas.
O algoritmo Naïve Bayes (JOHN; LANGLEY, 1995) é de cunho probabilístico, sendo ba- seado na estatística bayesiana. O algoritmo assume que os atributos são condicionalmente in- dependentes, ou seja, a informação representada por um atributo não é informativa sobre a de nenhum outro. Diz-se que o atributo X1é condicionalmente independente da classe C, dado outro
atributo X2, se a distribuição de probabilidades de X1é independente do valor de C, dado o valor
de X2.
O algoritmo IBk (AHA; KIBLER; ALBERT, 1991) é uma implementação da abordagem k - Nearest Neighbors (k-NN), sendo classificado como um algoritmo de aprendizado “pregui- çoso” (AHA, 1997), haja vista que não gera nenhum modelo a partir dos dados (utiliza apenas as instâncias em si). Este algoritmo assume que instâncias similares possuam a mesma classificação e dependam fortemente da métrica usada como distância.
Redes neurais RBF constituem um tipo popular de rede neural de três camadas (HARPHAM; DAWSON; BROWN, 2004). Cada nó da camada intermediária representa a região em torno de um ponto no espaço de entrada. Sua saída para uma instância apresentada na camada de entrada depende apenas da distância entre o seu ponto associado e a própria instância de entrada. Quanto maior a distância, maior a força de ativação do neurônio (HAYKIN, 2001). A camada intermediária utiliza uma função de ativação de base radial para converter a distância em uma
medida de similaridade. A camada de saída, por sua vez, é responsável por combinar linearmente as saídas geradas na camada intermediária e gerar a estimação final.
SMO é uma abordagem proposta por Platt (1999) para lidar, de maneira escalável, com o treinamento de máquinas de vetores-suporte (SVM). É a implementação de SVM disponível no WEKA (WITTEN; FRANK, 2005). Esse algoritmo transforma a saída do classificador SVM em probabilidades através da aplicação de uma função sigmoide padrão que não é adaptada (fitted) aos dados. Essa implementação não é rápida com um espaço de fatores linear, nem com dados esparsos. Substitui todos os valores que faltarem, transforma atributos nominais em binários e normaliza todos os valores numéricos.
Foram também utilizados os algoritmos de ensembles que são baseados em reamostragem dos dados de treinamento:
• Bagging; • Boosting; e • Multiboosting.
Esse repertório abrange indutores simples e complexos; além disso, abarca indutores nota- damente instáveis (redes neurais RBF, J48) como também os de certa estabilidade (SVM) e os reconhecidamente estáveis (Naïve Bayes). O objetivo dessa escolha é o de avaliar se a fusão de indutores simples com complexos, instáveis com estáveis, via Bagging, Boosting e MultiBoosting produzem ganhos em termos de eficácia. As configurações desses algoritmos são apresentadas no Apêndice B.