Na fase de caracterização de bases de dados, o esforça está em encontrar ou elaborar medidas que descrevam os dados na forma no qual eles estão organizados, objetivando desta forma, for- necer informação morfológicas dos mesmos, para que possam ser aplicados à técnica de Meta- aprendizado. Isso é possível, por temos o conhecimento a priori do comportamento de tais algoritmos quando aplicados a problemas de classificações com diferentes particularidades na natureza de seus dados. Por exemplos, sabe-se que treinar uma rede neural sobre um conjunto de dados com atributos de natureza categórica pode incorrer em perda de precisão. Enquanto isso, treinar árvores de decisão sobre dados de natureza numérica, pode gerar modelos de regras recur- sivos com elevada repetição de atributos, o que acaba por acarretar problemas de generalização do modelo induzido. Sabe-se também, que os algoritmos baseados em vizinhança não operam satisfatoriamente na presença de atributos irrelevantes, em contrapartida, os algoritmos baseados em máquinas de vetores-suporte, possuem mecanismos internos de ponderação de atributos que os tornam mais robustos a essas limitações. E ainda, temos os modelos de algoritmos de apren- dizado baseados em estatística, que não apresentam resultados satisfatórios quando aplicados a conjunto de dados com atributos altamente redundantes.
Em outras palavras, a importância em Meta-aprendizado está em prover diretrizes de como relacionar um algoritmo de aprendizado a diferentes domínios de aplicação, de forma com que se obtenha uma melhor performance (VILALTA; DRISSI, 2002). Em geral o método mais uti- lizado para avaliar tais algoritmos é a acuidade, mas, segundo Giraud-Carrier, Vilalta e Brazdil (2004), outras medidas podem ser igualmente importante, como por exemplo: complexidade computacional, expressividade, compactação, compreensibilidade, representação do conheci- mento, entre outros. Desta forma, pesquisas em caracterização de dados para a construção de meta-características podem ser organizada em três áreas complementares:
• Caracterização baseada em landmarking; e • Caracterização por propriedades de modelos.
Na caracterização direta, existem três principais tipos de medidas usadas até agora para a construção de meta-atributos que podem ser utilizados para fornecer sugestões quanto à qual algoritmo é mais apropriado para um específico conjunto de treinamento, vide Tabelas 1 e 2. O primeiro tipo, que representa medidas simples, fornece informações gerais das bases de dados; o segundo tipo fornece informações estatísticas que são baseadas nas propriedades dos conjuntos de dados que são usados; e por fim, o terceiro tipo que é baseado na teoria da informação.
Um dos primeiros esforços sistemáticos e em larga escala para tentar relacionar as medidas que caracterizam as bases de dados e o desempenho dos algoritmos foi empreendido no projeto Statlog (MICHIE; SPIEGELHALTER; TAYLOR, 1994). Mais recentemente, o projeto Metal (www.metal-kdd.org) visou o desenvolvimento de ferramentas que auxiliem o usuário a sele- cionar uma combinação adequada de técnicas de pré-processamento, classificação e regressão. Outras contribuições promissoras para a caracterização direta podem ser encontradas em (KA- LOUSIS, 2002; SOARES, 2004; SOUZA, 2010).
Tabela 1: Medidas de informação do projeto Statlog
Tipo Descrição
Simples
Número de padrões. Número de atributos. Número de classes.
Número de atributos binários.
Estatística
Razão média entre desvio padrão dos atributos. Correlação média absoluta entre atributos por classe. Primeira correlação canônica.
Proporção de variância explicada pelo 1◦discriminante canônico.
Assimetria média absoluta dos atributos. Curtose média dos atributos.
Informação
Entropia normalizada das classes. Entropia média dos atributos.
Informação mútua média entre classe e atributos. Razão sinal/ruído.
Na caracterização baseada em Landmarking, são utilizadas informações sobre o desempenho de um conjunto de algoritmos de classificação, denominados landmarkers, para os conjuntos de
Tabela 2: Medidas de informação adicionais do projeto Metal
Tipo Descrição
Simples Número de atributos nominais. Número de atributos numéricos.
Estatística
Números de atributos com outliers. Estatística M de Box.
Graus de liberdade da Estatística M. Valor de Lambda de Wilk.
Estatística V de Barlett.
Informação Entropia conjunta de classe e atributos.
dados do repositório (PFAHRINGER; BENSUSAN; GIRAUD-CARRIER, 2000). O landmar- kingé utilizado para determinar a proximidade de uma base de dados em relação a outras, através da similaridade de desempenho dos landmarkers. Com isso, forma-se uma vizinhança de áreas de competência, onde bases de dados podem ser representadas. Espera-se que bases de dados de natureza semelhante pertençam às mesmas áreas de competência e, por conseguinte, sejam adequadas à aplicação dos mesmos algoritmos de classificação (SOUZA; JúNIOR, 2011).
Diferentes medidas de desempenho podem ser utilizadas como meta-atributos, como por exemplo: precisão, revocação e área sob a curva ROC. Outras abordagens mais sofisticadas também foram investigadas em Brazdil et al. (2009).
Na caracterização via modelos, os meta-atributos gerados para um conjunto de dados são representados por propriedades de um ou mais modelos induzidos utilizando tal conjunto. Se- gundo Maimon e Rokach (2005), há diversas vantagens neste tipo de caracterização, dentre as quais destacam-se:
• a base de dados é resumida em uma estrutura que contém informações sobre a complexi- dade e desempenho do modelo; e
• a representação dos dados nessa forma pode servir de base para explicar o desempenho do algoritmo de aprendizado.
Quando modelos são utilizados para caracterizar conjunto de dados, ocorre uma mudança no espaço de busca do processo de Meta-aprendizado, que passa do espaço de objetos para o espaço de modelos. Como o novo espaço permite uma busca eficiente no espaço de hipóteses, espera-
se uma sumarização maior e mais eficiente do conjunto de dados originais, levando a melhores meta-atributos (FACELI et al., 2011).
Dentre os algoritmos de classificação mais utilizado para caracterização via modelos, temos a árvore de decisão. Como meta-atributo, diversas medidas de uma árvore de decisão podem ser utilizadas, como por exemplo: o número de nós folhas, formato da árvore, profundidade máxima da árvore e grau de balanceamento da árvore. De acordo com Bensusan, Giraud-Carrier e Ken- nedy (2000), há evidências empíricas que sugerem importantes conexões entre as propriedades das bases de dados e as estruturas da árvores de decisão não podadas.
2.3.2 Medidas de Avaliação
Para o processo de selecionar qual o algoritmo deve ser aplicado ao conjunto de dados, faz-se necessário que medidas de avaliação sejam empregadas, de forma a tentar garantir que o melhor modelo foi selecionado, levando-se em consideração o desempenho mais satisfatório para o pro- blema em questão. Várias medidas de desempenho podem ser empregadas para avaliação dos algoritmos, como por exemplo: acurácia preditiva, taxa de classificações incorretas, revocação, precisão, medida F, área sob a curva ROC, custo computacional para etapas de treinamento/teste, quantidade de memória necessária, complexidade do modelo induzido e facilidade de interpreta- ção do modelo.