BÖLÜM 4: EKONOMETRİK ANALİZ: DYY VE YAKIN KOMŞULARLA DIŞ
4.2. Ekonometrik Yöntem: Panel Veri Analizi
4.2.5. Heterojen Eğim Modelleri
Nos experimentos realizados com a finalidade de comparar a eficiência real de cada método de seleção de atributos, é importante utilizar a boa prática de dividir os dados disponíveis em duas partes [Reunanen 2003], uma para a realização do processo de seleção e outra para a validação desta seleção. Isto deve ser feito para verificar se o subconjunto de atributos selecionado apresenta bons resultados também com dados não usados pelo método de seleção, tanto na indução do conceito quanto na classificação.
O problema do overfitting, definido em [Cunningham 2000] como o problema do mecanismo de aprendizado se adaptar às peculiaridades do conjunto de treinamento em detrimento da capacidade de generalização, muitas vezes não teve a devida atenção em diversas pesquisas relacionadas à seleção de atributos, conforme apontado em [Kohavi & Sommersfeld 1995] [Kohavi & John1997] e [Loughrey & Cunningham 2005].
De fato, alguns trabalhos, como [Yang & Honavar 1998] não separam uma parte do conjunto de dados para a validação da seleção de atributos, levando a resultados muito otimistas quanto à melhoria da precisão de classificação obtida com a seleção de atributos.
Nota-se que a separação de uma parte dos dados para validação é necessária apenas quando os métodos seleção de atributos estão sendo avaliados quanto à sua capacidade4. No caso dos wrappers, o conjunto de dados é, em geral, separado inicialmente em dois
4 Quando um método de seleção de atributos é utilizado na prática recomenda-se a utilização de todos os
dados disponíveis para a realização do processo seleção de atributos, desde que o método seja comprovadamente adequado ao domínio em questão.
conjuntos, um para a avaliação da qualidade dos subconjuntos de atributos durante a busca (utilizado pelo método de seleção de atributos) e outro para a validação do subconjunto de atributos final (selecionado pelo método), que não participa do processo de seleção de atributos. O conjunto utilizado pelo método de seleção de atributos é também dividido para estimar a qualidade de classificação, podendo ser utilizada a n- validação cruzada ou qualquer outro método de estimativa de precisão.
Nos experimentos realizados nesta dissertação, foi adotado o esquema proposto em [Reunanen 2003], onde metade das instâncias disponíveis são separadas para a validação e a outra metade participa do processo de seleção dos atributos. Esta divisão (feita randomicamente), apesar de reduzir significativamente o conjunto de dados utilizado para a seleção de atributos, garante que o processo de validação terá uma quantidade considerável de instâncias para ser realizada (desde que o conjunto original tenha um número suficiente de instâncias). A Figura 3.9 mostra um diagrama do esquema adotado.
Figura 3.9. O esquema de avaliação utilizado na avaliação dos wrappers.
A n-validação cruzada foi utilizada tanto durante o processo de seleção quanto no de validação. Para o processo de seleção foi utilizada a 5-validação cruzada e na validação foi utilizada a 10-validação cruzada. Esta diferença nos métodos de estimativa de precisão se justifica devido ao interesse na redução da carga computacional durante o processo de busca pelo melhor subconjunto.
Outra consideração importante é que o método de estimativa de precisão utilizado na seleção dos atributos é totalmente independente da validação, já que a validação só é realizada para verificar se o subconjunto encontrado apresenta bons resultados também com dados que não participaram do processo de seleção de atributos (aprendizado).
Conjunto de Dados Inicial Processo de Seleção de Atributos Validação do Subconjunto de Atributos Final Teste Treinamento
Neste caso, optou-se por utilizar a 10-validação cruzada a fim de garantir maior acurácia na estimativa de precisão. Os dados relativos à precisão dos algoritmos de aprendizado disponibilizados nas tabelas de desempenho são referentes à validação utilizando 10- validação cruzada, o mesmo método de avaliação utilizado para avaliar a precisão do conjunto com todos os atributos (utilizando o mesmo conjunto de instâncias).
Nas tabelas de desempenho apresentadas nesta seção, os valores em negrito indicam os casos onde a precisão de classificação foi igual ou superior àquela obtida com o conjunto original de atributos. As tabelas que mostram a quantidade de atributos selecionados possuem os métodos com menor número de atributos destacados em itálico.
Na Figura 3.10 é apresentado um esquema geral dos wrappers, incluindo o processo de avaliação final, que utiliza um conjunto de validação que não participa do processo de seleção de atributos. O wrapper em si é envolvido pela caixa identificada como Wrapper que inclui um método de busca, que gera subconjuntos de atributos, e um método de AM que utiliza 5-validação cruzada para avaliar os subconjuntos gerados. Os subconjuntos de atributos selecionados são representados entre colchetes.
Figura 3.10. O esquema de avaliação utilizado pelos wrappers.
Conjunto de Dados Conjunto utilizado na Seleção de Atributos Conjunto de Validação 1 2 3 4 5 5-validação cruzada Método de AM Método de Busca Subconjuntos de Atributos Subconjunto de Atributos Final Validação (Método de AM) 10-validação cruzada Wrapper
3.4.1.1 Bases de Dados Utilizadas nos Experimentos
Todas as bases de dados (databases) foram extraídas do UCI Machine Learning Repository [Blake & Merz 1998]. Foram escolhidas bases de dados com características bastante distintas, tanto com poucos quanto com muitos atributos e com o número de classes entre 2 e 7. Sem exceção, todas as bases de dados possuem atributos numéricos (contínuos e/ou discretos).
Na Tabela 3.1 são apresentadas as principais características das onze bases de dados empregadas nos experimentos e, em seguida, elas são brevemente descritas. Como comentado na Subseção 3.4.1, as bases de dados foram divididas em duas partes, uma para a seleção de atributos e outra para a validação. Para isso, foram separadas 50% das instâncias para a seleção e 50% para a validação, salvo nos casos onde o número de instâncias superava 2000, onde o número de instâncias para a seleção foi limitado em 1000, de forma a reduzir o tempo computacional exigido no processo de seleção de atributos.
Nos experimentos que seguem, as bases de dados foram agrupadas usando como critério o número de atributos que as descrevem, em:
• Baixa dimensionalidade (4-15): aquela que tem um número de atributos entre 4 e 15; • Média dimensionalidade (16-34): aquela que tem um número de atributos entre 16 e 34; • Alta dimensionalidade (60): aquela que tem entre 35 e 60 atributos (apenas uma base).
A escolha das bases de dados procurou contemplar diversidade em relação a número de atributos e número de classes.
Tabela 3.1. Resumo das bases de dados utilizadas nos experimentos com wrappers.
Instâncias Database
Total Seleção Validação Atributos Classes
Iris 150 75 75 4 3 Breast 683 341 342 10 2 Glass 214 107 107 10 6 Wine 178 89 89 13 3 Vehicle 846 423 423 18 4 Segment 2310 1000 1310 19 7 Waveform 5000 1000 4000 21 3 WDBC 569 284 285 30 2 WPBC 194 97 97 33 2 Ionosphere 351 175 176 34 2 Sonar 208 104 104 60 2
Íris: base de dados com apenas 4 atributos para a classificação de 3 diferentes
flores. É amplamente utilizada em trabalhos de AM e estatística, sendo datada de 1936. Possui 2 das 3 classes linearmente separáveis. Os atributos são numéricos e possuem certa redundância.
Breast: base de dados com 10 atributos para a identificação de câncer de mama
(benigno ou maligno). Um dos atributos é um número de identificação do exame (possivelmente irrelevante). Das 699 instâncias originais, foram excluídas 16, por conterem atributos ausentes.
Glass: base de dados com 10 atributos para a classificação de 6 tipos de vidro.
Os atributos são referentes à composição do vidro, refração e número de identificação (possivelmente irrelevante).
Wine: base de dados com 13 atributos para a classificação de 3 tipos de vinho,
relativos à localização da região de cultivo. Os atributos são referentes às análises químicas dos vinhos.
Vehicle: base de dados com 18 atributos para a classificação de 4 tipos de
veículos a partir de uma silhueta. Os atributos são referentes às propriedades geométricas das silhuetas.
Segment: base de dados com 19 atributos para a segmentação de imagens em 7
possíveis classes. Os atributos contêm informações sobre uma região da imagem (3x3), que deve ser classificada para a posterior segmentação.
Waveform: base de dados com 21 atributos para a classificação de 3 diferentes
ondas, geradas por computador. São 5000 instâncias e os valores podem ter ruído.
WDBC: base de dados com 30 atributos para o diagnóstico de câncer de mama
(maligno ou benigno). São 10 características das células (como área, raio do núcleo, perímetro, etc), com média, desvio padrão e maior caso para cada uma delas (informações disponíveis devido à metodologia adotada para a extração dos dados).
WPBC: base de dados com 33 atributos para o prognóstico de câncer de mama
(recorrente ou não-recorrente). Entre as características das células (como área, raio do núcleo, perímetro, etc), 10 delas possuem média, desvio padrão e maior caso (informações disponíveis devido à metodologia adotada para a extração dos dados).
Ionosphere: base de dados com 34 atributos para identificar se um radar capta sinais
da ionosfera válidos ou não. São informações sobre 17 características com dois atributos para representar cada uma (portanto, com diversos atributos potencialmente irrelevantes).
Sonar: base de dados com 60 atributos extraídos de um sonar para a
classificação de minas (metálicas) ou pedras. Os atributos contêm informações sobre a intensidade energética de respostas a diferentes faixas de freqüência.