BÖLÜM 4: EKONOMETRİK ANALİZ: DYY VE YAKIN KOMŞULARLA DIŞ
4.2. Ekonometrik Yöntem: Panel Veri Analizi
4.2.2. Panel Veri Regresyon Modelleri
4.2.2.4. Havuzlanmış Model, Sabit Etkiler Modeli ve Tesadüfi Etkiler Modeli
A principal característica de um método de seleção de atributos identificado como filtro é a de ser um processo independente, que pode ser acoplado a qualquer outro processo (de aprendizado, por exemplo), conforme mostra a Figura 2.5. São métodos pouco custosos computacionalmente, quando comparados com métodos wrapper e, conseqüentemente, são bastante populares.
Figura 2.5. Modelo de um método de seleção de subconjunto de atributos do tipo filtro, usado
como pré-processamento a um método de AM.
Considere um conjunto de instâncias C tal que |C| = M, no qual cada instância é descrita por um conjunto de N atributos A = {Atrib1, Atrib2, ..., AtribN}. Métodos de
seleção de atributos do tipo filtro2 transformam o conjunto C em um conjunto C’, tal que |C’| = M e cada instância em C’ é descrita por um conjunto com N’ atributos distintos, A’ = {Atribi, ..., Atribj}, |A’| = N’, 1 ≤ i, j ≤ N e N’ < N.
Na proposta Dash & Liu são apontados quatro critérios de avaliação de conjuntos de atributos utilizados atualmente, que podem ser usados em modelos filtro. As medidas usadas na avaliação são:
• Distância: discriminação entre atributos;
• Informação: ganho de informação com adição ou remoção de um atributo;
• Dependência: relação entre atributos e classes;
• Consistência: redução do conjunto de atributos mantendo a consistência original.
Estas medidas são utilizadas associadas a métodos de busca ou, então, são utilizadas na construção de um ranking onde, para cada atributo, é encontrado um valor de relevância, para então serem selecionados aqueles atributos que ultrapassam um determinado valor de relevância.
Na literatura pode ser evidenciado que a maioria dos algoritmos consagrados de seleção atributos são do tipo filtro, com destaque para o Relief [Kira & Rendell 1992] e o Focus [Almuallim & Dietterich 1991], e as suas otimizações tais como o Relief-F [Kononenko 1994] e os Focus-2 e C-Focus [Almuallim & Dietterich 1992] [Arauzo et al. 2003] respectivamente, que estarão sendo abordados em detalhes no Capítulo 4.
2 Há também o conceito de filtro para a seleção de instâncias, que não faz parte dos objetivos de pesquisa
desta dissertação. Conjunto de treinamento com M instâncias e cada instância descrita por N atributos e uma classe associada Novo conjunto de treinamento, com M instâncias, obtido a partir do conjunto de treinamento original, descrito usando apenas os atributos {Atribi,... , Atribj}e a classe associada FILTRO Seleção de um subconjunto de atributos distintos {Atribi, ..., Atribj}, 1 ≤ i, j ≤ N AM
Enquanto o Relief utiliza uma medida de distância e o Focus utiliza uma medida de consistência, métodos como o DTM [Cardie 1993] e o MDLM [Sheinvald et al. 1990] utilizam a medida de informação. O Preset [Modrzejewski 1993] e o POE+ACC [Mucciardi & Gose 1971] usam como medida a dependência entre os atributos e as classes. Inúmeros outros filtros já foram propostos, tais como o LVF [Liu & Setiono 1996a], o Branch & Bound [Narendra & Fukunaga 1977], um método proposto em [Koller & Sahami 1996] ou ainda o LVI [Liu & Setiono 1998], um método incremental, baseado no LVF e desenvolvido para melhorar o desempenho computacional em grandes bases de dados. A seguir são brevemente apresentados estes métodos.
O DTM (Decision Tree Method) realiza a seleção de atributos utilizando o C4.5 sobre o conjunto de dados. São selecionados os atributos presentes na árvore de decisão, descartando aqueles atributos ausentes da árvore. Desta maneira, este método não realiza uma busca completa, mas sim heurística, usando a seleção de atributos integrada ao C4.5.
O MDLM (Minimum Description Length Method) opta por uma busca completa no espaço de busca, com intuito de eliminar todos os atributos desnecessários. A teoria utilizada como base para este método é o MDLC (Minimum Description Length Criterion) [Rissanen 1978], que identifica subconjuntos de atributos que podem ser expressos por outros conjuntos com a mesma representatividade. Todos os possíveis subconjuntos de atributos são analisados, resultando na seleção do menor subconjunto a satisfazer o MDLC. Desta forma é possível eliminar subconjuntos de atributos que não contribuem para a descrição das instâncias pelo critério do MDLC.
O POE+ACC (Probability Of Error & Average Correlation Coefficient) é um método que utiliza uma busca heurística para a seleção de atributos. O primeiro passo é a seleção do atributo com a menor probabilidade de erro na classificação, para então ser selecionado o atributo que proporciona a soma mínima entre a probabilidade de erro na classificação e um coeficiente de correlação médio (ACC). Este ACC é referente à correlação entre o novo atributo e aqueles já selecionados. A proposta é escolher atributos que diminuam a probabilidade de erro e que não possuam forte correlação entre eles. O processo só pára após a seleção de uma quantidade de atributos definida pelo usuário.
Outro método de seleção de atributos que utiliza como medida a dependência entre os atributos é o Preset, baseado em alguns conceitos da Teoria dos Conjuntos Aproximados [Pawlak 1984]. É selecionado um reduto, que é caracterizado como um subconjunto de atributos capaz de classificar as instâncias do conjunto de treinamento da mesma forma que o conjunto total de atributos. Os atributos selecionados são aqueles do reduto.
O LVF utiliza uma medida de consistência mais elaborada que o Focus, permitindo pequenas inconsistências para tratar melhor os casos com ruído. Além disso, se diferencia do Focus por utilizar como método de busca o algoritmo conhecido como Las Vegas, que gera subconjuntos aleatórios de atributos (o usuário determina a quantidade de subconjuntos gerados). Cada subconjunto que satisfaz a condição de consistência é informado ao usuário e apenas subconjuntos com o mesmo número ou menos atributos que o melhor encontrado até então são gerados durante a busca.
O LVI é uma versão aprimorada do LVF, com a finalidade de tratar bases de dados com grande número de instâncias. O próprio LVF é utilizado como função de avaliação, mas é utilizada uma pequena amostra das instâncias disponíveis (entre 10% e 20%) para que o subconjunto de atributos seja encontrado e depois verificado sobre todas as instâncias disponíveis. Caso haja inconsistência nesta verificação, o LVF é executado novamente sobre a amostra de instâncias inicial, incrementado com as instâncias que apresentaram inconsistência. Por este motivo, o algoritmo é chamado de incremental.
O método de Koller & Sahami [Koller & Sahami 1996], procura analisar se os atributos dão alguma informação adicional em relação à que já se obtém com o restante dos atributos. Trata-se de uma medida de informação, que utiliza Markov Blanket, para realizar tal avaliação, utilizando uma busca heurística (ver [Koller & Sahami 1996] para mais detalhes).
O Branch & Bound é basicamente um mecanismo de busca, que utiliza o conjunto de todos os atributos como estado inicial, para removê-los um a um. É assumido o conceito de monotonicidade, que define que um subconjunto de atributos não pode ser melhor que outro subconjunto maior que o contém. A busca realizada é completa, mas ramos da árvore que apresentam valores inferiores na função de avaliação não são explorados, devido à utilização da monotonicidade. Também por este motivo, as medidas de avaliação utilizadas devem seguir este princípio, como exemplo a distância de Mahalanobis [Duran & Odell 1974] ou de Bhattacharya [Narendra & Fukunaga 1977].
2.5 Outras Considerações sobre a Seleção de Subconjuntos de