5. GENETĠĞĠ DEĞĠġTĠRĠLMĠġ TARIM ÜRÜNLERĠNE ĠLĠġKĠN DÜNYADA MEVCUT DURUM
6.3 Bazı Ülkelerin Sosyoekonomik Değerlendirmelere ĠliĢkin Ulusal Düzenlemeleri ve Uygulamaları
6.3.1 Avrupa ülkeleri
Apesar de já destacado nas subseções prévias, algumas análises merecem aprofunda- mento, primeiramente no tocante ao desempenho do GAImp. De acordo com os resultados para as medidas de desempenho analisadas (acurácia do classificador e Wilson Noise Ratio) e as evidências estatísticas obtidas, é possível afirmar que o método proposto obteve melhor desem- penho que os demais métodos de imputação, oferecendo o melhor balanço na otimização das duas medidas adotadas, uma vez que sempre obteve boa posição nos rankings estatísticos - com a ressalva supramencionada ao CMC.
Em relação à parametrização, os valores dispostos na Tabela4apresentaram um balanço entre o tempo de processamento e a qualidade dos resultados. Os testes iniciais de calibração visaram primeiramente avaliar o impacto do tamanho da população e do número de gerações na qualidade da solução e na convergência. Como conclusões, destacam-se:
• Neste nicho de aplicação, a qualidade do resultado é mais sensível ao tamanho da popula- ção de forma diretamente proporcional; i.e. quanto maior a população, melhor o desem- penho do GAImp em relação às acurácias dos classificadores e do WNR. Esta conclusão está em concordância com a demonstração da eficiência da imputação múltipla feita por Little e Rubin(1987) (Vide Eq.5.1);
• custo computacional está diretamente relacionado ao número de consultas a função de ap- tidão (construção dos modelos de classificação), seu número é determinado pelo tamanho da população multiplicado pelo número de gerações, portanto um equilíbrio entre estes dois parâmetros faz-se necessário;
• melhor trade-off entre convergência, custo computacional e qualidade da soluções apresentou- se com o número de gerações inferior ao tamanho da população.
Os demais parâmetros foram analisados com pouca variação devido seu baixo impacto no desempenho do algoritmo, por exemplo, para o número de indivíduos elitistas, dois valores foram testados, 1 e 3, sendo o último o selecionado para compor a configuração do algoritmo. Vale ressaltar que os valores escolhidos estão de acordo com a literatura da área.
Conforme explicitado anteriormente, o desempenho computacional está intimamente relacionado ao número de consultas à função de aptidão e ao algoritmo de classificação. Neste ponto, diversos algoritmos foram testados para compor o framework experimental. Dos adota- dos no estudo, o LWL demandou maior tempo de processamento, chegando a ser 10 vezes mais custoso que o Naïve Bayes. Devido ao caráter iterativo do método, alguns algoritmos aumentam demasiadamente o tempo de processamento sem trazer ganhos consideráveis à qualidade das soluções, com destaque ao SMO (aproximadamente 10 vezes mais custoso que o LWL).
5.5 CONSIDERAÇÕES FINAIS
Neste capítulo foi estabelecido um paralelo entre a imputação múltipla de dados e al- goritmos evolucionários para então apresentar o GAImp, um método de imputação de dados baseado em algoritmos genéticos. Após análise dos trabalhos correlatos, estabeleceu-se as se- guintes metas para o método proposto: tratar conjuntos de dados com atributos de tipos mistos de forma satisfatória; considerar o advento de instâncias incompletas e informações da geração do modelo, mais especificamente a acurácia do classificador.
A análise de desempenho do GAImp foi realizada em um framework experimental com- posto de seis métodos, escolhidos a fim de representar três grupos de métodos de classificação: indução de regras, modelos de aproximação e aprendizado baseado em instâncias; os conjuntos de dados escolhidos já contém valores ausentes e apresentam atributos categóricos, numéricos e mistos. O GAImp foi comparado em relação a sete métodos de imputação, utilizando como medidas de desempenho a acurácia do classificador e o Wilson Noise Ratio.
As evidências estatísticas apontam que o método proposto obteve melhores resultados quando as métricas são analisadas em conjunto. Mesmo com a obtenção de resultados inferiores ao CMC, o GAImp utiliza-se de múltiplas imputações e de um processo iterativo para refiná- las, refletindo a variabilidade amostral sobre um modelo de não resposta ou incerteza acerca do modelo correto para a não resposta, em detrimento da imputação de um valor único, calculado
a partir dos dados de rótulo, tal como o CMC. Como restrição, chama-se atenção à iteratividade do método e da necessidade de construção de classificadores para cada indivíduo em todas as gerações, portanto, seu custo computacional torna o método inviável para grandes bases de dados. A descrição da proposta e resultados parciais foram publicados na forma de artigo em conferência internacional (LOBATO et al.,2015b); e a extensão das análises foram submetidas à um special issue sobre otimização combinatorial, contendo também alguns detalhes sobre a formalização do problema de imputação apresentado no Capítulo3.
Destaca-se também que apesar do estudo de caso analisado ser a classificação de pa- drões, chama-se atenção para a flexibilidade da proposta, a qual pode ser adaptada a outras tarefas que envolvam análise multivariada, como regressão, classificação multirrótulo, agru- pamento e análise de séries temporais; também possibilitando otimizar múltiplas medidas de desempenho, inclusive conflitantes, por meio da adoção de estratégias multiobjetivo, tal como será abordado no próximo capítulo.
6 MOGAIMP: ALGORITMO GENÉTICO MULTIOBJETIVO PARA
IMPUTAÇÃO MÚLTIPLA DE DADOS
6.1 CONSIDERAÇÕES INICIAIS
Em razão das diversas medidas de desempenho para se avaliar um método de imputação e das características do GAImp, sobretudo sua flexibilidade e semelhança à imputação múltipla, vislumbrou-se a possibilidade de adaptá-lo para considerar múltiplas medidas de desempenho. Como algumas destas medidas mostram-se conflitantes, pois quando otimiza-se uma o desem- penho da outra decai, percebeu-se a necessidade de adotar uma abordagem multiobjetivo, a qual ainda não havia sido explorada na literatura de tratamento de valores ausentes.
Neste capítulo, o algoritmo genético multiobjetivo para imputação de dados, denomi- nado MOGAImp é apresentado. Como extensão do GAImp, este método também herda algu- mas propriedades como a consideração de informações provenientes da construção do modelo, utilização dos registros incompletos para estimar os valores a serem imputados, além de ser adequado para utilização em conjuntos de dados com atributos mistos.
As medidas a serem otimizadas pelo MOGAImp foram escolhidas pois são notoria- mente conflitantes, a saber: manteve-se as acurácias dos classificadores, tal como na abordagem mono-objetivo proposta, e adicionou-se a acurácia preditiva dos métodos de imputação. Além do caráter conflitante, adotou-se esta segunda por possibilitar a emulação dos VA e posterior extração de um modelo de “regras de imputação” a partir dos valores preditos pelo MOGAImp. Devido às características das medidas de desempenho para imputação de dados discu- tidos pelos trabalhos comparativos discutidas no Capítulo4, e pelas abordagens multiobjetivo descritas no Capítulo2, optou-se por usar a metodologia baseada em fronteiras de Pareto; pois por meio dela é possível melhor analisar o comportamento e a relação entre as medidas de de- sempenho, bem como selecionar soluções não dominantes. Mais especificamente, escolheu-se como técnica-base do MOGAImp um dos algoritmos para exploração dos conjuntos de Pareto mais utilizados no âmbito da mineração de dados, o NSGA-II. Esta escolha deu-se por este al- goritmo ser elitista, eficiente computacionalmente e de fácil parametrização (DEB et al.,2002). Adicionalmente, com o intuito de reduzir o tempo de processamento, o MOGAImp também incorpora um esquema de paralelismo para o cálculo das funções de aptidão.
O framework experimental foi ligeiramente modificado para possibilitar a adição da acurácia preditiva do método de imputação, calculada a partir da distância entre o valor real da base e o valor imputado. Para tal, 15 conjuntos de dados com valores ausentes induzidos foram utilizados nos experimentos; cinco classificadores, representando os três grupos de métodos de classificação, foram selecionados para prover informações acerca da construção do modelo; e
comparou-se o desempenho do método proposto contra três métodos de imputação. Por fim, os resultados são apresentados e discutidos para posterior apresentação das considerações finais.