A etapa de pré-processamento compreende, conforme foi apresentado anteriormente, às funções relacionadas à captação, organização, tratamento e a preparação dos dados para etapa seguinte de mineração, possuindo relevância no processo de descoberta, pois compreende desde a correção de dados errados até o ajuste da formatação a serem utilizadas. A seguir se descreve as etapas do pré-processamento:
• Seleção dos Dados
• Tratamento e Limpeza dos Dados
• Normalização dos Dados
• Enriquecimento dos Dados
A - Seleção dos Dados
Essa etapa compreende na identificação e no planejamento de todas as atividades para se chegar ao ponto final de carga dos dados no ambiente de mineração de dados. A seleção deve levar em consideração quais informações dentre os dados existentes são realmente relevantes para a pesquisa.. Dependendo dessa escolha, os dados serão formatados de
INPUTS Pré-Processamento PROCESSAMENTO Mineração de Dados OUTPUT Pós-processamento CONTROLE INPUTS Pré-Processamento PROCESSAMENTO Mineração de Dados OUTPUT Pós-processamento CONTROLE
maneiras diferentes. O primeiro requisito para que a seleção seja bem sucedida é possuir dados de qualidade.
O processo de seleção dos dados é de grande relevância na busca do conhecimento em bases de dados. Mesmo já existindo data warehouse com os dados disponíveis para análise e já pré-processados, é essencial criar-se uma representação dos dados que satisfaça os objetivos da análise de dados a ser realizada e que se encaixe de forma ótima na resolução do problema enfrentado [FERREIRA, (2005)].
O conceito de seleção dos dados engloba: consultas (queries) iniciais a data
warehouse ou outros repositórios de dados em busca dos dados procurados; consolidação de
toda a informação de interesse em um local ou base única [CONTRERAS (2002)]. O processo de seleção dos dados tem uma razão muito maior para existir do que simplesmente fornecer uma base para os modelos a serem utilizados: ao selecionar os dados, o responsável pela análise também é “preparado” pelos dados [PYLE, (1999)].
Nesse processo o maior beneficiado é o pesquisador, pois o mesmo ao despender esforço para obter a melhor representação possível para os dados, convive com as outras formas de visualizar e detalhes. Compreendo com isso melhor o problema que está sendo estudado, o que contribui em etapas futuras para um melhor desempenho, tanto do mesmo quanto dos dados.
B - Tratamento e Limpeza
Limpeza de dados visa detectar e remover anomalias presentes nos dados com o objetivo de aumentar e melhorar a sua qualidade. Tipicamente o processo de limpeza de dados não pode ser executado sem o envolvimento de um perito no negócio ao qual correspondem os dados, uma vez que a detecção e correção de anomalias requerem conhecimento especializado. A limpeza dos dados envolve uma verificação da consistência das informações, a correção de possíveis erros e o preenchimento ou a eliminação de valores nulos e redundantes. Nessa fase são identificados e removidos os dados duplicados e corrompidos. A execução dessa fase corrige a base de dados eliminando consultas desnecessárias que seriam executadas pelos modelos e que afetariam o seu desempenho. A procura de valores absurdos que não deveriam existir na base simplesmente por serem impossíveis é um das atividades
desempenhas na limpeza de dados, na prática. No esforço para limpeza e consistência dos dados, os campos com valores absurdos, mesmo sendo raros, devem ser preenchidos com valores possíveis, utilizando-se, por exemplo, médias ou medianas da variável. Outra opção seria a eliminação do registro que contém tal valor. A filosofia por trás dessas ações é evitar que tal valor atrapalhe a compreensão dos dados pelos modelos, levando-os a tomar conclusões errôneas. Outro caso interessante de limpeza de dados é o tratamento de valores ausentes (missing). Se o número de observações ausentes for significativo, o desempenho de grande parte dos modelos de análise de dados pode ser seriamente comprometido.
Para lidar com valores ausentes, em geral utiliza-se uma das seguintes abordagens: Ignorar a descrição do indivíduo ou mesmo eliminar o descritor e preencher os valores ausentes manualmente.
C - Normalização dos Dados
Essa etapa consiste em ajustar a escala dos valores de cada atributo de forma que os valores fiquem em pequenos intervalos. Tal ajuste faz-se necessário para evitar que alguns atributos, por apresentarem uma escala de valores maior que os outros, influenciem de forma tendenciosa em determinados métodos de mineração de dados [GOLDSCHMIDT et al., (2005)]. Existem muitas maneiras de normalização de dados, Linear, Por Desvio Padrão, Pela Soma dos Elementos, Pelo Valor Máximo dos Elementos e Normalização por Escala Decimal. A seguir algumas dessas técnicas são conceituadas:
• Normalização Linear – Essa técnica também é conhecida como interpolação linear, consiste em considerar os valores mínimos e máximos de cada atributo no ajuste da escala. Mapeia os valores de um atributo no intervalo fechado de 0 a 1. Mantém distâncias entre os dados normalizados que sejam proporcionais as distâncias entre os dados originais. Essa técnica é recomendada apenas quando se tem certeza que o domínio dos atributos essa entre os valores mínimos e máximos considerados.
• Normalização por Desvio Padrão – Normalmente conhecida como Z-Score ou Z-Mean, a padronização por desvio padrão considera a posição media dos valores de um atributo, assim como os grãos de dispersão desses valores em relação à posição media. Essa técnica de normalização é útil quando os valores mínimo e máximo são desconhecidos.
• Normalização Pela Soma dos Elementos – Consiste em dividir cada valor do atributo que esteja sendo normalizado pelo somatório de todos os valores de tal atributo. Uma desvantagem é que certos valores podem ser muito pequenos comparado com os demais.
• Normalização Pelo Máximo dos Elementos. – Essa técnica consiste em dividir cada valor do atributo que esteja sendo normalizado pelo maior valor dentre todos os valores de tal atributo.
• Normalização por Escala Decimal - Essa técnica consiste em realizar o processo de normalização por meio do deslocamento do ponto decimal dos valores dos atributos a ser normalizados. O número de casas decimais depende do maior valor absoluto do atributo em questão.
D - Enriquecimento dos Dados
Essa etapa consiste em conseguir agregar mais informações aos registros existentes para que esses forneçam mais elementos para a pesquisa. Estão incluídas nessa operação todas as iniciativas que envolvam captação e transformações junto à fonte de dados original. Difere- se da etapa de limpeza, pois não se restringe a preencher informações ausentes. Busca-se, agregar novas informações, muitas vezes essa etapa esbarra no alto custo de implementação.
Uma das formas de enriquecimento de dados pode ser executada mediante a incorporação de informações fornecidas por outros sistema ou fontes, sendo muito comum à importação de informações advindas de outras bases em adição aos dados das bases já existentes. Tais informações podem ser úteis em um contexto de análise fornecendo um indicador para uma eventual tomada de decisão.