• Sonuç bulunamadı

BÖLÜM 2. SAVURMA (SANTRİFÜJ) DÖKÜM

2.6. Kalıp Kaplamaları

O propósito deste subtópico é apresentar de modo descritivo alguns tipos de algoritmos e suas funções específicas para a mineração de dados. De acordo com NISBET; ELDER; MINER (2009, p. 17) mineração de dados é o “uso de algoritmos de aprendizagem de máquinas para encontrar tênues padrões de relacionamento entre elementos de grandes conjuntos de dados que se apresentam desorganizados”. Esses padrões possibilitam, de certa

maneira, avanços no trabalho com conjuntos de dados, entre eles: estabelecer diagnósticos, apontar potenciais de uso, detectar e identificar correlações, reincidências entre atributos, etc. Ao contrário da estatística tradicional algoritmos de aprendizado de máquinas ou machine

learning algorithms constituem-se em:

[…] aplicações de modelos genéricos de algoritmos de classificação utilizados em mineração de dados objetivando previsão padrões de comportamentos em determinadas bases de dados. Esses modelos diferem de modelos utilizados em análises estatísticas tradicionais que procuram estabelecer estimativas e parâmetros em determinada população por meio de inferências e valores-p63. Aprendizagem de

máquinas centra-se sobre previsão, com base nas propriedades conhecidas a partir dos dados. De tal modo que a ênfase de modelos de mineração que utilizam algoritmos de aprendizagem de máquinas está na precisão das previsões opondo-se à modelos que se ocupam da descoberta de relações e influências entre diversas variáveis. NISBET; ELDER; MINER (2009, p. 797).

Trata-se de um processo que envolve desde fontes de dados, preparação e transformação até a construção de modelos e visualização de resultados, como demonstra a figura:

KDD - Knowledge Discovery in Databases ou Conhecimento advindo de bases de dados consiste em aplicar análise de dados e descobrir algoritmos que produzem particular lista de padrões sobre os dados, BANSAL e BOHRA (2013 p. 1645). Os autores descrevem o

63 Valor-p, p-value ou nível descritivo, é utilizado para em testes de hipóteses avaliando a validade (ou não) de uma afirmação sobre determinada característica da população. Para isso realiza-se um experimento com uma amostra dessa população partindo-se de uma hipótese nula denominada Ηo, a fim de testá-la a partir de um valor-p. Se os resultados de probabilidade derem abaixo do valor-p, significa que que a hipótese deve ser rejeitada. Fonte: PINHEIRO, João Ismael D. et. al. (2009, p. 213).

algoritmo K-means que se ocupa de métodos para partição de dados. É algoritmo básico e largamente utilizado para realização de agrupamentos. Os procedimentos seguidos pelo algoritmo são: seleção aleatória de características K que organizarão agrupamentos, assegurar a proximidade de dados com características K identificadas, cálculo de agrupamento para cada dado agrupado e repetição de procedimentos iniciais até finalização de agrupamento. BANSAL e BOHRA (2013 p. 1647).

Limpar os dados, segundo BABBIE (1999, p. 299) é “eliminar os erros”. Dependendo do método de processamento dos dados, erros podem resultar em codificação incorreta, leitura incorreta de códigos escritos. Dois tipos de limpeza de dados são apresentados pelo autor: limpeza de possíveis-códigos que se encarrega da verificação de atributos de acordo com variáveis estabelecidas na pesquisa e limpeza de contingências em processos que se ocupam de restrições determinadas à certas respostas ou resultados encontrados.

Segundo NISBET; ELDER;MINER (2009, p. 771), “dados sem um modelo são apenas ruído”. Os autores sugerem que processos de mineração de dados são uma mistura entre arte e ciência. Modelos de mineração seguem orientações estatísticas por meio de algoritmos que agrupam e prevêem padrões e orientações de desenvolvimento de conhecimento já adquirido. Dessa forma, métricas são calculadas a partir de médias e distribuição de dados. Dentre as atividades principais de mineração de dados estão:

1. Análise exploratória de dados: as atividades de exploração de dados incluem técnicas interativas e visuais que permitem ao pesquisador observar características dos dados em termos de índices e parâmetros estatísticos e disposição gráfica, sugerindo insights sobre padrões e tendências na base de dados.

2. Modelos descritivos: inclui estimativas de densidade ou visão geral de probabilidades de distribuição dos dados; modelos que descrevem relações entre variáveis – modelos de dependência; partição de dados em grupos ou análise de clusters ou segmentação.

3. Modelos predictivos: calssificação e regressão – a meta é constrir modelos em que o valor de uma variável possa ser predita a partir de valores de outras variávies. Utiliza- se variáveis categóricas como sim/não, múltipla escolha, escala. Modelos de regressão empregam variáveis contínuas como idade, intervalo entre números, etc.

4. Regras e desvelo de padrões ou de associação: encontra itens ou combinações deles que ocorrem com frequência em bases de dados, ex. “Quem comprou esse comprou também aquele”, “quem curtiu isso também curtiu aquilo”.

5. Reconhecimento de conteúdo: parte de um dado padrão ou interesse e segue a meta de encontrar padrões similares em novas bases de dados. Sistemas de busca, reconhecimento de texto, palavras, imagens.

Dentre os desafios para a mineração de dados mencionam-se a) a utilização de bancos de dados entre bases distintas, b) propostas de redução de dados; c) modelos de transformação de dados; d) modelos de mineração de dados; e) técnicas de filtros de dados; f) casos raros de reconhecimento de padrões. Cada modelo ou técnica de mineração de dados e procedimentos de análise apresenta vantagens e desvantagens dependendo dos casos em que são utilizadas e e formatos de dados para aplicação. Outra característica da mineração de dados é o emprego de técnicas de visualização, POLLACK (2007, p. 230). Metodologicamente, modelos de mineração empregam técnicas sofisticadas de regras de associação, análise de agrupamentos, padrões de classificação, redes neurais, modelos de programação linear, conjuntos irregulares e análise granular. Entre algoritmos mais utilizados em técnicas de monitoramento, estão:

Exaustive CHAID: Chi-squared Automatic Interaction Detector que opera apenas com variáveis estatisticamente significativas, examinanso todas as possibilidades de combinações e permutações entre variáveis. Oferece procedimentos de redução de dados como precursores de modelos preditivos, determina seguimentações chave nos dados, identifica relações não-lineares.

Algoritmos Genéticos: responsáveis por processamento simbólico de atributos, categorizando-os. Algoritmos genéricos de aprendizagem de máquinas são utilizados para processar cada tipo de observação de atributos separando-os de acordo com a categoria mais adequada.

ACS Algoritmo (Associative Concept Space) e LSA (Latent Semantic Analysis): esses são algoritmos que desempenham processamento de linguagem natural, reconhecem ordem e relações (associações indiretas) em conjuntos de dados, em modelo corpus.Hebbian-type Algoritmo de Aprendizagem: opera em bases de dados brutos,

identificando ou não ocorrências, sem necessidade de pré-processamento de dados.

A mineração específica de dados de Internet – Web Mining - de acordo com AKHILA; MADHU e POOJA (2014, p. 17 e 18) é um tipo de mineração de informação, que inclui documentos, hiperlinks, registos de usuários, e outros. Algoritmos de classificação são os modelos de mineração de dados mais comumente usados para se extrair conhecimento relevante a partir de enormes quantidades de dados. Cada um dos tipos de algoritmos de classificação oferece diversos benefícios, dependendo do tipo de conjunto de dados em que é empregado. Entre eles estão:

Algoritmos Apriori: algoritmos considerados clássicos utilizados para mineração de dados que realizam limpeza por meio do emprego de regras de associação.

Algoritmos de Árvores de Decisão: baseiam-se em probabilidades ou condições e desenvolvem regras e sub-regras para classificação de dados.

Algoritmos Naïve Bayes: voltado para análises longitudinais, utiliza o Teorema de Bayes cuja fórmula calcula probabilidades a partir da contagem de frequência de valores e combinações de valores em histórico de dados.

Exemplos de técnicas básicas de algoritmos para modelos de mineração de dados são, conforme NISBET; ELDER e MINER (2009, p. 126):

Regras de associação: detecta relações ou associações entre valores de variáveis específicas em bancos de dados de larga escala. Por exemplo o consumo de bebidas e audiência de certos programas de TV. Algumas técnicas conhecidas que empregam regras de associação são SAS Enterprise Miner, SPSS Clementine e STATISTICA Data

Miner.

Redes neurais: redes neurais artificiais constituem-se em uma arquitetura de processamento ou estrutura na qual cada variável de entrada (chamado nó de entrada) é ligado a um ou mais nós de saída. A propriedade mais interessante de uma rede neural está em intercalar uma camada média de neurônios (nós) entre o nó de entrada e saída. Cada nó assume um peso de acordo com a conexão. Estes pesos têm a capacidade de modelar relações não lineares entre nós de entrada e nós de saída. Utilizado em processos preditivos de informação.

Modelos de regressão: baseia-se na necessidade formar um número cada vez maior de variáveis preditivas. Quanto maior o número de variáveis e a relação entre elas, mais difícil é para um algoritmo de previsão fixar um bom desempenho. Para superar essa dificuldade substitui-se a definição de cada variável com predicções e termos aditivos de aproximação.

Árvores de classificação: intoduzidas por pesquisadores da universidade de Stanford e Berkley em 1984, são estruturadas a partir da sequência de questões simples e organizam dados pela hierarquia de respostas. Dois algoritmos mais populares dessa técnica são algoritmos de Árvores de Classificação e Regressão e CHAID. Elementos chave definem algoritmos de árvores de classificação: aplicar regras em um nó para dividir dados de acordo com o seu valor para variável específica; regra de parar para decidir quando uma sub-árvore está completa; atribuir a cada nó "folha terminal" um resultado de classificação (previsão).

Modelos CHAID genéricos: realizam procedimentos como: 1) Preparação de variável preditiva, organizando ou criando categorias; 2) Mesclar categorias para reduzir o banco de dados; 3) Selecionar a melhor proposta de subdivisão.

Análise de agrupamentos Genéricos EM e k-Means: procedimentos introduzidos por Hartingan em 1975, cujo objetivo é encontrar o conjunto mais provável de agrupamentos a partir de observação de expectativas anteriores. A base para esta técnica é um corpo de teoria estatística denominada Misturas Finitas - conjunto de distribuições de probabilidade que representa o valor k de agrupamento e rege valores de atributos para esse grupo. Isto significa que cada uma das distribuições dá a probabilidade que uma observação específica teria para determinado conjunto de valores de atributos, se fosse verdadeiramente uma parte do conjunto.

Estratégias de dividir-e-conquistar (divide-and-conquer) para solucionar problemas através de processos algoritmicos foram descritas em DASGUPTA, PAPADIMITRIY e VAZIRANI (2006, p. 55) e envolvem a redução de tarefas a subproblemas menores agrupados por semelhança. Algoritmos que ficaram famosos entre cientistas das ciências humanas devido a layouts ou recursos utilizados em software de análise de redes sociais, entre eles:

Kruskal’s minimum spanning tree algorithm, Yifan Hu, Fruchterman Reingold. Há ainda

fotos, filmes, conteúdos de TV). Esses foram desenvolvidos no final da década de 1990 devido à precisão implementada por métodos que empregam aprendizagem de máquinas para identificação de objetos, devido ao volume de dados visuais disponíveis para teste, além do aumento na capacidade de armazenamento de dados por computadores. Objetos visuais podem ser importados para planilhas de dados e analisados por algoritmos que identificam cada pixel das imagens transformando-as em variáveis ou colunas de planilhas. Colaboraram para o desenvolvimento desses algoritmos principalmente pesquisadores da Universidade da Califórnia – Berkeley, profissionais do mercado que atuam em aprimoramento de sistemas de busca como Yahoo! Google, e pesquisadores do California Institute of Technology. Em 2008 a precisão no reconheicmento de objetos visuais alcançou o percentual de 90% empregando os seguintes algoritmos: Nonlinear kernelized SVM Não-linear, Boosted Trees, SVM Linear e

Interceções Kernel em SVM . Esses algoritmos são empregados para reconhecimento de faces

humanas em sistemas de segurança nacional e identificação de imagens tridimensionais. Dentre algoritmos desenvolvidos para propósito-especial estão: mineração de textos, documentos e buscas na Internet e controle de qualidade de mineração de dados e análise de causas (Root Cause Analysis). GAUTAM; KUMAR e KHATOON (2014) relatam o aprimoramento do algoritmo TFIDF - term frequency inverse document frequency que ordena bancos de dados por ranking baseado na semântica de tags utilizando palavras-chave + tags ao invés de apenas palavras-chave no software CiteULike64 técnica utilizada por acadêmicos para

monitorar a publicação de artigos científicos.

Observar propósitos de algoritmos é percebê-los por meio da instância técnicas de operacionalização do método. Atualmente é possível observar o número crescente de registros de patentes de algoritmos desenvolvidos para propósito-especial. A tendência que se aponta nesse cenário segundo NISBET; ELDER; MINER (2009, p. 775) é especialização de técnicas de mineração de dados que se ocupam de categorias cada vez mais específicas de conteúdos. Ou seja, características de dados estão cada vez mais funcionando como definidoras para orientar o aprimoramento de algoritmos.