4. TOPLUMSAL TABAKALAŞMA EĞİTİM İLİŞKİSİ
4.2. Toplumsal Tabakanın Eğitim Üzerine Etkisi: Eğitimde Fırsat
4.2.2. Fırsat Eşitliğine Dayalı Eğitim Modeli
Como visto na Seção 2.2, tem-se obtido excelentes resultados combinando classificado- res. Existem três razões que possibilitam a construção de bons conjuntos de classifi- cadores (Polikar, 2006). A primeira razão é estatística. O algoritmo de aprendizagem pode ser percebido como uma busca, no espaço de hipóteses H, pelas melhores hipóteses. Ocorre um problema estatístico quando a quantidade de dados de treinamento disponível é muito menor que o tamanho do espaço de hipóteses. Com isso algoritmos diferentes podem fornecer uma mesma acurácia sobres estes dados de treinamento. Combinando estes algoritmos reduz-se o risco de escolher um classificador ruim (Dietterich, 2000). A segunda razão é computacional. Muitos algoritmos de aprendizagem realizam busca local ficando sujeitos a estacionarem em um ótimo local. Nos casos em que há muitos dados de treinamento, isso pode acontecer, impedindo que o algoritmo encontre a me- lhor hipótese. Uma combinação desses algoritmos pode fornecer uma aproximação da função desconhecida melhor que um único classificador (Dietterich, 2000). A terceira razão é representacional. Pode acontecer que o espaço do classificador não contenha o classificador ótimo. Por exemplo, se o classificador ótimo é não-linear, mas o classifica- dor escolhido é linear, este não será capaz de encontrar a solução ótima do problema. No entanto, um conjunto de classificadores lineares pode aproximar qualquer fronteira de decisão (Dietterich, 2000; Kuncheva, 2004). Algoritmos de aprendizagem falham nes- tas três questões, então, métodos de combinação tem a promessa de reduzir, e talvez eliminar, estas falhas (Dietterich, 2000).
Alguns autores apontam que a questão chave para o melhor desempenho da com- binação de classificadores em relação à utilização de um único classificador é a diver- sidade (Kuncheva, 2004; Polikar, 2006). Classificadores individuais cometem erros em diferentes instâncias. Então se cada classificador comete erros diferentes, uma com-
2. REVISÃO BIBLIOGRÁFICA
binação destes classificadores pode reduzir o erro total (Polikar, 2006). Um conjunto formado por tais classificadores, isto é, cujas fronteiras de decisão são adequadamente diferentes umas das outras, é dito diverso (Polikar, 2006). Em (Brown and Kuncheva, 2010), os autores propõem o conceito de “boa” e “má” diversidade, para a regra MV. Um valor maior da “boa” diversidade reduz o erro da MV, ao passo que um valor maior de “má” diversidade aumenta o erro. Contudo, não existe uma definição estrita de diver- sidade amplamente aceita (Brown and Kuncheva, 2010; Kuncheva and Whitaker, 2003). Além disso, ainda não está clara qual a relação entre diversidade e acurácia (Brown and Kuncheva, 2010; dos Santos et al., 2006).
(Gabrysa and Rutab, 2006) usaram diversidade para reduzir o erro de generalização e concluíram que esta não é uma boa medida para encontrar combinação de classificadores com bom resultado. O desempenho da combinação de classificadores depende de uma seleção cuidadosa dos classificadores a serem combinados. Uma forma de saber qual a melhor combinação, ou seja, quantos e quais classificadores utilizar, seria realizar cada combinação possível dentro de um dado conjunto de classificadores. Pode-se observar que para um número grande de classificadores, esta tarefa demandaria um alto custo computacional, pois, existem 2n−1 combinações possíveis, então, para um número de
classificadores n = 12, seriam 4095 possibilidades. Outra forma, visto que o espaço de busca é grande, poderia ser a utilização de algoritmos que otimizam a busca, como os Algoritmos Evolucionários. Ressalta-se que, além do desempenho em termos de acurácia, é interessante que se obtenha também uma combinação com um conjunto menor de classificadores. Dada a característica do problema, em que se busca, por um lado, maximizar a precisão e, por outro, minimizar o número de classificadores, uma possível solução é usar um AGM (dos Santos et al., 2006).
Cap´ıtulo 3
Fundamentação Teórica
Este capítulo apresenta os conceitos e fundamentos dos algoritmos e métodos utilizados na abordagem proposta neste trabalho. São detalhados algoritmos de aprendizagem de máquina tradicionais como KNN, SVM e MLP. Conceitos relacionados à Combinação de Classificadores são apresentados. São mostradas, também, duas formas de tratar problemas de otimização: Programação Linear e Otimização Multiobjetivo.
3.1
Algoritmos de Aprendizagem de Máquina
Aprendizagem de Máquina (AM) é um campo de pesquisa da Inteligência Artificial so- bre o qual existe uma vasta literatura (Alpaydin, 2010; Bishop, 2006; Duda et al., 1995; Mitchell, 1997; Scholkopf and Smola, 2001; Theodoridis and Koutroumbas, 2003). Algo- ritmos de AM são métodos capazes, entre outras habilidades, de extrair conhecimento a partir de amostras de dados e, em geral, são utilizados de modo a gerar classificadores para um conjunto de amostras. Por classificação entende-se o processo de atribuir, a uma determinada informação, o rótulo da classe a qual ela pertence (Russell and Norvig, 2003). Com isso em vista, as técnicas de AM visam induzir, a partir de um conjunto de treinamento, um classificador que deve ser capaz de prever a classe de quaisquer amostras do domínio em que ele foi treinado. Nesta seção serão apresentados os concei- tos básicos de três algoritmos de aprendizagem bem conhecidos na literatura que serão utilizados neste trabalho: KNN, MLP e SVM.
3. FUNDAMENTAÇÃO TEÓRICA
3.1.1
K-Nearest Neighbor (KNN)
O algoritmo KNN (Cover and Hart, 1967) classifica novas amostras de acordo com as
K amostras do conjunto de treinamento mais próximas a essas novas amostras. O KNN
usa uma medida de distância para definir a semelhança (proximidade) de uma amostra com outra, o que pode ser aplicado aos pixels (amostras) de imagens hiperespectrais, que estão em algum espaço de característica (Duda et al., 1995; Mitchell, 1997). Dado um conjunto de n pares {(x1, θ1) ,...,(xn, θn)}, em que xi toma valores de um espaço X, e θi
toma valores de um conjunto 1, 2, ..., M. Considera-se cada θicomo o índice da categoria
a que pertence o i-ésimo indivíduo, e cada xi o resultado de um conjunto de medições
feitas sobre aquele indivíduo. Se é dado um novo par (x, θ), no qual apenas o valor de x é conhecido e deseja-se estimar θ a partir do conjunto de pontos classificados corretamente,
x′n ∈ {x1, x2, ..., xn} é o vizinho mais próximo de x se min d(xi, x) = d(x
′
n, x), com
i= 1, 2, ..., n. A regra vizinho mais próximo decide que x pertence à categoria θ′
n de seu
vizinho mais próximo x′
n (Cover and Hart, 1967). A distância d é determinada por uma
métrica de similaridade, geralmente a distância Euclidiana. Apesar de sua simplicidade, o KNN apresenta um bom desempenho, mas possui algumas desvantagens (Mitchell, 1997) como alto custo computacional para calcular a distância entre a nova amostra e todas outras do conjunto de treinamento; baixa precisão em espaços de características muito elevados e dificuldade em se definir o melhor valor do parâmetro K.
3.1.2
Multilayer Perceptron Neural Network (MLP)
Uma Rede Neuronal Artificial (RNA) de múltiplas camadas, ou MLP, é composta por um conjunto de nós fonte os quais representam a camada de entrada ( input layer), uma ou mais camadas escondidas ( hidden layer), e uma camada de saída ( output
layer) (Duda et al., 1995; Mitchell, 1997). MLP é uma generalização da RNA Percep-
tron comum (Mitchell, 1997), e ao contrário desta, é capaz de aprender funções não lineares. Cada neurônio escondido utiliza uma função de transferência para mapear o espaço de entrada, então, outras camadas podem aprender as características mapeadas como simples discriminantes lineares. Padrões não lineares são aprendidos como linea- res e o resultado é que regiões no espaço de características são associadas à uma classe específica. Assim, uma nova amostra pode ser rotulada de acordo com a região à qual pertence. À medida que mais camadas são acrescentadas à MLP, maior a interação neuronal proporcionada, e melhores separações podem ser feitas no espaço de caracte- rísticas. Desta forma, a MLP pode construir variados limites de decisões no espaço de
3. FUNDAMENTAÇÃO TEÓRICA
características, determinando diferentes categorias (Duda et al., 1995). Na construção de uma MLP existem alguns aspectos que devem receber atenção especial como a es- colha do tipo de função de transferência, o número de camadas escondidas e neurônios em cada camada, que determinam a complexidade da RNA e devem ser especificados de acordo com o problema a ser tratado.
3.1.3
Support Vector Machines(SVM)
No algoritmo de aprendizado SVM, a classificação se baseia na separação das classes através de margens (Alpaydin, 2010). Assim, o objeto de busca do treinamento do SVM consiste em encontrar um hiperplano separador ótimo, ou seja, aquele em que a distân- cia de separação entre as margens de cada classe são máximas. As amostras que estão situadas sobre as margens são as mais informativas para a criação do limite de decisão da classificação e são chamadas de vetores suporte (Alpaydin, 2010; Duda et al., 1995; Scholkopf and Smola, 2001). Uma característica interessante do SVM é a função de ker-
nel que tem a finalidade de projetar os vetores de características (amostras) de entrada
em um espaço de características maior no qual se consegue tratar problemas que se encontram em espaços não linearmente separáveis (Scholkopf and Smola, 2001). À me- dida que o espaço da dimensão do problema aumenta, aumenta também a probabilidade desse problema se tornar linearmente separável. Além disso, a habilidade de separar dados com distribuição não linear depende da escolha da função kernel, e que deve ser analisada de acordo com o domínio do problema (Alpaydin, 2010; Duda et al., 1995; Scholkopf and Smola, 2001). Os kernels mais usados são: Linear, Polynomial e RBF.