Fırsat Eşitliğine Dayalı Eğitim Modeli - Toplumsal Tabakanın Eğitim Üzerine Etkisi: Eğitimde Fı

4. TOPLUMSAL TABAKALAŞMA EĞİTİM İLİŞKİSİ

4.2. Toplumsal Tabakanın Eğitim Üzerine Etkisi: Eğitimde Fırsat

4.2.2. Fırsat Eşitliğine Dayalı Eğitim Modeli

Como visto na Seção 2.2, tem-se obtido excelentes resultados combinando classiﬁcado- res. Existem três razões que possibilitam a construção de bons conjuntos de classiﬁ- cadores (Polikar, 2006). A primeira razão é estatística. O algoritmo de aprendizagem pode ser percebido como uma busca, no espaço de hipóteses H, pelas melhores hipóteses. Ocorre um problema estatístico quando a quantidade de dados de treinamento disponível é muito menor que o tamanho do espaço de hipóteses. Com isso algoritmos diferentes podem fornecer uma mesma acurácia sobres estes dados de treinamento. Combinando estes algoritmos reduz-se o risco de escolher um classiﬁcador ruim (Dietterich, 2000). A segunda razão é computacional. Muitos algoritmos de aprendizagem realizam busca local ﬁcando sujeitos a estacionarem em um ótimo local. Nos casos em que há muitos dados de treinamento, isso pode acontecer, impedindo que o algoritmo encontre a me- lhor hipótese. Uma combinação desses algoritmos pode fornecer uma aproximação da função desconhecida melhor que um único classiﬁcador (Dietterich, 2000). A terceira razão é representacional. Pode acontecer que o espaço do classiﬁcador não contenha o classiﬁcador ótimo. Por exemplo, se o classiﬁcador ótimo é não-linear, mas o classiﬁca- dor escolhido é linear, este não será capaz de encontrar a solução ótima do problema. No entanto, um conjunto de classiﬁcadores lineares pode aproximar qualquer fronteira de decisão (Dietterich, 2000; Kuncheva, 2004). Algoritmos de aprendizagem falham nes- tas três questões, então, métodos de combinação tem a promessa de reduzir, e talvez eliminar, estas falhas (Dietterich, 2000).

Alguns autores apontam que a questão chave para o melhor desempenho da com- binação de classiﬁcadores em relação à utilização de um único classiﬁcador é a diver- sidade (Kuncheva, 2004; Polikar, 2006). Classiﬁcadores individuais cometem erros em diferentes instâncias. Então se cada classiﬁcador comete erros diferentes, uma com-

2. REVISÃO BIBLIOGRÁFICA

binação destes classiﬁcadores pode reduzir o erro total (Polikar, 2006). Um conjunto formado por tais classiﬁcadores, isto é, cujas fronteiras de decisão são adequadamente diferentes umas das outras, é dito diverso (Polikar, 2006). Em (Brown and Kuncheva, 2010), os autores propõem o conceito de “boa” e “má” diversidade, para a regra MV. Um valor maior da “boa” diversidade reduz o erro da MV, ao passo que um valor maior de “má” diversidade aumenta o erro. Contudo, não existe uma deﬁnição estrita de diver- sidade amplamente aceita (Brown and Kuncheva, 2010; Kuncheva and Whitaker, 2003). Além disso, ainda não está clara qual a relação entre diversidade e acurácia (Brown and Kuncheva, 2010; dos Santos et al., 2006).

(Gabrysa and Rutab, 2006) usaram diversidade para reduzir o erro de generalização e concluíram que esta não é uma boa medida para encontrar combinação de classiﬁcadores com bom resultado. O desempenho da combinação de classiﬁcadores depende de uma seleção cuidadosa dos classiﬁcadores a serem combinados. Uma forma de saber qual a melhor combinação, ou seja, quantos e quais classiﬁcadores utilizar, seria realizar cada combinação possível dentro de um dado conjunto de classiﬁcadores. Pode-se observar que para um número grande de classiﬁcadores, esta tarefa demandaria um alto custo computacional, pois, existem 2n₋_{1 combinações possíveis, então, para um número de}

classiﬁcadores n = 12, seriam 4095 possibilidades. Outra forma, visto que o espaço de busca é grande, poderia ser a utilização de algoritmos que otimizam a busca, como os Algoritmos Evolucionários. Ressalta-se que, além do desempenho em termos de acurácia, é interessante que se obtenha também uma combinação com um conjunto menor de classiﬁcadores. Dada a característica do problema, em que se busca, por um lado, maximizar a precisão e, por outro, minimizar o número de classiﬁcadores, uma possível solução é usar um AGM (dos Santos et al., 2006).

Cap´ıtulo 3

Fundamentação Teórica

Este capítulo apresenta os conceitos e fundamentos dos algoritmos e métodos utilizados na abordagem proposta neste trabalho. São detalhados algoritmos de aprendizagem de máquina tradicionais como KNN, SVM e MLP. Conceitos relacionados à Combinação de Classiﬁcadores são apresentados. São mostradas, também, duas formas de tratar problemas de otimização: Programação Linear e Otimização Multiobjetivo.

3.1 Algoritmos de Aprendizagem de Máquina

Aprendizagem de Máquina (AM) é um campo de pesquisa da Inteligência Artiﬁcial so- bre o qual existe uma vasta literatura (Alpaydin, 2010; Bishop, 2006; Duda et al., 1995; Mitchell, 1997; Scholkopf and Smola, 2001; Theodoridis and Koutroumbas, 2003). Algo- ritmos de AM são métodos capazes, entre outras habilidades, de extrair conhecimento a partir de amostras de dados e, em geral, são utilizados de modo a gerar classiﬁcadores para um conjunto de amostras. Por classiﬁcação entende-se o processo de atribuir, a uma determinada informação, o rótulo da classe a qual ela pertence (Russell and Norvig, 2003). Com isso em vista, as técnicas de AM visam induzir, a partir de um conjunto de treinamento, um classiﬁcador que deve ser capaz de prever a classe de quaisquer amostras do domínio em que ele foi treinado. Nesta seção serão apresentados os concei- tos básicos de três algoritmos de aprendizagem bem conhecidos na literatura que serão utilizados neste trabalho: KNN, MLP e SVM.

3. FUNDAMENTAÇÃO TEÓRICA

3.1.1 K-Nearest Neighbor (KNN)

O algoritmo KNN (Cover and Hart, 1967) classiﬁca novas amostras de acordo com as

K amostras do conjunto de treinamento mais próximas a essas novas amostras. O KNN

usa uma medida de distância para deﬁnir a semelhança (proximidade) de uma amostra com outra, o que pode ser aplicado aos pixels (amostras) de imagens hiperespectrais, que estão em algum espaço de característica (Duda et al., 1995; Mitchell, 1997). Dado um conjunto de n pares {(x1, θ1) ,...,(xn, θn)}, em que xi toma valores de um espaço X, e θi

toma valores de um conjunto 1, 2, ..., M. Considera-se cada θicomo o índice da categoria

a que pertence o i-ésimo indivíduo, e cada xi o resultado de um conjunto de medições

feitas sobre aquele indivíduo. Se é dado um novo par (x, θ), no qual apenas o valor de x é conhecido e deseja-se estimar θ a partir do conjunto de pontos classiﬁcados corretamente,

x′n ∈ {x1, x2, ..., xn} é o vizinho mais próximo de x se min d(xi, x) = d(x

′

n, x), com

i= 1, 2, ..., n. A regra vizinho mais próximo decide que x pertence à categoria θ′

n de seu

vizinho mais próximo x′

n (Cover and Hart, 1967). A distância d é determinada por uma

métrica de similaridade, geralmente a distância Euclidiana. Apesar de sua simplicidade, o KNN apresenta um bom desempenho, mas possui algumas desvantagens (Mitchell, 1997) como alto custo computacional para calcular a distância entre a nova amostra e todas outras do conjunto de treinamento; baixa precisão em espaços de características muito elevados e diﬁculdade em se deﬁnir o melhor valor do parâmetro K.

3.1.2 Multilayer Perceptron Neural Network (MLP)

Uma Rede Neuronal Artiﬁcial (RNA) de múltiplas camadas, ou MLP, é composta por um conjunto de nós fonte os quais representam a camada de entrada ( input layer), uma ou mais camadas escondidas ( hidden layer), e uma camada de saída ( output

layer) (Duda et al., 1995; Mitchell, 1997). MLP é uma generalização da RNA Percep-

tron comum (Mitchell, 1997), e ao contrário desta, é capaz de aprender funções não lineares. Cada neurônio escondido utiliza uma função de transferência para mapear o espaço de entrada, então, outras camadas podem aprender as características mapeadas como simples discriminantes lineares. Padrões não lineares são aprendidos como linea- res e o resultado é que regiões no espaço de características são associadas à uma classe especíﬁca. Assim, uma nova amostra pode ser rotulada de acordo com a região à qual pertence. À medida que mais camadas são acrescentadas à MLP, maior a interação neuronal proporcionada, e melhores separações podem ser feitas no espaço de caracte- rísticas. Desta forma, a MLP pode construir variados limites de decisões no espaço de

3. FUNDAMENTAÇÃO TEÓRICA

características, determinando diferentes categorias (Duda et al., 1995). Na construção de uma MLP existem alguns aspectos que devem receber atenção especial como a es- colha do tipo de função de transferência, o número de camadas escondidas e neurônios em cada camada, que determinam a complexidade da RNA e devem ser especiﬁcados de acordo com o problema a ser tratado.

3.1.3 Support Vector Machines(SVM)

No algoritmo de aprendizado SVM, a classiﬁcação se baseia na separação das classes através de margens (Alpaydin, 2010). Assim, o objeto de busca do treinamento do SVM consiste em encontrar um hiperplano separador ótimo, ou seja, aquele em que a distân- cia de separação entre as margens de cada classe são máximas. As amostras que estão situadas sobre as margens são as mais informativas para a criação do limite de decisão da classiﬁcação e são chamadas de vetores suporte (Alpaydin, 2010; Duda et al., 1995; Scholkopf and Smola, 2001). Uma característica interessante do SVM é a função de ker-

nel que tem a ﬁnalidade de projetar os vetores de características (amostras) de entrada

em um espaço de características maior no qual se consegue tratar problemas que se encontram em espaços não linearmente separáveis (Scholkopf and Smola, 2001). À me- dida que o espaço da dimensão do problema aumenta, aumenta também a probabilidade desse problema se tornar linearmente separável. Além disso, a habilidade de separar dados com distribuição não linear depende da escolha da função kernel, e que deve ser analisada de acordo com o domínio do problema (Alpaydin, 2010; Duda et al., 1995; Scholkopf and Smola, 2001). Os kernels mais usados são: Linear, Polynomial e RBF.

Belgede ONUR SÖZÜ (sayfa 114-122)