na atualiza¸c˜ao de um classificador. A id´eia de atualiza¸c˜ao, baseada numa descri¸c˜ao em diagramas de conjuntos, ´e exemplificada por Russell e Norvig (2003) e apresentada na fig. 4.1. Uma hip´otese h ajustada aos exemplos existentes ´e completa e consistente (fig. 4.1a). Na fig. 4.1b, aparece um novo exemplo, cujos atributos permitem a classifica¸c˜ao em h. A hip´otese ´e generalizada para recuperar sua completeza (fig. 4.1c). Em seguida, um novo exemplo negativo aparece no espa¸co definido por h, mas n˜ao ´e consistente com ela (fig. 4.1d). A hip´otese ´e novamente atualizada para manter sua consistˆencia (fig. 4.1e). Esta ´
ultima atualiza¸c˜ao agora ´e denominada especializa¸c˜ao.
Adaptado de Russell e Norvig (2003).
Figura 4.1: Atualiza¸c˜ao das hip´oteses. a) Consistente. b) Aparece um falso negativo. c) Generaliza¸c˜ao. d) Aparece um falso positivo. e) Especializa¸c˜ao.
Aprendizado incremental. Conforme a disponibilidade dos exemplos de treina- mento, os algoritmos de aprendizado indutivo podem ser classificados em:
1. incremental, onde a hip´otese gerada por indu¸c˜ao ´e revisada sempre em resposta a cada novo exemplo apresentado. O conhecimento pode ser atualizado de forma flex´ıvel, pois ´e mais eficiente revisar uma hip´otese do que construir uma nova, cada vez que um novo exemplo ´e observado (UTGOFF, 1989);
2. n˜ao-incremental. Todos os exemplos de treinamento devem estar dispon´ıveis. Este tipo de algoritmo ´e mais indicado para hip´oteses com grande possibilidade de serem est´aticas, ou quando a hip´otese a ser formulada requer um n´umero n˜ao muito grande de instˆancias.
4.2
Paradigmas de aprendizado
Esta se¸c˜ao refere-se aos modelos gerais de intera¸c˜ao do classificador com o ambiente, `a medida em que evolui. Os paradigmas de aprendizado, tamb´em denominados tipos de
resposta do aprendizado, s˜ao discriminados em trˆes casos (HAYKIN, 1999) e (RUSSELL; NORVIG, 2003): supervisionado, n˜ao-supervisionado e por refor¸co.
Enquanto que Russell e Norvig (2003) situam os trˆes casos citados em categorias distintas, Haykin (1999) usa a denomina¸c˜ao aprendizado sem professor para englobar o aprendizado n˜ao-supervisionado e o aprendizado por refor¸co, no sentido de que n˜ao h´a exemplos de treinamento rotulados para definir o alcance das classes.
4.2.1
Supervisionado
No paradigma supervisionado (ou orientado, ou “com professor”), o classificador aprende uma fun¸c˜ao de entrada e sa´ıda, a partir dos exemplos. Como j´a mencionado no cap´ıtulo 2, a classifica¸c˜ao ´e uma forma discreta de regress˜ao ou ajuste. Uma entidade externa, denominada professor ou supervisor, possui o conhecimento sobre o ambiente e fornece os atributos de cada exemplo e a respectiva classe de sa´ıda correta. Normalmente, es- tes exemplos s˜ao rotulados como positivos (ou exemplos propriamente ditos) e negativos (ou contra-exemplos). Este r´otulo refere-se ao conceito a ser aprendido. O supervisor supervisiona a resposta do sistema, comparando-a com a resposta desejada, normalmente atrav´es de uma fun¸c˜ao de erro. Os parˆametros de aprendizado do sistema s˜ao ajustados de forma a minimizar esta fun¸c˜ao. O conjunto dos N exemplos entrada–sa´ıda ´e denominado conjunto de treinamento, da forma:
{(xik, ωi) | 1 6 i 6 c, 1 6 k 6 N } (4.1)
com a classe ωi a que cada exemplo pertence sendo previamente informada.
Se forem considerados apenas os exemplos positivos, os limites do conceito a ser cons- tru´ıdo ficam sempre em aberto, pelo fato de que um novo exemplo apresentado pode gerar uma nova regra, ou modificar algum parˆametro da fun¸c˜ao de mapeamento no espa¸co de hip´oteses. Os exemplos devem ser escolhidos cuidadosamente, de forma que a constru¸c˜ao do conceito seja mais segura. Se algum conhecimento pr´evio for utilizado, ´e poss´ıvel li- mitar a expans˜ao no espa¸co de hip´oteses (fig. 4.1). Por outro lado, a utiliza¸c˜ao conjunta de contra-exemplos no treinamento possibilita uma melhor avalia¸c˜ao da consistˆencia do modelo, ajudando a prevenir a superespecializa¸c˜ao.
4.2 Paradigmas de aprendizado 60
4.2.2
N˜ao-supervisionado
O paradigma n˜ao-supervisionado (ou n˜ao-orientado, ou “sem professor”) ´e aquele em que os exemplos n˜ao s˜ao rotulados, e o sistema vai classificando-os de forma natural. Neste caso, os dados de entrada n˜ao s˜ao amostras de treinamento por n˜ao possu´ırem nenhum r´otulo previamente conhecido, nem mesmo se sabe quantas classes podem ser extra´ıdas. Estas classes s˜ao produzidas de acordo com alguma medida de similaridade (sob alguma m´etrica) ou com alguma estrutura inerente aos dados.
Os algoritmos de agrupamentos s˜ao essencialmente do tipo n˜ao-supervisionado, onde o sistema agrupa automaticamente os dados de entrada, at´e que estes grupos fiquem est´aveis em rela¸c˜ao aos dados, por algum processo de avalia¸c˜ao da representa¸c˜ao do ambiente (em rela¸c˜ao ao conceito ou classes em considera¸c˜ao). Estes algoritmos tˆem concep¸c˜oes muito diversas na tarefa de revelar a estrutura dos dados. Fun¸c˜oes de valida¸c˜ao s˜ao empregadas para avaliar a separabilidade e compacta¸c˜ao dos agrupamentos obtidos (cap. 3).
Alguns trabalhos mais recentes (PEDRYCZ; WALETZKY, 1998); (KAYMAK; SETNES, 2002) e (SANCHES, 2003) procuram introduzir supervis˜ao no processo de agrupamento, para indicar o melhor n´umero de grupos, ou para lidar com o problema de grupos muito desiguais, onde ocorre dos maiores englobarem os menores, se a separa¸c˜ao entre eles n˜ao for suficiente.
4.2.3
Aprendizado por refor¸co
´E o paradigma onde um agente aprende por tentativa e erro, interagindo com um am- biente dinˆamico (KAELBLING; LITTMAN; MOORE, 1996). A realimenta¸c˜ao n˜ao ´e feita diretamente por cada instˆancia, como no aprendizado supervisionado, mas atrav´es de uma forma de recompensa e puni¸c˜ao. O agente interage com o ambiente via sensores (estimando o estado corrente) e atuadores (por onde uma a¸c˜ao ´e escolhida e executada). Analogamente a um sistema de controle de malha fechada, a a¸c˜ao executada muda o estado do ambiente, e esta mudan¸ca ´e comunicada por um sinal de refor¸co. Um m´odulo de cr´ıtica converte o sinal de refor¸co recebido do ambiente em um sinal heur´ıstico para a a¸c˜ao (HAYKIN, 1999).
´
E importante destacar que o aprendizado por refor¸co difere do aprendizado supervisi- onado no sentido de que o m´odulo de cr´ıtica desempenha um papel diverso do supervisor, mas tamb´em n˜ao pode ser considerado rigorosamente um paradigma n˜ao-supervisionado. O aprendizado por refor¸co est´a ligado `a observa¸c˜ao seq¨uencial dos dados do ambiente, com
o objetivo de maximizar uma fun¸c˜ao de utilidade acumulada ao longo das a¸c˜oes executa- das pelo aprendiz. Este paradigma est´a mais relacionado com a evolu¸c˜ao do aprendizado do que propriamente com a distribui¸c˜ao dos exemplos.
Mesmo com a natureza incremental do modelo de constru¸c˜ao do classificador aqui apresentado, o aprendizado por refor¸co n˜ao est´a sendo empregado neste trabalho, por ser a fun¸c˜ao “refor¸co”, no caso de classifica¸c˜ao por cores, de dif´ıcil modelagem na pr´atica.