No reconhecimento de padrões estatístico, um padrão é representado por um con- junto de d características (descritores ou atributos) visualizado como um vetor d-dimensio- nal (JAIN et al., 2000). Os conceitos da teoria de decisão estatística são usados para es- tabelecer limites de decisão entre as classes (FRIEDMAN;KANDEL, 1999;YOUGUO et al., 2007). O sistema de reconhecimento opera em dois modos: treinamento (aprendizado) e classificação (teste), conforme mostrado na Figura10.
No modo de treinamento, a extração/seleção de características encontra as carac- terísticas apropriadas para representar os padrões de entrada e o classificador é treinado para dividir o espaço de característica. O feedback permite ao projetista otimizar as estra-
tégias de pré-processamento e extração/seleção das características. No modo de classifica- ção, o classificador treinado determina ao padrão de entrada uma das classes baseando-se nas características medidas.
Medida de Característica Aprendizado Classificação Extração / Seleção de Característica Pré- Processamento Pré- Processamento Classificação Treinamento padrão teste padrão treinamento
Figura 10: Modelo para reconhecimento de padrões estatístico operando em dois mo- dos, treinamento e classificação, cujo feedback permite a otimização das etapas iniciais (JAIN et al.,2000).
O processo de tomada de decisão em reconhecimento de padrões pode ser resumido como: um dado padrão é determinado a uma das c categorias, ω1, ω2, . . . , ωc, baseado em um vetor de d valores de características x = (x1, x2, . . . , xd). As características são assumidas para ter uma densidade de probabilidade ou função de massa (dependendo se as caracte- rísticas são contínuas ou discretas) condicionada na classe. Portanto, um vetor de padrões x pertencente a classe ωi é visualizado como uma observação obtida randomicamente da função de probabilidade condicional13 da classe p(x|ω
i). Várias estratégias são utilizadas para projetar um classificador em reconhecimento de padrões estatístico, dependendo do tipo de informação disponível sobre a densidade condicional da classe.
O rótulo de um padrão de treinamento representa a categoria a qual o padrão per- tence. Em um problema de treinamento não supervisionado, algumas vezes o número de classes deve ser aprendido junto com a estrutura de cada classe. As várias divisões que aparecem em reconhecimento de padrões estatístico são mostradas na estrutura de árvore da Figura 11. Conforme atravessamos a árvore de cima para baixo e da esquerda para direita, menos informação está disponível ao projetista do sistema e, como resultado, a dificuldade de problemas de classificação aumenta.
Abordagens Baseadas na Densidade de Probabilidade Abordagem Geométrica
Paramétrico Não Paramétrico Paramétrico Não Paramétrico
Conhecidas Não Conhecidas
Aprendizado
Supervisionado Aprendizado NãoSupervisionado Teoria de Decisão
Bayesiana
Densidades Condicionais das Classes
Decisão
Ótima “RegrasPlug-in”
Solução de Mistura Definição dos Limites de Decisão Estimação de Densidade Clustering
Figura 11: Divisões do reconhecimento de padrões estatístico representadas em árvore, onde quanto mais abaixo e a direita, menos informação está disponível dificultando o processo de reconhecimento (JAIN et al.,2000).
A abordagem probabilística requer primeiro a estimação de funções de densidade, e então construir as funções discriminantes as quais especificam os limites de decisão. Por outro lado, a abordagem geométrica geralmente constrói diretamente os limites de decisão para otimizar certas suposições nas funções de densidade. As duas abordagens são equivalentes sob algumas suposições nas funções de densidade.
Independente da abordagem utilizada, a mesma deve ser treinada com as amostras de treinamento disponíveis. Como resultado, o desempenho do classificador depende do número de amostras de treinamento disponíveis, assim como dos valores específicos das amostras. O objetivo de se projetar um sistema de reconhecimento é classificar futuras amostras de testes que provavelmente são diferentes das amostras de treinamento.
Para se projetar um classificador em reconhecimento de padrões estatístico podem ser utilizadas várias estratégias, dependendo do tipo de informação disponível sobre as densidades condicionais das classes. Usa-se, por exemplo, a teoria de decisão Bayesiana quando todas as densidades condicionais forem completamente especificadas. O problema
de decisão paramétrico é usado quando a forma das densidades condicionais é conhecida, porém alguns parâmetros destas densidades não são (FRIEDMAN;KANDEL,1999). Dentre as técnicas paramétricas tem-se o classificador “Plug-in”, que é uma estratégia que subs- titui os parâmetros não conhecidos das funções de densidade por seus valores estimados e a estratégia ótima que requer uma informação adicional na forma de uma distribuição a priori nos parâmetros desconhecidos. O modo não paramétrico é usado quando a forma das densidades condicionais das classes não é conhecida, neste caso, é necessário estimar a função de densidade (abordagem das janelas de Parzen) ou construir diretamente o limite de decisão baseado nos dados de treinamento.
3.2.1 Aprendizado Supervisionado Paramétrico
Na realidade, em um problema de reconhecimento de padrões, raramente a es- trutura probabilística é completamente conhecida, geralmente temos algum conhecimento vago sobre a situação, junto com um número de amostras de projeto ou dados de treina- mento. O problema então é encontrar algum modo de usar esta informação para projetar e treinar o classificador. Uma abordagem é usar amostras para estimar as probabilidades e densidades de probabilidade, e usar os resultados estimados como se fossem os valores reais.
Os dois métodos mais comuns para se fazer esta estimação são: Estimação de Má- xima Verossimilhança e Estimação de Bayes (FUKUNAGA,1990). Apesar dos dois métodos resultarem em valores bem próximos, eles são conceitualmente diferentes. Enquanto a es- timação de máxima verossimilhança vê os parâmetros como quantidades de valores fixos, porém desconhecidos, obtendo como melhor estimativa aquela que maximiza a probabi- lidade de obtenção das amostras, a estimação de Bayes vê os parâmetros como variáveis aleatórias com algumas distribuições a priori conhecidas, onde a observação das amostras converte para densidade a posteriori.
3.2.2 Aprendizado Supervisionado Não Paramétrico
Como nas aplicações de reconhecimento de padrões é suspeita a suposição de que a forma das funções de densidade são conhecidas, os métodos paramétricos raramente se ajustam às densidades de fato encontradas na prática.
Alguns dos métodos não paramétricos são a Estimação de Densidade, Janelas de Parzen e Estimação dos k-vizinhos mais próximos (DUDA et al.,2000).
3.2.3 Aprendizado Não Supervisionado
É aquele que tem um conjunto de amostras não rotuladas, ou seja, sem um co- nhecimento prévio das categorias de cada amostra. Os métodos para associar um dado agrupamento a cada padrão seguem algum critério de similaridade e são dependentes do algoritmo empregado, dos dados utilizados e da medida de similaridade adotada.
Existem duas abordagens para este tipo de aprendizado, a paramétrica e a não paramétrica. Na abordagem paramétrica, são definidos critérios de agrupamento e de- terminadas amostras são classificadas a um número de agrupamentos para otimizar os critérios. Os critérios mais comuns são as medidas de separabilidade de classe, onde a tarefa que maximiza a medida de separabilidade da classe é considerada como o melhor resultado de agrupamento. Nesta abordagem, a estrutura (forma paramétrica) do limite de classificação é determinada pelo critério. Um algoritmo iterativo determina eficientemente a melhor classificação a respeito do critério. Como outra abordagem paramétrica tem-se uma forma matemática assumida para a distribuição dos dados.
Agora as abordagens não paramétricas não assumem para a distribuição critérios de agrupamento ou formas matemáticas. Neste caso as amostras são separadas de acordo com o vale, que pode ser considerado como o limite natural que separa os modelos de distribuição, da função de densidade.
Como exemplos de algoritmos para aprendizado não supervisionado paramétrico têm-se General Clustering Algorithm, Nearest Mean Reclassification Algorithm e Normal De- composition, e para os casos não paramétricos tem-se Estimation of Density Gradient e Clustering Algorithm.