ANLAMLA İLGİLİ ANLATIM BOZUKLUKLARI - u Dil Bilgisiyle İlgili Anlatım Bozuklukları

u Dil Bilgisiyle İlgili Anlatım Bozuklukları

1. ANLAMLA İLGİLİ ANLATIM BOZUKLUKLARI

A principal vantagem das transformadas Contourlet e Curvelet em rela¸c˜ao `a transformada Wavelet diz respeito a capacidade de representar contornos. Com o intuito de ilustrar esta vantagem foi escolhida uma imagem e aplicado as trˆes transformadas. O resultado obtido ´e apresentado na Figura 19.

Analisando a Figura 19 pode-se verificar que a transformada Curvelet foi a que conseguiu representar a maior quantidade de contornos da imagem. Isso foi obtido pela forma com que o espa¸co de frequˆencia ´e analisado, o que garante uma maior capacidade de representa¸c˜ao das regi˜oes de alta frequˆencia, as quais geralmente est˜ao relacionadas a contornos ou a pontos de varia¸c˜ao de ilumina¸c˜ao. J´a a transformada Contourlet conseguiu representar uma boa quantidade dos contornos da imagem original, por´em acaba perdendo alguns outros detalhes, principalmente no que diz respeito `a varia¸c˜ao da ilumina¸c˜ao.

A transformada Wavelet, como discutido anteriormente, ´e a que apresenta a maior dificuldade na localiza¸c˜ao dos contornos, visto que a forma de an´alise do espa¸co de frequˆencia fica restrita apenas `as dire¸c˜oes horizontal, vertical e diagonal. Isto prejudica a an´alise dos contornos que aparecem em outras dire¸c˜oes no espa¸co de frequˆencia.

Figura 19 – Resultado usando detec¸c˜ao de contornos com diferentes transformadas. Ima- gem reconstru´ıda apenas com os coeficientes de detalhes.

4 Classificadores

Para que o sistema biom´etrico possa realizar o reconhecimento/identifica¸c˜ao de um determinado usu´ario ´e necess´ario definir uma t´ecnica de reconhecimento de padr˜oes respons´avel para compor o m´odulo de compara¸c˜ao. Dentre as t´ecnicas de reconhecimento de padr˜oes destacam-se as m´aquinas de Kernel.

Recentemente, um novo tipo de metodologia de aprendizado, que apresenta carac- ter´ısticas operacionais semelhantes aos modelos neurais, mas que implementa conceitos te´oricos da ´area de aprendizado estat´ıstico, vem ganhando bastante notoriedade, haja vista os ganhos propiciados em termos de acuidade e generaliza¸c˜ao (HASTIE; TIBSHIRANI; FRIEDMAN, 2009; M ¨ULLER et al.,2001; M¨uLLER et al.,2001; SHAWE-TAYLOR; CRISTIANINI,

2004; VAPNIK, 1995).

As m´aquinas de aprendizado induzidas por essa metodologia, denominadas m´aquinas de Kernel, se distinguem dos modelos conexionistas em alguns aspectos fundamentais. Por exemplo, em vez de seguirem o princ´ıpio de minimiza¸c˜ao do risco emp´ırico, m´aquinas de Kernel s˜ao concordantes com o princ´ıpio de minimiza¸c˜ao do risco estrutural, que procura minimizar um limitante superior do erro de generaliza¸c˜ao no lugar de otimizar somente o erro de treinamento.

O princ´ıpio de minimiza¸c˜ao do risco estrutural apoia-se na hip´otese de que a taxa de erro de uma m´aquina de aprendizado sobre o conjunto de teste (i.e., o erro de generaliza¸c˜ao) seja limitada pela soma entre o erro de treinamento e um termo de intervalo de confian¸ca dependente da dimens˜ao de Vapnik-Chervonenkis (dimens˜ao VC) (CRISTIANINI; SHAWE-TAYLOR, 2000; VAPNIK,1995), esta indica o grau de complexidade

da m´aquina resultante. ´E com base nesse princ´ıpio que uma dada instˆancia de m´aquina de Kernel consegue produzir uma estrutura otimizada de rede, mesmo n˜ao incorporando nenhuma informa¸c˜ao acerca do dom´ınio do problema-alvo.

Outro m´erito exibido por essa nova metodologia de Aprendizado de M´aquina ´e que o treinamento de estimadores se resume `a resolu¸c˜ao de um problema de programa¸c˜ao quadr´atica com restri¸c˜oes lineares. Isso representa um grande avan¸co frente a algoritmos convencionais de treinamento de RNAs (tais como o algoritmo backpropagation (HAYKIN, 2009), que emprega otimiza¸c˜ao n˜ao-linear), j´a que a solu¸c˜ao obtida ´e ´unica, ´otima e n˜ao acometida de m´ınimos locais (CRISTIANINI; SHAWE-TAYLOR, 2000; MOGUERZA; MUN˜oZ, 206). Basicamente, a metodologia de indu¸c˜ao de m´aquinas de Kernel compreende dois

passos seq¨uenciais: (i) mapear n˜ao-linearmente um vetor de entrada para um espa¸co de caracter´ısticas de mais alta dimens˜ao (que seja “escondido” tanto da entrada como da sa´ıda); e (ii) construir um hiperplano ´otimo que separe as caracter´ısticas extra´ıdas no passo anterior. O primeiro passo ´e realizado mediante o emprego de fun¸c˜oes com caracter´ısticas especiais, denominadas fun¸c˜oes Kernel. A tarefa b´asica de tais fun¸c˜oes ´e extrair novas caracter´ısticas de modo computacionalmente eficiente, a fim de se amenizar os problemas relativos `a “maldi¸c˜ao da dimensionalidade” (M ¨ULLER et al., 2001;M¨uLLER et al.,2001).

A efic´acia e eficiˆencia do processo de indu¸c˜ao de m´aquinas de Kernel dependem diretamente da escolha a priori dos valores de alguns parˆametros de controle (conhecidos como hiper-parˆametros), dentre os quais os parˆametros da fun¸c˜ao Kernel e a constante de regulariza¸c˜ao (tradeoff). A calibra¸c˜ao desses hiper-parˆametros n˜ao ´e uma tarefa trivial, sendo geralmente realizada manualmente, embora algumas abordagens vˆem sendo propostas de modo a resolvˆe-la de forma autom´atica (CHAPELLE et al., 2002; CHERKASSKY; MA, 2004).

As m´aquinas de Kernel mais conhecidas s˜ao as M´aquinas de Vetores Suporte (SVM), cujo modelo padr˜ao foi introduzido por Vapnik e colaboradores no in´ıcio da d´ecada 1990 (CORTES; VAPNIK, 1995). A implementa¸c˜ao dessa vers˜ao padr˜ao implica em resolver um problema de programa¸c˜ao quadr´atica que demanda alto custo computacional, com o objetivo de reduzir essa complexidade, foram propostas algumas altera¸c˜oes na formula¸c˜ao original, dentre as quais pode-se citar a M´aquinas de Vetores Suporte baseada em Quadrados M´ınimos (SUYKENS; VANDEWALLE,1999) (realiza o processo de treinamento atrav´es de um sistema linear de equa¸c˜oes), as Smooth Support Vector Machines (LEE; MANGASARIAN, ) (que empregam m´etodos de suaviza¸c˜ao para reformular o aprendizado como um problema de programa¸c˜ao matem´atica sem restri¸c˜oes), as M´aquinas de Vetores Suporte Lagrangeana (MANGASARIAN; MUSICANT, 2001) (que possuem um algoritmo mais simples baseado em uma formula¸c˜ao Lagrangiana impl´ıcita), e as M´aquinas de Vetores Relevantes (TIPPING, 2000) (que empregam uma formula¸c˜ao bayesiana, levando a interpreta¸c˜oes probabil´ısticas da sa´ıda da m´aquina).

Em particular, as M´aquinas de Vetores Suporte Baseada em Quadrados M´ınimos (LS- SVM) vˆem se mostrando atraentes em termos computacionais por empregarem restri¸c˜oes de igualdade em vez de desigualdade e uma fun¸c˜ao-custo baseada em m´ınimos quadrados, como comumente ocorre em redes neurais. Esta formula¸c˜ao simplifica o problema de tal forma que a solu¸c˜ao ´e caracterizada por um sistema linear, mais precisamente um sistema

KKT (Karush-Khun-Tucker) (SUYKENS; VANDEWALLE, 1999), sendo que este sistema pode ser eficientemente solucionado atrav´es de m´etodos iterativos, tais como gradiente conjugado.

Apesar dessas caracter´ısticas atrativas, as LS-SVMs tamb´em tˆem alguns problemas potenciais (GESTEL et al., 2004). O primeiro ´e que a esparsidade da solu¸c˜ao (modelo) ´e geralmente perdida, ou seja, praticamente todos os padr˜oes de entrada passam a contribuir para a gera¸c˜ao do modelo no papel de vetores-suporte. Um segundo problema ´e que o emprego da fun¸c˜ao de soma do erro quadr´atico sem um termo de regulariza¸c˜ao pode conduzir a estimativas menos robustas. Em (GESTEL et al.,2004), tendo em vista a resolu¸c˜ao do segundo problema, Lima et al. (LIMA; COELHO; ZUBEN, 2002a) introduziram o conceito de misturas de especialistas localizadas baseadas em LS-SVMs ponderados.

As m´aquinas de Kernel utilizam uma fun¸c˜ao, chamada de fun¸c˜ao de Kernel denotada por K, que realiza um mapeamento Φ(x)k dos dados originais no espa¸co n-Dimensional para um espa¸co de alta dimensionalidade H, chamado de espa¸co de caracter´ıstica. De acordo com o Teorema de Cover (COVER, 1965) se a dimens˜ao desse novo espa¸co H ´e suficientemente alta, os dados originais podem ser linearmente separ´aveis em H. Alguns exemplos de fun¸c˜oes Kernel podem ser vistas na Tabela 1.

Fun¸c˜ao Kernel Formula¸c˜ao Linear Kt(x, z) = xTz

Polinomial Kp(x, z) = (xTz + 1)p, para p =2 Base Radial (RBF) Krbf(x, z) = exp(−kx−zk

2σ2 ), para σ 2₌₁ Base Radial Exponencial Krbf(x, z) = exp(−

√ kx−zk2

2σ2 ), para σ2=1

Tangente Hiperb´olica Ktgh(x, z) = tanh(α(xTz) − c), para α = 1, c = 0 Tabela 1 – Fun¸c˜oes Kernel mais utilizadas.

Belgede DİL BİLGİSİ (sayfa 38-41)