DüĢey Trafik ĠĢaretlemelerinin Performans Değerleri

TOPLAM ÖLÜMLÜ YARALANMALI ÖLÜ YARALI

6. DOLMABAHÇE TÜNEL BAĞLANTILARI ÖRNEĞĠ

6.3 Uygulanan Trafik ĠĢaretlemelerinin Performans Değerleri

6.3.2. DüĢey Trafik ĠĢaretlemelerinin Performans Değerleri

A extra¸c˜ao e sele¸c˜ao de caracter´ısticas ´e um passo muito importante para o processo de reconhecimento. A tarefa b´asica da extra¸c˜ao e sele¸c˜ao de caracter´ısticas ´e encon- trar um grupo de caracter´ısticas importantes, as quais devem representar da melhor forma poss´ıvel a imagem em quest˜ao para utiliza-las durante a etapa da classifica¸c˜ao. A continua¸c˜ao definiremos os descritores usados em nosso modelo.

3.3.1 Scale-Invariant Feature Transform (SIFT)

Um dos m´etodos para extrair pontos invariantes, amplamente utilizado na literatura ´e o algoritmo SIFT (Scale-Invariant Feature Transform). SIFT ´e um m´etodo proposto por Lowe (1999) utilizado em vis˜ao computacional para detectar e descrever caracter´ısticas locais em imagens. SIFT extrai caracter´ısticas invariantes `a escala, rota¸c˜ao e, em certa medida, invariantes `a mudan¸ca de ilumina¸c˜ao e as diferentes vistas de um objeto ou de uma cena, gerando caracter´ısticas com uma elevada probabilidade de ser casadas corretamente.

Cada um dos dados extra´ıdos ´e considerado uma caracter´ıstica da imagem o qual ´e descrito mediante sua posi¸c˜ao, escala, orienta¸c˜ao e seu vetor descritivo (normalmente com um tamanho de 128). SIFT tem sido usado em muitas aplica¸c˜oes, tais como o reco- nhecimento de objetos, modelagem 3D, reconhecimento de gestos, mapeamento rob´otico, rastreamento em v´ıdeos e na identifica¸c˜ao de pessoas (Lowe 2004). As t´ecnicas anterio- res ao SIFT eram mais focadas ao fator de escala sem dar muita importˆancia ao custo

computacional. Com a apari¸c˜ao do SIFT, este minimizou o custo de extrair as carac- ter´ısticas usando uma abordagem de filtragem em cascata, aplicando opera¸c˜oes custosas somente nos pontos locais que passam um teste inicial.

O algoritmo consiste de quatro etapas distintas para extrair as caracter´ısticas de uma imagem:

• Constru¸c˜ao de um espa¸co de escala: O primeiro passo para detectar os pontos de interesse de uma imagem ´e identificar as localiza¸c˜oes e escalas que se repetem continuamente ao usar diferentes vistas do mesmo objeto. Para detectar essas localiza¸c˜oes, procuram-se caracter´ısticas est´aveis em todas as escalas. Para isso, utiliza-se uma fun¸c˜ao continua conhecida como espa¸co de escala. O espa¸co de escala se define como uma fun¸c˜ao L(x, y, σ) obtida depois de aplicar a fun¸c˜ao Gaussiana G(x,y,σ) com a imagem I(x, y), onde

G(x, y, σ) = 1

2πσ2e

−(x2_+y2_)/2σ2

. (3.1)

Para que a detec¸c˜ao dos pontos seja eficaz, o algoritmo utiliza a diferencia de Gaussianas (DoG) na imagem. Essa diferencia pode ser obtida das diferencias entre duas escalas vizinhas separadas pelo um fator K constante. A Figura 3.12, mostra um exemplo do exposto anteriormente. A fun¸c˜ao de detec¸c˜ao ´e determinada da seguinte forma:

D(x, y, σ) = (G(x, y, kσ) − G(x, y, σ)) ∗ I(x, y) = L(x, y, kσ) − L(x, y, σ). (3.2)

• Localiza¸c˜ao dos pontos de interesse: de todos os pontos encontrados anteriormente, ter˜ao que ser eliminados aqueles que s˜ao menos relevantes de modo que, para cada ponto, ´e aplicado um modelo para conhecer sua localiza¸c˜ao e escala. Para encontrar os m´aximos e m´ınimos locais de D(x, y, σ), cada ponto ´e comparado com seus oito pixels vizinhos e com os vizinhos das imagens de acima e de abaixo, fazendo um total de 26 vizinhos (Figura 3.13). O pixel atual e marcado como ”ponto de interesse”se ele ´e maior ou menor a todos seus 26 vizinhos. Esses pontos de interesse ser˜ao candidatos para pontos caracter´ısticos. O seguinte passo ´e eliminar os pontos com menor contraste (sens´ıveis ao ru´ıdo) e por tanto inst´aveis

Referencial Te´orico 29

Figura 3.12: Representa¸c˜ao de uma pirˆamide de diferencias de Gaussianas (DoG) apli- cadas em diferentes escalas para uma imagem.

em imagens com baixa resolu¸c˜ao. Para isso, s˜ao descartados os pontos extremos mediante uma limiariza¸c˜ao.

Figura 3.13: Compara¸c˜ao do pixel com seus oito vizinhos e os nove vizinhos das escalas superior e inferior.

Como a fun¸c˜ao diferencia de Gaussianas (DoG) retorna muitos pontos de interesse nas bordas e esquinas dos objetos, eles s˜ao eliminados para manter a estabilidade dos pontos. Para isso, s˜ao calculadas duas gradientes no ponto de interesse. Ambas perpendiculares entre si. A imagem em torno do ponto de interesse pode ser: 1. Uma regi˜ao plana, se os dois gradientes s˜ao pequenos. 2. Uma borda, se um gradiente ´e grande e o outro ´e pequeno. 3. Uma quina, se ambos os gradientes s˜ao grandes. As quinas s˜ao ´otimas candidatas para serem pontos de interesse, portanto, valores elevados de gradientes s˜ao procurados, sendo rejeitados aqueles pontos de interesse que n˜ao possuem essa caracter´ıstica.

tos sens´ıveis ao ru´ıdo, os que est˜ao localizados nas bordas dos objetos, ´e atribu´ıda uma orienta¸c˜ao para cada ponto caracter´ıstico.

Para cada imagem L(x, y) com uma determinada escala, calcula-se a magnitude do gradiente m(x, y) e a orienta¸c˜ao θ(x, y) usando as diferen¸cas entres pixels:

m(x, y) =p(L(x + 1, y) − L(x − 1, y))2_{+ (L(x, y + 1) − L(x, y − 1))}2_, _(3.3)

θ(x, y) = arctanL(x, y + 1) − L(x, y − 1)

L(x + 1, y) − L(x − 1, y). (3.4)

• Calculo do descritor dos pontos de interesse: Depois de obter para cada ponto de interesse uma localiza¸c˜ao, orienta¸c˜ao e escala. O seguinte passo ser´a calcular um descritor para as regi˜oes locais da imagem. Para obter o descritor de cada ponto, calculam-se as magnitudes e orienta¸c˜oes dos vizinhos do ponto. Depois disso, para garantir a invariˆancia a orienta¸c˜ao, as coordenadas do descritor e as orienta¸c˜oes do gradiente s˜ao rodados em rela¸c˜ao `a orienta¸c˜ao extra´ıda anteriormente.

Todo esse processo, da como resultado, uma serie de pontos caracter´ısticos esparsos, cada um deles com um descritor final de 128 componentes, os quais s˜ao invariantes `a transla¸c˜ao, escala, orienta¸c˜ao e parcialmente `a mudan¸cas de ilumina¸c˜ao.

3.3.2 Bag-of-Visual-Words

Bag-of-Visual-Words (BoW) ´e um m´etodo amplamente utilizado na ´area de recupera¸c˜ao

de informa¸c˜ao na parte de categoriza¸c˜ao de textos. Nesta categoriza¸c˜ao, o documento ´e tratado como um histograma onde o n´umero de ocorrˆencias de cada palavra ´e contado (Mukherjee et al. 2014). Na vis˜ao computacional, um conceito semelhante ´e utilizado, onde uma imagem ´e representada por um histograma que conta o n´umero de ocorrˆencias de certas caracter´ısticas multidimensionais (pontos SIFT, numero de quinas, cores, etc). Sivic and Zisserman (2003) usaram por primeira vez o modelo Bag-of-Visual-Words para recupera¸c˜ao de v´ıdeo (Video Retrieval ). Devido a sua efic´acia e eficiˆencia, tornou-se muito popular nas ´areas de recupera¸c˜ao de imagens e categoriza¸c˜ao. No modelo BoW, uma imagem de consulta ´e procurada pela frequˆencia de ocorrˆencias de palavras visuais

Referencial Te´orico 31

que pertencem a um conjunto de vetores de caracter´ısticas chamado vocabul´ario visual ou codebook.

Para implementar o modelo BoW aplicado em vis˜ao computacional requerem-se as se- guintes etapas: identifica¸c˜ao das caracter´ısticas, gera¸c˜ao do vocabul´ario visual e gera¸c˜ao do histograma de palavras visuais.

• Identifica¸c˜ao de caracter´ısticas: antes de gerar o vocabul´ario visual, ´e preciso ex- trair uma s´erie de caracter´ısticas de baixo n´ıvel de todas as imagens. Essas ca- racter´ısticas tamb´em chamadas de pontos caracter´ısticos ou pontos de interesse caracterizam as imagens. Os detectores dos pontos de interesse tentam encontrar caracter´ısticas como bordas, quinas, cor,etc. Ap´os a detec¸c˜ao das caracter´ısticas, cada imagem ´e representada por meio de suas caracter´ısticas locais. Os m´etodos de representa¸c˜ao, descrevem essas caracter´ısticas como vetores num´ericos, chamados descritores de caracter´ısticas. O descritor deve ter a capacidade de lidar com: a intensidade, rota¸c˜ao, escala e outras varia¸c˜oes. Entre os descritores locais, temos, por exemplo, o SIFT e SURF (Speeded Up Robust Features).

• Gera¸c˜ao do vocabul´ario visual : Uma vez caracterizadas todas as imagens, ´e gerado o denominado dicion´ario ou vocabul´ario visual das caracter´ısticas. Este voca- bul´ario ´e chamado de codebook e serve para descrever as imagens usando o mesmo n´umero de caracter´ısticas, agrupando-as em um mesmo grupo chamado “cluster”. Cada elemento que representa a cada grupo ´e de chamado de codeword. A cons- tru¸c˜ao de um codebook pode ser feito de v´arias maneiras. Tipicamente, os m´etodos mais comumente usados para a gera¸c˜ao de clusters s˜ao algoritmos de agrupamento como o K-means.

• Gera¸c˜ao do histograma de palavras visuais: Ap´os da gera¸c˜ao do vocabul´ario vi- sual, um histograma de palavras visuais e criado contando as ocorrˆencias de cada

codeword. Essas ocorrˆencias s˜ao organizadas em um vetor. Onde cada vetor re-

presenta as caracter´ısticas para uma imagem.

Na Figura 3.14 ´e apresentada uma representa¸c˜ao geral do funcionamento do modelo

Figura 3.14: Representa¸c˜ao do funcionamento do modelo Bag-of-Visual-Words (BoW).

Belgede T.C. BALIKESĠR ÜNĠVERSĠTESĠ FEN BĠLĠMLERĠ ENSTĠTÜSÜ ĠNġAAT MÜHENDĠSLĠĞĠ ANABĠLĠM DALI (sayfa 106-124)