• Sonuç bulunamadı

3.4 Kişilik Kuramları

3.4.2 Özellik Kuramları

3.4.2.4 Beş Faktör kişilik kuramı

As primeiras investigações que se destacaram na linha de mapeamento de ambi- entes com robôs surgiram no final da década de 1980. Nesta época foram publicados os primeiros trabalhos com resultados relevantes. Com essas primeiras pesquisas aparece- ram vários modelos de mapeamento usando diversas estruturas geométricas e topológicas, com o objetivo de se alcançar a melhor precisão possível na representação do ambiente, considerando a dificuldade de lidar com a alta dimensionalidade dos espaços.

Os pesquisadores propuseram em seus trabalhos formas de representações como, rep- resentação geométrica 3D por esferas [Goldstein et al. 1987], representação poligonal [de Saint Vincent 1987], representação por meio de características como pontos, arestas e cantos [Merat & Wu 1987], modelos geométricos hierárquicos [Kriegman et al. 1987], representação por grade de ocupação [Elfes 1987], representação baseada na topologia do ambiente [Kuipers & Byun 1988], entre outras [Angelopoulou et al. 1992].

Posteriormente, em um artigo descrevendo o estado da arte do mapeamento robótico, Thrun (2002) propôs uma classificação das representações de mapas nas duas classes apresentadas anteriormente: topológica e métrica. De forma simplista, a abordagem topológica engloba todas as representações cujo enfoque é reproduzir mapas na forma de grafo, onde os nós são lugares e a conectividade entre os locais é descrita por suas arestas. E a abordagem métrica passou a compreender as representações que presam em armazenar propriedades geométricas do ambiente.

Uma forma mais recente de representar ambientes é através do uso de informações semânticas que podem ser extraídas dos mapas. É possível, por exemplo, obter uma classificação dos obstáculos mapeados (cadeiras, mesas, portas abertas ou fechadas, etc.) através de técnicas semânticas [Wolf & Sukhatme 2008].

A tarefa de mapeamento se estende a distintos ambientes. Os robôs podem ser utiliza- dos para mapear ambientes internos (indoor), ambientes externos (outdoor), ambientes subterrâneos e ambientes subaquáticos. No trabalho de Santana & Medeiros (2009), eles aproveitaram o fato de que muitos ambientes internos tem o piso formado por blocos,

2.3. TIPOS DE REPRESENTAÇÕES 21

para implementar um sistema de mapeamento de linhas no plano do piso do ambiente, sabendo-se que os espaços entre os bloco acabam originando linhas. Gallelos & Rives (2010), por sua vez, utilizaram um robô equipado de diferentes sensores para mapear am- bientes internos e construíram uma representação 3D do ambiente mapeado. Passando para ambientes externos, Yang & Wang (2011) apresentaram uma abordagem de mapear ambientes urbanos considerando a existência de objetos estáticos e dinâmicos. Eles exibi- ram os resultados de seus estudos em mapas baseados em grades de ocupação. Silver et al. (2004) utilizaram um robô para mapear e explorar minas subterrâneas, atividade essa, que pode apresentar riscos a seres humanos. Johannsson et al. (2010), por sua vez apresen- taram um robô submarino que detecta características a partir de imagens de sonares para construir um mapa que é posteriormente utilizado em vigilância submarina. Esses são alguns exemplos de trabalhos que mostram a diversificação de ambientes que podem ser mapeados utilizando-se diferentes técnicas de mapeamento.

Para que um sistema robótico tenha sucesso em seu mapeamento é interessante que possua sensores que capturem informações do seu entorno, com certas características desejáveis: campo de visão amplo, acurácia, dados de fácil interpretação, baixo consumo de energia, tamanho e peso reduzidos, entre outras. Distintos tipos de sensores podem ser utilizados, porém os de maior destaque são os sonares, os scanners lasers e as câmeras.

Os sonares são sensores atrativos pelo seu baixo custo, entretanto possuem proprieda- des que os tornam sensores em desuso. Muitas medições são imprecisas por serem afe- tadas por problemas de falsas reflexões das ondas sonoras em superfícies planas. Um recente trabalho que se utiliza de sonares para extrair características de ambientes desor- denados foi apresentado por [Lee & Son 2010].

Uma interessante alternativa para a construção de mapas densos são os scanners lasers, esses são sensores bastante precisos, eficientes e fornecem informações de fácil interpre- tação e que não necessitam de processamento complexo. Porém, esses sensores não são hábeis no tratamento de superfícies de vidro. Ademais, são sensores que apresentam um alto custo monetário. Ruhnke et al. (2011) implementaram um algoritmo de mapeamento de alta precisão baseado em informações de sensores lasers. Eles propuseram a aplicação de técnicas de otimização para melhorar as estimativas da pose do robô e das medições sensoriais, a fim de obter um mapa mais acurado do ambiente.

As câmeras vêm ganhando destaque nos trabalhos relacionados a mapeamento de am- bientes e navegação com robôs, por serem dispositivos que podem prover uma grande quantidade de informações sobre o ambiente no qual estão inseridas. Além disso, são compactas, leves e podem ser encontradas com custo moderado. Seja com um sistema de múltiplas câmeras, como os sistemas de visão estéreo e sistemas de câmeras omnidi- recionais, ou com sistemas monoculares, são inúmeras as possibilidades de técnicas para geração de mapas a partir das câmeras, que dependem do tratamento dado às imagens.

O grande desafio encontrado está no processamento das informações em tempo real, porém este problema vem sendo amenizado com o desenvolvimento de processadores mais poderosos e de baixo custo. Um interessante trabalho com base em um sistema de visão foi desenvolvido por Marks et al. (2009). Os autores desenvolveram um mapea- mento em grade para ambientes não estruturados com um robô munido de uma câmera estéreo. O mapa em grade é preenchido com os resultados computados por um modelo

sensorial probabilístico que adota a função Gama em seu cerne. Ao final,o mapa adquirido comporta informações sobre o quão navegável é um determinado terreno.

Com frequência se encontra na literatura autores propondo o uso em conjunto de sen- sores distintos. O objetivo principal é fundir as informações de todas as fontes para al- cançar um mapeamento mais rico e eficiente. Gallelos & Rives (2010), por exemplo, utilizam um robô provido de uma câmera omnidirecional e um laser para realizar o ma- peamento de ambientes internos. No trabalho de Ahn et al. (2007), os autores fundiram informações de um sistema de visão estéreo e sonares para coletar informações planares de ambientes internos.

O presente trabalho está no contexto do mapeamento de ambientes com sistema de câmeras estéreo e representação em grade. As câmeras apresentam inúmeras caracterís- ticas que as tornam atraentes para serem aplicadas no mapeamento de ambientes. Essa abordagem de mapeamento utilizando câmeras (monocular, estéreo ou omnidirecional) é também conhecida por mapeamento visual (Visual Mapping), que será tema do próximo capítulo.

Capítulo 3

Mapeamento Visual

Este capítulo contextualiza o problema de mapeamento com sensores visuais, ou seja, a construção de uma representação espacial a partir de imagens. Este procedimento é tam- bém conhecido como mapeamento visual. O capítulo exporá as técnicas de mapeamento visual com diferentes configurações de câmeras. Ademais, alguns pontos importantes serão destacados para explicar quais e como as informações visuais podem extraídas e manipuladas para a construção de mapas robóticos. Semelhantemente ao capítulo anterior, serão apresentados trabalhos correlacionados ao tema, expondo as técnicas e novidades utilizadas mais recentemente.

3.1

Contextualização

Como anteriormente explicitado, a tarefa de mapeamento tem um grande impacto em tarefas que dependem do sistema perceptivo dos robôs como, localização, navegação, ex- ploração, entre outras. Quando este problema é considerado na conjunção dos sensores visuais ou câmeras, passa a ser denominado de mapeamento visual. Neste contexto, as in- formações visuais capturadas são utilizadas para que o robô realize sua tarefa empregando uma navegação visual segura e eficiente, podendo abranger a vigilância de ambientes, resgate em acidentes ou catástrofes, identificação e rastreamento de objetos, exploração aérea, patrulhamento, entre outras.

A inspiração para essa abordagem vem da fisiologia humana. O principal sentido empregado na navegação e localização de uma pessoa entre objetos e obstáculos é o da visão. Do mesmo modo, na robótica um sistema visual artificial construído a partir de câmeras pode ser muito útil na navegação e localização de um robô em seu ambiente.

A grande vantagem de se utilizar um sistema de percepção baseado em sensores vi- suais está na significativa quantidade de informações que podem ser coletadas do entorno do robô. Isso proporciona uma ampla gama de aplicações possíveis para os sistemas robóticos quando o principal meio de percepção externo são câmeras. Além dessa impor- tante questão, as câmeras são compactas, leves, consomem pouca energia, são facilmente integradas ao hardware de um robô, podem ser encontradas no mercado com diferentes preços, tais características as tornam bastante atrativas. Atualmente, até mesmo as pe- quenas câmeras embarcadas em celulares estão sendo utilizadas na navegação (odome- tria visual) de robôs, quando estes utilizam o próprio celular como processador [Aroca

& Gonçalves 2012]. Essas são características que permitem o desenvolvimento de um grande conjunto de funcionalidades essenciais na robótica: detecção de obstáculos, ras- treamento de pessoas, servovisão, etc. [Lemaire et al. 2007].

Quando aplicadas ao mapeamento robótico, o uso das câmeras traz algumas outras vantagens: primeira, os dados são percebidos em um ângulo sólido, o que permite abor- dagens de mapeamento 3D. Segunda, técnicas visuais de estimativa de movimento pode fornecer um resultado muito preciso sobre os movimentos do robô. E por fim, caracterís- ticas muito estáveis podem ser detectadas em diferentes imagens, o que dá a possibilidade de derivar algoritmos que permitam o associação de dados (matching) entre elas mesmo com alterações significativas do ponto de vista [Lemaire et al. 2007].

Um grande desafio relacionado aos sistemas de visão artificial está em como tirar proveito dos sensores visuais com algoritmos confiáveis e eficazes que possam extrair as informações necessárias para a resolução de problemas [Santana 2011]. Muitas pesquisas mais antigas ressaltam a dificuldade de que os sistemas baseados em câmeras necessitam de grandes recursos de processamento para se obter resultados em tempo real. Porém, com os grandes avanços alcançados no desenvolvimento de processadores mais rápidos, se percebe um aumento significativo de pesquisas recentes que utilizam os sistemas vi- suais como fontes de informações sensoriais. O rápido aumento no poder de proces- samento dos computadores faz com que seja possível lidar com uma maior quantidade de informações, permitindo melhor compreensão do ambiente, facilitando a tomada de decisões por parte dos robôs.

3.2

Configurações de Câmeras mais Utilizadas no Ma-

peamento Visual

Os principais sistemas de percepção visual utilizados em robôs móveis são: visão monocular e visão estéreo.

3.2.1

Visão Monocular

Os sistemas de visão monocular utilizam apenas uma câmera para coletar informações do entorno do robô (Figura 3.1). Civera et al. (2008) definem um sistema monocular como um sensor projetivo cujo objetivo é medir o deslocamento das características em uma imagem. Com isso, dada uma sequência de imagens de uma cena, tomadas a partir de uma câmera em movimento, é possível computar a estrutura da cena e o movimento da câmera a menos de um fator de escala. Geralmente as informações 3D são representadas por um conjunto esparso de pontos de interesses ou características detectadas. Ou seja, o uso de sistemas monoculares é mais relevante na construção de mapas de características.

Um dos principais desafios no uso desses sistemas está em dar, inicialmente, estima- tivas corretas de informações tridimensionais de objetos contando apenas com imagens [Piniés et al. 2010]. O problema está em determinar um fator de escala para definir a localização correta dos objetos detectados no mundo. Algumas soluções foram propostas para lidar com essa problemática. Uma das mais expressivas foi proposta por Civera et al.

3.2. CONFIGURAÇÕES DE CÂMERAS MAIS UTILIZADAS NO MAPEAMENTO VISUAL25

Figura 3.1: Câmeras monoculares.

(2008). Os autores apresentaram uma solução baseada em uma parametrização da profun- didade inversa para representar pontos detectados. Essa informação pode ser incorporada na estimativa dos dados de uma característica, a partir da primeira imagem capturada onde a característica é observada. Para calcular as estimativas os autores utilizaram o FKE (Filtro de Kalman Estendido).

3.2.2

Visão Estéreo

Visão estéreo se refere à habilidade de inferir informações de estruturas 3D e distância à uma cena a partir de duas ou mais imagens tomadas de diferentes pontos de vista. Os sistemas de visão estéreo se baseiam no sistema visual humano. A diferença na localiza- ção da retina esquerda e direita é usada pelo cérebro para reconstruir uma representação 3D do que se vê [Trucco & Verri 1998]. Tendo isso como inspiração, foram desenvolvi- dos os sistemas de visão estéreo artificiais, os quais podem conter duas ou mais câmeras para adquirir informações de estruturas 3D. Alguns sistemas dispõem de várias câmeras arranjadas estrategicamente para capturar imagens em um ângulo de 360 graus, dando uma visão esférica do ambiente, tais câmeras são chamadas de omnidirecionais. A Figura 3.2 abaixo, ilustra alguns desses sistemas de câmeras estéreo.

(a) (b)

Figura 3.2: Câmeras estereoscópicas: (a) câmeras binocular e trinocular; (b) câmera ominidirecional.

Um sistema de visão estéreo provê, de forma direta, medidas de distâncias aos objetos capturados em ambas as imagens. Essa é considerada a principal vantagem desse sistema em relação à visão monocular. O presente trabalho faz uso de um sistema de visão estéreo de baixo custo com duas câmeras para o mapeamento de ambientes. Por esse motivo, a seguir, será explanado todo o processo de visão estéreo responsável pela inferência de informações 3D de estruturas presentes em um ambiente.

3.3

Estereoscopia

Para inferir informações de estruturas 3D a partir de duas imagens tomadas de locais distintos, usando ferramentas computacionais, é preciso considerar a resolução de dois problemas principais. O primeiro é conhecido como problema de correspondência, que consiste em determinar quais pontos capturados na câmera esquerda estão sendo vistos também pela câmera direita. O segundo está relacionado com a reconstrução da cena vista pelas câmeras, dados os pontos identificados no problema anterior e a geometria do sistema estéreo [Trucco & Verri 1998].

Esse processo segue alguns passos importantes: primeiro, calibração das câmeras, o qual possibilita estimar parâmetros internos das câmeras e parâmetros relativos entre câmeras; segundo, retirada de distorções das imagens, efeitos esses que são introduzidos por defeitos de fabricação das lentes; terceiro, retificação das imagens, alinhando-se os planos das imagens e os eixos óticos; e quarto, estimação do mapa de disparidade ou imagem de profundidade. Para entender melhor esses problemas é interessante analisar primeiro a geometria estéreo, usando o modelo de câmera pinhole.

3.3.1

Geometria Estéreo e Reconstrução 3D

Com o auxílio da Figura 3.3 é possível analisar geometricamente como se dá todo o processo de calculo de coordenadas 3D de um objeto a partir de imagens 2D capturadas por duas câmeras. Formulando matematicamente, considere o ponto P no mundo de coor- denadas desconhecidas, o qual é detectado pelas câmeras esquerda e direita de um sistema estéreo. Para simplificação do problema, deve-se ponderar que as câmeras possuem os planos de imagem coplanares e eixos óticos paralelos. Na Figura 3.3, Oe O representam os centros de projeção das câmeras, f é a distância focal das câmeras (distância entre o centro de projeção e o plano de imagem), a distância b entre os centros de projeção O′e

O, é chamada de linha de base. f e b são parâmetros do sistema estéreo que podem ser

inferidos por uma calibração estéreo.

As coordenadas(xlo, ylo) e (xro, yro) representam os pontos pelos quais os eixos óticos

intersectam os planos de imagens em ambas as câmeras. O ponto P é representado pelos pixels de coordenadas (xl, yl) e (xr, yr) nos planos de imagem, ou seja, (xl, yl) e (xr, yr)

são as projeções do ponto P na imagem esquerda e direita respectivamente. Como os planos de imagem são coplanares e os eixo óticos paralelos, então podemos assumir que

yl= yr. E z

3.3. ESTEREOSCOPIA 27 P b f f zc eixo óptico eixo óptico plano da imagem O’ O ) , (0 0 l l y x ) , (0 0 r r y x ) , (xl yl ) , (xr yr

Figura 3.3: Geometria estéreo.

O método pelo qual a posição do ponto P no espaço tridimensional é determinada é chamado de triangulação, o qual considera a intersecção dos raios definidos pelos centros de projeção (Oe O) e as coordenadas de imagem do ponto P ((xl, yl) e (xr, yr)). Porém,

a triangulação depende da solução do problema de correspondência, ou seja, (xl, yl) e (xr, yr) devem classificados por algum método como pontos correspondentes. Posterior-

mente, serão apresentados alguns métodos utilizados para encontrar a correspondência entre pontos de ambos os planos de imagens.

A profundidade zc pode ser encontrada por semelhança de triângulos, como segue na

Equação 3.1. b− (xl− xr) zc− f = b zc (3.1)

Desenvolvendo a Equação 3.1 chega-se a Equação 3.2.

zc=

b. f

(xl− xr) (3.2)

Essa equação mostra que a profundidade zc é inversamente proporcional à diferença ou

disparidade entre as duas vistas, assim a disparidade pode ser definida matematicamente

por d= xl− xr. Modificando a Equação 3.2 tem-se a Equação 3.3.

zc=

b. f

Com essa expressão tem-se a definição de uma das coordenadas do ponto P em relação ao referencial da câmera estéreo, o qual será descrito por Pc. A disparidade é dada pela

solução do problema de correspondência, a qual deve apresentar como resultado final uma imagem bidimensional, também chamada de mapa de disparidade, cujos valores dos pixels d(x, y) descrevem a diferença entre duas imagens [Andert 2009]. Usando o mesmo

raciocínio de triangulação e as informações do mapa de disparidade, pode-se encontrar as coordenadas xc e yc do ponto Pc= (xc, yc, zc)T. As Equações 3.4 e 3.5 expressam essas

relações. xc= zc.(x − x0 ) f (3.4) yc= zc.(y − y0 ) f (3.5)

Nas equações acima (x, y) e (x0, y0) são coordenadas de uma das imagens (esqueda ou

direita). Na prática se limita o valor assumindo valores máximo e mínimo para a distância

zcmin < zc < zcmax, com zcmin > 0 [Andert 2009]. Com as coordenadas do ponto Pc = (xc, yc, zc)T, a matrix de orientação R e o vetor de translação T que mapeiam o sistema de

câmera em coordenadas de mundo, pode-se, agora, calcular as coordenadas de P.

P= RT.Pc+ T (3.6)

Assim, têm-se as coordenadas do ponto P, antes desconhecida, calculadas através dos artifícios da geometria estéreo. Nesse ponto, a etapa de reconstrução 3D é concluída.

3.3.2

Disparidade Estéreo

O termo disparidade foi relacionado primeiro ao sistema preceptivo visual humano para descrever a diferença entre cenas correspondentes enxergadas pelo olho esquerdo e direito [Sharstein & Szeliski 2002]. Trazendo essa definição para o campo da visão com- putacional, a disparidade pode ser entendida como a diferença entre as coordenadas de imagem de um ponto no mundo, capturado pelas câmeras esquerda e direita de um sis- tema estéreo. Alguns pesquisadores têm definido a disparidade como uma transformação projetiva tridimensional do espaço 3D [Sharstein & Szeliski 2002].

Neste trabalho, considera-se o uso de um sistema estéreo cujos planos de imagens são coplanares e os eixos óticos estão alinhados. Essa restrição limita a dedução da dispari- dade para apenas as coordenadas x das imagens (d = xl− xr), podendo ser chamada de

disparidade horizontal. Essa prerrogativa facilita a busca e a identificação dos pixels cor- respondentes(xl, yl) e (xr, yr), fazendo com que seja realizada uma redução no espaço de

busca de 2D para 1D, que será apenas uma linha horizontal, restrita ao eixo x dos planos de imagem esquerdo e direito. Essa consideração é conhecida por restrição epipolar.

Para encontrar os pixels,(xl, yl) e (xr, yr), correspondentes a projeção do ponto P em

ambos os planos de imagens, e gerar um mapa de disparidade existem vários algoritmos. Sharstein & Szeliski (2002) elaboraram um apanhado geral de parte desses algoritmos, fazendo uma análise comparativa entre eles. Em seu trabalho, Hong & Chen (2004)

3.3. ESTEREOSCOPIA 29

classificaram os algoritmos de correspondência estéreo em duas categorias: algoritmos locais (baseados no conceito de janelas) e algoritmos globais (baseados em técnicas de minimização).

Algoritmos Locais

Os algoritmos locais, também chamados de algoritmos de janela variável de pixel (ou

block-macthing), procuram fazer a associação de pixels entre duas imagens de maneira

rápida e com redução de ruído. No momento de realizar uma comparação entre imagens, não só o valor do pixel buscado é levado em consideração e sim, uma janela de pixels vizinhos. A premissa por trás dessa abordagem é que a disparidade entre pixels da mesma janela é aproximadamente igual, isso favorece a redução de ambiguidades na associação dos pixels entre duas imagens. Basicamente este método gera o mapa de disparidade seguindo três passos principais: o primeiro passo tem como função a normalização do brilho das imagens e o realce de textura. O segundo passo, é a busca de pixels correspon- dentes considerando a restrição epipolar. Aqui, utiliza-se a soma das diferenças absolutas entre janelas de mesmo tamanho em ambas as imagens para se encontrar a correspondên- cia. O terceiro passo consiste na eliminação de falsas correspondências. Finalmente, após a execução desses passos a disparidade é calculada para os pixels com valores de dispari- dade válidos [Bradski & Kaehler 2008]. Essa abordagem gera resultados razoáveis em tempo-real. A Figura 3.4 apresenta um resultado de um mapa de disparidade gerado pelo algoritmo de janela variável.

(a)

(b)

Figura 3.4: Mapa de disparidade gerado pelo algoritmo de janela variável; (a) imagem original; (b) mapa de disparidade.

Algoritmos Globais

Dentre os algoritmos globais que utilizam a minimização para a geração de um mapa de disparidade se destacam os algoritmos que aplicam princípios de programação dinâmica