• Sonuç bulunamadı

Docker Tabanlı Yapının Verimlilik Değerlendirmesi

Outra t´ecnica revisada, a Least Square Projection (LSP) (Paulovich et al., 2008) destaca-se, principalmente, por produzir mapeamentos com alta preserva¸c˜ao de vizi- nhan¸ca. ´E uma t´ecnica de natureza, em geral, global que transforma os dados com base em um esquema n˜ao linear, resultando em um algoritmo da ordem O(s2+ n2). Os passos da LSP s˜ao apresentados no Algoritmo 3.5, cujos detalhes s˜ao discutidos a seguir.

A qualidade da proje¸c˜ao da LSP depende do n´umero e da distribui¸c˜ao adequada dos pontos de controle (Passo 1). Em geral s =√n ´e suficiente, dependendo da t´ecnica MDS utilizada. Para fazer a sele¸c˜ao, o conjunto de dados ´e quebrado em s grupos utilizando o m´etodo k-medoides (Berkhin, 2002), tal que o medoide (ponto mais pr´oximo do centroide) de cada grupo ´e usado como ponto de controle.

Al´em das coordenadas cartesianas dos pontos de controle, ´e necess´ario definir uma lista de vizinhos Vi ⊂ X para cada ponto xi ∈ X (Passo 2). A LSP emprega uma t´ecnica simples baseada em agrupamentos para encontrar a vizinhan¸ca dos pontos. Esta abor- dagem ´e usual, j´a que o espa¸co foi quebrado anteriormente em s-grupos para selecionar os pontos de controle, e pelo menor custo que apresenta quando comparada `a outras abor- dagens, em geral de ordem quadr´atica. Os detalhes deste procedimento est˜ao dispon´ıveis em Paulovich et al. (2008).

Quando um sistema linear ´e constru´ıdo em conformidade com o Passo 3 do Algo- ritmo 3.5, os pontos xi ∈ X pertencem ao fecho convexo de sua vizinhan¸ca Vi, e se os pesos αij s˜ao dados por αij = k1

i temos xi no centroide dos pontos em Vi. Nestas condi¸c˜oes,

a matriz L (constru´ıda no Passo 3) ´e usualmente chamada de matriz Laplaciana. O ope- rador Laplaciano faz uso de um grafo de vizinhan¸ca global entre os pontos de X, a partir do qual um grande sistema linear esparso ´e obtido.

Algoritmo 3.5 Least Square Projection (LSP)

Entrada: Conjunto de dados X = {x1, x2, . . . , xn} de dimens˜ao n × m, dimens˜ao do espa¸co reduzido p (p < m), n´umero de pontos de controle s e n´umero de vizinhos de cada instˆancia k.

Sa´ıda: Conjunto de dados projetado Y ={y1, y2, . . . , yn} ⊂ Rn×p.

1: Mapear um subconjunto contendo s-amostras (pontos de controle) no espa¸co Rp, por um m´etodo MDS conhecido (s≪ n).

2: Atribuir k-vizinhos a cada instˆancia xi ∈ X, denotados por Vi.

3: Supondo que cada ponto yi ∈ Y ´e dado por: yi− P xj∈Vi αijyj = 0, sujeito a: (i) 0 6 αij 61 e (ii) P j αij = 1,

construir os sistemas lineares Lψj = 0, j = 1, . . . , p, onde ψj s˜ao as coordenadas cartesianas dos pontos e L ´e a matriz n× n, dada por:

lij =    1, i = j, −αij, xj ∈ Vi, 0, caso contr´ario.

4: Inserir informa¸c˜oes geom´etricas no sistema a partir dos pontos de controle, como linhas na matriz L, e suas coordenadas cartesianas do lado direito do sistema, dando origem a um novo sistema da forma: AY = b.

5: Resolver o sistema obtido no passo anterior por m´ınimos quadrados, encontrando os

yi ∈ Y com i = 1, . . . , n.

Antes de prosseguir ´e interessante comparar o Passo 3 da LSP (Algoritmo 3.5) com o Passo 2 da LLE (Algoritmo 3.1). Note que as equa¸c˜oes tˆem praticamente a mesma estrutura: LSP: yi = X xj∈Vi αijyj; LLE: xi = X j wijxj. `

A exce¸c˜ao das vari´aveis que mudam de nome, algumas observa¸c˜oes s˜ao pertinentes. Por exemplo, na LLE os pesos wij precisam ser calculados, ent˜ao o sistema ´e resolvido com respeito a W . Isto implica que os vetores xj (vizinhos de xi) precisam ser conhecidos. Na LSP, os pesos indicados por αij s˜ao impostos pela matriz Laplaciana (1/ki), portanto o sistema ´e resolvido diretamente em Y e os pontos xj n˜ao precisam ser conhecidos, apenas se eles pertencem ou n˜ao `a vizinhan¸ca de xi, dando `a LSP maior flexibilidade nesse sentido (n˜ao requer dados de entrada contidos em Rm).

Vale lembrar ainda que, na LSP, dependendo da vizinhan¸ca considerada no c´alculo do mapeamento, ´e poss´ıvel inserir informa¸c˜ao em todas as escalas se muitos vizinhos s˜ao considerados, ou informa¸c˜ao de localidade se poucos vizinhos s˜ao considerados. Por´em,

3.1 T´ecnicas de Proje¸c˜ao de Dados Multidimensionais 55 esta caracter´ıstica n˜ao deve ser comparada `a natureza local da LLE que leva em conta a vizinhan¸ca nos dois espa¸cos, atrelando-os por interm´edio dos pesos.

O Passo 4 da LSP, no entanto, insere as informa¸c˜oes geom´etricas que faltam ao ma- peamento, atrav´es dos pontos de controle. A Figura 3.8 ilustra como isso ´e feito.

(a) (b)

Figura 3.8: (a) Um exemplo de matriz Laplaciana L, acrescida dos pontos de controle C. (b) Rela¸c˜oes de vizinhan¸ca entre os pontos usados para compor a matriz A, onde x3 e x6 s˜ao pontos

de controle (Modificado de Paulovich et al. (2008)).

Observe que cada ponto de controle ´e inserido como uma linha de zeros na matriz L, exceto na posi¸c˜ao que ele ocupa (dentro do conjunto de dados), neste caso, ´e inserido o valor um. Desse modo, a matriz L fica aumentada por s linhas, conforme mostra a Figura 3.8(a) e, passa a ser denominada matriz A, de dimens˜ao (n + s)× n. As coor- denadas cartesianas dos pontos de controle em Rp tamb´em s˜ao inseridas neste sistema, do lado direito da equa¸c˜ao, transformando o sistema Laplaciano original no sistema n˜ao homogˆeneo: AY = b, (3.17) tal que, A = " L C # ,

onde cada elemento cij de C ´e dado por:

cij = (

1, se xj ´e um ponto de controle, 0, caso contr´ario, e o vetor b, por: bi = ( 0, i≤ n, ρtj, n < i≤ n + s,

onde ρtj indica a j-´esima coordenada do ponto de controle associado (t = 1, . . . , s e j = 1, . . . , p). Os pontos de controle guiam o processo de proje¸c˜ao, os quais podem ser

manipulados pelo usu´ario de modo a facilitar a visualiza¸c˜ao de agrupamentos e identifi- ca¸c˜ao de caracter´ısticas nos dados. Portanto, a LSP ´e uma t´ecnica interativa.

No Passo 5, as instˆancias restantes s˜ao mapeadas resolvendo-se o sistema linear definido na Equa¸c˜ao (3.17) pelo m´etodo dos m´ınimos quadrados, resultando em Y = (A⊤A)−1Ab. Este sistema ´e sim´etrico e esparso o que facilita a solu¸c˜ao. Mais detalhes sobre a solu¸c˜ao e assertivas que garantem uma solu¸c˜ao n˜ao trivial podem ser encontrados em Paulovich et al. (2008) e Sorkine e Cohen-Or (2004).

Embora o Passo 5 utilize ferramentas da ´algebra linear, a t´ecnica MDS empregada na primeira parte para posicionar as amostras pode resultar em dados finais relacionados de forma altamente n˜ao linear. Como uma pequena por¸c˜ao de instˆancias s˜ao inicialmente mapeadas, ´e poss´ıvel utilizar Multidimensional Scaling de maior custo computacional nesta etapa, visando aumentar a precis˜ao das respostas sem comprometer a eficiˆencia.

A LSP prevˆe a inser¸c˜ao de uma nova instˆancia xn+1 no mapeamento. Esta inser¸c˜ao requer os seguinte passos:

i. Encontrar os vizinhos de xn+1.

ii. Representar adequadamente suas rela¸c˜oes de vizinhan¸ca como uma nova linha na matriz Laplaciana.

iii. Resolver novamente a Equa¸c˜ao (3.17) por m´ınimos quadrados.

No entanto, neste trabalho, a LSP n˜ao ´e considerada incremental, pois a solu¸c˜ao da Equa¸c˜ao (3.17) pode resultar em alguma perturba¸c˜ao, ainda que pequena, no layout da proje¸c˜ao inicial, j´a que esta opera¸c˜ao implica recomputar o mapeamento como um todo. LSP preserva muito bem rela¸c˜oes de vizinhan¸ca e tem como aplica¸c˜ao principal o mapeamento e visualiza¸c˜ao de cole¸c˜oes de documentos.

Benzer Belgeler