Proje¸c˜ao ou mapeamento de dados multidimensionais corresponde ao mapeamento de redu¸c˜ao de dimensionalidade onde o espa¸co-alvo tem dimens˜ao p igual a 1, 2 ou 3 (usualmente 2), condi¸c˜ao conveniente para a visualiza¸c˜ao dos dados. Neste caso, o novo espa¸co ´e indicado como espa¸co visual ou espa¸co de proje¸c˜ao.
Admitindo-se a condi¸c˜ao p ∈ {1, 2, 3}, ´e poss´ıvel definir proje¸c˜ao de dados multidi- mensionais a partir de um mapeamento de redu¸c˜ao de dimensionalidade, conforme segue: Defini¸c˜ao 2.20 (Proje¸c˜ao de Dados Multidimensionais) Sejam os pares (X, d) e (Y , d∗) dois conjuntos de dados munidos de uma medida de dissimilaridade, assim definidos: X ⊂ Rm, d : X × X → R; e Y ⊂ Rp, d∗ : Y × Y → R; tal que p ∈ {1, 2, 3} e p < m. Uma t´ecnica de proje¸c˜ao de dados multidimensionais equivale ao mapeamento de redu¸c˜ao de dimensionalidade f : X → Y que procura tornar a dife- ren¸ca |d(xi, xj)− d∗(f (xi), f (xj))| t˜ao pr´oxima de zero quanto poss´ıvel, ∀xi, xj ∈ X.
Neste contexto, p < m ´e condi¸c˜ao necess´aria para que haja redu¸c˜ao de dimensionali- dade, de outra forma poderia ocorrer apenas uma transforma¸c˜ao de um espa¸co em outro. Al´em disso, para caracterizar uma t´ecnica de proje¸c˜ao, ´e preciso garantir que p∈ {1, 2, 3} e preservar as rela¸c˜oes de dissimilaridade entre os pontos nos dois espa¸cos, tanto quanto poss´ıvel. Defini¸c˜ao semelhante ´e apresentada por Tejada et al. (2003).
2.5.1 Classifica¸c˜ao das T´ecnicas de Proje¸c˜ao
As t´ecnicas de proje¸c˜ao podem receber v´arias classifica¸c˜oes. Dentre elas, as mais conhecidas s˜ao:
I) Quanto ao tipo de transforma¸c˜ao que sofre: • Lineares
• N˜ao lineares )
(ver Defini¸c˜ao 2.19)
2.5 Proje¸c˜ao de Dados Multidimensionais 25 II) Quanto `a natureza da proje¸c˜ao:
❼ Locais: tentam preservar a geometria local dos dados; essencialmente, os pontos pr´oximos a uma dada instˆancia na alta dimens˜ao s˜ao mapeados pr´oximos `a sua representa¸c˜ao de menor dimens˜ao.
❼ Globais: tentam preservar a geometria em todas as escalas, isto significa que o mapeamento de cada instˆancia deve considerar globalmente as demais, de tal modo que pontos pr´oximos na alta dimens˜ao devem ficar pr´oximos na proje¸c˜ao, assim como pontos distantes tamb´em devem ficar distantes.
T´ecnicas locais/globais s˜ao discutidas em De Silva e Tenenbaum (2003) e Joia et al. (2011).
III) Quanto `a interatividade:
❼ Interativas: permitem a interven¸c˜ao do usu´ario, normalmente, de modo a agre- gar seu conhecimento ao processo.
❼ N˜ao interativas: n˜ao admitem interven¸c˜ao do usu´ario no processo. IV) Quanto `a formula¸c˜ao matem´atica:
❼ T´ecnicas baseadas em decomposi¸c˜ao espectral: calculam as coordenadas de cada instˆancia a partir dos autovetores de uma transforma¸c˜ao aplicada em uma matriz (Torgerson, 1965).
❼ T´ecnicas baseadas em otimiza¸c˜ao n˜ao linear: inicialmente proposto por Kruskal (1964), compreendem uma categoria de t´ecnicas que executam o ma- peamento para o espa¸co visual minimizando uma fun¸c˜ao de energia, normal- mente chamada fun¸c˜ao de stress.
❼ T´ecnicas baseadas em for¸ca: surgiu com o trabalho de Eades (1984). Mapeiam dados para o espa¸co visual por meio de um esquema baseado em for¸ca, inspirado em uma analogia entre minimiza¸c˜ao da fun¸c˜ao de stress e sistemas massa-mola, onde a for¸ca restauradora do sistema ´e dada pela diferen¸ca num´erica entre as distˆancias calculadas a partir dos espa¸cos de origem e de proje¸c˜ao.
❼ Outros modos: aquelas que n˜ao se encaixam em nenhuma das anteriores (de- composi¸c˜ao, otimiza¸c˜ao, for¸ca) ou suas varia¸c˜oes h´ıbridas.
Al´em das apresentadas acima, Maaten et al. (2009) prop˜oem outras subdivis˜oes, como convexas e n˜ao convexas, full espectral e espectral esparsa, distˆancia Euclidiana com pesos, alinhamento de modelos lineares locais e as baseadas em redes neurais.
2.5.2 Qualidade da Proje¸c˜ao
De acordo com a Defini¸c˜ao 2.20 uma proje¸c˜ao de dados procura transformar um es- pa¸co de alta dimens˜ao m em um espa¸co de menor dimens˜ao p igual a 1, 2 ou 3, preser- vando rela¸c˜oes de dissimilaridade entre instˆancias nos dois espa¸cos. Como consequˆencia da defini¸c˜ao, ´e imediato atestar a qualidade da proje¸c˜ao medindo o quanto estas rela¸c˜oes se preservam. Uma fun¸c˜ao que estima esse valor ´e conhecida como fun¸c˜ao de stress. Exis- tem diferentes varia¸c˜oes de fun¸c˜ao stress, neste trabalho adotou-se o stress definido por Kruskal (1964).
Defini¸c˜ao 2.21 (Medida do Stress (Kruskal, 1964)) O stress mede qu˜ao bem uma dada configura¸c˜ao representa os dados. Quanto menor o valor do stress, melhor a repre- senta¸c˜ao, tal que zero indica “perfeita” representa¸c˜ao. Pode ser calculado pela seguinte fun¸c˜ao: stress = S = P ij (dij − d∗ij)2 P ij d2 ij , (2.8)
onde dij e d∗ij s˜ao duas sequˆencias num´ericas, tal que d∗ij corresponde aos valores que minimizam S.
Kruskal (1964) define tamb´em o stress normalizado, an´alogo a escolher o desvio-padr˜ao no lugar da variˆancia, o qual pode ser calculado como:
stress = √S = v u u u t P ij (dij − d∗ij)2 P ij d2 ij . (2.9)
No contexto de proje¸c˜ao, o stress estima a qualidade da proje¸c˜ao com base na preser- va¸c˜ao de dissimilaridades entre instˆancias nos dois espa¸cos, onde dij e d∗ij s˜ao as medidas de dissimilaridade entre as instˆancias i e j no espa¸co de origem e de proje¸c˜ao, respectiva- mente.
Al´em do stress, outra medida conhecida para avaliar a qualidade da proje¸c˜ao ´e a preserva¸c˜ao de vizinhan¸ca.
Defini¸c˜ao 2.22 (Preserva¸c˜ao de Vizinhan¸ca (Paulovich e Minghim, 2008)) Medida usada para avaliar a preserva¸c˜ao das rela¸c˜oes de vizinhan¸ca dos pontos nos dois espa¸cos. Pode ser calculada do seguinte modo:
1. Fixa-se um n´umero inteiro k > 0;
2. Tomam-se os k-vizinhos mais pr´oximos de uma instˆancia xi no espa¸co multidimen- sional;
2.6 Modelagem de Incerteza Usando Conjuntos Fuzzy 27