4.4
Aplica¸c˜ao: Correla¸c˜ao Visual de Dados
Aplica¸c˜oes envolvendo correla¸c˜ao de dados assistida pelo usu´ario visam relacionar ins- tˆancias de conjuntos de dados que, a princ´ıpio, n˜ao tˆem qualquer conex˜ao. A ideia ´e iniciar com um reduzido conjunto de pontos de controle, selecionados a partir de diferen- tes conjuntos de dados e interativamente manipular estes pontos de controle no espa¸co visual, a fim de deixar as instˆancias que devem ser correlacionadas t˜ao pr´oximas quanto poss´ıvel. Uma vez que os pontos de controle dos diferentes conjuntos de dados est˜ao cor- relacionados, isto ´e, agrupados bem pr´oximos no espa¸co visual, as instˆancias restantes s˜ao projetadas utilizando a LAMP.
Como o mapeamento produzido pela LAMP segue a configura¸c˜ao dos pontos de con- trole, instˆancias de diferentes conjuntos de dados s˜ao projetadas pr´oximas umas das outras no espa¸co visual, fazendo com que fiquem completamente correlacionadas. A Figura 4.12 ilustra o prot´otipo de um sistema desenvolvido para executar esta tarefa e estabele- cer uma correspondˆencia entre imagem e m´usica. Um v´ıdeo demonstrando cada uma das etapas deste processo encontra-se dispon´ıvel em http://sites.google.com/site/ paulojoiafilho/publications.
Figura 4.12: Correla¸c˜ao entre imagem e m´usica: alguns representantes (pontos de controle) de m´usica e imagem s˜ao selecionados a partir do correspondente conjunto de dados (a) e colocados no espa¸co visual (b). O usu´ario interage com as amostras de imagem e m´usica de modo a correlacion´a-las (c). A LAMP mapeia m´usicas e figuras segundo as associa¸c˜oes realizadas pelo usu´ario (d). O usu´ario pode destacar m´ultiplas regi˜oes no espa¸co visual (e), onde cada regi˜ao corresponde `as figuras e m´usicas que ir˜ao compor uma apresenta¸c˜ao de slides (f).
4.5
Considera¸c˜oes Finais
A t´ecnica de proje¸c˜ao apresentada neste cap´ıtulo, Local Affine Multidimensional Pro- jection (LAMP), mostrou-se adequada para aplica¸c˜oes interativas pelo fato de mapear dados com base em um n´umero bem reduzido de amostras representativas ou pontos de controle. LAMP tem s´olida formula¸c˜ao matem´atica, robustez e versatilidade.
Os experimentos realizados provam que a LAMP supera as outras t´ecnicas de proje¸c˜ao em termos de preserva¸c˜ao de distˆancias, al´em de ser competitiva em rela¸c˜ao aos tempos computacionais. A medida da silhueta foi utilizada para mostrar que os mapeamentos produzidos pela LAMP, a partir de alguns pontos de controle rotulados e em seguida organizados pelo usu´ario de forma interativa, podem originar grupos altamente separados e coesos.
Como os mapeamentos produzidos tendem a seguir fielmente o layout dos pontos de controle, ´e poss´ıvel aplicar a LAMP para estabelecer correla¸c˜oes entre dados aparente- mente sem conex˜ao, conforme apresentado na se¸c˜ao anterior.
Embora n˜ao tenha sido explorado neste trabalho, tamb´em ´e poss´ıvel utilizar a LAMP como uma ferramenta de classifica¸c˜ao para predizer a classe de futuras instˆancias de dados. Por constru¸c˜ao, a LAMP permite mapear novas instˆancias de dados de forma isolada, sem refazer ou recalcular o mapeamento dos pontos j´a projetados. Desse modo, basta que os pontos de controle sejam rotulados (comportando-se como um conjunto de treinamento) para predizermos a classe de novas instˆancias projetadas, com base na classe do ponto de controle mais pr´oximo (fun¸c˜ao de classifica¸c˜ao).
LAMP ´e essencialmente uma t´ecnica local, isto significa que tenta preservar a geo- metria local dos dados durante a proje¸c˜ao, caracter´ıstica que se torna evidente quando apenas um percentual dos pontos de controle mais pr´oximos de cada instˆancia s˜ao uti- lizados no mapeamento. Escolher o n´umero ideal de pontos mais pr´oximos para produzir o layout desejado, no entanto, ´e um aspecto que precisa ser melhor investigado. Uma possibilidade ´e tentar encontrar o raio de influˆencia de cada ponto de controle, embora n˜ao seja uma tarefa f´acil.
Muitas vezes, os pontos de controle n˜ao s˜ao rotulados e tamb´em n˜ao podem ser or- ganizados no espa¸co visual por meio de suas caracter´ısticas. Para estas situa¸c˜oes, uma nova abordagem capaz de identificar instˆancias representativas em conjuntos de dados n˜ao rotulados e desbalanceados foi desenvolvida. Esta abordagem, assunto do pr´oximo cap´ıtulo, utiliza a LAMP em uma de suas etapas para projetar e identificar grupos no espa¸co visual.
Cap´ıtulo
5
Identifica¸c˜ao de Grupos no Contexto de
Proje¸c˜ao
M
uitosde detec¸c˜ao de agrupamentos. Uma abordagem t´ıpica agrupa instˆancias similaresm´etodos de visualiza¸c˜ao combinam proje¸c˜ao multidimensional com esquemas segundo suas distˆancias no espa¸co visual, assim, os grupos s˜ao definidos com base exclusiva na geometria dos pontos no espa¸co visual.Embora a an´alise puramente geom´etrica, em alguns casos, consiga apresentar grupos visualmente separados, n˜ao existe garantia alguma de que os grupos obtidos reflitam qual- quer correla¸c˜ao entre os dados. Al´em do mais, muitas t´ecnicas de visualiza¸c˜ao empregam esquemas de agrupamento n˜ao determin´ısticos, produzindo diferentes layouts cada vez que o conjunto de dados ´e visualizado.
Muitos algoritmos de detec¸c˜ao de agrupamentos operam adequadamente quando o conjunto de dados ´e balanceado, ou melhor, quando a frequˆencia relativa das classes n˜ao ´e extrema em uma determinada classe (Defini¸c˜ao 2.2). Quando o conjunto de dados ´e desbalanceado, a tarefa de detec¸c˜ao de agrupamentos ´e bem mais complexa. Embora existam m´etodos de balanceamento de amostras visando reduzir a disparidade entre a propor¸c˜ao de instˆancias por classe em um conjunto de dados (Larose, 2006), tais t´ecnicas n˜ao se aplicam neste contexto, pois o balanceamento pode provocar a elimina¸c˜ao de grupos com poucos representantes, ou estimar novas categorias que n˜ao condizem com os dados originais.
Este cap´ıtulo apresenta um novo m´etodo de visualiza¸c˜ao baseado em proje¸c˜ao multi- dimensional que permite agrupar dados. Al´em disso, opera no espa¸co visual, garantindo que os grupos obtidos n˜ao fiquem fragmentados durante a visualiza¸c˜ao, ou seja, elementos aparentemente dispersos s˜ao agregados e posicionados em torno de seu centro, implicando
melhor coes˜ao e separa¸c˜ao (Palumbo et al., 2008). Em contraste `as t´ecnicas existentes, o esquema de agrupamento utilizado ´e orientado por um mecanismo de amostragem deter- min´ıstico, apto a identificar instˆancias que representam bem o conjunto de dados como um todo. O mecanismo de amostragem fundamenta-se em decomposi¸c˜ao matricial e consegue operar mesmo em conjuntos de dados desbalanceados. Desse modo, o m´etodo proposto permite visualiza¸c˜oes mais confi´aveis, j´a que o usu´ario tem certa garantia de que cada grupo visualizado corresponde a um padr˜ao espec´ıfico dos dados.
O padr˜ao mencionado ´e determinado pelo mecanismo de amostragem, o qual ´e sen- s´ıvel `a varia¸c˜ao dos dados, logo pode localizar instˆancias representativas em cada classe, mesmo em conjuntos de dados desbalanceados, com boa precis˜ao. Isto significa que, mesmo instˆancias pertencentes a classes com baixa frequˆencia tˆem boas chances de serem amostradas.
Outro aspecto interessante do m´etodo proposto est´a no fato do mecanismo de amostragem ser facilmente adaptado para selecionar os atributos mais relevantes que representam cada agrupamento obtido. Portanto, esta abordagem unifica em um simples framework trˆes tarefas amplamente utilizadas no contexto de visualiza¸c˜ao: amostragem de dados, detec¸c˜ao de agrupamentos e sele¸c˜ao de atributos.
O m´etodo desenvolvido foi denominado Column Selection Method (CSM), pelo modo que opera: instˆancias s˜ao representadas como colunas durante o processo de decomposi¸c˜ao matricial (Se¸c˜ao 5.2). Uma bateria completa de testes confirma sua efic´acia quando com- parado a algoritmos de amostragem (Se¸c˜ao 5.3.1), detec¸c˜ao de agrupamentos (Se¸c˜ao 5.3.2) e sele¸c˜ao de atributos (Se¸c˜ao 5.3.3).
Parte da contribui¸c˜ao descrita neste cap´ıtulo foi publicada em Joia et al. (2015).
5.1
Principais Contribui¸c˜oes
Em resumo, as principais contribui¸c˜oes do trabalho apresentado neste cap´ıtulo s˜ao: ❼ Um mecanismo de amostragem de dados determin´ıstico apto a operar com precis˜ao
mesmo em conjuntos de dados desbalanceados.
❼ Um esquema de agrupamento de dados baseado no mecanismo de amostragem pro- posto, garantindo que os grupos obtidos sejam diferentes entre si n˜ao apenas pela distˆancia, mas tamb´em pelo seu conte´udo.
❼ Um esquema de sele¸c˜ao de atributos capaz de identificar os atributos que melhor representam cada agrupamento de dados obtido.