EVA HESSE’NİN RESİM SANAT
Fotoğraf 21: Joseph Albers, Kareye Saygı (Homage to the Square), 1950, Masonit panel üzerine yağlıboya 52.4x52.1cm Yale Unv Art Galer
4.2. MÜREKKEP AĞIRLIKLI ÇALIŞMALAR
A técnica estatística multivariada denominada análise de variável canônica∗é uma extensão da
análise de componentes principais. Ela permite uma redução de dimensionalidade do espaço original maximizando a separação entre exemplos de diferentes categorias enquanto minimiza a dispersão de exemplos dentro das categorias (93, 128, 129). Neste projeto, as categorias (ou classes) são tipos de rede (mais especificamente, modelos de rede – Seção 2.6) e cada dimensão refere-se a uma medida (Seção 2.1) calculada para uma determinada rede/exemplo. A análise de componentes principais, apesar de também realizar uma combinação linear do espaço original, não leva em consideração as categorias (130).
A análise canônica funciona do seguinte modo. O número total de categorias é denotado por C, e cada categoria é identificada por Ci(i = 1,...,C). Cada rede n é representada no espaço
original pelo vetor de atributos ~fn= ( fn1, fn2, . . . , fnM)T formado por M medidas obtidas da rede
(T denota transposição). As matrizes de dispersão intraclasse e interclasse são então calculadas como funções dos vetores de atributos:
Sintra= C
∑
i=1n∈C∑
i ~fn− ~h f ii ~fn− ~h f ii T , (2.40) Sinter= C∑
i=1 Ni ~ h f ii− ~h f i h f i~ i− ~h f iT, (2.41)onde Ni é o número de redes pertencentes à categoria i, ~h f i é o vetor médio que considera
os valores de todos os vetores de atributos, e ~h f ii é o vetor médio correspondente apenas aos exemplos da classe i. A decomposição espectral do produto S−1
intraSinter é utilizada na projeção
canônica, em que os seus primeiros d autovetores (correspondentes aos d maiores autovalores em módulo) são arranjados em uma matriz para serem então aplicados na transformação e
∗Daqui em diante denominada somente por análise canônica. É também conhecida por análise discriminante de Fisher ou análise discriminante linear (128).
projeção do espaço original, como segue: Γ = ↑ ↑ . . . ↑ ~γ1 ~γ2 . . . ~γd ↓ ↓ . . . ↓ , (2.42) ~Fn= ΓT~fn, (2.43)
onde o autovetor ~γi está associado ao autovalor λi e todos os autovetores estão arranjados em
ordem decrescente pelos respectivos autovalores. Essa combinação linear garante uma distribui- ção ótima dos exemplos com relação às suas categorias: a dispersão interclasse é maximizada enquanto a dispersão intraclasse é minimizada.
Os conjuntos de redes utilizadas neste projeto apresentam uma excelente separação entre suas categorias quando seus atributos são projetados em d = 2 dimensões. Essa redução da dimensionalidade do espaço de medidas apresenta diversas vantagens: (i) é possível visualizar a projeção e, consequentemente, os exemplos pertencentes a cada classe juntamente com as fronteiras de decisão de um classificador (vide exemplo na Figura 6.3, p. 124), (ii) a aplicação de algoritmos de classificação outrora demasiadamente custosos é facilitada pela diminuição do número de dimensões e (iii) evita-se a “maldição da dimensionalidade”, já que o tamanho de uma amostra precisa crescer exponencialmente com o número de dimensões para que a densi- dade média de pontos seja mantida (131). O item (iii) é exemplificado pelo classificador aqui utilizado. Para que a classificação de máximo a posteriori seja efetuada, é necessário estimar as distribuições de probabilidades de se encontrar um membro da classe Cino espaço multidimen-
sional utilizado. Como o classificador é aplicado após projeção canônica, a estimativa consegue ser mais representativa pois em duas dimensões a densidade de exemplos é maior do que no espaço original.
O classificador aqui utilizado baseia-se na lei de Bayes, que fornece a probabilidade condi- cional de um evento A ocorrer dado que o evento B já ocorreu:
P(A|B) =P(B|A)P(A)
onde B tem probabilidade não nula de ocorrência. Se considerarmos A igual ao evento “ocor- rência da classe Ci” e B igual ao evento “ocorrência do vetor de atributos ~Fn”, tem-se que:
P(Ci|~Fn) = P(~Fn|Ci)P(Ci)
P(~Fn) . (2.45)
P(Ci|~Fn) é chamada probabilidade a posteriori de ocorrência da classe Cidado que o vetor de atributos ~Fntenha sido observado. Já P(Ci) é a probabilidade a priori de observação da classe
Ci. As outras probabilidades são: probabilidade de ocorrência do vetor de atributos ~Fn dado
que a classe Cié conhecida, P(~Fn|Ci), e probabilidade não condicional de observação de ~Fnna
população, P(~Fn). O classificador de probabilidade máxima a posteriori usa o seguinte critério
para definição de uma classe (93, 127): max
Ci
{P(Ci|~Fn)} = max Ci
{P(~Fn|Ci)P(Ci)}. (2.46)
Note que a divisão por P(~Fn) no segundo termo não é necessária, pois essa probabilidade é
constante no caso da classificação de uma observação ~Fn. Portanto, dado ~Fn, a classe com maior
probabilidade a posteriori de ocorrência é a escolhida pelo método. A Figura 2.3 mostra um exemplo hipotético de regiões de decisão no caso unidimensional envolvendo três distribuições do tipo P(~Fn|Ci)P(Ci) (uma para cada classe), onde ~Fncontém apenas a variável aleatória x. Um
exemplo análogo para duas dimensões pode ser visto na Figura 2.4.
Neste projeto escolheu-se uma abordagem frequentista para estimar a probabilidade de máximo a posteriori. As probabilidades P(Ci) foram estimadas simplesmente computando a
proporção de cada categoria no conjunto de dados de treinamento. Já as probabilidades condi- cionais P(~Fn|Ci) foram estimadas pela abordagem não paramétrica chamada janelas de Parzen
(127). Primeiramente, calcula-se as distribuições d-dimensionais discretas (histogramas) dos vetores de atributos ~Fn – note que existe uma distribuição para cada categoria (como na Fi-
gura 2.4). A seguir, as distribuições são representadas como somas de deltas de Dirac que, con- voluídos com uma função Gaussiana normalizada, resultam em uma aproximação de P(~Fn|Ci).
Portanto, essas estimativas podem ser consideradas interpolações suavizadas dos respectivos histogramas.
C| x( P C( P) )i i x P(x|C )P(C )1 1 P(x|C )P(C )2 2 P(x|C )P(C )3 3 C1 C2 C3
Figura 2.3 – Classificação de máximo a posteriori unidimensional (figura adaptada de Antiqueira et al. (51)). As distribuições de probabilidades são exibidas para três categorias, C1, C2 e C3, e as regiões de decisão indicadas abaixo do eixo-x são obtidas por probabilidade máxima a posteriori.
O processo de redução de dimensionalidade de vetores de medidas de redes e classificação de categorias de redes desconhecidas, inteiramente implementado em Scilab, pode ser assim resumido (Figura 2.5): (i) gera-se um conjunto de R realizações de cada modelo de rede con- siderado (ER, WS, BA e GG – Seção 2.6) com o mesmo número de vértices e arestas da(s) rede(s) de categoria(s) desconhecida(s); (ii) calcula-se um conjunto de M atributos (medidas da Seção 2.1) para cada rede considerada; (iii) projeta-se, por meio de análise canônica, os vetores
P (x |C )P (C ) i i ,y x y P(x,y|C )P(C )1 1 P(x,y|C )P(C )2 2 P(x,y|C )P(C )3 3
Figura 2.4 – Classificação de máximo a posteriori bidimensional. As distribuições de probabilidades são exibidas para três categorias, C1, C2 e C3, e as regiões de decisão são indicadas por cores.
1 eixo canônicoo 2 eixo canônico o Modelo de rede 1 Modelo de rede 2 Rede não classificada
f
nf
11f
12f
1R ...f
C1f
C2f
CR ...Projeção canônica
Modelo 1 é a classificação mais provável Fronteiras de decisão R realizações R realizaçõesFigura 2.5 – Visão geral do método de classificação de redes (figura adaptada de Antiqueira et al. (51)). Engloba o cálculo de vetores de atributos (medidas) para cada rede, projeção canônica e classificação da(s) rede(s) de categoria(s) desconhecida(s).
de atributos das redes com categoria conhecida; (iv) obtêm-se as regiões de decisão no espaço projetado utilizando o classificador de máximo a posteriori; e (v) classifica-se as rede(s) com categoria(s) desconhecida(s) verificando-se em que região de decisão encontram-se seus vetores projetados. Adicionalmente, em alguns experimentos relatados no Capítulo 6, comparou-se o classificador de máximo a posteriori com o classificador do vizinho mais próximo (127, 132). Os resultados obtidos pelos dois métodos foram bastante parecidos entre si, pois a projeção canônica já discrimina satisfatoriamente os exemplos das classes aqui utilizadas.