MÜREKKEP AĞIRLIKLI ÇALIŞMALAR - Joseph Albers, Kareye Saygı (Homage to the Square), 1950, Mason

EVA HESSE’NİN RESİM SANAT

Fotoğraf 21: Joseph Albers, Kareye Saygı (Homage to the Square), 1950, Masonit panel üzerine yağlıboya 52.4x52.1cm Yale Unv Art Galer

4.2. MÜREKKEP AĞIRLIKLI ÇALIŞMALAR

A técnica estatística multivariada denominada análise de variável canônica∗_{é uma extensão da}

análise de componentes principais. Ela permite uma redução de dimensionalidade do espaço original maximizando a separação entre exemplos de diferentes categorias enquanto minimiza a dispersão de exemplos dentro das categorias (93, 128, 129). Neste projeto, as categorias (ou classes) são tipos de rede (mais especificamente, modelos de rede – Seção 2.6) e cada dimensão refere-se a uma medida (Seção 2.1) calculada para uma determinada rede/exemplo. A análise de componentes principais, apesar de também realizar uma combinação linear do espaço original, não leva em consideração as categorias (130).

A análise canônica funciona do seguinte modo. O número total de categorias é denotado por C, e cada categoria é identificada por Ci(i = 1,...,C). Cada rede n é representada no espaço

original pelo vetor de atributos ~fn= ( fn1, fn2, . . . , fnM)T formado por M medidas obtidas da rede

(T denota transposição). As matrizes de dispersão intraclasse e interclasse são então calculadas como funções dos vetores de atributos:

Sintra= C

∑

i=1n∈C

∑

i ~fn− ~h f i_i ~fn− ~h f i_i T , (2.40) Sinter= C

∑

i=1 Ni ~ h f i_i− ~h f i h f i~ _i− ~h f iT, (2.41)

onde Ni é o número de redes pertencentes à categoria i, ~h f i é o vetor médio que considera

os valores de todos os vetores de atributos, e ~h f i_i é o vetor médio correspondente apenas aos exemplos da classe i. A decomposição espectral do produto S−1

intraSinter é utilizada na projeção

canônica, em que os seus primeiros d autovetores (correspondentes aos d maiores autovalores em módulo) são arranjados em uma matriz para serem então aplicados na transformação e

∗_{Daqui em diante denominada somente por análise canônica. É também conhecida por análise discriminante de} Fisher ou análise discriminante linear (128).

projeção do espaço original, como segue: Γ =       ↑ ↑ . . . ↑ ~γ1 ~γ2 . . . ~γd ↓ ↓ . . . ↓       , (2.42) ~Fn= ΓT~fn, (2.43)

onde o autovetor ~γi está associado ao autovalor λi e todos os autovetores estão arranjados em

ordem decrescente pelos respectivos autovalores. Essa combinação linear garante uma distribui- ção ótima dos exemplos com relação às suas categorias: a dispersão interclasse é maximizada enquanto a dispersão intraclasse é minimizada.

Os conjuntos de redes utilizadas neste projeto apresentam uma excelente separação entre suas categorias quando seus atributos são projetados em d = 2 dimensões. Essa redução da dimensionalidade do espaço de medidas apresenta diversas vantagens: (i) é possível visualizar a projeção e, consequentemente, os exemplos pertencentes a cada classe juntamente com as fronteiras de decisão de um classificador (vide exemplo na Figura 6.3, p. 124), (ii) a aplicação de algoritmos de classificação outrora demasiadamente custosos é facilitada pela diminuição do número de dimensões e (iii) evita-se a “maldição da dimensionalidade”, já que o tamanho de uma amostra precisa crescer exponencialmente com o número de dimensões para que a densi- dade média de pontos seja mantida (131). O item (iii) é exemplificado pelo classificador aqui utilizado. Para que a classificação de máximo a posteriori seja efetuada, é necessário estimar as distribuições de probabilidades de se encontrar um membro da classe Cino espaço multidimen-

sional utilizado. Como o classificador é aplicado após projeção canônica, a estimativa consegue ser mais representativa pois em duas dimensões a densidade de exemplos é maior do que no espaço original.

O classificador aqui utilizado baseia-se na lei de Bayes, que fornece a probabilidade condi- cional de um evento A ocorrer dado que o evento B já ocorreu:

P_{(A|B) =}P(B|A)P(A)

onde B tem probabilidade não nula de ocorrência. Se considerarmos A igual ao evento “ocor- rência da classe Ci” e B igual ao evento “ocorrência do vetor de atributos ~Fn”, tem-se que:

P_(C_i_|~F_n_{) =} P(~Fn|Ci)P(Ci)

P_(~F_n₎ . (2.45)

P_(C_i_|~F_n_{) é chamada probabilidade a posteriori de ocorrência da classe C}_idado que o vetor de atributos ~Fntenha sido observado. Já P(Ci) é a probabilidade a priori de observação da classe

Ci. As outras probabilidades são: probabilidade de ocorrência do vetor de atributos ~Fn dado

que a classe Cié conhecida, P(~Fn|Ci), e probabilidade não condicional de observação de ~Fnna

população, P(~Fn). O classificador de probabilidade máxima a posteriori usa o seguinte critério

para definição de uma classe (93, 127): max

{P(Ci|~Fn)} = max Ci

{P(~Fn|Ci)P(Ci)}. (2.46)

Note que a divisão por P(~Fn) no segundo termo não é necessária, pois essa probabilidade é

constante no caso da classificação de uma observação ~Fn. Portanto, dado ~Fn, a classe com maior

probabilidade a posteriori de ocorrência é a escolhida pelo método. A Figura 2.3 mostra um exemplo hipotético de regiões de decisão no caso unidimensional envolvendo três distribuições do tipo P(~Fn|Ci)P(Ci) (uma para cada classe), onde ~Fncontém apenas a variável aleatória x. Um

exemplo análogo para duas dimensões pode ser visto na Figura 2.4.

Neste projeto escolheu-se uma abordagem frequentista para estimar a probabilidade de máximo a posteriori. As probabilidades P(Ci) foram estimadas simplesmente computando a

proporção de cada categoria no conjunto de dados de treinamento. Já as probabilidades condi- cionais P(~Fn|Ci) foram estimadas pela abordagem não paramétrica chamada janelas de Parzen

(127). Primeiramente, calcula-se as distribuições d-dimensionais discretas (histogramas) dos vetores de atributos ~Fn – note que existe uma distribuição para cada categoria (como na Fi-

gura 2.4). A seguir, as distribuições são representadas como somas de deltas de Dirac que, con- voluídos com uma função Gaussiana normalizada, resultam em uma aproximação de P(~Fn|Ci).

Portanto, essas estimativas podem ser consideradas interpolações suavizadas dos respectivos histogramas.

C| x( P C( P) )i i x P(x|C )P(C )1 1 P(x|C )P(C )2 2 P(x|C )P(C )3 3 C1 C2 C3

Figura 2.3 – Classificação de máximo a posteriori unidimensional (figura adaptada de Antiqueira et al. (51)). As distribuições de probabilidades são exibidas para três categorias, C1, C2 e C3, e as regiões de decisão indicadas abaixo do eixo-x são obtidas por probabilidade máxima a posteriori.

O processo de redução de dimensionalidade de vetores de medidas de redes e classificação de categorias de redes desconhecidas, inteiramente implementado em Scilab, pode ser assim resumido (Figura 2.5): (i) gera-se um conjunto de R realizações de cada modelo de rede con- siderado (ER, WS, BA e GG – Seção 2.6) com o mesmo número de vértices e arestas da(s) rede(s) de categoria(s) desconhecida(s); (ii) calcula-se um conjunto de M atributos (medidas da Seção 2.1) para cada rede considerada; (iii) projeta-se, por meio de análise canônica, os vetores

P (x |C )P (C ) i i ,y x y P(x,y|C )P(C )1 1 P(x,y|C )P(C )2 2 P(x,y|C )P(C )3 3

Figura 2.4 – Classificação de máximo a posteriori bidimensional. As distribuições de probabilidades são exibidas para três categorias, C1, C2 e C3, e as regiões de decisão são indicadas por cores.

1 eixo canônicoo 2 eixo canônico o Modelo de rede 1 Modelo de rede 2 Rede não classificada

f

_1R ...

f

_C1

f

_C2

f

CR ...

Projeção canônica

Modelo 1 é a classificação mais provável Fronteiras de decisão R realizações R realizações

Figura 2.5 – Visão geral do método de classificação de redes (figura adaptada de Antiqueira et al. (51)). Engloba o cálculo de vetores de atributos (medidas) para cada rede, projeção canônica e classificação da(s) rede(s) de categoria(s) desconhecida(s).

de atributos das redes com categoria conhecida; (iv) obtêm-se as regiões de decisão no espaço projetado utilizando o classificador de máximo a posteriori; e (v) classifica-se as rede(s) com categoria(s) desconhecida(s) verificando-se em que região de decisão encontram-se seus vetores projetados. Adicionalmente, em alguns experimentos relatados no Capítulo 6, comparou-se o classificador de máximo a posteriori com o classificador do vizinho mais próximo (127, 132). Os resultados obtidos pelos dois métodos foram bastante parecidos entre si, pois a projeção canônica já discrimina satisfatoriamente os exemplos das classes aqui utilizadas.

Belgede Postminimalist süreçte Eva Hesse yaşamı ve sanatı (sayfa 58-64)