5.4. Duyusal Analiz Sonuçları
5.4.5 Burger Tipi Balık Köftelerinin Genel Beğeni Değerlendirilmesi
1 Calcular os valores de betweenness para todas as arestas da rede ;
2 Encontrar a aresta com o maior valor e removê-la da rede (se houver
empate entre duas ou mais arestas, uma é escolhida aleatoriamente) ; 3 Repetir a partir do primeiro passo ;
Outro método hierárquico semelhante ao betweenness foi proposto por For- tunato et al. (2004), porém em vez de valores de betweenness eles utilizam
informações de centralidade que são definidas para cada aresta como o declí-
neo na eficiência média do grafo após a remoção desta mesma aresta. Latora & Marchiori (2001) definem a eficiência de um par de vértices v e u como o
inverso da distância entre eles no grafo: 1
dist(v,u), e a eficiência média é a média
da medida de eficiência de todos os pares distintos de vértices.
Assim como nos métodos baseados em cortes, os algoritmos dessa catego- ria também precisam saber quando parar de particionar. Newman & Girvan (2004) propõem uma medida de qualidade chamada modularidade, que é de- finida para todo o grafo a cada iteração. É definida uma matriz e simétrica de tamanho k × k, onde k é a quantidade de comunidades separadas na atual di- visão. O elemento ei,j é a fração de todas as arestas na rede que ligam vértices na comunidade i a vértices na comunidade j (aqui são consideradas todas as arestas da rede original, inclusive as arestas removidas durante a execução do algoritmo). A medida de modularidade é definida por:
Q =X
i
(ei,j − a2i) = Tr e− ||e2|| (2.23)
onde ||x|| indica a soma dos elementos da matriz x, e ai =Pjei,j que representa a fração de arestas que se conectam aos vértices da comunidade i. Q mede a fração de arestas na rede que conectam vértices do mesmo tipo (arestas dentro de uma comunidade) menos o valor esperado da mesma divisão, mas com conexões aleatórias entre os vértices. Se as conexões não forem melhores que o aleatório, Q = 0. Com valores próximos ao máximo Q = 1 temos uma rede com uma forte estrutura de comunidade. Valores típicos se encontram entre 0, 3 e 0, 7 (Newman & Girvan, 2004). Calculando Q, a cada divisão da rede, podemos encontrar os picos locais que correspondem às divisões mais satisfatórias.
Caminhadas Aleatórias
Na categoria de Caminhadas Aleatórias11 se encontram os métodos base-
ados nos conceitos de movimento browniano em uma rede. Zhou (2003b) sugere que se uma partícula passeia em uma rede por um determinado pe- ríodo, ela teria sua própria perspectiva do panorama da rede. A distância entre nós medida por essa partícula pode ser usada para construir a estrutura da comunidade e identificar o nó central de cada comunidade. Dois vértices no mesmo grupo devem ser rapidamente alcançáveis de um ao outro. Além disso, quando a partícula visita um vértice de um grupo é provável que ela visite vá- rios outros vértices desse mesmo grupo antes de deixá-lo (van Dongen, 2000), como ilustra o exemplo da Figura 2.3. Zhou (2003a) define uma quantidade chamada índice de dissimilaridade entre vizinhos mais próximos, que indica a probabilidade de dois vértices estarem na mesma comunidade. Um algoritmo hierárquico faz uso desses índices para decompor a rede em uma seqüência hierárquica de grupos.
Figura 2.3: Probabilidades de Movimento em Caminhada Aleatória. Um grafo com dois grupos (verde e amarelo). Se uma partícula está atualmente no vér- tice amarelo com borda mais grossa, ele irá permanecer no grupo amarelo com probabilidade 4
5 e mudar para o grupo verde com probabilidade
1
5. Estando em
qualquer outro vértice amarelo, a partícula necessariamente continuará no grupo amarelo. Da mesma forma, se a partícula estiver no vértice verde com
borda mais grossa, a probabilidade de permanecer no grupo verde será 3
4 e a
probabilidade de mudar para o grupo amarelo será 1
4.
Zhou (2003a) considera que um vértice deve ter maior interação com ou- tros vértices de sua própria comunidade do que com vértices de qualquer outra comunidade do grafo. Considerando uma rede conectada de N vértices e M arestas, com as conexões representadas pela matriz de adjacência A, a
distância dij do vértice i ao vértice j é definida como a média do número de
passos necessários para que a partícula Browniana se locomova do vértice i
para o vértice j. Em cada vértice (por exemplo, k), a partícula Browniana irá saltar no próximo passo para um vizinho mais próximo (por exemplo, l) com uma probabilidade dada por:
Pkl =
Akl
PN
m=1Akm
. (2.24)
A matriz de distância portanto é assimétrica (em geral dij 6= dji). Tomando qual- quer vértice i como origem da rede, então o conjunto {di,1, . . . , di,i−1, di,i+1, . . . , di,N} mede a distância de todos os outros vértices com relação a origem, ou seja, é uma visão de toda a rede do ponto de vista de i. Dado dois vértices i e j que são vizinhos mais próximos (Ai,j), a diferença entre seus pontos de vista pode ser medida quantitativamente através do índice de dissimilaridade, calculado por: Λ(i, j) = q PN k6=i,j[dik− djk]2 N − 2 . (2.25)
Se dois vértices i e j são vizinhos mais próximos que pertencem à mesma
comunidade, então as distâncias dik e djk, onde k é qualquer outro ponto do
grafo (com k 6= i, j), serão bastante similares, assim a perspectiva da rede do ponto de vista de i e j também serão bastante similares. Conseqüentemente, Λ(i, j) será pequeno se i e j pertencerem a mesma comunidade, e grande se pertencerem a comunidades diferentes.
Após o cálculo da matriz de distância e dos índices de dissimilaridade para todos os pares de vértices vizinhos mais próximos, o Algoritmo 2.4 deve ser executado.
Métodos Aglomerativos Globais
Além das abordagens top-down (de cima para baixo) em que a cada itera- ção dividi-se um grafo em sucessivos grupos de menor nível, também existem abordagens bottom-up, onde inicia-se com singletons (grupos contendo um único vértice) e através de sucessivas combinações são formados os grupos de maior nível. Tais métodos são chamados algoritmos aglomerativos de agru- pamento. Tipicamente uma medida de similaridade é utilizada para verificar quais vértices devem ser unidos em um grupo, um exemplo de medida pode- ria ser baseado na quantidade relativa de vizinhos que dois vértices têm em comum.
Uma dessas abordagens é proposta por Newman (2004), baseada no cál- culo de modularidade apresentado na Equação (2.23), proposto por Newman & Girvan (2004). A idéia é que, considerando que o valor de Q indica quão boa é uma divisão de comunidades, poderíamos simplesmente otimizar Q para encontrar logo a melhor configuração possível. O problema é que esta otimi-