• Sonuç bulunamadı

Clusteringou agrupamento de dados é uma tarefa de aprendizado não supervisionado que se

refere a identificação de informações relevantes nos dados sem a presença de um elemento externo para guiar o aprendizado. A essência desta modalidade de aprendizado é a identificação de propriedades intrínsecas dos dados de entrada de maneira a construir uma representação destes, além de encontrar padrões ou tendência que auxiliem na compreensão destes dados.

Apesar da ideia de cluster ser bastante intuitiva não há uma definição formal, única e pre- cisa para este conceito. Em geral cada algoritmo utiliza uma definição que seja mais con- veniente para determinado tipo de aplicação. Algumas das definições presentes na literatura são (Theodoridis e Koutroumbas, 2003): (i) Cluster baseado em centro: um cluster é um con- junto de pontos tal que qualquer ponto em um dado cluster está mais próximo ao centro deste

qualquer ponto em um dado cluster é mais similar a um ou mais pontos nesse cluster do que a qualquer ponto que não pertence a ele; (iii) Cluster baseado em densidade: um cluster é uma região densa de pontos, separada de outras regiões de alta densidade por regiões de baixa den- sidade; (iv) Cluster baseado em similaridade: um cluster é um conjunto de pontos similares, enquanto pontos de clusters diferentes não são similares.

Para realizar este tipo de aplicação existem diversos algoritmos. Um que vem ganhando bastante destaque é o chamado expectation maximization (EM). Este algoritmo surgiu da uni- ficação de diversos trabalhos apresentados por Dempster et al (Dempster et al., 1977). De maneira geral, se uma variável foi observada algumas vezes e outras não, é possível utilizar os casos observados para aprender e predizer os valores não observados. O algoritmo EM realiza esta tarefa, mas também pode ser utilizado para variáveis cujos valores nunca foram observados, sempre e quando seja conhecida a forma geral da distribuição de probabilidade das variáveis.

Em resumo o algoritmo EM é definido em dois passos: (i) Passo E: Encontram-se os valo- res esperados das estatísticas suficientes para os dados completos Y, dado os dados incompletos, Z, e as estimativas dos parâmetros; (ii) Passo M: Utilizam-se estas estatísticas suficientes para

fazer uma estimativa de máxima verossimilhança. Considere que X = x1, ..., xm são os dados

observados independentemente e Z = z1, ..., zm os dados não observados nestas instâncias,e

seja Y = X ∪ Z. Z pode ser tratado como uma variável aleatória cuja distribuição de pro- babilidades depende do conjunto de parâmetros desconhecidos θ e dos dados observados X. Analogamente, Y é uma variável aleatória, já que esta é definida em função da variável alea- tória Z. Para descrever a forma geral do algoritmo EM, denota-se a hipótese dos parâmetros

atuais, θ por h e a hipótese revisada, que é estimada a cada iteração do algoritmo, por h′

O algoritmo EM consiste na busca pela hipótese h′ de maximização da verossimilhança,

isto é, que maximize E[log(P (Y |h′))]. Sendo que este valor esperado é calculado sobre a dis-

tribuição de probabilidades de Y , que é determinada pelos parâmetros desconhecidos θ. Como os dados Y são uma combinação dos dados observados X e não observados Z, obtêm-se o

valor de E[log(P (Y |h′))] sobre a distribuição de probabilidades de Y , que é determinada pelos

valores conhecidos X mais a distribuição de probabilidades de Z. Em geral a distribuição de probabilidades de Y não é conhecida, pois ela é determinada pelos parâmetros θ que se deseja estimar. Entretanto o algoritmo EM usa sua hipótese atual h no lugar do parâmetro θ atual para

determinar a distribuição de probabilidades de Y . Assim, considere uma função Q(h′|h) que

dá E[log(P (Y |h′))] como função de h, pela suposição que θ = h e dada a porção dos dados

observados X dos dados Y , tem-se:

Q(h′|h) = E[log(P (X, Y |h′)|X, h]. (4.31)

Assim, formalmente, o algoritmo EM repete os dois passos seguintes até a convergência:

Passo E (Expectation (E)): CalculaQ(h′|h) utilizando a hipótese atual h e os dados observados

X para estimar a distribuição de probabilidades de Y , equação 4.31. Passo M (Maximization

(M)): troca-se a hipóteseh pela h′ que maximize a função Q:

h = arg max

h′ Q(h

|h). (4.32)

Quando há apenas um único máximo o algoritmo convergirá para ele, caso contrário ele poderá convergir para máximos locais.

Quando a metodologia Expectation Maximization utiliza a estimação de uma função de probabilidades multivariada por distribuições Gaussianas. Considerando que

p(x, ak, Sk, πk) = M X k=1 πkpk(x), πk≥ 0, M X k=1 πk = 1 (4.33) pk(x) = φ(x, ak, Sk) = 1 (2π)d/2|S k|1/2 exp  −1 2(x− ak) TS−1 k (x− ak)  (4.34)

onde M é o número de grupos, pk é uma distribuição normal multivariada com média ak e

matriz de covariância Sk e πké uma ponderação para a k-ésima distribuição.

Assim, esta metodologia é baseada nas duas etapas descritas a seguir (Bilmes, 1998):

• Etapa E: Esta consiste na estimação da probabilidade pi,k, denotada por αikpara a amos-

tra i que pertence a distribuição k. Tal estimativa é dada por:

αki =

πkφ(x; ak, Sk)

Pm

j=1πjφ(x; aj, Sj)

• Etapa M: Esta é a etapa de maximização, nesta os parâmetros da distribuição são otimi- zados usando as probabilidades das equações a seguir

πk= 1 N N X i=1 αki, (4.36) onde, ak = PN i=1αkixi PN i=1αki , (4.37) onde Sk PN i=1αki(xi − ak)(xi− ak)T PN i=1αki . (4.38)

Este algoritmo pode obter o número de grupos automaticamente por meio da validação cru- zada. Inicialmente, assume-se que há apenas um grupo. O grupo de treinamento é dividido em 10 subgrupos obtidos aleatoriamente, sendo que este número de divisões é usualmente utilizado em problemas de validação (Theodoridis e Koutroumbas, 2003). O algoritmo Expectation Ma-

ximizationé executado em cada um destes dez grupos e calcula-se a média da verossimilhança,

equação 4.31. Repete-se esta sequência de passos aumentando gradualmente o número de gru- pos, enquanto a verossimilhança aumentar. Este procedimento termina quando tal medida não aumentar mais.

Capítulo

5

Identificação dos principais propagadores de

epidemias

As dinâmicas de propagação são fortemente influenciadas pelos nós centrais e sofrem um me- nor influência de nós das bordas. Entretanto, não há uma medida de centralidade que seja geral o suficiente e englobe todas as propriedades topológicas da rede. Por exemplo, o grau possui apenas informações locais, enquanto a medida de betweenness e closeness centrality conside- ram informações globais referentes a menores caminhos e de maneiras diferentes. Assim, cada medida considera nós como centrais ou bordas de maneiras distintas. Além disto, há medidas baseadas em caminhadas aleatórias, espectro da matriz de adjacência, entre outras (Boccaletti et al., 2006; Costa et al., 2007). Neste capítulo será discutida tal arbitrariedade, bem como será proposta uma metodologia para identificar o grupo de nós que mais influência a dinâmica de propagação de epidemias no modelo SIR.

5.1 Introdução

Redes sociais são organizadas de maneira altamente heterogênea (Costa et al., 2007), apre- sentando propriedades não triviais como distribuições de grau na forma de leis de potên- cia (Liljeros et al., 2001), estruturas de comunidades (Girvan e Newman, 2002), correlação de grau (M. E. J. Newman e Park, 2003), entre outras. Tais propriedades estão intimamente ligadas a maneira como doenças e rumores propagam-se pela rede. Logo, compreender tais proprie- dades estruturais é fundamental para o desenvolvimento e controle de processos de dinâmicas sociais.

Em processos de propagação de epidemias, as doenças se espalham por meio do contato en- tre indivíduos em redes sociais. É esperado que os nós mais centrais sejam aqueles que exercem uma maior influência sobre a rede como um todo (Kitsak et al., 2011), pois tais nós espalham sua influência rapidamente pela rede. Entretanto, não há uma única maneira de definir a centra- lidade de um vértice. Na realidade, esta é uma questão em aberto, já que há varias medidas de centralidade definidas na literatura (ver capítulo 2) e cada uma delas é baseada em uma propri- edade estrutural diferente. Uma das medidas mais comuns e mais aceitas é o grau (Costa et al., 2007). Neste caso os nós que apresentam um maior número de conexões são mais centrais do que aqueles que possuem um número menor de conexões. Contudo, trabalhos recentes sugerem que tal medida não é fundamental para o processo de propagação de epidemias (Kitsak et al., 2011). Como é o caso de um nó altamente conectado que esteja na periferia da rede, sendo que sua influência pode não atingir o centro (Kitsak et al., 2011). Por outro lado, observou-se que a medida de k-core esta intimamente relacionada com tal processo dinâmico (Kitsak et al., 2011). De fato, há medidas baseadas na distância entre os nós, como por exemplo betweenness e closeness centrality, medidas de caminhadas aleatórias, espectro da matriz de adjacência, dentre outras. Assim os conceitos de centro e borda de uma rede são distintos para cada uma destas definições. Entretanto, ao se analisar dinâmicas de propagação em epidemias, admite-se que o centro são aqueles nós que exercem maior influência sobre a disseminação da doença, ou mesmo rumores e informações. Tal influência pode ser quantificada de diversas maneiras, como por exemplo o pico da curva de infectados ao longo do tempo, que será utilizada neste trabalho, já que o pico está associado com a velocidade de propagação. Assim, espera-se que

Tabela 5.1: Propriedades estruturais da base de dados.

Rede N hki hcci ρ hLi

Santa74 3578 84.82 0.263 0.070 2.486

Smith60 2970 65.41 0.283 0.044 2.498

Email 1133 9.61 0.220 0.078 3.606

Political blogs 1222 31.24 0.320 -0.221 2.738

Árvore artificial 1000 1.998 0.0 -0.897 7.238

os nós mais centrais, sejam aqueles que apresentem maior pico, mas que ao serem imunizados, também reduzam ao máximo o impacto da propagação da epidemia pela rede.