• Sonuç bulunamadı

Processamento Federado de Consultas em

Cenários de Baixa Topicidade (TREC)

Avaliamos agora a eficiência e eficácia da etapa de processamento federado de consultas em cenários que há uma baixa topicidade (TREC). Para tanto, fixamos o número de pares selecionados (topp = 250), e variamos os parâmetros que afetam diretamente o processamento federado de consultas, como o tamanho da resposta de cada par (|Qset|), o número de documentos replicados (r) e a disponibilidade média dos pares (A). Medimos a Revocação Relativa e uso de banda médio de cada par considerando, inicialmente, que o espaço em disco de cada par é ilimitado (C=∞).

As Figuras 6.2(a-b) mostram a revocação relativa média para valores de r = [0, 250, 500], |Qset|=[100, 1000] e A=[0, 25, 0, 75] para a coleção TREC. Como esperado, maiores valores de |Qset| e r levam a uma maior eficácia, enquanto uma menor dispo- nibilidade média dos pares reduz a qualidade da busca. Assim como nos resultados da eficácia da Seleção de Pares, encontramos que o número de documentos replicados a

6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 55

A= 25% A= 75%

(a) (b)

A= 25% A= 75%

(c) (d)

Figura 6.2. Revocação relativa (a-b) e consumo de banda (c-d) do processamento de consultas para a coleção TREC, considerando diferentes níveis de disponibi- lidade (A), tamanho de respostas (|Qset|) e número de documentos replicados

6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 56 cada consulta (r) tem impacto maior na eficácia que o tamanho da resposta de cada par (|Qset|). Fixado o valor de A=0, 25, realizamos uma análise de variância com níveis do fator |Qset|=[100, 1000] e r=[0, 250] e obtivemos que o valor de r, por si só, explica 83% da variação da eficácia, enquanto o tamanho da resposta apenas 8%. Um resul- tado interessante é que em alguns cenários, mais em específico no cenário com r = 0, incrementar o tamanho das respostas dos pares não aumenta, ou aumenta desprezivel- mente, a qualidade dos resultados da busca. Acreditamos que isto se deve ao fato dos documentos estarem, inicialmente, distribuídos uniformemente entre os pares, o que implica que os documentos relevantes à consulta também possuem uma distribuição uniforme. Como cada consulta possui 1000 documentos relevantes, é de se esperar que cada par possua em média apenas 1 documento relevante (n = 1000). Em cenários que a replicação não ocorre, esta uniformidade permanece até o fim da simulação, enquanto que em cenários que r > 0, os documentos mais relevantes são replicados nos pares que enviam mais consultas (mais tempo online na rede), que passam então a concentrar mais documentos relevantes. Nestes cenários, o tamanho da resposta passa a ter um efeito maior na qualidade da busca. De fato, realizamos uma análise de variância apre- sentada na Tabela 6.2, e observamos que 8% da variação da eficácia pode ser explicada pela interação entre a replicação (fator r) e o o tamanho das respostas (fator |Qset|). Nesta mesma tabela, observamos que 83% da variação da eficácia é devido apenas à replicação por similaridade.

As Figuras 6.2(c-d) apresentam a banda média utilizada (em bytes/s) por cada par para os mesmos cenários. Novamente, a replicação de documentos possui um impacto muito maior no consumo de banda que o tamanho da resposta de cada par. A variação do tamanho da resposta de cada par |Qset| de 100 para 1000 gera um aumento no consumo de banda de apenas 16%, enquanto aumentar o valor de r de 0 para 250 causa um aumento de até 230% no consumo de banda. Portanto, a estratégia de replicação possui um maior impacto tanto na eficácia quanto na eficiência da busca P2P. A Tabela 6.2 apresenta a percentagem de variação do consumo de banda devido aos fatores |Qset| e r. Observe que a replicação por similaridade, por si só, é responsável por 97% da variação do consumo de banda. Novamente, apesar da replicação por similaridade apresentar uma grande melhoria na eficácia, seu o impacto na eficiência da máquina busca (banda dos pares) é ainda maior, e por este motivo, apresenta um compromisso pior que aumentar o valor do |Qset| (exceto no caso de r = 0).

Por fim, é interessante notar também que a eficácia do processamento federado de consultas observada quando utilizamos o modelo detalhado de simulação está muito abaixo do potencial de eficácia da máquina de busca P2P apresentados na Seção 5.3 (col = T REC e A = 0, 25). Lembrando que as principais diferenças entre o modelo

6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 57

Tabela 6.2. Percentagem de variação da revocação relativa e do consumo de banda do processamento da consulta devido ao fator r (replicação por similari- dade) e ao fator |Qset| (tamanho das respostas dos pares em número de docu-

mentos), interação entre os fatores e residual. (A = 0, 25, col = T REC, C=∞, topp = 250 e níveis de |Qset|=[100, 1000] e r=[0, 100] )

Percentagem Da Variação

Fator Revocação Consumo de

Relativa Banda

r 83,4% 96,8%

|Qset| 8% 1,3%

r∗ |Qset| 8% 0,7%

Residual 0,5% 0,7%

detalhado de simulação e o modelo simplificado são que no model simplificado (1) não há falhas de comunicação ou limitação de banda entres os pares, e (2) durante a etapa de seleção de pares, todos os pares que possuem pelo menos um termo da consulta são selecionados; podemos concluir que a discrepância da eficácia apresentada entre os modelos pode ser explicada ou por falhas de comunicação ou pela diferença no processo de seleção de pares. Comparando a eficácia obtida pela seleção de pares com a eficácia obtida pelo processamento federado de consultas (em cenários equivalentes), vemos que a degradação da eficácia nesta última etapa é de no máximo 2%, o que indica que a eficácia da máquina de busca P2P é degradada já durante a seleção dos pares.

6.4

Mensurando a Eficácia e a Eficiência da

Seleção de Pares em Cenários de Alta

Topicidade (WBR-TOP1000)

Nesta seção, avaliamos a eficácia e a eficiência do Seletor de Pares CORI do nosso modelo de máquina de busca em um cenário que os pares possuem coleções de alta topicidade (col =WBR-TOP1000), variando apenas os parâmetros que afetam a eficácia e a eficiência da seleção de pares, como o número de pares selecionados a cada consulta (topp) e o número de documentos replicados após o processamento de cada consulta (r). Apesar da presença da topicidade, não avaliaremos o impacto da mesclagem Kirsch na Seleção de Pares, dado que não há interação direta entre os dois mecanismo - a mesclagem Kirsch é executada somente após o processamento da consulta, o que ocorre muito após a seleção dos pares, e além disso, a sua função é apenas a reordenar das respostas fornecidas por todos os pares. Inicialmente, consideramos apenas um

6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 58 cenário otimista em que não há limitação de espaço em disco de cada par (tamanho da cache C=∞) e concentramos nossa avaliação em cenários com baixa disponibilidade (disponibilidade média (A) de 25%), já que estes apresentam uma maior degradação da eficácia da busca P2P.

(a) (b)

Figura 6.3. Revocação relativa (a) e consumo de banda (b) da seleção de pares para a coleção WBR-TOP1000 e A = 0, 25, agrupados por número de pares selecionados (topp) e número de documentos replicados (r).

A Figura 6.3 (a) mostra os valores da revocação relativa média da seleção de pares ao final da simulação, para os mesmos cenários avaliados na Seção 6.2 (com A = 0, 25) mas utilizando desta vez a coleção de documentos WBR-TOP1000, o que nos leva a resultados substancialmente diferentes. Como podemos ver, nos cenários em que não há replicação (r = 0), aumentar o número de pares selecionados (maior valores de topp) não fornece ganhos significativos na eficácia (no máximo 10%), principalmente se com- parado a aumentar a replicação r de 0 para 250 (um ganho de 62% a 82%) - resultado oposto quando comparado ao mesmo cenário para a coleção TREC. Isso ocorre devido à alta topicidade da distribuição de documentos da coleção WBR-TOP1000, que faz com que os documentos relevantes a uma consulta estejam localizados em poucos pa- res especializados em um tópico, e por este motivo, muitas é vezes inútil selecionar um número maior de pares. De fato, realizando uma análise de variância para A = 0, 25 com níveis de r = [0, 250] e níveis de topp = [100, 250], verificamos que a replicação (fator r) é responsável por 95% da variação da eficácia, enquanto o número de pares selecionados é responsável por apenas 3% da variação.

A Figura 6.3(b) apresentam o valor médio do consumo de banda (em bytes/s) por par nos mesmos cenários. Note que apesar dos resultados de eficácia da máquina

6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 59 de busca nos cenários para a coleção WBR-TOP1000 divergirem quando comparado ao mesmo cenário para T REC, os resultados para eficiências são qualitativamente semelhantes. Nossos resultado novamente apontam que a replicação por similaridade tem um impacto muito maior na banda consumida que o número de pares selecionados. Assim como no caso da T REC, a análise de variância para A = 0, 25 e de r = [0, 250] e níveis de topp = [100, 250] aponta que o fator r por si só é responsável por 98% variação do consumo de banda.

Tabela 6.3. Percentagem de variação da revocação relativa e do consumo de banda do processamento da consulta devido ao fator r (replicação por simila- ridade), ao fator topp (número de pares selecionados) e residual. (A = 0, 25,

col=WBR-TOP1000, C=∞ e níveis de topp=[100, 250] e r=[0, 100] ) Percentagem Da Variação

Fator Revocação Consumo de

Relativa Banda

r 95,6% 98,6%

topp 2,4% 0,8%

Residual 2,1% 0,6%

As Tabela 6.3 apresenta as percentagens da variação da revocação e consumo de banda devido a replicação por similaridade (fator r) e número de pares selecionados (fator topp). Novamente, a replicação por similaridade apresenta um baixo compro- misso entre eficácia e eficiência, representando uma variação no consumo da banda proporcionalmente superior a sua melhoria na eficácia. No entanto, observamos que neste cenário a replicação é a única alternativa para melhorar a eficácia na busca, visto que o fator fator topp tem baixíssimo impacto na eficácia (2,5%), em outras palavras, selecionar mais pares não melhora significativamente a eficácia da busca no cenário da coleção WBR-TOP1000, onde os pares possuem coleções com alta topicidade e distribuição não uniforme de documentos.

6.5

Mensurando a Eficácia e a Eficiência do

Processamento Federado de Consultas em

Cenários de Alta Topicidade (WBR-TOP1000)

Agora avaliamos a eficiência e eficácia do processamento federado de consultas em cenários que há uma alta topicidade dos pares (col =WBR-TOP1000). Para tanto, fixamos o número de pares selecionados (topp = 250), e variamos apenas os parâmetros que afetam diretamente o processamento federado de consultas, como o tamanho da

6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 60 resposta de cada par (|Qset|) e o número de documentos replicados (r) . Como há topicidade, apresentaremos também os resultados da utilização da mesclagem Kirsch. Novamente, consideramos inicialmente um cenário otimista em que o espaço em disco de cada par é ilimitado (C=∞) e restringimos a análise ao cenário em que os pares possuem baixa disponibilidade (A = 0, 25), no qual a degradação da eficácia da busca P2P é maior.

(a) (b)

Figura 6.4. Revocação relativa (a) e consumo de banda (b) do processamento de consultas para a coleção WBR-TOP1000 e A = 0, 25, agrupados por tamanho de respostas (|Qset|) e número de documentos replicados (r).

As Figura 6.4 (a) mostra a revocação relativa média em cenários com valores de r = [0, 250, 500] (número de documentos replicados por consulta), |Qset|=[100, 1000] (número de documentos por resposta de cada par), A = 25% e coleção de documentos WBR-TOP1000. Como nos cenários anteriores, podemos observar que a replicação por similaridade melhora em muito a eficácia da busca P2P por conteúdo. Por exemplo, aumentar o número de documentos replicados a cada consulta r de 0 para 250 pode melhorar a eficácia da máquina de busca em até 88%. Diferentemente dos resultados para a TREC, aumentar o tamanho das respostas dos pares pode beneficiar a eficácia da busca, mesmo quando não há replicação. Isto ocorre devido à topicidade da coleção e à distribuição não uniforme de documentos entre os pares, que faz com que alguns pares possuam muitos documentos relevantes para uma mesma consulta. Note que aumentar o tamanho da resposta dos pares (|Qset|) de 100 para 1000 documentos incrementa a eficácia da máquina de busca em pelo menos 10% em qualquer cenário.

A Figura 6.4 (b) apresenta o consumo de banda média (em bytes/s) para os mesmos cenários acima apresentados. Novamente, a replicação por similaridade (r)

6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 61 possui um impacto muito maior no consumo de banda de cada par que o tamanho das respostas dos pares (|Qset|). A variação do |Qset| de 100 para 1000 gera um aumento no consumo de banda de apenas 6%, enquanto o aumento do número de documentos replicados r de 0 para 250 gera um aumento do consumo de banda de até 420%. Assim como nos resultados anteriores, a replicação por similaridade apresenta um impacto muito maior na eficiência da busca P2P que na eficácia, e portanto apresenta um pior compromisso entre eficácia e eficiência. Note também que o impacto da replicação por similaridade na eficiência é superior para a coleção WBR-TOP1000 quando comparado ao mesmo cenário da TREC. Isso se deve ao fato do tamanho médio dos documentos da WBR-TOP1000 (10,988KB) ser superior ao tamanho médio dos documentos da TREC (2,902KB), o que implica em um maior custo na replicação.

Vimos no Capítulo 5, mais em específico nos resultados apresentados nesta Seção 5.3, que a replicação por similaridade pode reduzir a degradação da eficácia da máquina de busca P2P devido à dinamicidade dos pares, no entanto, não é capaz de superar o problema da topicidade. Como a coleção de documentos WBR-TOP1000 possui uma alta topicidade, é mister avaliarmos o impacto da mesclagem Kirsch na eficácia e eficiência do processamento federado de consultas para esta coleção. Com este objetivo em mente, mensuramos a eficácia e a eficiência da busca P2P em cenários com o r = 250 fixo (já avaliamos o impacto da eficácia e eficiência deste mecanismo), variando entre cenários que utilizam ou não o mecanismo de mesclagem (kirsch = [true, false]) e com diferentes tamanho de resposta dos pares (|Qset|).

(a) (b)

Figura 6.5. Revocação relativa (a) e consumo de banda (b) do processamento de consultas para a coleção WBR-TOP1000 e A = 0, 25, agrupados por número de documentos replicados (r) e mecanismo de mesclagem (kirsch).

6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 62 A Figura 6.5 (a) apresentam a revocação relativa ao final da simulação nos ce- nários supracitados. Como podemos ver, a mesclagem kirsch incrementa a eficácia da busca P2P por conteúdo de 5% a 10%, quando comparado a um cenário equivalente utilizando a mesclagem simples, enquanto aumentar o tamanho da resposta (|Qset|) dos pares incrementa a eficácia de 20% a 25%. É importante notar que a mesclagem Kirsch funciona bem melhor no cenário com uma maior resposta dos pares, e que in- crementar o tamanho das respostas dos pares (|Qset| = 1000) e aplicar a mesclagem Kirsch em conjunto fornece um incremento na eficácia superior a soma dos incrementos individuais destas modificações. Isto se deve ao fato que a principal função da mesclage Kirsch é recomputar a similaridade dos documentos e reordena-los. Como a métrica revocação relativa mede a percentagem de documentos relevantes que são apresentados na resposta da máquina de busca (e não a ordem que são apresentados), a reordenação de documentos da mesclagem Kirsch tem impacto apenas quando o número total de documentos respondido pelos pares é muito maior que o número de documentos apre- sentados na resposta final da máquina de busca, já que neste caso a reordenação dos documentos define efetivamente quais os documentos que serão apresentados e quais serão ignorados. Por este motivo, a mesclagem Kisrch tem maior impacto em cenários com um maior valor de |Qset|.

A Figura 6.5 (b) apresenta o consumo em banda médio de cada par (em bytes/s) para o mesmo cenário. Os resultados apontam que a mesclagem Kirsch apresenta um aumento no consumo banda médio desprezível (de 1% a 3%). Proporcionalmente, o impacto da mesclagem Kirsch na variação da eficácia da busca é superior ao seu impacto no consumo de banda. No Capítulo 3, demonstramos que a mesclagem Kirsch poderia duplicar o tamanho das respostas dos pares à uma consulta, no entanto, nossos resultados indicaram um impacto desprezível no consumo de banda médio dos pares, o que a princípio parece contraditório. De fato, o tamanho das respostas dos pares é aumentado devido a mesclagem Kirsch, no entanto as estatísticas das repostas dos pares às consultas constituem um porção menor dos dados que são trafegados entre os pares durante o funcionamento da máquina busca P2P, sendo a replicação dos documentos e a manutenção das estatísticas no diretório distribuído os principais responsáveis pelo consumo de banda total.

A Tabela 6.4 apresenta a percentagem da variação da revocação e consumo de banda médio, respectivamente, calculadas através da análise de variância dos resultados com níveis de |Qset|=[100, 1000] e kirsch=[true, f alse], e fixados parâmetros C=∞, topp = 250 e A = 0, 25 para a coleção de documentos WBRTOP1000. Como podemos ver, a mesclagem Kirsch tem um impacto na variação da banda consumida menor que o fator |Qset| (número de documentos na resposta de cada par) e um impacto maior

6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 63

Tabela 6.4. Percentagem de variação da revocação relativa e do consumo de banda do processamento da consulta devido ao fator kirsch (mecanismo de mesclagem) e ao fator |Qset| (tamanho das respostas dos pares em número de

documentos) e residual. (A = 0, 25, col =WBRTOP1000, C=∞, topp = 250 e

níveis de |Qset|=[100, 1000] e kirsch=[true, f alse] )

Percentagem Da Variação

Fator Revocação Consumo de

Relativa Banda

|Qset| 97,1% 99,9%

kirsch 2,1% 0,1%

Residual 0,8% 0%

na variação da eficácia, apresentando portanto um melhor compromisso com ganhos modestos na eficácia da máquina de busca.

No entanto, é interessante notar que, assim como em todos nossos resultados anteriores, a eficácia obtida da máquina de busca no modelo detalhado de simulação é consideravelmente inferior à obtida utilizando o modelo simplificado (Capítulo 5). Novamente, o que percebemos nestes cenários é que a degradação da eficácia ocorre já durante a fase de seleção dos pares (vide resultados da Seção 6.4), o que limita severamente os benefícios da mesclagem Kirsch.

Benzer Belgeler