5. GEREÇ ve YÖNTEM
5.9. Araştırmada Kullanılan Veri Toplama Araçları
de Busca P2P
Por fim, nós avaliamos a eficiência em consumo de espaço em disco da busca P2P me- dindo a degradação da eficácia devido à limitação de espaço disponível para cache local de cada par, C. Para tanto, fixamos valores de topp=100, |Qset|=1000 e r=250, e vari- amos a quantidade de espaço em disco (C=[500, 1000, ∞]) disponível para replicação, e a disponibilidade média dos pares (A=[0, 25, 0, 75]).
Tabela 6.5. Eficácia da máquina de busca para diferentes tamanhos de cache.
TREC WBR-TOP1000 ❍ ❍ ❍ ❍ ❍ ❍ C A 0, 25 0, 75 0, 25 0, 75 500 0,430 0,593 0,269 0,427 1000 0,436 0,629 0,309 0,452 ∞ 0,438 0,633 0,323 0,464
A Tabela 6.5 apresenta o valor da Revocação Relativa média da busca P2P ao final da simulação. Podemos notar que, em todos os cenários, não é necessário uma
6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 64 cache local muito grande para garantir a eficácia da máquina de busca. Valores de C=500, isto é, cada par dedicar a cache local o espaço em disco equivalente a apenas 500 documentos, já é o suficiente para atingir eficácia equivalente a 96% do mesmo cenário com C=∞. Considerando que o tamanho documento da médio do documento para a TREC (WBR-TOP1000) é de 2,902KB (10,988KB), estes resultados implicam que uma cache pequena, de apenas 1,38MB (5,24MB), é suficiente para atender o mecanismo de replicação por similaridade.
6.7
Considerações Finais
Neste Capítulo avaliamos a eficácia e a eficiência da máquina de busca P2P por con- teúdo, considerando características práticas de sistemas P2P ignoradas em trabalhos anteriores [32, 38, 43, 42, 18, 16, 34, 6], tais como a a heterogeneidade e limitação dos pares quanto banda e espaço em disco, falhas de roteamento e troca de mensagens na rede sobreposta, comportamento dinâmico e topicidade da coleção de documentos. A avaliação deste Capítulo complementa de forma prática os resultados do Capitulo 5, no qual apresentamos o potencial de eficácia da máquina de busca P2P frente ao comportamento dinâmico dos pares e topicidade.
Mensuramos a eficácia e a eficiência da busca P2P por conteúdo em duas eta- pas do processamento da consulta na máquina de busca P2P: a seleção de pares e o processamento federado de consultas. Nesta avaliação variamos diversos fatores, como a disponibilidade média dos pares (A), número de documentos replicados (r), número de pares selecionados (topp), tamanho das respostas de cada par (|Qset|), o mecanismo de mesclagem utilizada (kirsch = [true, false]), a quantidade de espaço disponível em cada par para replicação (C) e a coleção de documentos utilizada (TREC ou WBR- TOP1000).
Através desta avaliação, pudemos observar que a replicação por similaridade pos- sui grande impacto na eficácia da máquina de busca P2P, em alguns casos incremen- tando a eficácia da busca em até 166%. Entretanto, apesar de eficaz, o mecanismo de replicação por similaridade não é muito eficiente, já que seu impacto na eficiência da máquina de busca (consumo de banda) é proporcionalmente maior que seu benefício na eficácia. Apesar disso, o mecanismo de replicação por similaridade permanece uma ferramenta importante para máquinas de busca P2P em cenários que a eficácia for mais importantes que a eficiência. Em casos que a eficiência for mais importante que a eficácia, aumentar valores dos parâmetros |Qset| e topp da máquina de busca fornece um melhor compromisso que o mecanismo de replicação.
6. Avaliando a Eficácia e a Eficiência da Máquina de Busca P2P 65 Em cenários que há alta topicidade na coleção de documentos dos pares (col=WBR-TOP1000), o mecanismo de mesclagem Kirsch apresentou modestos ga- nhos de eficácia (de 5% a 10%) a um custo em banda proporcionalmente menor, o que indica que a mesclagem Kirsch é um mecanismo eficiente na máquina de busca P2P. Os ganhos obtidos na eficácia foram inferiores ao esperado, mas isso ocorreu por que a maior parte da degradação da eficácia, nesse cenário, decorreu da seleção de pares e não da topicidade.
No geral, apesar das melhorias que os mecanismo de replicação por similaridade e mesclagem Kirsch proporcionaram em nossos experimentos (uma melhoria de até 166%), podemos observar que, em todos os cenários em que os pares possuem uma baixa disponibilidade média (A = 0, 25), a eficácia da busca P2P ficou consideravelmente abaixo do potencial de eficácia da máquina de busca P2P identificado no Capítulo 5. Identificamos que maior parte desta degradação ocorre já durante a seleção dos pares, o que aponta claramente que a melhor alternativa para incrementar a eficácia da máquina de busca P2P neste ponto é melhorar o funcionamento do Seletor de Pares ou a forma que os documentos estão distribuídos na rede.
Capítulo 7
Conclusões e Trabalhos Futuros
Neste trabalho, avaliamos quantitativamente a eficácia (qualidade) e a eficiência (uti- lização de recursos) de uma máquina de busca P2P, em cenários que os pares possuem comportamento altamente dinâmico e recursos limitados. Utilizamos duas coleções de testes reais (TREC-8 e WBR) e consideramos um modelo de rede sobreposta e física detalhado. Avaliamos uma estratégia de replicação para o contexto de busca P2P, uma estratégia de mesclagem de respostas dos pares, e o compromisso entre qualidade e utilização de recursos na escolha de parâmetros da máquina de busca P2P.
A avaliação é realizada em duas etapas: primeiramente quantificamos o potencial de eficácia da máquina de busca P2P utilizando um modelo simplificado, que nos per- mitiu avaliar a extensão do potencial dos mecanismos de replicação por similaridade e mesclagem Kirsch na melhoria da eficácia da busca P2P por conteúdo; em um segundo momento utilizamos um modelo detalhado de simulação, capaz de analisar a eficácia e a eficiência da máquina de busca P2P em cenários mais práticos, considerando carac- terísticas tais como a heterogeneidade e a limitação dos pares quanto banda e espaço em disco, falhas de roteamento e troca de mensagens na rede sobreposta, bem como o comportamento dinâmico dos pares e a topicidade da coleção de documentos.
A avaliação do potencial da máquina de busca P2P indicou que a replicação por similaridade pode elevar a eficácia da busca P2P a uma eficácia equivalente a 99% da eficácia da busca centralizada, em cenários em que não há topicidade. Em cenários em que a coleção de documentos possui uma alta topicidade, a replicação por similaridade por si só não é suficiente para manter um nível de eficácia semelhante ao obtido com a busca centralizada. Entretanto, quando emprega-se a replicação por similaridade e mesclagem Kirsch em conjunto, observamos que o potencial de eficácia da busca P2P pode chegar à 95% da eficácia da busca centralizada. Apesar de encorajadores, estes resultados indicam apenas o potencial da busca P2P por conteúdo, em um cenário em
7. Conclusões e Trabalhos Futuros 67 que não há falhas de comunicação, limitação de banda ou erros durante a seleção de pares.
Em seguida, avaliamos a máquina de busca P2P em um contexto mais prático, utilizando o modelo detalhado de simulação. Nestes cenários consideramos o processo de seleção de pares, manutenção de estatísticas da máquina de busca no diretório distribuído, roteamento e troca de mensagens, atrasos de transmissões, falhas de co- municação, limitação de banda, entre outras características encontradas em sistemas P2P reais. Neste contexto mais prático, nossos resultados apontam que, em cenários em que não há topicidade, a replicação por similaridade pode incrementar a qualidade da busca P2P em até 166% quando comparada a cenários em que não há replicação, a um custo em banda médio inferior à 34,2Kbps por par. Apesar da grande melhoria na eficácia da busca P2P, a replicação por similaridade oferece um pior compromisso entre eficácia e eficiência quando comparada com ajustes mais simples, como aumentar o número de pares contatados a cada consulta ou o tamanho da resposta de cada par. Ainda assim, em todos os cenários, a replicação por similaridade forneceu uma melho- ria na eficácia superior a 40%, o que a indica como uma alternativa para cenários em que a eficácia da busca for mais importante que eficiência.
Em cenários em que a coleção de documentos possui uma alta topicidade, a replicação por similaridade foi utilizada em conjunto com a mesclagem Kirsch, o que forneceu uma incremento total na eficácia de 85% a 118%. A mesclagem Kirsch, por si só, forneceu um modesto ganho de 5% a 10%, mas demonstrou ser um mecanismo eficiente, provendo uma melhoria na eficácia da busca P2P proporcionalmente maior que seu impacto no consumo de banda (que foi de 3% no pior caso).
Por fim, verificamos que o mecanismo de replicação por similaridade mantém sua eficácia mesmo em cenários em que os pares possuem relativamente pouco espaço em disco dedicado para replicação (o equivalente a 500 documentos), para ambas as coleções de documentos avaliadas.
É importante notar que, apesar de todas as melhorias que os mecanismo de re- plicação por similaridade e mesclagem Kirsch proporcionaram em nossos experimentos (uma melhoria de de até 166%), podemos observar que em todos os cenários em que os pares possuem uma baixa disponibilidade média (A = 0, 25), a eficácia da busca P2P ficou consideravelmente abaixo do potencial de eficácia da máquina de busca P2P identificado no Capítulo 5, e identificamos que maior parte desta degradação ocorre já durante a seleção dos pares. Este resultado aponta duas novas oportunidades de pesquisa futura que podem melhorar significativamente a eficácia da máquina de busca P2P por conteúdo: (1) melhorar o desempenho do Seletor de Pares e (2) melhorar a distribuição dos documentos na rede. É interessante notar que a degradação da eficácia
7. Conclusões e Trabalhos Futuros 68 do Seletor de Pares pode ser consequência da indisponibilidade dos pares e de erros nas estatísticas armazenados no diretório distribuído (ambos causados pelo churn), e não por ineficácia do algoritmo CORI. Por este motivo, faz-se necessário um estudo mais detalhado do impacto do churn na etapa de seleção de pares.
Além das oportunidades de pesquisa supracitadas, há a possibilidade de expandir nosso modelo de máquina de busca P2P para incluir novos modelos de processamento de consulta (utilizando textos âncora, por exemplo), novos mecanismos de mesclagem de respostas e de replicação de documentos. Especialmente quanto ao mecanismo de replicação, é importante lembrar que a replicação por similaridade (analisada neste trabalho) aumenta a topicidade da coleção de documentos dos pares, já que concentra localmente todos os documentos relacionados à consulta. A criação e análise de um mecanismo de replicação que, ao invés de concentrar, distribua os documentos unifor- memente entre os pares, pode agregar resultados relevantes à avaliação aqui apresen- tada.
A avaliação de outras coleções de documentos e cargas de trabalho também podem adicionar valor aos resultados deste trabalho. Em especial, a distinção entre consultas transacionais, navegacionais e informacionais, bem como a utilização de diferentes car- gas de trabalho com conjuntos de consultas populares (para as quais a topicidade pode ter maior efeito, por possuírem termos comuns) e consultas aleatórias (para as quais a topicidade pode possuir menor efeito, devido a maior raridade dos termos) podem refinar e ampliar nossos resultados.
Ainda outra possibilidade de expansão do tema de pesquisa seria avaliar o atual modelo em diferentes cenários. Uma avaliação com diferentes números de pares permi- tiria uma análise de escalabilidade da máquina de busca P2P, e a utilização de diferentes redes sobrepostas, tais como CAN e Pastry, permitiria um estudo comparativo sobre a eficiência das diferentes redes sobrepostas em um cenário prático.
Referências Bibliográficas
[1] (http://www9.limewire.com/developer/gnutella_protocol_0.4.pdf last acessed on November 2008). The Gnutella Protocol Specification v0.4.
[2] ACM (http://portal.acm.org/dl.cfm last acessed on January 2010). ACM Di- gital Library.
[3] Akamai (2009). The state of the internet. Technical report, Akamai.
[4] Alexander, T. & Kedem, G. (1996). Distributed predictive cache design for high performance memory system. In Second International Symposium on High Perfor- mance Computer Architecture, pp. 254--263.
[5] AOL (2006). 500k user session collection. Technical report, America Online. [6] Atalla, F. (2008). Impacto docomportamento dinâmico dos pares na eficácia de
máquinas de busca par-a-par. In Master of Science Thesis. UFMG, Minas Gerais, Brazil.
[7] Atalla, F.; Miranda, D.; Almeida, J.; Gonçalves, M. & Almeida, V. (2008). Analy- zing the impact of churn and malicious behavior on the quality of peer-to-peer web search. In SAC ’08.
[8] Baeza-Yates, R.; Ribeiro-Neto, B. et al. (1999). Modern information retrieval. Addison-Wesley Harlow, England.
[9] Baumgart, I.; Heep, B. & Krause, S. (2007). OverSim: A Flexible Overlay Network Simulation Framework. In IEEE GIS ’07, pp. 79--84.
[10] Bender, M.; Michel, S.; Triantafillou, P.; Weikum, G. & Zimmer, C. (2005a). Minerva: collaborative p2p search. In VLDB ’05, pp. 1263--1266.
[11] Bender, M.; Michel, S.; Weikum, G. & Zimmer, C. (2005b). The MINERVA project: Database selection in the context of P2P search. Datenbanksysteme in Business, Technologie und Web.
Referências Bibliográficas 70 [BLOOM] BLOOM, B. Space/Time Trade-offs in Hash Coding with Allowable Errors. [12] Calado, P. (1999). The WBR-99 Collection: Description of the WBR-99 Web collection data-structures and file formats. LATIN, Universidade Federal de Minas Gerais, Brazil.
[13] Callan, J. (2000). Distributed information retrieval. Advances in information retrieval.
[14] Callan, J.; Lu, Z. & Croft, W. (1995). Searching distributed collections with inference networks. In ACM SIGIR ’95, pp. 21--28.
[15] Chawathe, Y.; Ratnasamy, S.; Breslau, L.; Lanham, N. & Shenker, S. (2003). Making gnutella-like P2P systems scalable. In SIGCOMM ’03, pp. 407--418.
[16] Chen, H.; Jin, H.; Wang, J.; Chen, L.; Liu, Y. & Ni, L. (2008). Efficient multi- keyword search over p2p web.
[17] Compete.com (http://siteanalytics.compete.com/geocities.com/ last aces- sed on July 2009). Site profile for geocities.com.
[18] Cuenca-Acuna, F.; Peery, C.; Martin, R. & Nguyen, T. (2003). PlanetP: Using Gossiping to Build Content Addressable Peer-to-Peer Information Sharing Commu- nities. In HPDC ’03.
[19] Dabek, F.; Zhao, B.; Druschel, P.; Kubiatowicz, J. & Stoica, I. (2003). Towards a common API for structured peer-to-peer overlays. Lecture Notes in Computer Science, pp. 33--44.
[20] Flajolet, P.; Martin, G. & national de recherche en informatique et en automatique (France, I. (1985). Probabilistic Counting Algorithms for Data Base Applications. JCSS, 31(2):182--209.
[21] Jain, R. (1991). The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling. Wiley- Intersci- ence, New York.
[22] Kirsch, S. (1997). Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents. US Patent 5,659,732.
Referências Bibliográficas 71 [23] Kishida, K. (2005). Property of average precision and its generalization: An exa- mination of evaluation indicator for information retrieval experiments. National Institute of Informatics.
[Kurose] Kurose, J. Computer Networking: A Top-Down Approach Featuring the In- ternet, 3/E. Pearson Education India.
[24] Larkey, L.; Connell, M. & Callan, J. (2000). Collection selection and results merging with topically organized US patents and TREC data. In CIKM ’00, pp. 282--289.
[25] Lee, D.; Chuang, H. & Seamons, K. (1997). Document ranking and the vector- space model. Software, IEEE, 14(2):67--75.
[26] Li, J.; Loo, B.; Hellerstein, J.; Kaashoek, M.; Karger, D. & Morris, R. (2003). On the Feasibility of Peer-to-Peer Web Indexing and Search. LECTURE NOTES IN COMPUTER SCIENCE.
[27] Liang, J.; Kumar, R. & Ross, K. (2005). The KaZaA Overlay: A Measurement Study. Computer Networks Journal (Elsevier), 49(6).
[28] Luu, T.; Klemm, F.; Podnar, I.; Rajman, M. & Aberer, K. (2006). Alvis peers: a scalable full-text peer-to-peer retrieval engine. In P2PIR ’06, pp. 41--48.
[29] Lv, Q.; Cao, P.; Cohen, E.; Li, K. & Shenker, S. (2002). Search and replication in unstructured peer-to-peer networks. In ICS ’02, pp. 84--95. ACM New York, NY, USA.
[30] Maymounkov, P. & Mazieres, D. (2002). Kademlia: A peer-to-peer information system based on the XOR metric. In IPTPS’02, volume 258, p. 263.
[31] Menasce, D. & Almeida, V. (2001). Capacity Planning for Web Services: metrics, models, and methods. Prentice Hall PTR Upper Saddle River, NJ, USA.
[32] Michel, S.; Bender, M.; Ntarmos, N.; Triantafillou, P.; Weikum, G. & Zimmer, C. (2006). Discovering and exploiting keyword and attribute-value co-occurrences to improve P2P routing indices. In CIKM ’06, pp. 172--181.
[33] Parreira, J.; Michel, S. & Bender, M. (2006). Size doesn’t always matter: exploi- ting pageRank for query routing in distributed IR. In Proceedings of the international workshop on Information retrieval in peer-to-peer networks, pp. 25--32. ACM Press New York, NY, USA.
Referências Bibliográficas 72 [34] Parreira, J. & Weikum, G. (2005). JXP: Global Authority Scores in a P2P
Network. In International Workshop on Web and Databases, Baltimore, USA. [35] Podnar, I.; Rajman, M.; Luu, T.; Klemm, F. & Aberer, K. (2007). Scalable
Peer-to-Peer Web Retrieval with Highly Discriminative Keys. In ICDE ’07.
[36] Ratnasamy, S.; Francis, P.; Handley, M.; Karp, R. & Schenker, S. (2001). A scalable content-addressable network. In SIGCOMM ’01, volume 31, pp. 161--172. [37] Rowstron, A. & Druschel, P. (2001). Pastry: Scalable, Decentralized Object Loca-
tion, and Routing for Large-Scale Peer-to-Peer Systems. LNCS 2001, 2218:329--350. [38] Skobeltsyn, G.; Luu, T.; Podnar Žarko, I.; Rajman, M. & Aberer, K. (2008).
Query-driven indexing for scalable peer-to-peer text retrieval. FGCS ’08.
[39] Skobeltsyn, G.; Luu, T.; Zarko, I.; Rajman, M. & Aberer, K. (2007). Web text retrieval with a P2P query-driven index. In SIGIR ’07, pp. 679--686.
[40] Stoica, I.; Morris, R.; Karger, D.; Kaashoek, M. & Balakrishnan, H. (2001). Chord: A scalable peer-to-peer lookup service for internet applications. In SIGCOMM ’01, pp. 149--160.
[41] Stutzbach, D. & Rejaie, R. (2006). Understanding churn in peer-to-peer networks. In ACM SIGCOMM ’06, pp. 189--202. ACM New York, NY, USA.
[42] Suel, T.; Mathur, C.; Wu, J.; Zhang, J.; Delis, A.; Kharrazi, M.; Long, X. & Shanmugasundaram, K. (2003). Odissea: A peer-to-peer architecture for scalable web search and information retrieval. In WebDB ’03, pp. 67--72.
[43] Tang, C.; Xu, Z. & Dwarkadas, S. (2003). Peer-to-peer information retrieval using self-organizing semantic overlay networks. In SIGCOMM ’03, pp. 175--186.
[44] Voorhees, E. & Harman, D. (2000). Overview of the eighth text retrieval conference (TREC-8). NIST SPECIAL PUBLICATION SP, pp. 1--24.
[45] Wikipedia (http://en.wikipedia.org/wiki/List_of_digital_library_projects last acessed on May 2010). List of Digital Library Projects.
[46] Yahoo (http://geocities.yahoo.com/ last acessed on November 2009). Sorry, GeoCities has closed. .