A primeira etapa de coleta e análise de dados é de ordem quantitativa. Como já relatamos, as análises quantitativas - em geral com aplicação de métodos estatísticos, técnicas de mineração de dados e/ou análise de logs disponibilizados pelo site - são predominantes nos estudos sobre a Wikipédia, especialmente da versão em inglês (cf. ORTEGA, 2009). Vários desses estudos são descritos pelo autor como “descritos gerais”, pois focam na apresentação e na discussão de dados básicos sobre o site, como total de editores e número de edições. Em função do ineditismo da abordagem quantitativa na análise da Wikipédia em português e considerando as limitações técnicas158 e objetivos deste trabalho, é com uma descrição geral que iniciamos nossa pesquisa empírica.
A partir da página com o histórico de edições de cada artigo selecionado, extraímos e organizamos dados que nos permitem conhecer alguns aspectos relativos ao processo de edição dos 91 artigos da amostragem. Para tal, foi desenvolvido especialmente para esta pesquisa o software WikipediAnalyserPT (figura 16), que permite a extração, de forma automatizada, de informações do histórico de artigos da Wikipédia em português159. Informações detalhadas sobre o funcionamento do software estão no Apêndice B.
158
As pesquisas quantitativas com o banco de dados com todas as edições da Wikipédia (chamado de dump) como a realizada por Sun et al (2010) e pelo próprio Ortega (2009) exigem uma significativa infra-estrutura de hardware, conhecimento técnico especializado de programação e análise estatística avançada.
159
O software WikipediAnalyserPT foi desenvolvido pelo estudante Charles Cássio da Silva, do curso de Ciências da Computação da Universidade Federal de Viçosa (UFV), sob orientação do professor Dr. Alcione de Paiva Oliveira, do Departamento de Informática da mesma instituição. O trabalho contou com o apoio do Programa de Pós-Graduação em Estudos Linguísticos (PosLin) da Fale/UFMG através da Fundação de Apoio ã Pesquisa (Fundep). O software tem código aberto e está disponível para download no endereço https://sourceforge.net/p/wikipedianalyse
Figura 16 - Interface do software WikipediAnalyserPT
Elaboração do autor
Os dados foram extraídos com a ferramenta WikipediAnalyserPT no dia 23 de agosto de 2010 e foram consideradas todas as atividades de edição nos artigos desde sua criação até esta data. Dentre as informações extraídas, aproveitamos os seguintes dados gerais sobre o processo de edição de cada um dos artigos que compõem a amostragem:
− número total de edições;
− número total de editores envolvidos; − média de edições por editor;
− percentual de editores que fizeram uma única edição (“editores únicos”) − média de edições por mês;
− percentual de edições que culminaram em expansão, redução ou manutenção do conteúdo das páginas160.
Ainda em relação ãs atividades gerais de edição de cada artigo, foram extraídos dados sobre as edições restritivas realizadas pelos editores:
− número total de proteções aplicadas ao artigo;
− percentual do tempo em que o artigo ficou protegido; − número total de reversões;
− percentual de reversões em relação ao número total de edições do artigo; 160
Através do histórico de edições é possível identificar quantos kilobytes cada versão da página “pesa”. Através da comparação com a versão anterior do artigo foi possível identificar se uma edição privilegiou a inclusão (mais kb), a exclusão (menos kb) ou se o conteúdo alterado foi pequeno a ponto de não alterar o peso da página.
− número total de edições desfeitas;
− percentual de edições desfeitas em relação ao número total de edições do artigo;
Por fim, através da ferramenta WikipediAnalyserPT foi possível também extrair dados quantitativos das edições feitas pelos quatro grupos de editores: os não-cadastrados (editores identificados apenas pelo IP), bots, administradores e demais editores cadastrados. De cada um destes grupos foi possível identificar:
− número total de edições; − número de editores envolvidos; − média de edições por editores;
− percentual de editores do grupo em relação ao número total de editores do artigo;
− percentual de edições do grupo em relação ao número total de edições do artigo;
6.3.2.1 Tratamento estatístico
Os dados extraídos foram organizados em uma planilha do software Open Office e posteriormente importados para o software SPSS Statistics versão 17.0, a partir do qual foi possível realizar um tratamento estatístico dos dados. Para analisar os dados, utilizamos parâmetros e medidas da Estatística Descritiva, que, segundo Martins (2009), tem como objetivos a “organização, sumarização e descrição de dados quantitativos e qualitativos” (p.25).
Na análise, adotamos medidas de tendências central e de dispersão. As duas medidas de tendência central consideradas são a média e a mediana161. Medida mais comum da Estatística Descritiva, a média, segundo Levin (1985, p.45), “pode ser tomada como o 'centro de gravidade’, isto é, o ponto em torno do qual se equilibram as discrepâncias negativas e positivas” de um conjunto de dados. Trata-se da soma dos valores das variáveis dividida pelo número de variáveis. Seu uso é mais indicado para um conjunto mais simétrico de dados 161 Por ser uma medida muito simplória, descartamos a moda, que é o valor mais frequente de um conjunto de
dados. Segundo D'Hainaut (1997), a moda tem como virtude não ser influenciada por valores extremos, no entanto “não é tão bem definida como a média ou mediana, já que uma pequena variação pode influenciá-la mais” (p.72).
porque “é muito influenciada pelos dados extremos” (D'HAINAUT, 1997, p.65).
Já a mediana é o “valor que divide exatamente em duas partes iguais a distribuição desta amostragem” (D'HAINAUT, 1997, p.67), isto é, metade dos dados tem valores superiores ã mediana e a outra metade, valores inferiores. Para o autor, a vantagem da mediana é o fato de ser “bem definida, facilmente interpretável e fácil de determinar” (p.71) e não ser influenciada por dados extremos. Segundo Levin (1985, p.49), a mediana é a “medida de tendência central mais desejável para descrever uma distribuição assimétrica”.
Segundo Stevenson (1981), “são necessários dois tipos de medidas para descrever adequadamente um conjunto de dados” (p.24). Além de calcular a tendência central, é preciso identificar “se os valores estão próximos uns dos outros, ou separados”, o que é possível pelas medidas de dispersão. Foram utilizadas as duas medidas principais para mensurar a variação dos dados coletados: a amplitude total e o desvio padrão.
A amplitude total representa a diferença entre o menor e o maior valor de um conjunto de dados. Ao comparar os extremos de um conjunto de dados, oferece uma perspectiva simples da variação do conjunto e é muito suscetível a qualquer variação, pois depende apenas de dois valores do conjunto. Mais complexo, o desvio padrão “representa a variabilidade média de uma distribuição, já que mede a média de discrepâncias (desvios)” (LEVIN, 1985, p.69) em relação ã média aritmética. Isso significa que, quanto maior a variabilidade em torno da média de uma distribuição, maior o desvio padrão. O desvio padrão de um conjunto de dados é sempre menor que a amplitude.
A análise das tendências centrais e das dispersões dos dados obtidos nos permite identificar padrões e variações significativos nos processos de edição da amostragem de artigos analisada. Estes padrões e as variações podem ser observados a partir de gráficos (histogramas) elaborados a partir dos dados e que indicam o tipo de distribuição de cada conjunto.
Outro recurso estatístico utilizado na análise dos dados referentes ãs edições dos artigos é a correlação. Segundo Stevenson (1981), a correlação “mede a força, ou grau, de relacionamento entre duas variáveis” (p.341) e sua análise “indica até que ponto os valores de uma variável estão relacionados com os de outra”. Para o autor, “a análise de correlação é útil em trabalho exploratório, quando um pesquisador ou analista procura determinar quais
variáveis são potencialmente importantes (...)” (p.367).
O resultado da correlação entre duas variáveis é o coeficiente. Para dados contínuos (caso desta pesquisa), calcula-se o coeficiente utilizando a fórmula do r de Pearson162. Segundo Levin (1985, p.280), o r de Pearson “reflete a extensão em que cada sujeito amostral consegue obter o mesmo escore z nas duas variáveis (X e Y)”.
O valor de r pode variar de -1,00 a + 1,00. Uma correlação positiva significa que uma variável Y tende a crescer (ou diminuir) ã medida que cresce (ou diminui) a variável X. Quanto mais próximo de +1,00, maior a correlação positiva entre duas variáveis. Na correlação negativa, a relação é o contrário: Y diminui (ou cresce) ã medida que X cresce (ou diminui). A correlação é mais negativa quanto mais próximo o coeficiente estiver de -1,00. Segundo Levin (1985, p. 369), o coeficiente 0,00 indica “ausência de relacionamento” entre duas variáveis, enquanto os valores +0,70 e -0,70 indicam, respectivamente, “relacionamento positivo moderado” e “relacionamento negativo moderado”.
As correlações efetuadas na análise quantitativa desta pesquisa tomaram como referência o número total de edições dos artigos. A partir desta variável-chave, identificamos como as demais evoluem. Por exemplo, analisamos como a média de edições por editores ou o percentual de edições que incluem conteúdos nas páginas variam em função do aumento das edições dos artigos.