• Sonuç bulunamadı

CLUSTERS3 Cálculo da MÉTRICA4 Determinístico Probabilístico MÉTRICA

executado várias vezes, o mesmo resultado sempre deverá ser encontrado. Por outro lado, sabe-se que o processo de

encontrar exemplares é chamado de ‘o problema da localização de instalações’ na ciência da computação teórica e é conhecido por ser NP-

completo. Portanto, encontrar a solução ótima para comparar com o Affinity

Propagation é computacionalmente inviável em geral (PROBABILISTIC

AND STATISTICAL INFERENCE GROUP, 2014).

Dessa forma, algumas heurísticas são usadas durante o processo de criação de clusters no AP. Isso significa que, dada uma matriz de similaridades e o número de clusters que deverão ser criados, é possível que o AP não necessariamente encontre a mesma solução se o método for utilizado por mais de uma vez. Portanto, este método deve ser visto como probabilístico. Por fim, após a geração dos clusters, a métrica foi calculada, de modo determinístico, a partir das fórmulas (10) e (11) às quais estão apresentadas na seção resultados.

3.3.4 Algumas características que foram exploradas na construção da métrica

É possível notar que a métrica proposta pode ser entendida como uma medida de dispersão, isto é, uma medida capaz de representar a dispersão das entidades pertencentes às categorias top pelos clusters. Seguindo esse raciocínio, duas situações extremas podem ser identificadas: (i) cada entidade top pode ser atribuída a um cluster diferente; e (ii) todas as entidades top podem ser atribuídas ao mesmo cluster. Pode-se perceber que, se a primeira situação extrema acontecesse, as percepções dos usuários estariam totalmente equivocadas. Por sua vez, se a segunda ocorresse, os usuários estariam percebendo os dados exatamente da forma como eles são (ou seja, sem distorções). Portanto, a faixa de valores da métrica deve ser limitada por essas duas situações. Por conveniência, foi arbitrado que o valor zero (0) representa a primeira situação enquanto que o valor um (1) representa a segunda – ou seja, a métrica deve variar de 0 a 1.

Entretanto, o número de clusters nos quais as entidades pertencentes às categorias top estão distribuídas não é o único parâmetro a ser considerado na construção da métrica. É possível perceber que várias soluções podem ser encontradas mesmo estando as entidades top distribuídas em apenas dois clusters, por exemplo: (i) 9 entidades podem ser atribuídas ao primeiro cluster e apenas uma ao segundo; (ii) 5 entidades podem ser atribuídas a cada cluster; entre outras. Apesar dessas soluções hipotéticas considerarem apenas dois clusters, o

impacto sobre a percepção dos usuários pode ser visto como diferente. No primeiro caso, se um par de entidades fosse escolhido ao acaso por um usuário, a probabilidade dessas duas entidades pertencerem ao mesmo cluster – ou seja, de serem similares entre si – seria de 80%. No segundo caso, essa probabilidade seria de 50%. Portanto, a métrica deve ser capaz de distinguir esses tipos diferentes de solução.

Adicionalmente, considerando que, no mesmo ranking, algumas categorias top diferentes (por exemplo, top-5, top-10, top-15 e assim por diante) podem ser identificadas, é possível que diferentes soluções possam ser encontradas para cada uma delas. Por exemplo, imagine que as 12 primeiras entidades de um ranking estão atribuídas ao primeiro cluster e as entidades de 13 a 16 ao segundo. Nesse caso hipotético, deve-se entender que o ranking está aderente com a percepção dos usuários nos contextos das categorias top-5 e top-10, mas não está no contexto da categoria top-15. Entende-se que a métrica deve considerar essas diferentes soluções.

Num aspecto adicional, sabe-se que os usuários veem altos níveis de similaridade entre as entidades pertencentes às categorias top independente dos índices de cada uma delas, ou seja, baseados exclusivamente nas suas posições no ranking. Portanto, pode-se justificar que os índices não deveriam ser considerados para a construção da métrica, apenas os indicadores. Dado que o uso de dados sintéticos – por exemplo, aqueles relacionados com os índices (ou valores agregados) – é considerado uma prática pobre nos métodos de clustering (KETTENRING, 2006), a decisão de utilizar apenas os dados dos indicadores parece ser ainda mais oportuna.

Avançando, considerando que os usuários estão baseando suas escolhas apoiados por vários rankings – cada qual com diferentes características (por exemplo, número de indicadores, número de entidades, tipos de entidades, abrangência, objetivos, e assim por diante) –, a métrica deve ser universal. Ou seja, a mesma métrica – e os conceitos representados por ela – devem ser aplicáveis a todos os rankings. Em outras palavras, ela deve ser comparável entre rankings. Para isso, necessariamente os dois cenários extremos descritos no primeiro parágrafo desta seção devem ser identificados e considerados para cada ranking.

Além disso, a métrica deve considerar que mais de uma entidade pode estar ranqueada na mesma posição de um determinado ranking. Para efeitos de construção da métrica, levando em conta a percepção dos usuários, é esperado que essas entidades fossem atribuídas ao mesmo cluster. Pode ser entendido, que, caso a solução fornecida pelo método de clustering não tenha esse padrão, alguma penalização deva ser aplicada ao valor da métrica.

Avançando, a parcimônia deve ser levada em consideração. “O critério da parcimônia refere-se à identificação do modelo mais simples que ainda fornece resultados

aceitáveis” (MARCOT, 2012). Isso indica que deve ser escolhido, “dos modelos de representação adequados, um modelo com o menor número possível de parâmetros”

(LEDOLTER; ABRAHAM, 1981). Portanto, dada a importância da parcimônia para a construção de métricas (MEYER, G. S. et al., 2012), este aspecto deve ser considerado sempre que possível.

Além dos aspectos mencionados anteriormente, o maior desafio a ser encarado para a construção da métrica é determinar o número de clusters que serão considerados no método de clustering. Pode-se notar que esse número é essencial para a construção da métrica. Considerando que mais clusters devem representar as entidades top de um modo mais fragmentado, provavelmente a métrica deve ser extremamente sensível ao número de clusters selecionado. Necessariamente a solução escolhida deve considerar o mesmo número de clusters para todos os rankings para que possa ser comparável entre eles.

Tem sido argumentado, em função da larga subjetividade envolvida, que a identificação do número de clusters pode ser considerada como o maior problema na análise de clusters (NARDO et al., 2005). De fato, através de uma abordagem experimental, um estudo demonstrou a inerente dificuldade em se estimar o número de clusters (DUBES, 1987). Também foi destacado que “não existe uma metodologia simples que possa ser

recomendada para a seleção do número mais apropriado de clusters” (ÖNSEL et al., 2008) e

que “existe sempre certo grau de arbitrariedade envolvida na seleção do número final de

clusters” (RODE; COLL, 2011).

Além disso, sabe-se que os métodos de clustering têm regras diferentes relacionadas ao número de clusters a ser considerado. Enquanto que o método K-means (J. MCQUEEN, 1967) precisa de uma definição a priori do número clusters, no Ward (WARD, 1963) os clusters emergem naturalmente durante o processo. Numa abordagem alternativa que tem sido explorada, primeiramente algum método hierárquico é usado para determinar o número de clusters o qual, posteriormente, é aplicado ao K-means para encontrar os clusters efetivamente (ABU SHARKH; GOUGH, 2010; MAVRI, 2013).

No AP, por sua vez, o número de clusters – que é correspondente ao número de exemplares – pode ser determinado a partir do valor atribuído a priori ao parâmetro

“preference”, mas também pode emergir do processo de transmissão de mensagens (FREY;

não, configurado previamente pelo pesquisador, dando mais flexibilidade para a sua aplicação.

Dado que a métrica deve ser uma medida orientada para os usuários, a capacidade deles para processar informações (KAUFMAN et al., 1949; MILLER, G. A., 1956) pode ser vista como uma alternativa aceitável para a determinação do número de clusters no contexto desta pesquisa. Portanto, explorando as características do AP e tentando manter uma solução padronizada para todos os rankings, 6 clusters foram considerados para a construção da métrica.

Entretanto, o número de entidades e a categorias top focada pode diretamente influenciar no valor da métrica. A figura 3.2 mostra o relacionamento entre esses aspectos. A linha preta representa o número médio de entidades por cluster considerando uma solução com 6 clusters conforme proposto. Pode-se notar que rankings com 100 entidades têm o número médio de entidades por cluster igual a 16,67. Este número somente é menor ou igual do que o número de entidades das categorias top-5, top-10 e top-15. Por sua vez, rankings com 180 entidades têm, em média, 30 entidades por cluster. Este número é menor ou igual ao número de entidades das categorias entre a top-5 e a top-30. Isso significa que, considerando o número médio de entidades por cluster, os rankings com 180 entidades têm maior probabilidade do que os rankings com 100 entidades de atribuir todas as entidades pertencentes a uma determinada categoria top no mesmo cluster.

Embora o número de entidades por cluster fornecido pelo método de clustering possa variar entre os clusters, pode-se considerar a média como um baseline para efeitos

Figura 3.2 – Relacionamento entre o número de entidades e as categorias top

Nota: (i) oportunamente os valores do eixo y foram representados de acordo com as categorias top consideradas neste trabalho (ou seja, terminadas em zero ou cinco); (ii) a linha preta representa o número médio de entidades por cluster considerando uma solução com 6 clusters conforme proposto. Fonte: elaborada pelo autor.

0 5 10 15 20 25 30 35 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 N ú m e r o d e e n ti d ad e s p o r c ate go r ia top

comparativos. Dessa forma, é essencial que a métrica seja capaz de compensar esse aspecto, fazendo com que a medida seja comparável entre rankings sem vieses gerados pelo método escolhido.

Finalmente, assim como no artigo 1 desta tese, o Python foi selecionado como plataforma de software. Detalhes técnicos de como os códigos fontes utilizados neste artigo foram gerados podem ser encontrados no apêndice A.

Em geral, esta seção metodológica apresentou alguns aspectos importantes que guiaram a construção da métrica. Pode-se entender que, considerando esses aspectos, a métrica representa, satisfatoriamente, quão bem os rankings disponibilizam informações de acordo com a percepção dos usuários.

3.4 RESULTADOS

Esta seção detalha a métrica proposta, os procedimentos que foram realizados para validação e análise da confiabilidade dos resultados gerados por ela, bem como apresenta alguns resultados obtidos para rankings reais e simulados.

3.4.1 A métrica COMP

A métrica COMP foi definida, inicialmente, pela fórmula (10) da seguinte forma:

′ = ∑ .

−𝑃 . ∑ = =

, > (10)

Onde: (i) k representa o ranking; (ii) COMP’k representa a métrica de k antes do processo de normalização; (iii) i representa uma categoria top existente em k; (ii) n representa o número de entidades de k que, necessariamente, deve ser maior do que 5; (iv) nt representa o número de categorias top considerado no cálculo da métrica de k; e (v) Ptopi representa a probabilidade de duas entidades de i, selecionadas ao acaso, pertencerem ao mesmo cluster.

Para a interpretação da fórmula, deve-se considerar, numa visão macro, que as parcelas descritas para o somatório mais externo representam as parcelas de uma média aritmética ponderada. Para isso, os seguintes aspectos devem ser considerados. Primeiro,

como essas parcelas estão associadas a i, cada uma delas representa a contribuição de uma determinada categoria top diferente na composição da métrica.

Segundo, o número nt varia de acordo com n. Ou seja, é uma função de n. Por definição, foi utilizado para nt o maior número inteiro menor que

5 (ou seja, a função piso de 5). O número 5 foi oportunamente utilizado, pois representa uma forma de captar o número máximo de categorias top que poderiam ser criadas mentalmente pelos usuários. Ressalta-se que, conforme estudos da psicologia já mencionados, essas categorias são delimitadas pelas entidades cujas posições terminam em zero ou cinco. Para efeitos exemplificativos, se considerássemos um ranking hipotético com 21 entidades, teríamos nt igual a 4. Isso significa que 4 categorias top seriam consideradas para composição da métrica desse ranking, a saber: top-5 (i=1), top-10 (i=2), top-15 (i=3) e top-20 (i=4).

Terceiro, cada categoria top, representada por i, tem a sua própria probabilidade Ptopi. Essa probabilidade é integralmente dependente dos clusters obtidos a partir da aplicação do método AP tendo como base a matriz de DM. Ela representa a essência da métrica, pois capta o conceito associado à percepção dos usuários de que duas entidades top são mais similares entre si do que entre elas e as outras.

Quarto, representa o peso que a probabilidade de cada categoria top Ptopi assume na média aritmética ponderada e, consequentemente, na métrica. Uma função hipérbole foi selecionada para (i) privilegiar as primeiras categorias top – às quais normalmente são o foco dos usuários para apoiar os processos de tomada de decisão – e (ii) minimizar as diferenças dos pesos nas últimas categorias top – às quais, em geral, não teriam grande interesse dos usuários. Em outras palavras, isso significa que a queda de importância da top-5 para a top-10 é maior do que a queda de importância da top-10 para a top-15 e assim por diante.

Quinto, ∑ = representa o somatório dos pesos considerados para todas as categorias top. Esse elemento faz parte do cálculo da média aritmética ponderada e é fixo para todas as parcelas do somatório.

Sexto, (1−𝑃𝑡 ) representa uma penalização em função do número de entidades n do ranking. Dado que 6 clusters serão gerados a partir do AP, rankings com maior número de entidades teriam maior probabilidade de posicionar as entidades top no mesmo cluster. Isso não significa que esses rankings estariam mais alinhados com a visão dos usuários. Esse “falso” alinhamento poderia estar sendo obtido por uma imposição do método – ou seja, pela própria escolha dos 6 clusters.

Em outras palavras, deve-se considerar que, se o ranking possui mais entidades, é natural que cada um dos 6 clusters obtidos tenham mais entidades, aumentando a probabilidade Ptopi. Para exemplificar a importância do elemento (1−𝑃𝑡 ), considere dois rankings hipotéticos A (com 30 entidades) e B (com 200 entidades). Imagine que, quando uma determinada categoria top (por exemplo top-5) é analisada, a probabilidade Ptopi seja igual para os dois rankings. Nesse caso, o elemento de cálculo destacado vai garantir que o ranking A tenha uma parcela do somatório maior do que o ranking B, minimizando o viés imposto pelo método e permitindo que os rankings possam ser comparados entre si.

Sétimo, para que a métrica pudesse ser comparável entre rankings e gerasse resultados entre 0 e 1 como proposto, foi necessário normalizá-la. Pode-se perceber que, sem o processo de normalização, os limites estabelecidos teoricamente para a métrica seriam utópicos. Ou seja, pela própria construção da métrica, em termos práticos, nenhum ranking conseguiria atingi-los.

Para realizar esse processo, os valores mínimo e máximo possíveis para cada ranking precisaram ser levantados. Esses valores dependem do número de entidades n do ranking e estão associados às duas situações extremas – às quais foram detalhadas na seção metodológica – que poderiam acontecer com cada ranking: (i) cada entidade top poderia ser atribuída a um cluster diferente; e (ii) todas as entidades top poderiam ser atribuídas ao mesmo cluster. Detalhes de como esses valores foram obtidos estão detalhados no apêndice B.

Dessa forma, de posse dos valores mínimo e máximo possíveis, a métrica inicialmente obtida para cada ranking foi normalizada com base na fórmula (11):

= 𝐴 − 𝐼′ − 𝐼 (11)

Onde: (i) k representa o ranking; (ii) representa o valor final calculado para a métrica; (iii) ′ representa o valor calculado para a métrica do ranking k antes do processo de normalização através da fórmula (10); (iv) n representa o número de entidades de k; (v) 𝐼 representa o valor mínimo possível para a métrica considerando um ranking com n entidades; e (vi) 𝐴 representa o valor máximo possível para a métrica considerando um ranking com n entidades.

3.4.2 Como os resultados da métrica foram validados?

Inicialmente, considerou-se que, de acordo com a Standards for Educational and Psychological Testing (AMERICAN EDUCATIONAL RESEARCH ASSOCIATION;

AMERICAN PSYCHOLOGICAL ASSOCIATION; NATIONAL COUNCIL ON

MEASUREMENT IN EDUCATION, 1999), “o processo de validação envolve o acúmulo de evidências para fornecer uma base científica sólida para a interpretação das pontuações

propostas”. Isso significa que, “a validade descreve quão bem se pode legitimamente confiar nos resultados de um teste quando interpretado para uma finalidade específica” (COOK;

BECKMAN, 2006). Considerando que o propósito da métrica é mensurar quão bem os rankings estão representando os dados de acordo com a percepção dos usuários, especificamente as entidades pertencentes às categorias top, entende-se que este aspecto deveria ser o foco principal da validação.

Portanto, para validar a métrica, os rankings simulados para a realização do estudo 3 do artigo 1 desta tese foram explorados. Como proposto, cada um desses rankings foi construído a partir de um dado nível de correlação entre os seus indicadores. Isso significa que, se selecionarmos um desses rankings ao acaso, cada um dos possíveis pares de indicadores desse ranking teria o índice de correlação no referido nível.

Cada um desses rankings simulados inicialmente foi submetido ao procedimento de cálculo da métrica descrito na seção anterior. Nesse processo, dos 4.000 rankings simulados – 500 por faixa de correlação – a métrica foi calculada para 3.930. Ou seja, em 70 rankings – os quais representam 1,75% do total – o método AP de clustering não convergiu. A figura 3.3 expõe, de modo consolidado, as propriedades – faixa de correlação, número de dimensões, número de entidades e método de agregação – dos rankings para os quais a métrica pôde ser calculada. Pode-se observar que, em medidas percentuais, as propriedades dos rankings foram distribuídas de modo aproximadamente uniforme.

Figura 3.3 – Consolidado das propriedades dos rankings analisados

Nota: n = 3930. Fonte: elaborada pelo autor.

Em sequência, um modelo de regressão linear com correção de heteroscedasticidade, detalhado na fórmula (12), foi desenvolvido para validação dos resultados. Para a obtenção desse modelo, todos os 3.930 rankings para os quais a métrica pôde ser calculada foram utilizados.

= + + + (12)

Neste modelo: (i) k representa o ranking; (ii) representa a métrica de k; (iii) representa a média das correlações entre os pares de indicadores de k; (iv) representa o número de entidades de k; (v) representa o intercepto; (vi) β1 e β2 estão associados,

respectivamente, ao relacionamento entre e com a métrica COMPk; e (vii) εk representa o erro do modelo para k. Os valores obtidos a partir do modelo de regressão estão expostos na tabela 3.2. 13% 12% 13% 13% 12% 13% 12% 12% Faixa de Correlação < 0,3 >= 0,3 e < 0,4 >= 0,4 e < 0,5 >= 0,5 e < 0,6 >= 0,6 e < 0,7 >= 0,7 e < 0,8 >= 0,8 e < 0,9 >= 0,9 8% 8% 8% 7% 7% 8% 8% 6% 7% 6% 7% 7% 7% 6% Número de Dimensões 2 3 4 5 6 7 8 9 10 11 12 13 14 15 23% 24% 27% 26% Número de Entidades <65 >=65 e < 110 >= 110 e < 155 >= 155 25% 25% 26% 24% Método de Agregação Média Aritmética Soma Média Geométrica

Tabela 3.2 – Coeficientes do modelo de regressão para validação da métrica

Variável Coeficiente Valor p

- 0,039 0,000*

0,372 0,000*

0,000 0,442

Notas: (i) os valores foram arredondados na terceira casa decimal; (ii) modelo de regressão linear com correção de heteroscedasticidade; (iii) R2 = 0,195; (iv) * valores significantes ao nível 0,01; (v) n = 3930. Fonte: elaborada pelo autor.

De acordo com o modelo de regressão linear apresentado, pode-se perceber que o relacionamento entre Ck e Ek – isto é, a moderação do modelo de regressão – foi desprezada. Deve-se considerar que não existe base teórica para suportar que este relacionamento poderia fornecer diferentes níveis de similaridade e, consequentemente, diferentes valores para a métrica.

Considerando que (i) as correlações diretamente influenciam as similaridades num padrão em que maiores correlações representam maiores similaridades (NARDO et al., 2005) e que (ii) a métrica é integralmente dependente das medidas de similaridade, era esperado que

β1 fosse maior do que zero. O valor 0,371 atende a essa perspectiva. A interpretação sugere

que quanto maior for a média das correlações entre os pares de indicadores do ranking, maior será o valor da métrica.

Entretanto, dado que a métrica – pela proposta – não deve ser enviesada pelo número de entidades, β2 deveria ter um valor próximo de zero. De acordo com a tabela 3.2, nota-se

que, com o arredondamento na terceira casa decimal, o valor obtido foi exatamente zero. Vale destacar que, embora fosse esperado que a variável Ek não tivesse nenhum impacto representativo sobre a métrica – pela própria proposta da métrica – ela foi oportunamente considerada no modelo exatamente para que a validade da métrica pudesse ser verificada.

Por fim, pode-se considerar que o resultado obtido a partir do procedimento de validação aqui apresentado sugere que a métrica é válida. Portanto, pode-se considerar que a métrica está refletindo satisfatoriamente quão bem os rankings estão representando os dados de acordo com a percepção dos usuários.

3.4.3 Como a confiabilidade dos resultados da métrica foi avaliada?

Como mencionado anteriormente, considerando que parte do processo proposto para a construção da métrica é probabilístico, outro importante aspecto a ser verificado é a confiabilidade dos resultados. Numa definição simples, “a confiabilidade refere-se à

(DOWNING, 2004). Em outras palavras, “a confiabilidade refere-se à reprodutibilidade ou

consistência das pontuações de uma avaliação para outra” (AMERICAN EDUCATIONAL

RESEARCH ASSOCIATION; AMERICAN PSYCHOLOGICAL ASSOCIATION;

NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION, 1999). É pontuado que a confiabilidade é um componente necessário, mas não suficiente, da validade (DOWNING,

Benzer Belgeler