• Sonuç bulunamadı

PERCEBIDAS PELOS USUÁRIOS

O segundo artigo desta tese propõe a criação de uma métrica para avaliar a compatibilidade entre as informações fornecidas pelos rankings e aquelas percebidas pelos usuários. Para isso, após a introdução, a revisão da literatura é apresentada seguida da metodologia proposta, dos resultados encontrados e da discussão pertinente.

3.1 INTRODUÇÃO

Como descrito na introdução geral dessa tese, os rankings têm influenciado os usuários nas suas escolhas. A maioria dessas escolhas é enviesada para as entidades pertencentes às categorias top, com exceção daqueles casos em que os usuários têm interesse em algum contexto particular. Dada a importância das categorias top, as entidades nelas inseridas têm sido analisadas em inúmeros estudos (BUSH et al., 2011; CARARE, 2012; JOHNSON; PERRY; PETKUS, 2012; KHOSROWJERDI; KASHANI, 2013; MARWELL, 2012; POLESE; DENIS-JACOB, 2010; SEHGAL, 2010; SHARMA; GIVENS-SKEATON, 2010; WILSON, 2009; YANG, P.; TAO, 2012) e têm sido usadas para suportar o desenvolvimento de outros (HORN; HENDEL; FRY, 2007; NOLEN, 2009).

Da psicologia, sabe-se que os usuários percebem que as entidades pertencentes às categorias top são mais similares entre si do que entre elas e as outras (BRENNER; ROTTENSTREICH; SOOD, 1999; ISAAC; SCHINDLER, 2013; LECLERC; HSEE; NUNES, 2005). Entretanto, os resultados do artigo 1 desta tese mostraram que isso não acontece. Pode-se entender que, embora esses estudos sejam de naturezas diferentes – os primeiros embasados por aspectos da psicologia e o segundo baseado em métodos matemáticos e estatísticos –, eles, de fato, sugerem uma contradição.

Numa visão complementar, deve-se considerar que os métodos de clustering são ferramentas destinadas a criar grupos (ou clusters) de entidades baseados nas similaridades dos seus indicadores (HAIR et al., 1998; JAIN, 2010; NARDO et al., 2005). Como a percepção dos usuários sobre as categorias top é baseada nas similaridades entre as entidades top, e estas entidades são representadas, nos rankings, pelos seus próprios indicadores, é possível que os métodos de clustering possam ser usados para analisar essa contradição.

Na prática, pode-se notar que muitos dos rankings com maior divulgação na mídia têm usado clusters tanto para fornecer alguma classificação para as entidades ranqueadas quanto para embasar algumas análises qualitativas. Entre esses rankings, pode-se citar o EFW 2012 (FRASER INSTITUTE, 2012), o HDI 2013 (UNITED NATIONS DEVELOPMENT PROGRAMME, 2013a, 2013b) e o IEF 2013 (MILLER, T.; HOLMES; FEULNER, 2013). Entretanto, os clusters fornecidos por eles são normalmente baseados nos próprios índices – que são calculados através dos métodos de agregação – ou em classificações tradicionais – como aspectos geográficos ou de renda. Portanto, esses clusters não necessariamente são equivalentes àqueles construídos a partir das similaridades entre os indicadores de um ranking.

Um estudo recente sugeriu que a representação de indicadores suportada por medidas de similaridade é uma promissora alternativa no contexto de rankings (HOYLAND; MOENE; WILLUMSEN, 2012). Nesse sentido, clusters construídos a partir de indicadores de rankings têm sido usados tanto como parte do procedimento proposto para ranquear entidades (ÖNSEL et al., 2008; RAD; NADERI; SOLTANI, 2011; VALADKHANI; VILLE, 2010) quanto para representar as próprias entidades (MAVRI, 2013; NAUDÉ; HENNEBERG; JIANG, 2009; RENDE; DONDURAN, 2011; RODE; COLL, 2011). Nessa mesma linha, alguns estudos representaram entidades em clusters a partir da similaridade entre os indicadores de alguns índices que não são usados para a criação de rankings (ABU SHARKH; GOUGH, 2010; FERNANDES, 2013; ÖNSEL et al., 2008; TAMMI, 2009; VALADKHANI; VILLE, 2010).

Entretanto, apesar dos estudos citados no parágrafo anterior, não existe nenhum estudo sugerindo uma métrica que mensure o nível no qual um ranking representa as similaridades entre as entidades pertencentes às categorias top. Considerando que esta representação é essencial para auxiliar os usuários nos processos de tomada de decisão e que diferentes rankings podem ter essa representação em diferentes níveis, a construção dessa métrica pode ser vista como um importante e oportuno desafio.

O objetivo desse segundo artigo é, portanto, encarar esse gap e construir a métrica. Dado que a métrica será criada com a intenção de avaliar a compatibilidade entre as informações fornecidas pelos rankings e aquelas percebidas pelos usuários, ela será chamada COMP, como uma alusão à “compatibilidade” entre as informações que serão confrontadas.

Esta proposta pode ser vista como relevante considerando que métricas baseadas na visão do “usuário-final” são extremamente recomendadas em estudos políticos (MEYER, G. S. et al., 2012). Adicionalmente, pode-se considerar que, se os rankings forem divulgados juntamente com a COMP, uma informação mais precisa será fornecida para apoiar a escolha

dos usuários. Para isso, naturalmente, os usuários deverão ter conhecimento do significado dessa métrica.

É oportuno considerar que, dado que os rankings não são construídos para representar similaridades, mas valores agregados, a COMP não deverá ser interpretada como uma medida de qualidade. A métrica aqui proposta apenas estará representando o nível no qual um ranking reflete as similaridades entre as entidades pertencentes às categorias top.

Para atingir esse objetivo, este artigo está estruturado da seguinte forma. Inicialmente, uma revisão da literatura explorando os métodos de clustering aplicados ao contexto de rankings é apresentada. Em seguida, uma seção metodológica é exposta explorando, essencialmente, como a COMP foi construída. Os resultados encontrados – incluindo a validação e a análise de confiabilidade – bem como a discussão estão apresentados em sequência.

3.2 REVISÃO DA LITERATURA

Recentemente, um estudo, analisando alguns rankings de países, sugeriu “ser melhor

alocar países em grupos com performances similares” baseados no “critério de que a diferença entre quaisquer dois membros desses grupos não seja muito grande” (HOYLAND;

MOENE; WILLUMSEN, 2012). Embora os autores não tenham embasado seu argumento na percepção dos usuários – que é o foco desse artigo –, mas na incerteza inerente aos índices, este argumento corrobora o anterior e implicitamente direciona que os estudos de rankings poderiam ser complementados através de análises de clusters.

De modo sucinto, a “análise de cluster é o estudo formal dos métodos e algoritmos para agrupamento, ou clustering, de objetos de acordo com as características ou

similaridades intrinsicamente percebidas ou mensuradas” (JAIN, 2010). Esta metodologia

tenta minimizar a variância dentro dos grupos ao mesmo tempo em que tenta maximizar a variância entre grupos (HAIR et al., 1998). “O resultado é um conjunto de clusters nos quais casos dentro de um cluster são mais similares entre si do que em relação a casos em outros

clusters” (NARDO et al., 2005). Em outras palavras, o resultado poderia ser visto como uma

série de grupos heterogêneos formados por elementos homogêneos (HAIR et al., 1998). Assim, no contexto de rankings, uma promissora alternativa, alinhada com o propósito desse trabalho, é descobrir os clusters de entidades que seriam gerados a partir da similaridade entre as informações contidas nos indicadores, de modo a refletir os agrupamentos de acordo com a percepção dos usuários.

Deve ser considerado que uma série de diferentes estudos tem sido proposta relacionando clusters e rankings. Estes estudos indicam o explícito interesse de alguns pesquisadores em explorar similaridades no contexto de rankings.

Primeiro, os clusters têm sido usados como parte de métodos propostos para ranquear entidades (ÖNSEL et al., 2008; RAD; NADERI; SOLTANI, 2011; VALADKHANI; VILLE, 2010). Segundo, os indicadores de alguns índices – não necessariamente utilizados para a construção de rankings – têm sido frequentemente usados para suportar a criação de clusters. Por exemplo, este potencial foi explorado na avaliação de (i) regimes de bem-estar (ABU SHARKH; GOUGH, 2010), (ii) desenvolvimento socioeconômico (FERNANDES, 2013), (iii) performance das pesquisas realizadas em faculdades de comércio australianas (VALADKHANI; VILLE, 2010), (iv) competitividade de nações (ÖNSEL et al., 2008), (v) financiamentos de pesquisas universitárias (TAMMI, 2009) e assim por diante. Considerando que esses índices poderiam estar sendo usados para suportar a construção de rankings, embora ainda não estejam, pode-se argumentar que esses estudos são relevantes para o propósito dessa pesquisa.

Terceiro, os indicadores de alguns rankings têm sido utilizados em métodos de clustering. Os clusters gerados por eles têm servido de base para suportar algumas análises qualitativas das entidades ranqueadas bem como algumas análises do relacionamento entre elas.

Por exemplo, focando nas entidades do Financial Times top 100 full-time MBA programmes de 2008, um estudo demonstrou que rotas diferentes – relacionadas no texto com as características (ou indicadores) das entidades – levaram as universidades às primeiras posições no ranking (NAUDÉ; HENNEBERG; JIANG, 2009). Foi mostrado que muitas entidades, embora posicionadas nas categorias top, possuíam caraterísticas diferentes. Os autores concluíram que o ranking é extremamente simplista, indicando que ele não é capaz de posicionar entidades similares em posições próximas.

Em outro estudo, uma análise dos clusters criados a partir dos dados do EFW foi conduzida (RODE; COLL, 2011). O objetivo dos autores foi identificar os aspectos de liberdade econômica com maior influência sobre o crescimento econômico. A análise foi considerada difícil pelos autores devido à existência de multicolinearidade entre os índices das áreas.

Além disso, foi mostrada a importância das similaridades na representação dos dados de rankings. Para fazer isso, um tipo especial de rede neural artificial, chamada Self- Organizing Maps (SOMs), foi usada para gerar clusters das entidades do HDI (RENDE;

DONDURAN, 2011). A análise de algumas entidades vizinhas (e similares) nos mapas gráficos gerados pelo SOMs foi realizada. Os resultados mostraram que, em muitos casos, os vizinhos não estavam em posições próximas no ranking.

Por fim, um estudo propôs a criação de um índice chamado Bank Ranking Index (BRI) para mensurar a qualidade de 16 bancos gregos a partir de um conjunto de indicadores (MAVRI, 2013). Em sequência, a autora (i) classificou os bancos em cinco grupos baseados em faixas de índices – assim como os rankings sumarizados na tabela 2.1 –, (ii) gerou clusters baseados em similaridades e (iii) comparou-os. Embora a autora não tenha explorado nenhuma métrica para suportar a comparação, ela considerou que os clusters gerados pelos dois métodos foram similares.

Na verdade, embora cada uma das duas ferramentas aqui exploradas – isto é, clusters e rankings – tenha seu próprio potencial de aplicação, o uso dessas ferramentas em conjunto, foi reconhecido como uma boa prática (CAVUSGIL; KIYAK; YENIYURT, 2004). Em outras palavras, essas ferramentas foram consideradas como complementares.

Entretanto, apesar dos clusters terem sido projetados para representar similaridades e tenham alto potencial de aplicação em contextos de rankings, algumas vezes clusters “tradicionais” têm sido explorados em alguns estudos. Estes clusters, aqui chamados de tradicionais, são aqueles não necessariamente construídos a partir das similaridades dos indicadores de um ranking, mas através de critérios comumente explorados como, por exemplo, localização geográfica ou renda.

Para efeitos de exemplificação, clusters baseados em aspectos geográficos foram aplicados para comparar os rankings ARWU e THE (JÖNS; HOYLER, 2013). Além disso, as entidades responsáveis por alguns rankings têm explorado, nos relatórios nos quais os rankings são divulgados, análises qualitativas baseadas nesses tipos de clusters. Exemplos podem ser encontrados nos relatórios do EFW 2012 (FRASER INSTITUTE, 2012), do HDI 2013 (UNITED NATIONS DEVELOPMENT PROGRAMME, 2013a, 2013b) e do IEF 2013 (MILLER, T.; HOLMES; FEULNER, 2013).

Entretanto, não pode-se afirmar que esses clusters “tradicionais” sejam capazes de agrupar conjuntamente entidades com altos níveis de similaridade entre seus indicadores, embora eles sejam extremamente relevantes numa série de estudos. Essa inconsistência foi encontrada, por exemplo, num estudo que explorou indicadores de água e saneamento (ONDA et al., 2014). Os autores demonstraram que os clusters construídos a partir dos indicadores não estavam alinhados com aqueles baseados em aspectos geográficos e de renda – gerados a partir dos critérios estabelecidos pelo Banco Mundial (THE WORLD BANK,

2014). Esses resultados estão alinhados com aqueles apresentados em outro estudo no qual o método comumente usado para propósitos de agrupamento de países – isto é, a utilização do Produto Interno Bruto (PIB) – foi questionado (ÖNSEL et al., 2008). Este critério foi considerado, pelos autores, como insuficiente quando utilizado de modo independente de outras medidas.

Adicionalmente, outras formas de criação de clusters amplamente usadas em rankings são aquelas suportadas pelo índice. O quadro 3.1 apresenta alguns exemplos.

Quadro 3.1 – Sumário dos clusters baseados em índices fornecidos por alguns rankings

Ranking Grupos (ou clusters)

ARWU1 As universidades foram atribuídas a seis grupos de acordo com o ranking, a saber: (i) da posição 1 à 100; (ii) da posição 101 à 150; (iii) da posição 151 à 200; (iv) da posição 201 à 300; (v) da posição 301 à 400; e (vi) da posição 401 à 500. Somente as entidades no primeiro grupo foram ranqueadas.

EFW2 Os países foram atribuídos a quarto grupos de acordo com o ranking. O critério usado foi agrupar 25% das entidades em cada grupo. Ou seja, a classificação gerou quartis a partir das posições do

ranking. Esses grupos foram representados por cores.

FSI3 Foram fornecidos quarto grupos principais divididos num total de onze subgrupos que foram representados por cores da seguinte forma: (i) alerta muito alto; (ii) alerta alto; (iii) alerta; (iv) advertência muito alta; (v) advertência alta; (vi) advertência; (vii) pouco estável; (viii) estável; (ix) muito estável; (x) sustentável; e (xi) muito sustentável. Os grupos não foram balanceados. Os países foram atribuídos a cada grupo baseados nos seus índices. O primeiro grupo, que representa os países com as mais altas taxas de vulnerabilidade, foi definido com índices variando de 110 a 120. Os outros grupos foram definidos reduzindo a faixa de índices de 10 em 10. Portanto, o último grupo, que representa os países muito sustentáveis em termos de segurança, tiveram índices de 0 a 10.

HDI4 Os países foram atribuídos a quarto grupos de acordo com o ranking. O critério usado foi agrupar 25% das entidades em cada grupo. Ou seja, a classificação gerou quartis a partir das posições do

ranking. Esses grupos foram nomeados de acordo com o nível do índice de desenvolvimento

humano de cada país, a saber: (i) muito alto; (ii) alto; (iii) médio; e (iv) baixo.

IEF5 Os países foram atribuídos a cinco grupos não balanceados de acordo com o índice de liberdade econômica, a saber: (i) livre (de 80 a 100); (ii) predominantemente livre (de 70 a 79,9); (iii) moderadamente livre (de 60 a 69,9); (iv) predominantemente “não livre” (de 50 a 59,9); e (v) reprimido (de 0 a 49,9).

RGI6 Os países foram atribuídos a quarto grupos não balanceados a partir do valor absoluto do índice da seguinte forma: (i) satisfatório (de 71 a 100 e representado pela cor verde); (ii) parcial (de 51 a 70 e representado pela cor amarela); (iii) fraco (de 41 a 50 e representado pela cor laranja); e (iv) falho (de 0 a 40 e representado pela cor vermelha). Essa mesma forma de classificação também foi fornecida para cada indicador isoladamente.

THE7 As universidades foram atribuídas a sete grupos de acordo com o ranking, a saber: (i) de 1 a 200; (ii) de 201 a 225; (iii) de 226 a 250; (iv) de 251 a 275; (v) de 276 a 300; (vi) de 301 a 350; e (vii) de 351 a 400. O índice foi calculado apenas para as universidades do primeiro grupo.

Notas: 1Academic Ranking of World Universities 2012 (CENTER FOR WORLD-CLASS UNIVERSITIES OF SHANGHAI JIAO TONG UNIVERSITY (CWCU), 2012). 2Economic Freedom of the World 2012 (FRASER INSTITUTE, 2012); 3Failed States Index 2012 (THE FUND FOR PEACE, 2012); 4Human Development Index 2013 (UNITED NATIONS DEVELOPMENT PROGRAMME, 2013a, 2013b); 5Index of Economic Freedom 2013 (MILLER, T.; HOLMES; FEULNER, 2013); 6Resource Governance Index 2013 (REVENUE WATCH INSTITUTE, 2013); 7Times Higher Education World University Rankings 2012-2013 (THOMSON REUTERS, 2013).

O quadro 3.1 mostra que os responsáveis pelos rankings têm se preocupado com a atribuição das entidades ranqueadas em grupos de acordo com suas performances nos índices. Esses grupos são construídos frequentemente baseados em dois métodos, a saber: (i) o valor absoluto dos índices é comparado com alguns valores pré-definidos (ou seja, baselines) para determinar o grupo de cada entidade; ou (ii) as entidades são atribuídas aos grupos de modo balanceado em função de valores percentuais fixos (por exemplo, 25% das entidades em cada grupo).

Entretanto, conforme exposto anteriormente, sabe-se que as entidades pertencentes às categorias top não são, necessariamente, mais similares entre si do que entre elas e as outras (NAUDÉ; HENNEBERG; JIANG, 2009; RENDE; DONDURAN, 2011). Esse aspecto também pôde ser observado no artigo 1 desta tese. Portanto, é pertinente enfatizar que os grupos gerados através desses dois métodos estão agrupando entidades de uma forma não totalmente alinhada com a percepção dos usuários.

Até o momento, mostrou-se ser improvável que os clusters disponibilizados nos relatórios dos rankings – ou seja, tanto aqueles gerados a partir de critérios tradicionais (por exemplo, localização geográfica e renda) quanto aqueles baseados nos índices – estejam alocando conjuntamente as entidades com maiores níveis de similaridades entre si. Entretanto, de modo contraditório, sabe-se que os usuários percebem as entidades pertencentes às categorias top como mais similares entre si do que entre elas e as outras.

Portanto, uma ferramenta capaz de gerar um agrupamento de entidades baseado nas suas similaridades e confrontá-lo com o próprio ranking mostra-se oportuna. Conforme já mencionado, a criação dessa ferramenta, no caso a métrica COMP, é o objetivo deste trabalho. Para a sua construção, portanto, um método de clustering foi usado para criar esses agrupamentos tendo como base os indicadores do ranking – e não os critérios tradicionais nem os índices (ou valores agregados) comumente explorados. Entende-se, dessa forma, que o nível no qual cada ranking está representando as similaridades entre as entidades ranqueadas de acordo com a percepção dos usuários pôde ser corretamente avaliado.

Resumidamente, esta revisão da literatura forneceu uma visão geral de como os clusters têm sido explorados no contexto de rankings. Na sequência deste trabalho, a metodologia que foi utilizada para a construção da métrica está detalhada.

Esta seção detalha os aspectos metodológicos que foram utilizados na construção da métrica. Para isso, estão expostos: (i) como o método de clustering foi escolhido; (ii) como a medida de similaridade foi determinada; (iii) o framework para a construção da métrica; e (iv) algumas características que foram contempladas na construção da métrica COMP.

3.3.1 A escolha do método de clustering

Vários métodos e algoritmos para agrupamento de dados (ou clustering) foram desenvolvidos ao longo dos anos. Num nível macro de análise, esses métodos podem ser distinguidos entre hierárquicos e partitionings (JAIN; MURTY; FLYNN, 1999; JAIN, 2010). Em síntese, enquanto os hierárquicos recursivamente encontram clusters aninhados, tanto de forma aglomerativa (down-top) quanto de forma divisiva (top-down), os partitionings encontram todos os clusters simultaneamente como uma partição dos dados sem impor nenhuma estrutura hierárquica (JAIN, 2010). No geral, esses tipos de métodos também podem ser distinguidos em função dos resultados fornecidos, a saber: enquanto que os partitionings fornecem clusters válidos a cada interação, os hierárquicos os fornecem somente ao término do processamento (BANDYOPADHYAY; SAHA, 2013).

Existe uma ampla gama de possibilidades propostas para cada um desses dois grandes tipos de métodos. Entretanto, os métodos mais amplamente usados que parecem estar dominando a literatura (VALADKHANI; VILLE, 2010) são o partitioning K-means (J. MCQUEEN, 1967) e o hierárquico Ward (WARD, 1963). Numa visão sintetizada, K-means

inicia com k clusters aleatórios e move os objetos para dentro e para fora dos

clusters com o objetivo de (i) minimizar a variância dos elementos dentro

dos clusters, e (ii) maximizar a variância dos elementos fora dos clusters (NARDO et al., 2005).

Por outro lado, no Ward

o membro do cluster é determinado pelo cálculo da variância dos elementos (a soma dos desvios-quadrado a partir da média do cluster). Um elemento pertencerá ao cluster se produzir a menor possibilidade de aumento na variância (NARDO et al., 2005).

Alguns exemplos recentes focados em estudos de rankings e de indicadores exploraram K-means (RAD; NADERI; SOLTANI, 2011; TAMMI, 2009), Ward’s (ONDA et al., 2014; ÖNSEL et al., 2008; VALADKHANI; VILLE, 2010), métodos hierárquicos não

especificados (FERNANDES, 2013; NAUDÉ; HENNEBERG; JIANG, 2009; RODE; COLL, 2011), e uma mescla de métodos hierárquicos não especificados e K-means (ABU SHARKH; GOUGH, 2010; MAVRI, 2013).

Entretanto, um recente e promissor estudo propôs um novo método de clustering chamado Affinity Propagation (AP) (FREY; DUECK, 2007). Esse método trabalha considerando cada objeto – ou entidade no escopo desta tese – como um nó de uma rede. Ele recursivamente transmite dois tipos de mensagens pelas arestas da rede entre esses nós até que um bom conjunto de exemplares – ou seja, entidades que são entendidas como representantes dos clusters – além dos próprios clusters correspondentes a elas possam emergir. Esses dois tipos de mensagens, que foram nomeadas como responsabilidade e disponibilidade pelos autores, estão detalhados a seguir.

A ‘responsabilidade’ r(i,k), enviada do ponto i para o candidato a exemplar

ponto k, reflete a evidência acumulada para quão bem adaptado o ponto k serve como exemplar para o ponto i, levando em conta outros potenciais exemplares para o ponto i. [...] A ‘disponibilidade’ a(i,k), enviada do candidato a exemplar ponto k para o ponto i, reflete a evidência acumulada para quão apropriada deveria ser, para o ponto i, escolher o ponto k como seu exemplar, levando em conta o suporte de outros pontos para os quais o ponto k deveria ser um exemplar (FREY; DUECK, 2007).

As fórmulas (7) e (8) mostram como esses conceitos foram computados.

, ← , − max

. . ′ { , ′ + , ′ } (7)

Onde: a similaridade s(i,k) representa a similaridade dos pontos i e k, e as disponibilidades são inicializadas com zero (isto é, a(i,k) = 0).

, ← min { , , + ∑ max{ , ′, }

. . { , }

} (8)

O método AP, brevemente descrito acima, apareceu como uma boa alternativa aos métodos anteriormente usados. Por exemplo, ao considerar todos os pontos (ou entidades) como exemplares potenciais dos clusters que serão criados, o maior problema do método K- means foi resolvido: o fato da solução ser dependente da seleção inicial dos exemplares dos clusters que é feita de modo aleatório (BANDYOPADHYAY; SAHA, 2013; JAIN; MURTY;

FLYNN, 1999; JAIN, 2010). Além disso, o AP também encarou um importante problema dos métodos hierárquicos de clustering: aquele no qual dois pontos (ou entidades) não similares podem ser agrupados em conjunto por uma infeliz sequência de comparações pareadas em função desses métodos não requererem um centro simples de referência. Portanto, como reportado pelos autores, o AP encontra clusters com muito menos erros e numa quantidade de tempo menor do que um centésimo do tempo gasto pelos outros métodos (FREY; DUECK, 2007).

Além disso, sabe-se que o método AP tem sido usado com resultados expressivos numa série de contextos como biologia (APELTSIN et al., 2011; HONG-WEI, 2011; KIDDLE et al., 2010; LEONE; SUMEDHA; WEIGT, 2007), biomecânica (XIAO; GUO,

Benzer Belgeler