Este terceiro artigo da tese explora o potencial de utilização da TRI na avaliação e construção de rankings. Para isso, após a introdução do tema e a revisão pertinente da literatura, dois estudos independentes foram elaborados para exemplificar a aplicabilidade do método proposto.
4.1 INTRODUÇÃO
Em geral, algumas instituições mundialmente conhecidas – como, por exemplo, The Fund for Peace, The Heritage Foundation, The United Nations e The World Bank – têm sido responsáveis pelos rankings com maior divulgação na mídia – como o FSI (THE FUND FOR PEACE, 2012), o IEF (MILLER, T.; HOLMES; FEULNER, 2013), o HDI (UNITED NATIONS DEVELOPMENT PROGRAMME, 2013a, 2013b) e o Doing Business (DB) (THE WORLD BANK; INTERNATIONAL FINANCE CORPORATION, 2014). Conforme apresentado na introdução geral, esses rankings, via de regra, têm sido construídos baseados em métodos como normalização, agregação, utilização de pesos, bem como aqueles relacionados com a TCT como, por exemplo, a Análise Fatorial. De acordo com a revisão da literatura, pode-se perceber que muitos desses métodos têm sido encarados por pesquisadores e fortemente criticados em contextos de rankings. No escopo deste artigo, esses métodos atualmente utilizados para a construção de rankings foram chamados de métodos “tradicionais” ou métodos “tradicionalmente usados”.
Num outro contexto metodológico, conforme exemplificado na introdução geral, sabe-se que a TRI tem sido amplamente aceita ao longo dos anos em estudos provenientes de vários campos científicos. Em termos gerais, a TRI pode ser vista como um conjunto de modelos probabilísticos normalmente utilizados para oferecer suporte à construção de traços latentes. Como referência, no contexto desta pesquisa, os traços latentes estão associados aos indicadores compostos (ou índices) a partir dos quais os rankings são construídos.
Cientificamente, muitos estudos já documentaram algumas vantagens da TRI em relação à TCT (BORTOLOTTI et al., 2012; EMBRETSON; REISE, 2000; HAMBLETON; SWAMINATHAN, 1985; LORD, F. M., 1980). A propósito, conforme apresentado na revisão da literatura e exemplificado nos dois estudos empíricos aqui desenvolvidos, pode-se
entender que muitas dessas vantagens têm alto potencial de aplicação na construção de rankings.
Entretanto, poucos estudos explorando esse potencial foram desenvolvidos. Um raro exemplar é um working paper focado em alguns indicadores utilizados em rankings de revistas científicas (BARTOLUCCI; DARDANONI; PERACCHI, 2013). De modo complementar, apesar de alguns pesquisadores terem focado esforços no desenvolvimento de ferramentas alternativas àquelas tradicionalmente usadas para a construção de rankings – normalmente explorando abordagens como Otimização (THEUΒL; REUTTERER; HORNIK, K., 2014) ou Apoio Multicritério à Decisão (WU et al., 2012) – eles também têm negligenciado esse potencial.
Contudo, pode ser percebido que, não só cientificamente, o potencial da TRI tem sido negligenciado – ou pouco explorado. Considerando a ausência de referência à TRI nas notas metodológicas divulgadas juntamente com os rankings, pode-se entender que as próprias instituições responsáveis pelos rankings têm ignorado esse potencial.
Portanto, baseado no gap identificado nos parágrafos anteriores, esse artigo tem por objetivo principal responder à seguinte questão problema: como a TRI poderia ser utilizada na construção e avaliação de rankings? Para isso, os seguintes objetivos específicos foram estabelecidos. Primeiro, contrastar a TRI com os métodos tradicionalmente usados para a construção de rankings. Segundo, apresentar a TRI, mais especificamente o Modelo de Resposta Gradual (MRG) (SAMEJIMA, 1969, 1997), como uma ferramenta potencial para solucionar alguns problemas comumente encontrados tanto na construção quanto na avaliação de rankings. E, terceiro, apresentar dois exemplos empíricos da TRI aplicados na construção de rankings para ilustrar o potencial da ferramenta e oferecer suporte à explanação teórica.
É oportuno considerar que este artigo é apresentado como metodológico na sua essência, embora as duas aplicações aqui desenvolvidas possam servir para ilustrar a abordagem proposta. Destaca-se, assim como explicado na introdução geral desta tese, que a intenção principal é identificar aspectos comuns aos rankings que poderiam ser explorados através da TRI e não focar em aspectos específicos de um ou outro ranking.
Portanto, no intuito de atender aos objetivos propostos, este artigo, inicialmente, apresenta a revisão da literatura destacando algumas críticas direcionadas aos processos tradicionalmente usados na construção de rankings bem como alguns aspectos da TRI que poderiam ser utilizados para tratar esses problemas. Em sequência, os dois estudos empíricos, o primeiro focado no FSI e o segundo no IEF, são desenvolvidos, cada qual incluindo a metodologia, os resultados e a discussão pertinente. Por fim, a discussão geral é fornecida.
4.2 REVISÃO DA LITERATURA
Esta seção detalha os aspectos teóricos necessários para o embasamento deste artigo. Para isso, está estruturada em duas partes. A primeira expõe uma visão crítica do processo de construção de rankings. A segunda, por sua vez, apresenta algumas características da TRI e as confronta com aspectos tradicionalmente utilizados na construção de rankings.
4.2.1 O processo de construção dos rankings: uma abordagem crítica
A construção de indicadores compostos (ou índices), especificamente aqueles baseados em métodos tradicionais, pode ser sumarizada nos seguintes passos: (i) definição e especificação do que deve ser mensurado; (ii) seleção dos dados; (iii) análise multivariada para investigar a estrutura do conjunto de indicadores; (iv) imputação dos dados faltantes; (v) definição do método de normalização; (vi) definição dos pesos dos indicadores; (vii) definição do método de agregação; (viii) análise de sensibilidade e de robustez; (ix) definição da forma de visualização (NARDO et al., 2005). Considerando que os rankings são comumente derivados dos índices – pelo menos aqueles focados nesta tese conforme descrito na introdução geral – é natural entender que esses passos estão intrinsicamente relacionados à construção dos rankings.
Apesar dos métodos mencionados acima terem sido propostos para orientar a construção de rankings, eles são sensíveis tanto ao conjunto de indicadores quanto aos aspectos metodológicos considerados (MARGINSON, 2007; SAISANA; D’HOMBRES; SALTELLI, 2011). De fato, não existe uma “receita” que seja universalmente aplicável (CHERCHYE et al., 2007). Portanto, existe uma ampla variedade de possibilidades que tornam o processo complexo. Para efeitos de exemplificação, a tabela 2.1, que sumariza as características de alguns rankings, pode ser consultada.
Considerando a complexidade do processo de construção de rankings, inúmeras críticas direcionadas a ele foram descritas ao longo dos anos. Essas críticas – normalmente destinadas a rankings específicos – foram agrupadas em categorias e descritas nos próximos parágrafos para facilitar o desenvolvimento do texto. Pode-se perceber que nem todas as críticas estão aderentes com a realidade de todos os rankings, embora todas elas sinalizem para problemas potenciais que poderiam acontecer na maioria deles.
Primeiro, os problemas relacionados com a definição e especificação do que deve ser mensurado pelo índice envolvem, em geral, a escolha do conjunto de indicadores e a forma com que cada um deles será determinado. Nesse contexto, algumas subcategorias de críticas podem ser encontradas: (i) a concepção errada do conjunto de indicadores e a proposta de novos itens para compor o índice (LOPES et al., 2011; MIHCI; TOLGA TANER; SEZEN, 2012; TANER; SEZEN; MIHCI, 2011); (ii) a avaliação da incapacidade do ranking em mensurar o que deveria ser mensurado (CREMONINI; WESTERHEIJDEN; ENDERS, J., 2008; IOANNIDIS et al., 2007); (iii) a negligência de algumas influências importantes na mensuração de indicadores (COOPER; POLETTI, 2011; CREMONINI; WESTERHEIJDEN; ENDERS, J., 2008; NWAGWU, 2010); e (iv) o questionamento da metodologia usada para estimar o valor de algum indicador (ABRAMO; CICERO; D’ANGELO, 2012; LIN; HUANG; CHEN, D., 2013; LÓPEZ-ILLESCAS; ANEGÓN; MOED, 2009; MEYER, M.; WALDKIRCH; ZAGGI, 2012; SEVERT et al., 2009; STEPHENS et al., 2011; WANG, C. et al., 2010).
Segundo, alguns problemas com a seleção – ou coleta – dos dados podem ser encontrados. Por exemplo, pode-se destacar a indisponibilidade de indivíduos para responder às pesquisas (UNITED NATIONS DEVELOPMENT PROGRAMME, 2013b) e também a limitação dos dados disponíveis (DUBOIS; REEB, 2000; MURRAY; PHIL; FRENK, 2010). Entende-se que esta categoria de críticas está intrinsicamente relacionada com a imputação de dados faltantes. Dessa forma, considerando que (i) “os dados faltantes são ambíguos em
estudos de pesquisa quantitativa” (BARALDI; ENDERS, C. K., 2010), (ii) alguns métodos
tradicionais de imputação de dados faltantes têm sido fortemente criticados (BARALDI; ENDERS, C. K., 2010; DONDERS et al., 2006; STEELE; WANG, N.; RAFTERY, 2010) e (iii) “os dados faltantes estão presentes em quase todos os estudos de caso de indicadores
compostos” (NARDO et al., 2005), apesar dos responsáveis pelos rankings frequentemente
não descreverem os tratamentos realizados com os dados faltantes, é possível que os rankings possam estar sofrendo com esse tipo de problema.
Terceiro, a análise multivariada utilizada para investigar a estrutura do conjunto de indicadores tem sido, também, fonte de críticas. Para ilustrar, pode-se considerar que inúmeros indicadores potenciais são considerados a priori na construção de um índice. Entretanto, após os dados serem coletados, a pertinência ou não de cada um desses
“candidatos a indicadores” do índice é normalmente avaliada através do método de Análise
Fatorial. Nesse contexto de avaliação, é possível que indicadores “candidatos” com baixas cargas fatoriais estejam sendo descartados. Este procedimento foi questionado considerando
que “a forma com que isso vai afetar e/ou comprometer a validade do constructo não está
clara” (SINGH, 2004).
Quarto, o método de normalização, que “serve para o propósito de trazer os indicadores para a mesma unidade” (NARDO et al., 2005), também tem sido questionado. Usando uma abordagem de Apoio à Decisão Multicritério (Multiple Criteria Decision Making – MCDM – em inglês), um estudo demonstrou que um simples incremento no maior valor de um determinado indicador pode alterar todo o ranking, mesmo se os outros valores – de todos os indicadores e entidades – permanecerem constantes (BILLAUT; BOUYSSOU; VINCKE, 2010). Além disso, usando a abordagem Characteristic Scores and Scales (CSS), outro estudo propôs um possível método de normalização para os indicadores que mensuram o impacto de revistas científicas (GLÄNZEL, 2011) sugerindo que o método usado não estava aderente com a realidade investigada.
Quinto, alguns problemas têm sido descritos relacionados com a definição dos pesos dos indicadores bem como dos métodos de agregação utilizados. É importante entender que esses processos são usados para fornecer a relativa importância de cada indicador para o índice (NARDO et al., 2005). Por exemplo, enquanto alguns estudos sugeriram novos caminhos para estimar os pesos de cada indicador (KÖKSALAN et al., 2010; LUKMAN; KRAJNC; GLAVIČ, 2010), outros questionaram a ausência dos pesos (BLANCARD; HOARAU, 2011; NATHAN; MISHRA, S.; REDDY, 2008). Além disso, a prática de atribuir
“um número por entidade” – ou seja, a maneira pela qual os indicadores são sumarizados ou
agregados num índice único – foi questionada considerando que sempre existem incertezas inerentes a este processo (HOYLAND; MOENE; WILLUMSEN, 2012).
Sexto, em função da diferença existente na metodologia utilizada por um mesmo ranking em duas ou mais versões distintas – normalmente anuais –, problemas com a comparação dos índices ao longo do tempo foram relatados (MORSE, 2003). Esses numerosos, recentes e influentes estudos – oriundos das seis categorias de críticas aqui apresentadas – fornecem evidências de que o processo atualmente utilizado para a construção de rankings tem sido questionado e tem sido o foco de interesse de uma série de pesquisadores.
4.2.2 A TRI e os rankings
Os procedimentos atualmente utilizados para a construção de indicadores compostos – e, consequentemente, dos rankings derivados deles – são principalmente baseados nos
métodos tradicionais conforme descrito na última seção. A dependência de um índice único por entidade, os procedimentos de agregação e de definição de pesos, o tratamento dos dados faltantes, o método de normalização e a Análise Fatorial – oriunda da TCT – são alguns aspectos comumente encontrados os quais têm sido fortemente criticados.
Adicionalmente, está bem documentado as vantagens da TRI sobre a TCT enquanto metodologia para a construção de traços latentes (BORTOLOTTI et al., 2012; EMBRETSON; REISE, 2000; HAMBLETON; SWAMINATHAN, 1985; LORD, F. M., 1980). Essas vantagens também foram detectadas em estudos voltados para áreas científicas específicas, como marketing (SINGH, 2004), estudos organizacionais (TRIERWEILLER; PEIXE; TEZZA; PEREIRA; et al., 2012), comércio eletrônico (TEZZA; BORNIA; ANDRADE, 2011), saúde (OLINO et al., 2012; WALLER et al., 2013), estratégia (BUCHBINDER; GOLDSZMIDT; PARENTE, 2012), entre outras áreas e exemplos.
Resumidamente, pode-se entender que a principal diferença entre essas duas abordagens está relacionada com o foco: enquanto que a TCT está orientada para os índices – ou para os itens (ou indicadores) vistos de modo conjunto (HAMBLETON; SWAMINATHAN; ROGERS, 1991) – na TRI, ao contrário, cada item individualmente – sem a necessidade da existência de um índice derivado deles – está no centro da análise (BORTOLOTTI et al., 2012). Nesse contexto, foi destacado também que “a maior vantagem
da TRI é o princípio da invariância” (BORTOLOTTI et al., 2012), isto é, respondentes e
itens são independentes e estão localizados na mesma escala. Ressalta-se que na TCT, onde o instrumento de mensuração depende das características dos respondentes que foram submetidos ao questionário (ou instrumento de coleta de dados), essa independência não acontece.
Em geral, a TRI pode ser vista como um conjunto de modelos matemáticos probabilísticos. A seleção do modelo mais adequado ao contexto no qual se pretende aplicá-lo requer a análise de algumas características básicas, a saber: o número de traços latentes que devem ser mensurados (ou a dimensionalidade); a natureza dos itens; e o número de parâmetros (BUCHBINDER; GOLDSZMIDT; PARENTE, 2012).
No contexto de rankings, a análise dessas características pode ser percebida de um modo bem particular. Primeiro, os rankings são construídos, essencialmente, baseados numa única dimensão. Entende-se que este aspecto é inerente ao processo de construção de rankings. Essa dimensão está relacionada ao constructo representado pelo indicador composto (ou índice) que foi utilizado para a sua construção – isto é, que foi utilizado para fins de
ranqueamento das entidades. Como referência, na nomenclatura da TRI esse indicador composto é comumente tratado como traço latente.
Entretanto, é importante perceber que essa característica dos rankings não necessariamente implica que um único traço latente – ou dimensionalidade simples – esteja sendo representado através dos seus indicadores. Em outras palavras, isso significa que, nem sempre, modelos da TRI que mensuram um único traço latente devem ser utilizados.
Apesar de ser um argumento extremamente contraditório, ele pode ser justificado considerando que os índices dos rankings possuem natureza multidimensional (NARDO et al., 2005). Em outras palavras, isso significa que os indicadores dos rankings normalmente mensuram dimensões estatísticas diferentes e que, dessa forma, nem sempre estão muito correlacionados (NARDO et al., 2005). Para efeitos de exemplificação, pode-se citar o HDI (UNITED NATIONS DEVELOPMENT PROGRAMME, 2013a, 2013b) o qual mensura o desenvolvimento humano – ou qualidade de vida – a partir de três dimensões distintas: renda; educação; e saúde.
Portanto, pode-se entender que a dimensionalidade simples – ou unidimensionalidade – de um ranking pode estar sendo construída de modo “artificial”, através da utilização de algum método de agregação, e não porque seus indicadores estejam, de fato, representando uma única dimensão. Na verdade, essa suposição seria contraditória com a natureza multidimensional esperada para os indicadores. Deve-se entender, dessa forma, que a análise da dimensionalidade deve ser sempre verificada para efeitos de seleção do modelo mais apropriado da TRI a ser utilizado em contextos de rankings.
Segundo, a grande maioria dos estudos que se propõem a construir escalas através da TRI é projetada para lidar com itens dicotômicos e/ou politômicos. Nos dicotômicos existem apenas duas possibilidades de resposta (ou valor) para representar cada item. Nos politômicos, por sua vez, cada item pode ser representado por mais de duas possibilidades de resposta. A propósito, itens politômicos podem ainda ser classificados de acordo com a possibilidade ou não de graduação das suas respostas – ou seja, em função da possibilidade de se criar ou não uma hierarquia de respostas (BUCHBINDER; GOLDSZMIDT; PARENTE, 2012). Como referência, esses elementos conhecidos como itens na nomenclatura da TRI podem ser entendidos como os indicadores no contexto de rankings.
Para exemplificar essa “tipologia de itens”, pode-se considerar alguns tipos de questões comumente encontradas em provas educacionais. Nesse contexto: (i) questões do tipo “verdadeiro ou falso” poderiam ser tratadas como itens dicotômicos; (ii) questões do tipo múltipla escolha, as quais normalmente são elaboradas com 3, 4 ou 5 opções de resposta,
poderiam ser tratadas como itens politômicos não graduados; (iii) questões do tipo aberta, nas quais, via de regra, as notas podem ser variáveis de acordo com a pertinência ou não à resposta considerada como gabarito – ou seja, podem ser consideradas como “mais corretas” ou “menos corretas” de acordo com os critérios estabelecidos para correção –, poderiam ser tratadas como itens politômicos com graduação. Esse último tipo de item, a propósito, pode também ser facilmente encontrado em pesquisas sociais através da conhecida e usual escala Likert.
Nesse contexto, considerando que os indicadores dos rankings normalmente têm dados contínuos, pode-se entender que eles poderiam ser transformados tanto para itens dicotômicos quanto para itens politômicos. Entretanto, intuitivamente, pode-se considerar que a perda de informação seria menor nesse último tipo de transformação. Entende-se, dessa forma, que modelos mais “ricos” poderiam ser obtidos.
Além disso, naturalmente pode-se entender que esses indicadores são graduados – ou seja, que podem ser representados numa hierarquia. Para exemplificar, no contexto do HDI de 2013, considerando que o indicador renda é diretamente proporcional ao índice, a Noruega – que apresentou valor 48.688 nesse indicador – necessariamente deve ser considerada como “melhor” do que o Brasil – o qual registrou o valor 10.152 – no que tange à avaliação desse indicador em particular. A propósito, os relatórios de alguns rankings – como, por exemplo, o RGI (REVENUE WATCH INSTITUTE, 2013) – apresentam classificações por indicador, reforçando a possibilidade de hierarquização desses itens.
Dessa forma, sugere-se que os indicadores dos rankings, pelas suas próprias características, sejam tratados como itens politômicos graduados em modelos da TRI. Obviamente podem existir contextos particulares em que a escolha aqui sugerida pode não ser adequada. Entretanto, independente da escolha, para que seja possível a utilização de modelos baseados em itens dicotômicos e/ou politômicos, algum processo de transformação deve ser utilizado. A propósito, neste trabalho, esse processo de transformação foi chamado de “categorização”, apesar de também ser conhecido em determinados estudos como “discretização”.
A terceira característica a ser avaliada para a seleção do modelo mais adequado da TRI a ser utilizado refere-se ao número de parâmetros a ser considerado. Nesse contexto, os modelos da TRI podem ser projetados com um, dois ou três parâmetros. Para facilitar o entendimento desses parâmetros, uma Curva Característica típica de um item dicotômico hipotético num modelo logístico de três parâmetros foi fornecida na figura 4.1.
Figura 4.1 – Exemplo de uma Curva Característica típica de um item dicotômico hipotético num modelo logístico de 3 parâmetros
Notas: (i) a = 1,22; b = 0,45; c = 0,30; (ii) a representa o parâmetro de discriminação (ou de inclinação) da curva característica do item no ponto b; (iii) b representa o parâmetro de dificuldade (ou de localização) do item, mensurado na mesma escala do traço latente, e representa o nível do traço latente necessário para a probabilidade de uma resposta correta ser (1+c)/2; (iv) essa curva foi fornecida na escala (0,1); e (v) todos os parâmetros dessa curva – ou seja, a, b e c – foram estimados probabilisticamente pelo modelo da TRI utilizado. A fórmula desse modelo foi apresentada na caixa ao lado do gráfico. Destaca-se que esse modelo – com três parâmetros e itens dicotômicos – foi oportunamente escolhido para efeitos dessa exemplificação apenas pela facilidade de representação gráfica. Fonte: esta figura foi elaborada pelo autor tendo como base uma figura semelhante bem como algumas explicações previamente publicadas (BORTOLOTTI et al., 2012).
Tendo como base a figura 4.1, deve-se entender que o terceiro parâmetro c é utilizado para representar a probabilidade de um dado respondente fornecer uma resposta correta casualmente a um item. Esse aspecto é facilmente ilustrado no contexto educacional no qual, determinados estudantes, apesar de não conhecerem a resposta para alguma questão, podem, ao acaso, acertá-la.
A princípio, não existe nenhuma base para imaginar que as instituições responsáveis pelos rankings possam acertar casualmente o valor de algum indicador de uma determinada entidade. Apesar da possibilidade de que métodos de imputação possam estar sendo utilizados na construção de rankings, os valores obtidos através desses métodos, mesmo que em certo nível criticados, são obtidos com base em processos estatísticos documentados. Dessa forma, entende-se que o terceiro parâmetro não é pertinente para o contexto aqui estudado.
Além disso, considera-se que modelos com um único parâmetro, por sua vez, são muito restritivos nas suas suposições. Nesses modelos, a mesma inclinação – ou o mesmo valor para o parâmetro de discriminação a – é considerado para todas as Curvas
Probabilidade P(Xij= 1|θj) Nível de habilidade (θ) ( = |𝜃 ) = + − + 𝑒− 𝜃 −
onde i representa o item (indicador) e j o respondente (entidade). a 1,0 0,8 0,6 0,4 0,2 -3 -2 -1 0 1 2 3 c b
Características dos itens (ANDRADE; TAVARES; VALLE, 2000). Como, via de regra, não existe base teórica para sustentar essa suposição no contexto de rankings, o modelo de dois parâmetros poderia ser considerado mais adequado para os propósitos deste trabalho.
Dessa forma, no escopo envolvendo um único traço latente, itens politômicos graduados e dois parâmetros, o MRG (SAMEJIMA, 1969, 1997) pode ser visto como uma boa alternativa com inúmeras aplicações já documentadas (BARTOLUCCI; DARDANONI; PERACCHI, 2013; BUCHBINDER; GOLDSZMIDT; PARENTE, 2012; OLINO et al., 2012). Neste modelo, a probabilidade de que, quando estiver respondendo ao item i, o