Com o intuito de evidenciar potenciais vieses introduzidos pela configuração esparsa e desbalanceada dos dados, foi conduzida análise da sensibilidade dos coeficientes dos modelos logísticos de predição de ISC através da comparação de três tipos de inferência para os coeficientes logísticos: a) o método de máxima verossimilhança não condicional, ou assintótico (MMV) (HOSMER; LEMESHOW, 1989); b) o método condicional exato (MCE) (AGRESTI, 2001; MEHTA; PATEL, 1995); e c) o método de máxima verossimilhança corrigido pelo viés de eventos raros ou amostras pequenas (MMVC) (KING; ZENG, 2001a, 2001b).
O tipo de inferência mais popularmente usado para os parâmetros de um modelo de regressão logística binária é o MMV (HOSMER; LEMESHOW, 1989). Brevemente, no MMV, a estimativa pontual do parâmetro de interesse é aquela que maximiza o valor da função de verossimilhança (não condicional) do modelo. O método é assintótico, pois os testes de hipóteses são conduzidos através de estatísticas (i.e., Wald, razão de verossimilhanças e escore não condicional) cuja distribuição limitante é aproximada por uma distribuição (i.e., qui-quadrado) assumida como conhecida (HOSMER; LEMESHOW, 1989). O cálculo dos estimadores de máxima verossimilhança é computacionalmente conveniente, e a avaliação do ajuste dos modelos que utilizam estes estimadores está apoiada em vasta e robusta teoria (HOSMER; LEMESHOW, 1989). Entretanto, a solução assintótica dos estimadores dos modelos de regressão logística binária pode apresentar resultados inconsistentes, ou ainda inexistentes, quando aplicada a conjuntos de dados com determinadas configurações, podendo levar a conclusões incorretas sobre os efeitos das variáveis explicativas. Estas situações incluem a presença de separação completa ou quase completa (ALBERT; ANDERSON, 1984; CORCORAN et al., 2001), eventos raros (KING; ZENG, 2001a), amostras pequenas e dados com configurações esparsas ou desbalanceadas (AGRESTI, 2001; KING; RYAN, 2002; MEHTA; PATEL, 1995). Os mecanismos que levam à inconsistência dos resultados da teoria assintótica variam desde a subestimação sistemática dos coeficientes logísticos e das probabilidades preditas pelo modelo em eventos raros (KING; ZENG, 2001a), o aumento da variância dos estimadores em amostras pequenas ou em dados esparsos ou desbalanceados (AGRESTI, 2001; KING; RYAN, 2002; MEHTA; PATEL, 1995), até a total inexistência de solução assintótica em dados com separação completa ou quase completa (ALBERT; ANDERSON, 1984; CORCORAN et al., 2001).
Outros métodos de inferência estão disponíveis para aproximar os coeficientes do modelo logístico nas situações em que os resultados assintóticos podem mostrar-se inadequados. A alternativa mais comumente encontrada na literatura é o MCE (AGRESTI, 2001; MEHTA; PATEL, 1995). No MCE, a estimativa pontual de cada parâmetro do modelo é obtida maximizando-se a função de verossimilhança condicional, que é formada condicionando-se aos valores observados das estatísticas suficientes de todos os demais parâmetros do modelo, que são tratados como parâmetros de perturbação. Inferências exatas sobre o parâmetro podem ser obtidas derivando-se os intervalos de confiança e os valores p exatos de cada parâmetro a partir da distribuição permutacional exata da sua estatística suficiente, condicionada aos
valores observados das estatísticas suficientes dos parâmetros remanescentes (AGRESTI, 2001; MEHTA; PATEL, 1995). O método é exato, pois, ao utilizar as distribuições empíricas das estatísticas suficientes, nenhuma distribuição limitante é assumida. As principais limitações da solução exata para regressão logística referem-se, por um lado, à não existência de métodos consagrados de verificação do ajuste dos modelos ou de métodos para seleção entre modelos alternativos e, por outro lado, à natureza intensiva do processo de geração das distribuições das estatísticas suficientes, o que demanda muito tempo de cálculo e muita (geralmente maciça) memória computacional (AGRESTI, 2001; MEHTA; PATEL, 1995). Para alguns modelos estudados, o processo de geração de distribuições permutacionais exatas das estatísticas suficientes foi computacionalmente muito intensivo. Nesses casos, estas distribuições foram aproximadas pelo método de amostragem de Monte Carlo (30000 amostras), permitindo gerar os intervalos de confiança e os valores p dos parâmetros (MEHTA et al., 2000).
A comparação dos valores p assintóticos e exatos dos coeficientes dos modelos logísticos será apresentada em tabelas, para melhor visualização. De acordo com Mehta & Patel (1995), resultados muito discrepantes entre os estimadores do MMV e do MCE geralmente favorecem o uso destes últimos, pois sinalizam potenciais problemas da inferência assintótica. Analogamente, por serem assintoticamente equivalentes, a dissimilaridade entre os valores p assintóticos do teste de Wald, do escore não condicional e do teste da razão de verossimilhanças também é usada como indício de potenciais inconsistências da solução assintótica, favorecendo o uso do MCE (CORCORAN et al., 2001; MEHTA; PATEL, 1995).
Outros métodos de inferência fornecem coeficientes de máxima verossimilhança corrigidos pelo viés introduzido pelo tamanho amostral pequeno ou pelo fato de a variável resposta do modelo ser evento raro (KING; ZENG, 2001a; SCHAEFER, 1983). O MMVC proposto em King & Zeng (2001a, 2001b) baseia-se no fato de que, na presença de eventos raros ou amostras pequenas, as estimativas fornecidas pelo MMV no modelo logístico são sistematicamente subestimadas. A magnitude deste viés pode ser estimada, o que permite corrigir apropriadamente os coeficientes calculados pelo MMV (KING; ZENG, 2001a, 2001b). Estas correções, implementadas na macro ReLogit para Stata (TOMZ et al., 1999), foram utilizadas na presente pesquisa.
Para estimar a magnitude da correção introduzida pela macro ReLogit nos coeficientes do MMV, foram calculadas as variações percentuais de ( ReLogit) e do erro
padrão de (E.P. ReLogit) de cada variável estimados pela macro ReLogit em relação ao respectivo coeficiente de máxima verossimilhança ( MMV e E.P. MMV). Esta variação percentual foi calculada de forma simples, como:
[ ( ReLogit– MMV ) / MMV ] * 100
e
[ ( E.P. ReLogit– E.P. MMV ) / E.P. MMV ] * 100
Outra forma de avaliar a magnitude da correção introduzida pela macro ReLogit nos coeficientes de máxima verossimilhança baseou-se no seguinte princípio: se os coeficientes ReLogit forem idênticos aos coeficientes MMV, então o ajuste de um modelo de regressão logística da forma:
ln [Pr (Yi = 1) / Pr (Yi = 0)] = MMV/MVC + MMV/MVC ln [pi / (1 – pi)]
usando o MMV, onde Yi é o status de ISC que assume os valores (0,1), observada para cada indivíduo i, e pi é a probabilidade predita pelos coeficientes ReLogit (ao invés de MMV) para o i-ésimo indivíduo, deve fornecer MMV/MVC = 0 e MMV/MVC = 1. O grau de afastamento de MMV/MVC = 0 e MMV/MVC = 1 indica a magnitude em que as predições conjuntas baseadas nos ReLogit se afastam das predições baseadas nos MMV. Esta estratégia de avaliação não foi descrita previamente na literatura, e foi validada pela coautora da macro ReLogit (comunicação pessoal).3
Lembrando que a macro ReLogit ajusta os coeficientes de máxima verossimilhança pelo viés de evento raro ou amostras pequenas, a variação percentual e a variação baseada em MMV/MVC e MMV/MVC podem ser entendidas como a magnitude do viés presente no modelo de máxima verossimilhança. Assim, pequenas variações percentuais ou baseadas em MMV/MVC e MMV/MVC seriam desejáveis e antecipariam desempenho mais replicável do modelo de máxima verossimilhança em amostras externas de características similares.
3 ZENG, L. Comunicação pessoal. 2009. Departamento de Ciência Política, Universidade George