Teste de Sobredispersão
Os modelos de regressão de Poisson e Binomial negativa apesar de apresentarem
resultados muito próximos, no teste de sobredispersão de CAMERON & TRIVEDI
(2010) apontam para evidências que a condição de equidispersão não é atendida.
Os testes de sobredispersão foram realizados através da regressão da variável
dependente {(y- hat)
2– y} / hat e hat, sem um intercepto e realizando o teste t
para hat = 0. Verificamos que há evidências para rejeitar a hipótese H
0: =0 e,
portanto, o parâmetro não é nulo ( 0) indicando sobredispersão.
Tabela 4.8. Testes de sobredispersão para as regressões de Poisson com VDL
vmed e vmed0 e a regressão Hurdle Logit-Poisson com VDL vmed0
Variável
Coeficiente Erro Padrão
T
P>| t |
[95% Intervalo Confiança]
hat
vmed0,211
0,0179
11,78
< 0,001
0,1759
0,2461
hat
vmed00,265
0,0204
12,96
< 0,001
0,2250
0,3052
hat
vmed0_hurdle0,311
0,0753
4,13
< 0,001
0,1634
0,4587
Fonte: elaborado pelo autor conforme anexo 4.5.1.
Tabela 4.9. Relação das contagens nulas nos estudos de regressão de dados de
contagem relativos à demanda por serviços de saúde
Estudos
Descrição da variável dependente limitada
Tamanho amostra
Percentual de nulos
Cameron et al. (1988)
Visitas médicas
5.190
0,798
Pohlmeier and Ulrich (1995)
Visitas médicas e de especialidades
5.096
0,678
Deb and Trivedi (1997)
Internações hospitalares
4.406
0,806
Silva and Windmeijer (2001)
Visitas médicas e de especialidades
5.096
0,678
Pesquisa atual (2012)
Visitas em especialidade médica
4.261
0,073
Fonte: adaptado pelo autor a partir de Cameron, A.C. and Trivedi, P.K. (2005).
Os resultados mostraram que há problema de sobredispersão (tabela 4.8), apesar
da proporção de contagem nulas na amostra ser muito inferior ao de outros casos
estudados, como nos modelos de CAMERON et al. (1988) e POLHMEIER &
ULRICH (1995), conforme tabela 4.9. É importante reiterar que a regressão para o
modelo hurdle Logit-Poisson (ou em duas partes) somente pode ser realizada com a
presença de contagem nulas, ou seja, com a VDL visitas médicas vmed0.
Por fim, os testes de sobredispersão indicam a necessidade de considerar
principalmente os resultados obtidos pelas regressões do modelo de distribuição
Binomial negativa ou hurdle Logit-Binomial negativa.
Testes para especificação dos modelos de regressão de dados de contagem
Heterocedasticidade
Como vimos anteriormente, a heterocedasticidade é intrínseca à regressão de
dados de contagem de Poisson e pode resultar em sérios problemas de parâmetros
errôneos e enviesados. Por este fato é que a estimação de modelos de dados de
contagem é realizada pelo método de pseudo-máxima verossimilhança. Contudo,
vale verificar a condição de heterocedasticidade nas regressões OLS do modelo
para as VDLs visitas médicas vmed e vmed0.
A heterocedasticidade ocorre quando a variância do termo erro não é constante e
pode indicar alguma falta na especificação dos modelos devido a violação de
algumas premissas. A heterocedasticidade não resulta necessariamente em
estimadores enviesados, mas apenas que estes não serão ótimos (ou seja BLUE -
Best Linear Unibiased Estimators)
A tabela 4.10 apresenta os testes de heterocedasticidade: (i) teste de Breusch-
Pagan / Cook-Weisberg para testar a hipótese nula H
0, na qual os erros das
variâncias são todos iguais (ou seja, homocedásticos), ao invés de ser uma função
multiplicativa de uma ou mais variáveis (quando os erros são, normalmente,
distribuídos) e (ii) teste de White quando a heterocedasticidade apresenta forma não
linear.
Tabela 4.10. Testes de heterocedasticidade para as regressões OLS com VDLs
vmed e vmed0
Teste (VDL)
Prob chi2
Grau de Liberdade
p-valor
B-P / C-W (vmed)
349,46
10
<0,001
White (vmed)
258,72
56
<0,001
B-P / C-W (vmed0)
366,01
10
<0,001
White (vmed0)
267,89
56
<0,001
Fonte: elaborado pelo autor conforme anexo 4.5.2.
Os resultados mostraram que há evidências para rejeitar a hipótese H
0e, portanto
há problemas de heterocedasticidade nas regressões OLS. No anexo 4.5.2, os
testes foram realizados para cada uma das variáveis, nos quais apenas as variáveis
naosolteiro
25e classerenda
26não apresentaram evidências estatísticas significativas
para rejeitar H
0, ou seja, não podemos afirmar que haja algum problema de
heterocedasticidade com estas variáveis em particular.
Multicolinearidade
Os problemas de colinearidade surgem nos casos em que foram consideradas
variáveis similares no mesmo modelo, fazendo com que fosse repetida a informação
derivada destas variáveis. Por exemplo, alta correlação entre parâmetros pode
demonstrar indícios de problema de colinearidade. Os problemas de colinearidade
podem surgir com o uso inapropriado de variáveis dummies ou no caso de incluir
uma variável que deriva de outras variáveis já consideradas.
A conseqüência de multicolinearidade é aumentar significativamente o erro padrão,
assim como o intervalo de confiança, sendo mais difícil a condição de rejeitar a
hipótese nula H
0na determinação dos coeficientes.
25
A variável naosolteiro representa os pacientes com estado civil diferente do de solteiro.
26
Os parâmetros das variáveis idade
27e criança
28apresentaram alta correlação (-0,88;
conforme anexo 4.5.3), assim como um valor do fator de teste VIF (variances
inflation factor) acima de 2,5 para o diagnóstico de colinearidade de Ender
(WILLIAMS, 2011). Assim, podemos concluir que há indícios de colinearidade
simples entre os parâmetros idade e criança.
Especificação dos parâmetros e heterogeneidade não observada
Utilizamos o teste de Wald para verificar os erros na especificação dos parâmetros
dos modelos. O fato de omitir uma variável importante no modelo pode acarretar um
resultado enviesado nos coeficientes obtidos. Para isto testamos a hipótese H
0:
var=0 para cada coeficiente das variáveis explicativas (c.f. anexos 4.6.1 e 4.6.2). Da
mesma forma, se for acrescentada uma variável explicativa, as regressões poderão
apresentar maiores erros padrão.
Os resultados mostraram que algumas variáveis podem ser omitidas para melhorar
a especificação do modelo, como, o caso da variável residsp, que em todas as
regressões, exceto a Poisson, não apresentou evidências estatísticas significativas
para rejeitar H
0,ou seja
residsp=0. Outras variáveis, como criança, apresentaram
evidências de coeficientes nulos em apenas algumas regressões, sobretudo nas
regressões OLS, Poisson e Negbin no caso da VDL visitas médica ser vmed0. Os
modelos hurdle Logit-Poisson e Logit-Binomial negativa apresentaram coeficiente
nulo apenas para a variável residsp
29.
Por outro lado, os testes de Wald realizados em múltiplos coeficientes (cf. Anexo
4.8.1 e 4.8.2), como no caso de restrições de igualdade
30, foram definidos como
testes de hipótese sendo H
0:
var1=
var2ou H
0:
var1–
var2= 0. Os resultados
mostraram que para a VDL vmed nos modelos OLS, Poisson e Binomial negativa
para as múltiplas variáveis (indicado
31, referenciado
32), (indicado, criança), e
27
A variável idade representa a idade em anos dos pacientes.
28
A variável criança representa os pacientes com idade inferior a 15 anos.
29
A variável residsp que representa os indivíduos que residem na cidade de São Paulo.
30
Como situações em que o coeficiente de uma variável tem o mesmo efeito que o coeficiente de outra.
31
A variável indicado representa os pacientes que foram indicados por um médico ou profissional da saúde ao
serviço de genética médica.
32
. A variável referenciado representa os pacientes que têm planos de saúde no qual o serviço de genética
médica é referenciado na rede de atendimento.
(referenciado, criança), não houve evidências estatísticas significativas para rejeitar
H
0, ou seja, os seus respectivos efeitos são os mesmos para especificação do
modelo. Para a VDL vmed0, as variáveis (idade, criança), (sexo
33, criança) e
(indicado, criança) apresentaram respectivamente o mesmo efeito. Ademais, nos
modelos hurdle Logit-Poisson e Logit-Binomial negativa, considerando apenas a
regressão binária Logit da primeira etapa, não há evidência estatística significativa
para que a variável gravidez
34não tenha o mesmo efeito que as variáveis sexo,
indicado e referenciado.
Assim sendo, podemos então comparar o modelo irrestrito com todas as variáveis, e
modelos restritos com a exclusão de variáveis estatisticamente não significativas,
como residsp, ou com as que apresentam colinearidade simples como a variável
criança. Para esta comparação utilizamos o teste de razão de verossimilhança
apresentado anteriormente.
Os resultados (cf. anexos 4.7.1) mostram que o efeito das variáveis residsp e
crianca representa uma melhoria estatística significativa nos modelos OLS, Poisson
e Binomial negativa para estimar a VDL visitas médicas vmed. No caso da VDL
visitas médicas vmed0, estas variáveis explicativas demonstraram que são
significativas apenas para os modelos Poisson, hurdle Logit-Poisson e Logit-
Binomial negativa, sendo que para as regressões nos modelos OLS e Binomial
negativa não há evidências estatísticas de que são significativas, logo, não podemos
rejeitar a hipótese H
0:
residsp=
crianca= 0 (cf. anexo 4.7.2), portanto, o modelo
restrito é preferível.
Finalmente, seguindo a sugestão de CAMERON et al. (1988), podemos comparar os
critérios de informação da cada modelos, como o AIC (Akaike Information Criterion)
e/ou BIC (Bayesian Information Criterion) (cf. anexo 4.5.4):
Tabela 4.11. Critérios de informação AIC e BIC para as regressões OLS, Poisson,
Binomial negativa, hurdle Logit-Poisson e Logit-Binomial negativa
Modelo
VDL
AIC
BIC
OLS
Vmed
18863,52
18932,61
Poisson
Vmed
17912,31
17981,39
33
A variável sexo representa o sexo masculino ou feminino do paciente.
34
A variável gravidez representa as pacientes gestantes ou com histórico de gestação de risco e perdas
repetitivas.
Binomial Negativa
Vmed
17294,07
17369,44
OLS
Vmed0
20290,49
20360,34
Poisson
Vmed0
19504,63
19574,48
Binomial Negativa
Vmed0
18550,77
18626,98
Logit-Poisson
Vmed0
19279,48
19419,19
Logit-Binomial negativa
Vmed0
18294,15
18440,22
Fonte: elaborado pelo autor conforme anexo 4.5.4.
Para definir qual a preferência dos modelos é preciso comparar os critérios de
informação. Se AIC
1– AIC
2< 0, o modelo1 será mais apropriado e se AIC
1– AIC
2>
0, então, o modelo 2 será o melhor (LONG & FREESE, 2006). Os resultados
mostram que para a VDL visitas médicas vmed o modelo de regressão Binomial
negativa é mais apropriado. No caso da VDL visitas médicas vmed0, o modelo com
menores AIC e BIC é o de regressão hurdle Logit-Binomial negativa, apesar dos
valores de AIC e BIC serem próximos do modelo de regressão Binomial negativa.
Podemos concluir que os modelos de regressão de dados de contagem que são
mais adequados para estimar os parâmetros das variáveis dependentes limitadas
visitas médicas vmed e vmed0 são, respectivamente, os modelos de regressão
Bionmial negativa e hurdle Logit-Binomial negativa.
e vmed0
Vmed OLS Variavel Vmed Poisson Variavel Vmed Negbin Variavel Vmed0 OLS Variavel Vmed0 Poisson Variavel Vmedd0 Negbin Variavel Vmed0 Hplogit Variavel Vmed0 Hnblogit Variavel SobredisperçãoSim Sim Sim
Heteroscedasticidade Sim Sim Multicolinearidade Sim Idade Crianca Sim Idade Crianca
Teste de Wald para não exclusão de var. Sim
exceto Residsp Sim exceto Residsp Sim exceto Resisp Crianca Sim exceto Resisp Crianca Sim exceto Resisp Crianca Sim exceto Sim exceto Resisp Teste LR para
modelo irrestrito Sim Sim Sim Não Modelo
restrito Sim Sim Sim Sim
Teste de Wald para multiplos coeficiente Idade = sexo X X Idade = classerenda Idade = crianca X X X Sexo = crianca X X X X Sexo = gravidez X X Indicado = referenciado X X X Indicado = crianca X X X X X X Indicado = gravidez X X Referenciado = crianca X X X Referenciado = gravid. X X
*(X para não rejeita H0)