• Sonuç bulunamadı

Teste de Sobredispersão

Os modelos de regressão de Poisson e Binomial negativa apesar de apresentarem

resultados muito próximos, no teste de sobredispersão de CAMERON & TRIVEDI

(2010) apontam para evidências que a condição de equidispersão não é atendida.

Os testes de sobredispersão foram realizados através da regressão da variável

dependente {(y- hat)

2

– y} / hat e hat, sem um intercepto e realizando o teste t

para hat = 0. Verificamos que há evidências para rejeitar a hipótese H

0

: =0 e,

portanto, o parâmetro não é nulo ( 0) indicando sobredispersão.

Tabela 4.8. Testes de sobredispersão para as regressões de Poisson com VDL

vmed e vmed0 e a regressão Hurdle Logit-Poisson com VDL vmed0

Variável

Coeficiente Erro Padrão

T

P>| t |

[95% Intervalo Confiança]

hat

vmed

0,211

0,0179

11,78

< 0,001

0,1759

0,2461

hat

vmed0

0,265

0,0204

12,96

< 0,001

0,2250

0,3052

hat

vmed0_hurdle

0,311

0,0753

4,13

< 0,001

0,1634

0,4587

Fonte: elaborado pelo autor conforme anexo 4.5.1.

Tabela 4.9. Relação das contagens nulas nos estudos de regressão de dados de

contagem relativos à demanda por serviços de saúde

Estudos

Descrição da variável dependente limitada

Tamanho amostra

Percentual de nulos

Cameron et al. (1988)

Visitas médicas

5.190

0,798

Pohlmeier and Ulrich (1995)

Visitas médicas e de especialidades

5.096

0,678

Deb and Trivedi (1997)

Internações hospitalares

4.406

0,806

Silva and Windmeijer (2001)

Visitas médicas e de especialidades

5.096

0,678

Pesquisa atual (2012)

Visitas em especialidade médica

4.261

0,073

Fonte: adaptado pelo autor a partir de Cameron, A.C. and Trivedi, P.K. (2005).

Os resultados mostraram que há problema de sobredispersão (tabela 4.8), apesar

da proporção de contagem nulas na amostra ser muito inferior ao de outros casos

estudados, como nos modelos de CAMERON et al. (1988) e POLHMEIER &

ULRICH (1995), conforme tabela 4.9. É importante reiterar que a regressão para o

modelo hurdle Logit-Poisson (ou em duas partes) somente pode ser realizada com a

presença de contagem nulas, ou seja, com a VDL visitas médicas vmed0.

Por fim, os testes de sobredispersão indicam a necessidade de considerar

principalmente os resultados obtidos pelas regressões do modelo de distribuição

Binomial negativa ou hurdle Logit-Binomial negativa.

Testes para especificação dos modelos de regressão de dados de contagem

Heterocedasticidade

Como vimos anteriormente, a heterocedasticidade é intrínseca à regressão de

dados de contagem de Poisson e pode resultar em sérios problemas de parâmetros

errôneos e enviesados. Por este fato é que a estimação de modelos de dados de

contagem é realizada pelo método de pseudo-máxima verossimilhança. Contudo,

vale verificar a condição de heterocedasticidade nas regressões OLS do modelo

para as VDLs visitas médicas vmed e vmed0.

A heterocedasticidade ocorre quando a variância do termo erro não é constante e

pode indicar alguma falta na especificação dos modelos devido a violação de

algumas premissas. A heterocedasticidade não resulta necessariamente em

estimadores enviesados, mas apenas que estes não serão ótimos (ou seja BLUE -

Best Linear Unibiased Estimators)

A tabela 4.10 apresenta os testes de heterocedasticidade: (i) teste de Breusch-

Pagan / Cook-Weisberg para testar a hipótese nula H

0

, na qual os erros das

variâncias são todos iguais (ou seja, homocedásticos), ao invés de ser uma função

multiplicativa de uma ou mais variáveis (quando os erros são, normalmente,

distribuídos) e (ii) teste de White quando a heterocedasticidade apresenta forma não

linear.

Tabela 4.10. Testes de heterocedasticidade para as regressões OLS com VDLs

vmed e vmed0

Teste (VDL)

Prob chi2

Grau de Liberdade

p-valor

B-P / C-W (vmed)

349,46

10

<0,001

White (vmed)

258,72

56

<0,001

B-P / C-W (vmed0)

366,01

10

<0,001

White (vmed0)

267,89

56

<0,001

Fonte: elaborado pelo autor conforme anexo 4.5.2.

Os resultados mostraram que há evidências para rejeitar a hipótese H

0

e, portanto

há problemas de heterocedasticidade nas regressões OLS. No anexo 4.5.2, os

testes foram realizados para cada uma das variáveis, nos quais apenas as variáveis

naosolteiro

25

e classerenda

26

não apresentaram evidências estatísticas significativas

para rejeitar H

0

, ou seja, não podemos afirmar que haja algum problema de

heterocedasticidade com estas variáveis em particular.

Multicolinearidade

Os problemas de colinearidade surgem nos casos em que foram consideradas

variáveis similares no mesmo modelo, fazendo com que fosse repetida a informação

derivada destas variáveis. Por exemplo, alta correlação entre parâmetros pode

demonstrar indícios de problema de colinearidade. Os problemas de colinearidade

podem surgir com o uso inapropriado de variáveis dummies ou no caso de incluir

uma variável que deriva de outras variáveis já consideradas.

A conseqüência de multicolinearidade é aumentar significativamente o erro padrão,

assim como o intervalo de confiança, sendo mais difícil a condição de rejeitar a

hipótese nula H

0

na determinação dos coeficientes.

25

A variável naosolteiro representa os pacientes com estado civil diferente do de solteiro.

26

Os parâmetros das variáveis idade

27

e criança

28

apresentaram alta correlação (-0,88;

conforme anexo 4.5.3), assim como um valor do fator de teste VIF (variances

inflation factor) acima de 2,5 para o diagnóstico de colinearidade de Ender

(WILLIAMS, 2011). Assim, podemos concluir que há indícios de colinearidade

simples entre os parâmetros idade e criança.

Especificação dos parâmetros e heterogeneidade não observada

Utilizamos o teste de Wald para verificar os erros na especificação dos parâmetros

dos modelos. O fato de omitir uma variável importante no modelo pode acarretar um

resultado enviesado nos coeficientes obtidos. Para isto testamos a hipótese H

0

:

var

=0 para cada coeficiente das variáveis explicativas (c.f. anexos 4.6.1 e 4.6.2). Da

mesma forma, se for acrescentada uma variável explicativa, as regressões poderão

apresentar maiores erros padrão.

Os resultados mostraram que algumas variáveis podem ser omitidas para melhorar

a especificação do modelo, como, o caso da variável residsp, que em todas as

regressões, exceto a Poisson, não apresentou evidências estatísticas significativas

para rejeitar H

0,

ou seja

residsp

=0. Outras variáveis, como criança, apresentaram

evidências de coeficientes nulos em apenas algumas regressões, sobretudo nas

regressões OLS, Poisson e Negbin no caso da VDL visitas médica ser vmed0. Os

modelos hurdle Logit-Poisson e Logit-Binomial negativa apresentaram coeficiente

nulo apenas para a variável residsp

29

.

Por outro lado, os testes de Wald realizados em múltiplos coeficientes (cf. Anexo

4.8.1 e 4.8.2), como no caso de restrições de igualdade

30

, foram definidos como

testes de hipótese sendo H

0

:

var1

=

var2

ou H

0

:

var1

var2

= 0. Os resultados

mostraram que para a VDL vmed nos modelos OLS, Poisson e Binomial negativa

para as múltiplas variáveis (indicado

31

, referenciado

32

), (indicado, criança), e

27

A variável idade representa a idade em anos dos pacientes.

28

A variável criança representa os pacientes com idade inferior a 15 anos.

29

A variável residsp que representa os indivíduos que residem na cidade de São Paulo.

30

Como situações em que o coeficiente de uma variável tem o mesmo efeito que o coeficiente de outra.

31

A variável indicado representa os pacientes que foram indicados por um médico ou profissional da saúde ao

serviço de genética médica.

32

. A variável referenciado representa os pacientes que têm planos de saúde no qual o serviço de genética

médica é referenciado na rede de atendimento.

(referenciado, criança), não houve evidências estatísticas significativas para rejeitar

H

0

, ou seja, os seus respectivos efeitos são os mesmos para especificação do

modelo. Para a VDL vmed0, as variáveis (idade, criança), (sexo

33

, criança) e

(indicado, criança) apresentaram respectivamente o mesmo efeito. Ademais, nos

modelos hurdle Logit-Poisson e Logit-Binomial negativa, considerando apenas a

regressão binária Logit da primeira etapa, não há evidência estatística significativa

para que a variável gravidez

34

não tenha o mesmo efeito que as variáveis sexo,

indicado e referenciado.

Assim sendo, podemos então comparar o modelo irrestrito com todas as variáveis, e

modelos restritos com a exclusão de variáveis estatisticamente não significativas,

como residsp, ou com as que apresentam colinearidade simples como a variável

criança. Para esta comparação utilizamos o teste de razão de verossimilhança

apresentado anteriormente.

Os resultados (cf. anexos 4.7.1) mostram que o efeito das variáveis residsp e

crianca representa uma melhoria estatística significativa nos modelos OLS, Poisson

e Binomial negativa para estimar a VDL visitas médicas vmed. No caso da VDL

visitas médicas vmed0, estas variáveis explicativas demonstraram que são

significativas apenas para os modelos Poisson, hurdle Logit-Poisson e Logit-

Binomial negativa, sendo que para as regressões nos modelos OLS e Binomial

negativa não há evidências estatísticas de que são significativas, logo, não podemos

rejeitar a hipótese H

0

:

residsp

=

crianca

= 0 (cf. anexo 4.7.2), portanto, o modelo

restrito é preferível.

Finalmente, seguindo a sugestão de CAMERON et al. (1988), podemos comparar os

critérios de informação da cada modelos, como o AIC (Akaike Information Criterion)

e/ou BIC (Bayesian Information Criterion) (cf. anexo 4.5.4):

Tabela 4.11. Critérios de informação AIC e BIC para as regressões OLS, Poisson,

Binomial negativa, hurdle Logit-Poisson e Logit-Binomial negativa

Modelo

VDL

AIC

BIC

OLS

Vmed

18863,52

18932,61

Poisson

Vmed

17912,31

17981,39

33

A variável sexo representa o sexo masculino ou feminino do paciente.

34

A variável gravidez representa as pacientes gestantes ou com histórico de gestação de risco e perdas

repetitivas.

Binomial Negativa

Vmed

17294,07

17369,44

OLS

Vmed0

20290,49

20360,34

Poisson

Vmed0

19504,63

19574,48

Binomial Negativa

Vmed0

18550,77

18626,98

Logit-Poisson

Vmed0

19279,48

19419,19

Logit-Binomial negativa

Vmed0

18294,15

18440,22

Fonte: elaborado pelo autor conforme anexo 4.5.4.

Para definir qual a preferência dos modelos é preciso comparar os critérios de

informação. Se AIC

1

– AIC

2

< 0, o modelo1 será mais apropriado e se AIC

1

– AIC

2

>

0, então, o modelo 2 será o melhor (LONG & FREESE, 2006). Os resultados

mostram que para a VDL visitas médicas vmed o modelo de regressão Binomial

negativa é mais apropriado. No caso da VDL visitas médicas vmed0, o modelo com

menores AIC e BIC é o de regressão hurdle Logit-Binomial negativa, apesar dos

valores de AIC e BIC serem próximos do modelo de regressão Binomial negativa.

Podemos concluir que os modelos de regressão de dados de contagem que são

mais adequados para estimar os parâmetros das variáveis dependentes limitadas

visitas médicas vmed e vmed0 são, respectivamente, os modelos de regressão

Bionmial negativa e hurdle Logit-Binomial negativa.

e vmed0

Vmed OLS Variavel Vmed Poisson Variavel Vmed Negbin Variavel Vmed0 OLS Variavel Vmed0 Poisson Variavel Vmedd0 Negbin Variavel Vmed0 Hplogit Variavel Vmed0 Hnblogit Variavel Sobredisperção

Sim Sim Sim

Heteroscedasticidade Sim Sim Multicolinearidade Sim Idade Crianca Sim Idade Crianca

Teste de Wald para não exclusão de var. Sim

exceto Residsp Sim exceto Residsp Sim exceto Resisp Crianca Sim exceto Resisp Crianca Sim exceto Resisp Crianca Sim exceto Sim exceto Resisp Teste LR para

modelo irrestrito Sim Sim Sim Não Modelo

restrito Sim Sim Sim Sim

Teste de Wald para multiplos coeficiente Idade = sexo X X Idade = classerenda Idade = crianca X X X Sexo = crianca X X X X Sexo = gravidez X X Indicado = referenciado X X X Indicado = crianca X X X X X X Indicado = gravidez X X Referenciado = crianca X X X Referenciado = gravid. X X

*(X para não rejeita H0)

Benzer Belgeler