ĠKĠNCĠ BÖLÜM: SEMĠH KAPLANOĞLU SĠNENMAS
2.3. Herkes Kendi Evinde (2001)
Em alguns contextos econômicos, como nesse ensaio, a variável dependente que
queremos analisar é um número inteiro não negativo, conhecida como variável de
contagem. Ao contrário dos modelos de regressão clássica linear e não linear, a
variável dependente é discreta e limitada em sua distribuição de probabilidade. Este
modelo de regressão de dados de contagem é não-linear e apresenta propriedades
específicas.
O modelo de regressão de dados de contagem aplica-se às variáveis dependentes
limitadas (VDL) que representam a contagem de eventos ocorridos. Assim, por
exemplo, podemos considerar a utilização de um serviço de saúde, como a
contagem do número de visitas ou consultas realizadas por um paciente a um
serviço de saúde ou médico em um período de tempo. O modelo de regressão de
dados de contagem é apropriado quando a variável dependente é um número inteiro
positivo e segue uma escala ordenada, ou seja, não há a priori um limite máximo e o
resultado mínimo é zero para alguns dados. Normalmente, o modelo de regressão
de dados de contagem é utilizado quando a distribuição dos dados é assimétrica ou
Finalmente, os dados são normalmente heterocedásticos
12com variância crescente
com a média. Assim, se y é uma variável dependente limitada de contagem e x é um
vetor de variáveis explicativas, estaremos interessados na regressão E(y|x).
É importante notar que para os dados de contagem os modelos lineares
13, como o
das estimativas de Mínimos Quadrados Ordinários (ou Ordinary Least Square
estimations - OLS), são limitados
14. Ademais, os modelos lineares com
transformação logarítmica, log(y), normalmente utilizados para amostras com
valores positivos, também não são apropriados, vez que os dados nulos são
significativos nas amostras de contagem. Por fim, o método geral de estimação de
modelos não lineares com média condicional também não é ideal, a não ser que a
distribuição dos dados de contagem seja heterocedástica (WOOLRIDGE, 2010).
O modelo estatístico básico e mais popular para os dados de contagem é uma
regressão de Poisson, no qual a distribuição de Poisson assume que a
probabilidade de um evento ocorrer ( )
15durante um instante de tempo é constante
e proporcional à sua duração. Assim, se temos y, uma variável dependente e
limitada, dado um vetor x de variáveis explicativas (ou variáveis independentes) com
uma distribuição de Poisson, então os estimadores são obtidos pelo método de
maximização da função de verossimilhança, conhecidos como estimadores de
máxima verossimilhança (ou maximum likelihood estimators - MLE). Estes
estimadores são eficientes e robustos até mesmo em caso de falta de especificação
adequada, conhecida como a propriedade de quasi-maximum likelihood estimation
(QML) (WOOLRIDGE, 2010; BALTAGI, 2008 e JONES, 2007).
O método de estimação de máxima verossimilhança (EMV ou MLE) permite que a
média condicional da variável dependente tenha uma forma exponencial. Segundo
CAMERON & TRIVEDI (2005), o modelo de Poisson é especificado por y
it~ [
itexp(x’
it)] com y
i=(y
i1,...,y
iT) (cf. Anexo 4.1Distribuição de Poisson) e pode apresentar
12
Segundo WOOLRIDGE (2006) a homocedasticidade é expressa como var(u|x
1,...,x
k) = σ
2ou Var(y|x) = var
(u|x) = σ
2. A hipótese significa que a variância do termo erro, u, condicionada às variáveis explicativas, é a
mesma para todas as combinações de resultados das variáveis explicativas. Se essa hipótese é violada, o
modelo exibe heterocedasticidade.
13
O modelo é linear quando a equação y =β
0+ β
1x + u é linear em seus parâmetros β
0e β
1.
14No caso da estimação de dados de contagem, os modelos lineares são limitados porque sabemos que y≥0 e
que E(y|x)deverá ser não negativo para todos x. Contudo, se β’ é o estimador MQO, haverá a possibilidade de
alguns valores de x assumirem xβ’<0 e o valor estimado de y poderá ser negativo (WOOLRIDGE, 2010).
15
λ representa a intensidade do processo (JONES, 2007) e assume-se que λ = exp(xβ), sendo x a variável
explicativa e λ>0.
excessiva dispersão ou sobredispersão (overdispersion) quando a condição de
equidispersão
16não ocorrer.
Para o modelo de regressão de dados de contagem de Poisson, a propriedade de
equidispersão deve ser observada nos dados. Diversos estudos sobre dados de
contagem têm abordado este assunto (CAMERON et al. 1988) com o intuito de
contornar esta característica restritiva do modelo de Poisson e permitir em seus
modelos as condições de sobredispersão ou subdispersão.
Nesse sentido, o modelo mais comum de dados de contagem que, ao contrário da
distribuição de Poisson, acomoda o problema de sobredispersão, é o modelo com
distribuição Binomial negativa ou modelo Negbin. A média condicional do modelo
Negbin continua com uma forma exponencial da variável explicativa e os
coeficientes devem ser interpretados como no caso do modelo de Poisson. O
modelo de regressão com distribuição Binomial negativa apresentado por
CAMERON et al. (1988) como alternativa para a regressão de Poisson tem uma
parametrização que evita que haja problema de dispersão.
Por outro lado, os modelos de dados de contagem podem ser modificados a fim de
tratar situações nas quais as variáveis independentes explicam de maneira distinta a
variável dependente limitada, como é o caso do modelo hurdle ou modelo de
decisão em duas partes. Estes modelos aceitam que os dados nulos e os positivos
não sejam necessariamente gerados no mesmo processo. Como apresentado por
POHLMEIER & ULRICH (1995) e CAMERON et al. (1988), o modelo hurdle tem
como interpretação que o processo de decisão ocorre em dois períodos sequenciais
e que cada uma das partes do modelo representa uma decisão, sendo que os
processos decisórios são independentes. O modelo hurdle permite que o processo
decisório seja separado em decisão de participação (y=0 versus y>0) e decisão de
magnitude (magnitude de y quando y>0). Assim, neste estudo podemos considerar
para a decisão de participação que, inicialmente, o paciente decide se procura ou
não o serviço médico (ou não foi autorizado a realizar um procedimento por parte de
seu plano de saúde) e que, em seguida, para a decisão de magnitude, o médico
decide como tratar este paciente.
16
O modelo para a decisão discreta (y=0 ou y>0) pode ser um modelo que trata de
variáveis dependentes limitadas binárias. Como nesse ensaio a variável dependente
é discreta e assume um pequeno número de valores, não faz sentido tratá-la como
uma variável aproximadamente contínua. A descontinuidade desta não significa que
os modelos lineares sejam inadequados, mas com relação às respostas binárias,
modelos Probit e Logit são mais apropriados.
Segundo WOOLRIDGE (2010), em um modelo de respostas binárias, o interesse
reside na probabilidade de resposta P(y=1|x), onde x é um vetor de variáveis
explicativas. Para evitar as limitações dos modelos de probabilidades lineares,
considera-se como probabilidade de resposta P(y=1|x) = G(
o+x ), onde G é uma
função assumindo: 0<G(z)<1 para todos os números z reais. Dentro deste modelo,
podemos aplicar o modelo Logit, onde G é uma função logística do tipo:
P(y=1|x)=G(z)=exp(z)/[1+exp(z)]= (z), e representa a função de distribuição
cumulativa de uma variável aleatória logística padrão. Outro modelo é o Probit, no
qual a função G é uma função de distribuição cumulativa normal padrão que é
expresso como uma integral G(z)= (z)=
z( )d , onde ( ) é a densidade normal
padrão. Apesar do modelo Probit ser o mais popular em econometria pela
característica de sua hipótese de normalidade, nesse ensaio, devido à característica
da variável dependente limitada ser um dado de contagem e aproximar-se de uma
distribuição de Poisson, aplicaremos o modelo Logit.
Os estudos empíricos já realizados para testar quais os fatores que influenciam a
demanda por serviço de saúde utilizaram como base dos testes econométricos
metodologias similares à descrita acima e avaliaram basicamente as mesmas
variáveis dependentes limitadas e variáveis explicativas conforme tabela 4.1.
Tabela 4.1. Relação dos estudos de regressão de dados de contagem relativos à
demanda por serviços de saúde
Estudos
Descrição da variável dependente limitada
Tamanho amostra
Variáveis explicativas
Cameron et al. (1988)
Visitas médicas
5.190
11-13
Pohlmeier and Ulrich (1995)
Visitas médicas e de especialidades
5.096
21
Deb and Trivedi (1997)
Internações hospitalares
4.406
16
Silva and Windmeijer (2001)
Visitas médicas e de especialidades
5.096
21
Pesquisa atual (2012)
Visitas em especialidade médica
4.261
10
Fonte: adaptado pelo autor a partir de Cameron, A.C. and Trivedi, P.K. (2005).
Portanto, aplicaremos para o ensaio os seguintes testes econométricos: (1) para a
estimação da variável dependente limitada de visitas em especialidade médica vmed
– (i) regressão linear de mínimos quadrados ordinários (ou OLS, utilizando o reg
Stata command); (ii) regressão de dados de contagem de Poisson (ou Poisson,
utiliando o poisson Stata command); (iii) regressão de dados de contagem com
distribuição Binomial negativa (ou Negbin, utiliando o nbreg Stata command), e (2)
para a estimação da variável dependente limitada de visitas em especialidade
médica incluindo as visitas não realizadas vmed0 – (i) regressão linear de mínimos
quadrados ordinários (OLS); (ii) regressão de dados de contagem de Poisson
(Poisson); (iii) regressão de dados de contagem com distribuição Binomial negativa
(Negbin); (iv) regressão de dados de contagem modificados em duas partes com
regressão Logit e distribuição de Poisson (utilizando o hplogit Stata command); (v)
regressão de dados de contagem modificados em duas partes com regressão Logit
e distribuição Binomial negativa (utilizando hnblogit Stata command).
Por fim, as regressões de 1-iii, 2-iii e 2-v deverão utilizar, além das variáveis
explicativas obtidas da base de dados dos microdados, as variáveis explicativas
decorrentes de informações qualitativas ou ordinais, assim como os termos de
interação entre as variáveis explicativas, para comparar os modelos irrestritos com
modelos restritos, a fim de definir quais variáveis explicativas com termos de
interação são mais específicas para explicar os fatores que influenciam a demanda
por serviço de saúde entre seus diferentes grupos e subgrupos.
Belgede
Semih Kaplanoğlu sineması üzerine sosyolojik bir deneme
(sayfa 50-57)