Herkes Kendi Evinde (2001) - ĠKĠNCĠ BÖLÜM: SEMĠH KAPLANOĞLU SĠNENMAS

ĠKĠNCĠ BÖLÜM: SEMĠH KAPLANOĞLU SĠNENMAS

2.3. Herkes Kendi Evinde (2001)

Em alguns contextos econômicos, como nesse ensaio, a variável dependente que

queremos analisar é um número inteiro não negativo, conhecida como variável de

contagem. Ao contrário dos modelos de regressão clássica linear e não linear, a

variável dependente é discreta e limitada em sua distribuição de probabilidade. Este

modelo de regressão de dados de contagem é não-linear e apresenta propriedades

específicas.

O modelo de regressão de dados de contagem aplica-se às variáveis dependentes

limitadas (VDL) que representam a contagem de eventos ocorridos. Assim, por

exemplo, podemos considerar a utilização de um serviço de saúde, como a

contagem do número de visitas ou consultas realizadas por um paciente a um

serviço de saúde ou médico em um período de tempo. O modelo de regressão de

dados de contagem é apropriado quando a variável dependente é um número inteiro

positivo e segue uma escala ordenada, ou seja, não há a priori um limite máximo e o

resultado mínimo é zero para alguns dados. Normalmente, o modelo de regressão

de dados de contagem é utilizado quando a distribuição dos dados é assimétrica ou

Finalmente, os dados são normalmente heterocedásticos

com variância crescente

com a média. Assim, se y é uma variável dependente limitada de contagem e x é um

vetor de variáveis explicativas, estaremos interessados na regressão E(y|x).

É importante notar que para os dados de contagem os modelos lineares

_{, como o}

das estimativas de Mínimos Quadrados Ordinários (ou Ordinary Least Square

estimations - OLS), são limitados

. Ademais, os modelos lineares com

transformação logarítmica, log(y), normalmente utilizados para amostras com

valores positivos, também não são apropriados, vez que os dados nulos são

significativos nas amostras de contagem. Por fim, o método geral de estimação de

modelos não lineares com média condicional também não é ideal, a não ser que a

distribuição dos dados de contagem seja heterocedástica (WOOLRIDGE, 2010).

O modelo estatístico básico e mais popular para os dados de contagem é uma

regressão de Poisson, no qual a distribuição de Poisson assume que a

probabilidade de um evento ocorrer ( )

_{durante um instante de tempo é constante}

e proporcional à sua duração. Assim, se temos y, uma variável dependente e

limitada, dado um vetor x de variáveis explicativas (ou variáveis independentes) com

uma distribuição de Poisson, então os estimadores são obtidos pelo método de

maximização da função de verossimilhança, conhecidos como estimadores de

máxima verossimilhança (ou maximum likelihood estimators - MLE). Estes

estimadores são eficientes e robustos até mesmo em caso de falta de especificação

adequada, conhecida como a propriedade de quasi-maximum likelihood estimation

(QML) (WOOLRIDGE, 2010; BALTAGI, 2008 e JONES, 2007).

O método de estimação de máxima verossimilhança (EMV ou MLE) permite que a

média condicional da variável dependente tenha uma forma exponencial. Segundo

CAMERON & TRIVEDI (2005), o modelo de Poisson é especificado por y

~ [

exp(x’

)] com y

=(y

,...,y

) (cf. Anexo 4.1Distribuição de Poisson) e pode apresentar

Segundo WOOLRIDGE (2006) a homocedasticidade é expressa como var(u|x

,...,x

) = σ

ou Var(y|x) = var

(u|x) = σ

. A hipótese significa que a variância do termo erro, u, condicionada às variáveis explicativas, é a

mesma para todas as combinações de resultados das variáveis explicativas. Se essa hipótese é violada, o

modelo exibe heterocedasticidade.

O modelo é linear quando a equação y =β

+ β

x + u é linear em seus parâmetros β

e β

.

No caso da estimação de dados de contagem, os modelos lineares são limitados porque sabemos que y≥0 e

que E(y|x)deverá ser não negativo para todos x. Contudo, se β’ é o estimador MQO, haverá a possibilidade de

alguns valores de x assumirem xβ’<0 e o valor estimado de y poderá ser negativo (WOOLRIDGE, 2010).

λ representa a intensidade do processo (JONES, 2007) e assume-se que λ = exp(xβ), sendo x a variável

explicativa e λ>0.

excessiva dispersão ou sobredispersão (overdispersion) quando a condição de

equidispersão

não ocorrer.

Para o modelo de regressão de dados de contagem de Poisson, a propriedade de

equidispersão deve ser observada nos dados. Diversos estudos sobre dados de

contagem têm abordado este assunto (CAMERON et al. 1988) com o intuito de

contornar esta característica restritiva do modelo de Poisson e permitir em seus

modelos as condições de sobredispersão ou subdispersão.

Nesse sentido, o modelo mais comum de dados de contagem que, ao contrário da

distribuição de Poisson, acomoda o problema de sobredispersão, é o modelo com

distribuição Binomial negativa ou modelo Negbin. A média condicional do modelo

Negbin continua com uma forma exponencial da variável explicativa e os

coeficientes devem ser interpretados como no caso do modelo de Poisson. O

modelo de regressão com distribuição Binomial negativa apresentado por

CAMERON et al. (1988) como alternativa para a regressão de Poisson tem uma

parametrização que evita que haja problema de dispersão.

Por outro lado, os modelos de dados de contagem podem ser modificados a fim de

tratar situações nas quais as variáveis independentes explicam de maneira distinta a

variável dependente limitada, como é o caso do modelo hurdle ou modelo de

decisão em duas partes. Estes modelos aceitam que os dados nulos e os positivos

não sejam necessariamente gerados no mesmo processo. Como apresentado por

POHLMEIER & ULRICH (1995) e CAMERON et al. (1988), o modelo hurdle tem

como interpretação que o processo de decisão ocorre em dois períodos sequenciais

e que cada uma das partes do modelo representa uma decisão, sendo que os

processos decisórios são independentes. O modelo hurdle permite que o processo

decisório seja separado em decisão de participação (y=0 versus y>0) e decisão de

magnitude (magnitude de y quando y>0). Assim, neste estudo podemos considerar

para a decisão de participação que, inicialmente, o paciente decide se procura ou

não o serviço médico (ou não foi autorizado a realizar um procedimento por parte de

seu plano de saúde) e que, em seguida, para a decisão de magnitude, o médico

decide como tratar este paciente.

O modelo para a decisão discreta (y=0 ou y>0) pode ser um modelo que trata de

variáveis dependentes limitadas binárias. Como nesse ensaio a variável dependente

é discreta e assume um pequeno número de valores, não faz sentido tratá-la como

uma variável aproximadamente contínua. A descontinuidade desta não significa que

os modelos lineares sejam inadequados, mas com relação às respostas binárias,

modelos Probit e Logit são mais apropriados.

Segundo WOOLRIDGE (2010), em um modelo de respostas binárias, o interesse

reside na probabilidade de resposta P(y=1|x), onde x é um vetor de variáveis

explicativas. Para evitar as limitações dos modelos de probabilidades lineares,

considera-se como probabilidade de resposta P(y=1|x) = G(

+x ), onde G é uma

função assumindo: 0<G(z)<1 para todos os números z reais. Dentro deste modelo,

podemos aplicar o modelo Logit, onde G é uma função logística do tipo:

P(y=1|x)=G(z)=exp(z)/[1+exp(z)]= (z), e representa a função de distribuição

cumulativa de uma variável aleatória logística padrão. Outro modelo é o Probit, no

qual a função G é uma função de distribuição cumulativa normal padrão que é

expresso como uma integral G(z)= (z)=

( )d , onde ( ) é a densidade normal

padrão. Apesar do modelo Probit ser o mais popular em econometria pela

característica de sua hipótese de normalidade, nesse ensaio, devido à característica

da variável dependente limitada ser um dado de contagem e aproximar-se de uma

distribuição de Poisson, aplicaremos o modelo Logit.

Os estudos empíricos já realizados para testar quais os fatores que influenciam a

demanda por serviço de saúde utilizaram como base dos testes econométricos

metodologias similares à descrita acima e avaliaram basicamente as mesmas

variáveis dependentes limitadas e variáveis explicativas conforme tabela 4.1.

Tabela 4.1. Relação dos estudos de regressão de dados de contagem relativos à

demanda por serviços de saúde

Estudos

Descrição da variável dependente limitada

Tamanho amostra

Variáveis explicativas

Cameron et al. (1988)

Visitas médicas

5.190 11-13

Pohlmeier and Ulrich (1995)

Visitas médicas e de especialidades

5.096

21 Deb and Trivedi (1997)

Internações hospitalares

4.406

16 Silva and Windmeijer (2001)

Visitas médicas e de especialidades

5.096

21 Pesquisa atual (2012)

Visitas em especialidade médica

4.261

10 Fonte: adaptado pelo autor a partir de Cameron, A.C. and Trivedi, P.K. (2005).

Portanto, aplicaremos para o ensaio os seguintes testes econométricos: (1) para a

estimação da variável dependente limitada de visitas em especialidade médica vmed

– (i) regressão linear de mínimos quadrados ordinários (ou OLS, utilizando o reg

Stata command); (ii) regressão de dados de contagem de Poisson (ou Poisson,

utiliando o poisson Stata command); (iii) regressão de dados de contagem com

distribuição Binomial negativa (ou Negbin, utiliando o nbreg Stata command), e (2)

para a estimação da variável dependente limitada de visitas em especialidade

médica incluindo as visitas não realizadas vmed0 – (i) regressão linear de mínimos

quadrados ordinários (OLS); (ii) regressão de dados de contagem de Poisson

(Poisson); (iii) regressão de dados de contagem com distribuição Binomial negativa

(Negbin); (iv) regressão de dados de contagem modificados em duas partes com

regressão Logit e distribuição de Poisson (utilizando o hplogit Stata command); (v)

regressão de dados de contagem modificados em duas partes com regressão Logit

e distribuição Binomial negativa (utilizando hnblogit Stata command).

Por fim, as regressões de 1-iii, 2-iii e 2-v deverão utilizar, além das variáveis

explicativas obtidas da base de dados dos microdados, as variáveis explicativas

decorrentes de informações qualitativas ou ordinais, assim como os termos de

interação entre as variáveis explicativas, para comparar os modelos irrestritos com

modelos restritos, a fim de definir quais variáveis explicativas com termos de

interação são mais específicas para explicar os fatores que influenciam a demanda

por serviço de saúde entre seus diferentes grupos e subgrupos.

Belgede Semih Kaplanoğlu sineması üzerine sosyolojik bir deneme (sayfa 50-57)