Uma vez analisada a distribuição dos valores da variável escolaridade e encontradas as possíveis
variáveis associadas à sua distribuição, é preciso determinar qual é o melhor método para o
tratamento dos dados faltantes. A literatura mostra que algumas técnicas são superiores a outras,
porém, parece importante testar várias delas para achar a mais adequada ao objeto de estudo.
Com o objetivo de obter estimativas mais consistentes com a variável escolaridade das mães,
neste trabalho serão testados diversos modelos de tratamento dos valores faltantes dessa variável,
apresentados à seguir.
Em primeiro lugar, e como forma de controle dos posteriores tratamentos, o primeiro método
consiste em não imputar nenhum valor, agrupando os dados faltantes em uma categoria a parte
(dummy) nos modelos de regressão a serem aplicados. Desta forma, os dados da variável de
escolaridade são categorizados em três grupos, mais a categoria de dados faltantes: 1) sem
escolaridade; 2) com 1 a 8 anos de estudo; 3) 9 anos de estudo ou mais; 4) dados faltantes.
Apesar de que esse tipo de tratamento dos dados faltantes provoca viés nos coeficientes
estimados, este modelo pode servir como referência dos outros, além de mostrar como os dados
faltantes se comportam em relação à variável dependente.
O segundo método consiste em realizar uma imputação por regressão estocástica. É necessário
escolher as variáveis que vão ser utilizadas para a imputação. No caso da PPV, essas foram: a
idade do filho, a idade do filho ao quadrado, a região de nascimento, se o filho morou em área
rural ou urbana antes dos 15 anos e em que área mora atualmente, a cor, se o pai está vivo ou
morto no momento da entrevista e o nível de escolaridade do pai. No caso da PNAD, as variáveis
foram: a idade do filho, a idade do filho ao quadrado, a região de nascimento e de residência do
filho, se o filho mora em área urbana ou rural, a cor, e a renda domiciliar per capita do filho.
A regressão para imputar os valores faltantes assume uma distribuição normal da variável
resposta, o que significa que a variável escolaridade deve ser tratada como contínua. Porém, no
questionário, esta variável é codificada em 10 intervalos de anos de estudo. Apesar disso,
assume-se que estes intervalos, ordenados de menor a maior escolaridade podem ser uma
aproximação de uma distribuição contínua.
Em terceiro lugar, aplicou-se o método de imputação múltipla. A técnica escolhida foi a que
oferece o programa Stata 10.0, explicada em detalhe em Royston (2004) e baseada no método
descrito por Van Buuren et al. (1999). É um método de imputação múltipla de equações em
cadeia que, usando a sigla em inglês, é chamado de MICE (Multiple Imputation by Chained
Equations). Esse método consiste em gerar várias amostras aleatórias a partir de regressões
univariadas e iterativas de cada uma das variáveis incompletas condicionadas à distribuição das
outras variáveis com dados faltantes (Van Buuren et al., 1999). Por exemplo, assumindo-se uma
base de dados com três variáveis com valores incompletos, Y
1, Y
2e Y
3, o método pode ser
descrito da seguinte forma: em primeiro lugar, os valores faltantes de Y
1são imputados de forma
aleatória, utilizando todas as variáveis completas e as variáveis com valores faltantes. Em
seguida, a variável Y
2é imputada com as variáveis completas, incluindo a variável Y
1já
imputada. O mesmo passo é realizado com Y
3. O processo se repete, desta vez usando as
variáveis Y
2e Y
3imputadas para estimar os valores faltantes de Y
1novamente, e assim por
diante, até a imputação de número vinte que, segundo Van Buuren et al. (1999), é um número
suficientemente grande para estabilizar a imputação.
O modelo utilizado para imputar a variável com valores faltantes, permite tratar esta como
categórica. Assim, a variável escolaridade das mães pode ser dividida em quatro categorias: sem
escolaridade, de 1 a 4 anos de estudo, de 5 a 8 anos de estudo, e de 9 e mais. O modelo de
regressão escolhido para sua imputação foi uma regressão logística ordenada. As variáveis
independentes do modelo são as mesmas que no caso da imputação com a regressão estocástica.
Foram realizadas 20 imputações diferentes, onde a média dos valores imputados foi utilizada
como resultado final
9.
Outro modelo de imputação utilizado foi o da imputação hotdeck. O método hotdeck escolhido é
o que oferece o programa estatístico Stata 10.0, baseado no modelo de imputação bootstrap de
aproximação bayesiana de Rubin e Schenker (1986). A substituição das unidades com valores
incompletos pela informação de unidades completas é realizada gerando, inicialmente, uma
amostra bootstrap de unidades completas. Posteriormente, é gerada uma amostra aleatória da
amostra bootstrap de unidades completas, que é usada para preencher as unidades com valores
sem resposta. Por ser um modelo baseado em uma imputação estocástica, é importante gerar
mais de uma imputação para poder incorporar a variabilidade do modelo.
9
O ideal seria que cada uma das imputações da variável de escolaridade das mães fosse utilizada para gerar um modelo de número de mortes. Desta forma, os coeficientes finais do modelo de sobrevivência analisados seriam a média de todos os modelos com cada uma das variáveis imputadas. Infelizmente, como o modelo de regressão do número de mortes já é resultado de coeficientes bootstrap, optou-se por essa simplificação na imputação. Caso