Após a definição e estimação deste modelo, obteve-se como resultado os escores de propensão para cada indivíduo, dos grupos tratamento e controle. De posse destas estimativas, o passo seguinte é proceder ao pareamento. Neste sentido, existem diversas
técnicas disponíveis (BECKER; ICHINO, 2002; KHANDKER; KOOWAL; SAMAD, 2010), como pareamento pelo vizinho mais próximo (nearest-neighbor matching); caliper e pareamento radial (caliper and radius matching); pareamento estratificado; pareamento pelo método de Kernel e local linear.
O Pareamento pelo vizinho mais próximo (Nearest-neighbor matching) representa uma das técnicas mais utilizadas, que consiste no pareamento de uma observação no grupo tratamento com o seu corresponde no grupo controle que possua o escore de propensão mais próximo, também pode ser utilizado nos vizinhos mais próximos. O pareamento pode ser realizado sem reposição e com reposição, sendo que, neste último caso, se utiliza uma mesma observação do grupo controle para ser pareada com outra observação do grupo tratamento. O pareamento com reposição apresenta a vantagem de se evitar pareamentos pobres28, resultando em redução do viés, porém tem como trade-off o aumento da variância das estimativas em virtude da redução do número de observações distintas.
Diversos autores também sugerem o uso de mais de um vizinho mais próximo, apresentando também, neste caso, um trade-off entre redução no viés e aumento da variância das estimativas (CALIENDO; KOPEINIG, 2005; SMITH; TODD, 2005). Utilizando notação anterior e definindo pi e pj como os valores para os escores de propensão dos indivíduos
tratados e controle, respectivamente, o conjunto pareado pelo vizinho mais próximo (Nearest- neighbor) é dado por:
‖ ‖ (32)
O pareamento pela técnica do vizinho mais próximo pode fornecer pares pouco comparáveis se o escore de propensão das observações do grupo controle for muito distante do grupo tratamento. O método Caliper e pareamento radial (caliper and radius matching) propõe a imposição de um limite máximo de tolerância, por exemplo, se o escore de propensão de uma observação é de 0,65 pode-se impor um raio de 0,05, assim será pareado o vizinho mais próximo com escores de propensão entre 0,60 e 0,70. Assim, seria como impor a partir do escore de propensão de uma observação do grupo tratamento um círculo feito com compasso (daí o nome caliper) de raio r a ser arbitrado pelo pesquisador pela qual poderiam ser pareadas as observações do grupo controle.
28
Pareamentos pobres surgem quando existe um desequilíbrio entre as observações com escores de propensão alto e baixo entre os grupos tratamento e controle (CALIENDO; KOPEINIG, 2005).
Dehejia e Wahba (2002) sugerem uma variação desse método, na qual todas as observações do grupo controle, inseridas no raio r definido pelo pesquisador, sejam comparadas e não apenas o k-vizinho mais próximo. Este método é conhecido por pareamento radial (radius matching) e possui a vantagem de se reduzir o risco de pareamentos pobres. Neste caso, serão pareadas as unidades j com as unidades i que atenderem a condição:
|‖ ‖ (33)
Deve-se ressaltar que tanto o pareamento pelo método do vizinho mais próximo quanto pelo método radial definirão a mesma fórmula para o ATT, isto porque os pesos serão os mesmos nos dois modelos (BECKER; ICHINO, 2002). Seja NiC o número de indivíduos do grupo controle pareados e o termo wij representante da ponderação dos resultados do grupo controle, então:
{
(34)
Esta técnica de pareamento estratificado ou por intervalo inicia-se com o fracionamento da variação dos escores de propensão em intervalos ou blocos, de tal modo que, em cada bloco, as unidades tratadas e controle possuam, em média, o mesmo escore de propensão. As observações do grupo tratamento somente são pareadas com o correspondente do grupo controle que esteja no mesmo intervalo. Em seguida, calculam-se as diferenças entre os resultados dos indivíduos tratados e controle para cada intervalo. O ATT é obtido pela média ponderada das diferenças de resultado para cada intervalo ponderado pela porção correspondente de participantes em cada intervalo. Se q representa o índice dos blocos definidos no intervalo do escore de propensão, dentro de cada bloco é computado (BECKER; ICHINO, 2002):
∑ ∑
(35)
Por fim, a fórmula para o ATT no pareamento estratificado (ATTS) é expressa por:
∑ ∑∑
(36)
Onde: I(q) é o conjunto de unidades em q blocos; NqT e NqC representam, respectivamente, o número de unidades tratadas e controle do bloco q; e Di o número de tratados em cada intervalo.
É recomendado que o número de estratos seja definido pelo nível de balanceamento dos escores de propensão e covariáveis entre indivíduos de um mesmo bloco (AAKVIK, 2001). Neste sentido, Caliendo e Kopeinig (2005) sugerem que se utilizem os seguintes passos: a) em primeiro lugar, deve-se verificar o balanceamento do escore de propensão entre os grupos em todos os estratos; b) se o escore de propensão não estiver balanceado, isto significa que o intervalo está amplo demais e deve ser reduzido; c) se o escore de propensão estiver balanceado, deve-se, em seguida, verificar o balanceamento das covariáveis entre os indivíduos de um mesmo estrato, caso estas não estejam balanceadas, a especificação do escore de propensão não é adequada, necessitando de uma reestimação do modelo.
Os métodos apresentados anteriormente apresentam o risco de que apenas um pequeno subconjunto da amostra de não beneficiários possa satisfazer os critérios de pareamento de modo a permitir construir o resultado contrafactual. Assim, estimadores não paramétricos de pareamento, como pareamento Kernel (KM) e LLM (local linear matching) utilizam a média ponderada de todos os não beneficiários para construir um contrafactual para cada beneficiário. Os pesos para o pareamento de Kernel são dados por:
∑
(37)
Onde: K(•) é uma função de Kernel29
e an é um parâmetro da função de Kernel chamado de largura de banda.
Após o pareamento, é possível calcular o ATT para dados cross-section e, supondo a existência de suporte comum, o ATT para o método de propensity score matching (PSM) pode ser escrito pela seguinte fórmula geral (KHANDKER; KOOWAL; SAMAD, 2010):
29
No software estatístico Stata versão 12.0, estão disponíveis como opções para a função de Kernel os seguintes tipos: Epanechinikov (defaut), Gaussiana (normal), uniforme, triangular e “biweight”.
[∑ ∑
] (38)
Onde, YiT e YjC representam os resultados das unidades tratamento e controle,
respectivamente; C(i) denota o conjunto das unidades controle pareadas com as unidades tratamento (i); NT o número de unidades do grupo tratamento; wij representa o peso30 utilizado
para agregar o resultado para não participantes pareados (j).
Uma vantagem destas abordagens é a menor variância obtida pelo acréscimo de mais informação. A desvantagem é que possivelmente algumas observações utilizadas redundam em pareamentos ruins. Assim, a imposição adequada da condição de suporte comum é de grande importância para os métodos de Kernel e Local Linear. A diferença entre as abordagens KM e LLM é que esta última inclui, além do intercepto, um termo linear no escore de propensão de um indivíduo tratado, o que representa uma vantagem quando se compara observações do grupo controle que são distribuídas assimetricamente em torno da observação do grupo tratamento, como nos pontos de fronteira, ou quando existem lacunas na distribuição do escore de propensão (CALIENDO, KOPEINIG, 2005).
Após apresentação das diferentes abordagens de pareamento, surge a questão sobre qual o melhor método ou qual o mais adequado. Assintoticamente, todos os métodos de pareamento deveriam fornecer os mesmos resultados, isto porque, com o aumento do tamanho amostral, aumenta a similaridade entre os pareamentos efetuados (CALIENDO, KOPEINIG, 2005). Porém, para pequenas amostras, as escolhas do método de pareamento podem ser importantes, e a escolha depende da estrutura de dados que se tem em mãos, não havendo previsão na literatura sobre qual o método mais adequado (HECKMAN; ICHIMURA; TODD, 1997). Pragmaticamente, é recomendável a tentativa de várias abordagens, se os resultados se mostrarem similares, a escolha de uma abordagem específica perde importância. Em caso de diferenças significativas, deve-se proceder a uma investigação mais acurada, de modo a identificar a origem da disparidade (BRYSON; DORSETT, PURDON, 2002; CALIENDO; KOPEINIG, 2005).
Optou-se em aplicar, na presente pesquisa, várias abordagens descritas, de modo a conferir aos resultados mais robustez. Dentre os métodos apresentados, somente o pareamento estratificado não foi aplicado, em virtude da ausência de comandos que executem este método
30
Como apresentado pelas equações 34 e 37, os respectivos pesos dependem do método de pareamento utilizado, a fórmula final para o ATT será obtida após a substituição das respectivas equações na eq. 38.
no software estatístico Stata (versão 12.0), impossibilitando não apenas a estimação do efeito do tratamento sobre os tratados (ATT), mas também a execução de testes orientados para verificação da hipótese de balanceamento nas covariáveis entre beneficiários e não beneficiários da política pública nos diferentes estratos ou blocos.