As análises estatísticas utilizadas nesta tese fazem parte do grupo de técnicas estatísticas conhecido como análise multivariada. De um modo geral, a análise multivariada refere-se a todos os métodos estatísticos que simultaneamente analisam múltiplas medidas sobre cada indivíduo ou objeto sob investigação (SICSU, 2006). Assim, muitas técnicas multivariadas são extensões da análise univariada (análise da distribuição de uma única variável) ou, podemos dizer, que as técnicas multivariadas em muitos casos são um meio de executar em uma única análise aquilo que antes exigia múltiplas análises univariadas. Dentre as inúmeras técnicas multivariadas o presente trabalho utilizou:
• análise de regressão múltipla • análise fatorial
• análise de agrupamentos (cluster analysis)
3.2.1 Análise de regressão múltipla
A análise de regressão múltipla é uma técnica estatística usada para analisar a relação entre uma única variável dependente (critério) e diversas variáveis independentes (preditoras), a sua formulação básica é:
n
i
X
X
X
Y
=
1+
2+...+
Hair et al (1998) explicam que cada variável critério é ponderada pelo procedimento da análise de regressão para garantir máxima previsão a partir de um conjunto de variáveis independentes. Os mesmos autores (p.136) alertam “os pesos denotam a contribuição relativa das variáveis independentes para a previsão geral e facilitam a interpretação sobre a influência de cada variável em fazer a previsão”. De um modo geral, o procedimento para a análise de regressão múltipla pode ser entendido assumindo uma relação linear entre cada variável preditora e a variável dependente. Assim, Levine et al (2005) definem o modelo de regressão múltipla, com k variáveis independentes:
i ki k i i o i
X
X
X
Y
=
β
+
β
1 1+β
2 2+...+
β
+ε
onde βo = interseção de Y (métrica) (métricas)β1 = inclinação de Y em relação à variável X1, mantendo-se constante X2,X3,...,Xk
β2 = inclinação de Y em relação à variável X2, mantendo-se constante X1,X3,...,Xk
...
βk = inclinação de Y em relação à variável Xk, mantendo-se constante X2,X3,...,Xk-1
εi = erro aleatório em Y, para a observação i
A fluxo representado na figura 3.5 representa as três fases utilizadas para uso da regressão múltipla neste trabalho: coleta e preparação de dados, refino e seleção do modelo de regressão e testes de validação do modelo.
Fonte: construção nossa com base em Sicsu (2006)
Figura 3.5 – Procedimentos para construção de modelos por regressão linear múltipla
Coleta de dados Verificação preliminar da consistência dos dados Diagnóstico de colinearidade (forte correlação entre as variáveis independentes) Ação remediadora necessária? Ação remediadora sim
Determinar subconjunto de variáveis úteis na análise com base em métodos de procedimentos seqüenciais.
Investigar análise de resíduos e outros diagnósticos
Ação remediadora
necessária? Ação
remediadora
Seleção de modelo tentativo
Testes de validação? Modelo selecionado sim sim não não não validação do modelo coleta de dados e preparação refino e seleção do modelo
Valores observados Variação explicada pelos fatores Variação não explicada pelos fatores = + Variância total
Comum Específica e de erro
Variância extraída Variância perdida
3.2.2 Análise fatorial
Hair et al (1998) explicam que a análise fatorial é um nome genérico dado a uma classe de métodos estatísticos multivariados cujo propósito principal é definir a estrutura subjacente em uma matriz de dados. Em termos gerais, na análise fatorial, as variáveis estatísticas (fatores) são formadas para maximizar seu poder de explicação do conjunto inteiro de variáveis, quando visamos:
(a) detectar que fatores não observáveis explicam as correlações entres as variáveis observáveis, recomenda-se obter os fatores que possuem variância ≥ 1, conforme a regra empírica;
(b) medir construtos não tangíveis (não mensuráveis diretamente) a partir dos valores de uma série de variáveis observáveis (que acreditamos terem relação com os construtos em estudo). Ex.: inteligência, experiência, perfil de risco de um investidor, status socioeconômico, habilidade em exatas;
(c) reduzir número de variáveis originais, sem perda significativa de informação, para uso em outras técnicas de análise multivariada.
A metodologia se baseia na análise da variabilidade dos fatores e para os propósitos da análise fatorial existem três tipos de variância: (1) comum, (2) específica e (3) do erro. A variância comum é definida como variância compartilhada por todas as variáveis da análise, a específica é associada com uma variável isolada e a variância do erro é a devido à não- confiabilidade no processo de agrupamento de dados. O diagrama da figura 3.6 apresenta os tipos de variância na matriz fatorial.
Fonte: Hair et al (1996, p. 101)
Chamaremos de comunalidade é quantia total de variância que uma variável original compartilha com as demais e especificidade é parte da variância da variável não explicada pelos fatores comuns.
Em linguagem matemática temos:
1
...
)
(
2 2 2 2 2 1+
+
+
+
=
=
i i im i ix
Var
λ
λ
λ
ϕ
onde, 2 2 2 2 1 i ... im i λ λ λ + + + é chamado de comunalidade e 2 i ϕ de especificidade.Sicsu (2006) sugere um roteiro para trabalhos estatísticos utilizando a análise fatorial, no qual os estudos deste trabalho estão baseados:
(a) definição do objetivo e objeto do estudo; (b) seleção da variável para análise;
(c) cálculo da matriz de correlações R; (d) determinação do número de fatores m; (e) calcular as cargas fatoriais e comunalidades; (f) análise das cargas fatoriais;
(g) rotação fatores, se necessário; (h) interpretação dos fatores; (i) reduzir dimensionalidade; (j) avaliação do modelo.
3.2.3 Análise de agrupamentos
A finalidade da análise de agrupamentos é agregar objetos com base nas características que eles possuem. A análise classifica objetos (neste caso, países) de modo que cada objeto é muito semelhante aos outros no agrupamento em relação a algum critério de seleção predeterminado (HAIR ET AL, 1996, p.384). Podemos afirmar que o objetivo principal da análise de agrupamentos é definir a estrutura de dados colocando as observações parecidas em grupos, de acordo com alguns pontos básicos (HAIR ET AL, op.cit, p.385):
(a) definição de um método de comparação simultânea de observações sobre as variáveis de agrupamentos. Diversos métodos são possíveis, incluindo a correlação entre objetos ou a medida da proximidade em um espaço dimensional tal que a distância entre observações indique similaridade. Nesta pesquisa a similaridade foi de acordo com a distância euclidiana entre cada par de observações;
(b) definição de um procedimento para agregar as observações que são mais similares em um agrupamento, ou seja, como formamos os agrupamentos? Existem duas grandes classificações para os procedimentos de agrupamentos: hierárquica (subdivide-se em aglomerativa e divisiva) e de partição (k-means). Utilizou-se após diversas tentativas de agrupamentos pelo procedimento hierárquico → aglomerativo → Ward (cuja base é a variância interna dos grupos, em termos estatísticos é a fusão de grupos que provocam o menor acréscimo da SQResidual);
(c) definição de quantos grupos serão formados. Várias “regras” podem ser utilizadas, aqui se optou pela regra empírica de avaliar a similaridade “média” entre agrupamentos de forma que quando a média aumenta, os agrupamentos se tornam menos parecidos. Buscou-se um equilíbrio entre definir uma estrutura com menos agrupamentos e manter um nível necessário de similaridade dentre os agrupamentos.
Sicsu (2006) sugere um roteiro para trabalhos estatísticos utilizando a análise de agrupamentos, no qual os estudos deste trabalho estão baseados:
(a) definir objetivos do estudo.
(b) selecionar indivíduos a serem agrupados (c) identificar variáveis
(d) coletar os dados
(e) analisar e tratar os dados 1. outliers
2. missing values
3. transformação de variáveis 4. multicolinearidade etc.
(f) selecionar critério(s) de parecença
(g) selecionar e aplicar algoritmo(s) de agrupamento (h) identificar, analisar (interpretar) os agrupamentos (i) validar resultados