As etapas de processamento e análise têm como objetivos iniciais a sumarização das informações e análise exploratória dos dados, que podem ser feitos de forma simples, quando ilustrada através de gráficos. Verificam-se o equilíbrio da amostragem, a influência de cada variável sobre os preços, as dependências lineares delas em relação ao preço e entre si, a identificação de pontos atípicos, etc. Assim, pode-se confrontar as respostas do mercado com as crenças que o avaliador tinha do mercado, como também podem surgir novas teorias. (DANTAS, 1998).
Quanto ao equilíbrio da amostra, segundo o mesmo autor, se uma das categorias for exageradamente maior em freqüência que as demais, que concentrem mais de 70% dos casos, haverá certamente desequilíbrio amostral, com prejuízo da análise. Importante observar que as inferências não admitem extrapolações, o que faz com que o equilíbrio da amostragem seja fundamental. Para ele, “a situação ideal para uma amostra seria aquela onde cada dado da população tivesse a mesma probabilidade de ser selecionado do mercado, isto é, uma amostra aleatória”.
Com respeito à fase de trabalho de campo, SILVA (1998) faz importante observação:
coletar, conferir e processar os dados são atividades que podem e devem ser realizadas conjunta e progressivamente. Efetuar o processamento depois de encerrado o trabalho de campo significa perder seu potencial lógico para a crítica de dados e desperdiçar mais um recurso para a correção oportuna de erros operacionais, que poderiam prejudicar a validade dos resultados.
Conforme DANTAS (1998), os estudos de mercado necessitam de três cuidados básicos com os dados: descrição, exploração e explicação, nesta ordem.
A descrição é a forma de distribuir as características de uma amostra. Além de descrição da amostra total, o pesquisador freqüentemente descreve sub-amostras e realiza comparações entre elas. Na exploração, o pesquisador está começando o estudo de mercado. Tem algumas idéias a respeito dos fatores influenciantes sobre a formação dos preços, mas está preocupado em não deixar de fora alguns aspectos importantes que possam contribuir para a explicação do mercado.
A explicação se dá através da inferência estatística, que faz a ligação entre a análise e interpretação do mercado. Esta fase se caracteriza pela aplicação das técnicas de inferência estatística e elaboração da equação de regressão.
O objetivo da inferência é estimar as características da população (parâmetros), a partir do conhecimento das características de uma amostra dela extraída (estatísticas). Segundo DANTAS (1998), “a amostra deve ser representativa da população, ou seja, ter a mesma estrutura ou composição”. É definido então o modelo matemático, através de programas computacionais de processamento estatístico.
Com relação a estes softwares, o autor ressalta a importância da velocidade de processamento do sistema/equipamento utilizado, tendo em vista a quantidade elevada de dados e variáveis envolvidos. Durante a modelagem, muitas etapas de análise são necessárias. Neste sentido, a agilidade do computador facilita o trabalho e ajuda a investigação, pois um longo tempo de espera pode desestimular o pesquisador e prejudicar a análise. Portanto, “um sistema ágil e com informações completas é ferramenta muito importante para o avaliador. Existem alguns sistemas disponíveis para o tratamento de dados por regressão tais como: GLIM, Microstat, SPSS, Regre, Sisreg, Infer, Avalien e outros”.
A inferência estatística pode ser feita através de estimação ou através de testes de hipóteses. Esta técnica utiliza estatísticas denominadas estimadores para estimar os parâmetros (características) populacionais através de estatísticas amostrais (estimativas). Conforme DANTAS (1998),
As características numéricas de uma população são denominadas de parâmetros ... Os parâmetros mais importantes de uma população são a média e o desvio- padrão. A média indica a tendência central; enquanto que o desvio-padrão a dispersão com que os dados estão dispostos em torno da média.
Em modelos de regressão linear múltipla, há vários métodos para se estimar os parâmetros. Segundo o autor, os mais usualmente aplicados são o Método dos Mínimos Quadrados e o Método da Máxima Verossimilhança. Os estimadores obtidos através destes métodos possuem propriedades diversas, sendo que propriedades desejáveis: não tendenciosidade, eficiência e consistência.
Além das estimativas dos parâmetros, é necessária a verificação das hipóteses básicas da regressão linear, extraídas de DANTAS (1998):
A variável independente deve ser representada por números reais que não contêm nenhuma perturbação aleatória;
O número de observações, m, deve ser superior ao número de parâmetros estimados;
Os erros são variáveis aleatórias com valor esperado nulo e variância constante;
Os erros são variáveis aleatórias com distribuição normal;
Os erros não são correlacionados, isto é, são independentes sob a condição de normalidade
Não deve existir nenhuma relação exata entre quaisquer variáveis independentes
Estes pressupostos básicos referem-se basicamente aos resíduos do modelo, em termos de normalidade, não auto-correlação e homocedasticidade.
A variância do erro entre as amostras coletadas e o modelo matemático proposto deve ser constante. Não deve haver padrão definido na distribuição dos resíduos, que devem estar distribuídos aleatoriamente. Por exemplo, os resíduos não devem aumentar à medida que aumenta o valor do metro quadrado de terreno, de forma padronizada. O gráfico de resíduos versus os valores determinados pela equação de regressão é uma ferramenta útil para ilustrar esta distribuição. Nesta etapa, verifica-se se o modelo é homocedástico ou heterocedástico.
Além de variância constante, os erros devem ter distribuição normal, a maioria em torno da média. Para verificação da normalidade dos resíduos, o gráfico normal dos resíduos é o que fornece melhores informações.
Não deve haver auto-correlação dos resíduos, pois na regressão eles devem ser independentes. Cada transação imobiliária, ou amostra, não deve sofrer influência de outra, ou seja, o conhecimento do preço e condições de uma não pode interferir no preço de outra. Nesta etapa é calculada a razão de Von Neumann, que por sua vez foi tabelada por Durbin- Watson, que estabeleceram pontos críticos para testar a hipótese de que os erros não são correlacionados.
Estas hipóteses são básicas na aceitação de qualquer modelo de regressão linear, seja simples ou múltiplo.
Se há dependência linear entre as variáveis explicativas, como uma espécie de redundância, há o fenômeno da multicolinearidade. A presença de multicolinearidade é bastante prejudicial ao modelo, pois causa degeneração e se prejudica a estimação dos parâmetros, pois não é mais sintético. Quando as covariáveis do modelo são correlacionadas em alto grau, a retirada de uma delas praticamente não altera seu poder de explicação. Nesta etapa, portanto, variáveis previamente escolhidas que apresentem esta dependência deverão ser excluídas do modelo.
Garantidas as hipóteses básicas da regressão, é necessário realizar os testes de significância, cujos valores são fixados na norma brasileira de avaliação de imóveis urbanos (ABNT, 2004).
O primeiro destes testes é o de significância global do modelo. Definido pela estatística F, depende da razão entre a variância explicada e a variância não explicada pelo modelo matemático. Pelo menos uma das variáveis deve contribuir significativamente para a explicação do preço dos terrenos.
Outro teste obrigatório é o de significância individual de cada parâmetro usado no modelo matemático. Implica em verificar se cada variável adotada no modelo é importante para explicar a variabilidade dos preços.
Durante esta etapa de testes, cria-se um “modelo de investigação”, sendo prudente verificar modelos alternativos. Os primeiros estudos do modelo de regressão buscam um modelo máximo, aquele que leva em consideração todo o conjunto de variáveis possíveis para explicação do valor de mercado. No entanto, nem todas as variáveis têm o mesmo poder de explicação, encontram-se em multicolinearidade ou não contribuem significativamente para o poder de explicação do modelo.
Modelos que utilizam pequeno número de variáveis explicativas permitem fácil interpretação, no entanto podem representar fracamente o comportamento do mercado em
questão. Assim, DANTAS (1998) recomenda que seja alcançado um modelo ótimo, que cria equilíbrio entre o número de variáveis explicativas sem perder significativamente o poder de explicação do modelo de regressão, que deve ser sintético e compreensível.
Outras estatísticas essenciais, como o coeficiente de correlação múltipla, deverão ser calculadas, comparadas e discutidas com o objetivo de propor a equação de regressão, objetivo principal do trabalho.