4. DENEY SONUÇLARI ve DEĞERLENDİRME
4.1 SGYAR’ün Arıtma Performansı Sonuçları
A análise de agrupamentos é uma técnica multivariada utilizada para reunir objetos (CORRAR et al, 2011). Seja com o objetivo de reduzir dados em subgrupos, seja para avaliar hipóteses relativas à sua natureza, a análise de clusters vem sendo amplamente adotada como uma ferramenta útil para organizar e descrever indivíduos em função de características préBselecionadas.
Por meio do uso de medidas de similaridade e dissimilaridade, o método é capaz de identificar e organizar a estrutura existente em um conjunto de dados em grupos, de maneira que os elementos pertencentes a um mesmo grupo sejam similares entre si e díspares com respeito aos demais agrupamentos. Portanto, em uma estratégia de pesquisa bem elaborada, esperaBse obter elevada homogeneidade entre os elementos dentro dos agrupamentos e, ao contrário, alta heterogeneidade entre eles.
O passo mais crítico em seu uso é a definição das variáveis estatísticas que responderão pela similaridade entre os objetos. Como descrito por HAIR et al (2009), trataBse de uma técnica descritiva que sempre criará agrupamentos, ainda que não haja qualquer estrutura de relacionamento entre as variáveis. Dessa forma, apenas com uma definição adequada das variáveis estatísticas fundamentais para os propósitos da pesquisa será possível extrair uma descrição aceitável para os subgrupos existentes no conjunto de dados.
Após a seleção das variáveis, a análise segue com a definição da medida de similaridade ou dissimilaridade, o algoritmo que indicará o método de formação dos agrupamentos e o número de grupos desejados. As medidas de similaridade e dissimilaridade identificam a semelhança entre os objetos ao longo de todas as características selecionadas (HAIR et al, 2009), sendo que três delas dominam as aplicações: as medidas de correlação, distância e associação (CORRAR et al, 2011).
As medidas correlacionais capturam a similaridade entre os objetos pelo coeficiente de correlação. Assim, alta correlação entre indivíduos indicaria semelhança entre eles e baixas correlações, sua ausência. Porém, uma vez que as correlações representam,
primordialmente, padrões nas variáveis e não sua magnitude, tais medidas são
raramente empregadas na análise empírica (HAIR et al, 2009).
As medidas mais utilizadas são as de distância, que medem a dissimilaridade entre os objetos, de tal forma que quanto menor seu valor, mais similares são os elementos por ela comparados. O objetivo é agrupar em g grupos as informações provenientes de um conjunto de dados composto de n elementos amostrais e pBvariáveis aleatórias,
mensuradas para todos eles. Assim, com um vetor de medidas para cada elemento
amostral, temos:
= … , = 1,2, …
Sendo o valor da variável medida no elemento .
Para se calcular a distância entre dois elementos desse grupo e , MINGOTI (2005)
apresenta as seguintes possibilidades:
1. Distância euclidiana
Adequada para variáveis com propriedades métricas em escalas de razão ou intervalares (LATTIN et al, 2011), a distância euclidiana se caracteriza como a técnica mais empregada neste tipo de análise, e é definida da seguinte forma:
, = − −
, = −
Uma vez que a análise de agrupamentos é bastante sensível a escalas ou magnitudes das variáveis em aplicações que utilizam medidas de distância (HAIR et al, 2009),
recomendaBse a padronização dos dados24 que, neste caso, terão a mesma importância (peso) na determinação da proximidade dos objetos (LATTIN et al, 2011)25.
2. Distância de Minkowsky (CityBblock ou Manhattan)
Com o objetivo de amenizar o impacto de valores discrepantes na amostra, a medida de Minkowsky emprega a soma das diferenças absolutas entre elas:
, = | − |
Onde são ponderações.
Para HAIR et al (2009), apesar de simplificar consideravelmente os cálculos, a distância de Minkowsky resultará em agrupamentos inválidos, se as variáveis tiverem alta correlação.
3. Distância generalizada ou ponderada
Definindo ! como uma matriz positiva de ponderação, temos:
, = − −
Quando ! é igual a "#! , obtémBse a distância de Mahalanobis. TrataBse de uma medida que já incorpora o procedimento de padronização dos dados, ajustandoBos pelos desviosBpadrão e matriz de variânciaBcovariância total do grupo (CORRAR et al,
2011). A medida de Mahalanobis é equivalente ao $ da análise de regressão e seu
emprego mostraBse adequado a uma estrutura de dados com variáveis altamente correlacionadas (HAIR et al, 2009).
24 Cuja forma mais comum é sua transformação em “escores padrão (Z)” (HAIR et al, 2009). 25
A exceção a essa ponderação ocorre nos casos em que se utiliza a análise de componentes principais no auxílio aos agrupamentos.
Nos casos em que ! = %& ' (, obtémBse a distância euclidiana média. Na comparação de dois elementos amostrais, a métrica resulta em um índice de dissimilaridade, que pode ser convertido em um coeficiente de concordância simples
(medida de sneath)26.
Os coeficientes de concordância são recomendados para pesquisas em que os dados são qualitativos. Já em trabalhos que envolvem tanto dados dicotômicos quanto contínuos, recomendaBse a aplicação de medidas de dissimilaridade para dados mistos.
4. Coeficiente de dissimilaridade de Gower
Além das medidas apresentadas em MINGOTI (2005), há ainda o emprego na literatura do coeficiente de Gower. O método é capaz de lidar com conjuntos de dados que contém, simultaneamente, variáveis métricas e binárias. A matriz de distância, neste caso, é construída com medidas tratadas de forma particular em cada situação.
Quando as variáveis ()) são binárias, temos:
*= +0 ./ 1 0%.1 01 23á3 1* = *
Nos casos em que há apenas variáveis contínuas, o cálculo se altera para:
*=56%7 | *− *|
8 8* − 6 8 8* 9
Onde * é fixado em zero quando 6%7 * − 6 * = 0.
A comparação entre duas variáveis : e ) é feita por:
∑ <=* =* ∑ <=*
Sendo <=* uma variável binária que assumirá o valor 1 se : e ) não forem dados faltantes para a observação >, e 0, caso contrário.
Se, ao contrário, todas as variáveis são binárias, o cálculo será:
=* = + 0 ./ 1 0%.1 01 23á3 1= = *
E, por fim, para os casos em que há pelo menos uma variável contínua, teremos:
=* = 56%7 | =− *|
* * − 6 * * 9
De maneira que =* é fixado em 0, se 6%7* * − 6 * * = 0.
TrataBse, portanto, de um método adequado a conjuntos de dados mistos.
Após a definição de quais medidas serão empregadas, deveBse decidir o algoritmo que guiará a formação dos agrupamentos. Nesta etapa, é possível adotar três abordagens: (i) hierárquica, (ii) não hierárquica ou (iii) a combinação de ambas.
As técnicas hierárquicas são bastante utilizadas em análises exploratórias. Combinando
uma série de nB1 de agrupamentos27 em uma estrutura de “tipo árvore” (HAIR et al,
2009), o método é capaz de identificar os agrupamentos e apontar o provável número de grupos existente nos dados (MINGOTI, 2005).
Nos procedimentos nãoBhierárquicos, por sua vez, a atribuição dos objetos é feita em grupos previamente especificados pelo pesquisador, cuja habilidade é fundamental na determinação da qualidade do ajuste. O método pode ser descrito em dois passos fundamentais: (i) a especificação do ponto de partida para o início da formação dos agrupamentos e (ii) a escolha do algoritmo para designação dos elementos.
Na primeira etapa, são definidas as “sementes”, ou seja, a indicação da partição inicial dos dados em K agrupamentos, onde, na etapa subsequente, serão alocados cada um dos elementos. Neste ponto, ressaltaBse que não há uma forma objetiva para sua definição, cabendo ao pesquisador testar diferentes soluções e optar pela que lhe parece mais adequada.
Definidas as sementes, o pesquisador deve optar, ainda, pelo algoritmo que definirá a designação dos elementos a cada uma delas. Há três deles disponíveis (LATTIN et al, 2011 e HAIR et al, 2009), sendo referidos na literatura como métodos das KBmédias.
O primeiro método, de “referência sequencial”, define uma única semente e atribui a ela todos os objetos que estão a uma distância préBdefinida, repetindo o procedimento até que todos os elementos estejam devidamente alocados. Na segunda opção, conhecida como “referência paralela”, as sementes são consideradas de forma simultânea, recebendo os indivíduos mais próximos a elas, em virtude da distância especificada.
E, por fim, no método conhecido como “procedimento de otimização”, a redesignação das sementes é permitida, podendo ser atribuída ao agregado mais próximo, caso se afaste dele no procedimento de partição.
Algumas pesquisas adotam, ainda, as duas metodologias para construção dos agrupamentos. AproveitandoBse de cada uma delas, o pesquisador é capaz de obter o conjunto de soluções para o dados e o centros de agrupamentos (sementes) pelo emprego de técnicas hierárquicas para, na sequência, utilizar um procedimento nãoB hierárquico em sua partição (HAIR et al, 2009).
Em virtude do tamanho da amostra e do elevado número de variáveis optouBse pelo uso do procedimento nãoBhierárquico e, seguindo a recomendação de HAIR et al (2009), foram testadas distintas especificações para a construção dos perfis domiciliares. Apenas de posse destes é que se definiu a medida de dissimilaridade e o
procedimento para formação dos grupos que se mostrou adequado aos propósitos da pesquisa. Os resultados estão reportados a seguir.