• Sonuç bulunamadı

PORTAL YANSIMALARI

Belgede ULUSAL YAYINLAR (sayfa 55-58)

Para executar a análise taxonómica, usando a técnica hierárquica, é necessário executar os seguintes passos:

1. definir que atributos caracterizam apropriadamente os objectos a classificar e a função de distância utilizada para os discriminar,

2. usando os valores dos atributos seleccionados como coordenadas dos objectos, gerar uma matriz de semelhança dos objectos a classificar,

3. criar a árvore hierárquica,

4. decidir sobre o número de grupos em que pretendemos separar os objectos, 5. obter a separação dos objectos e validá-la,

Descrevem-se de seguida os cinco passos com mais pormenor: 1. Selecção de atributos

A escolha do atributo será orientada pelo conhecimento disponível do domínio dos objectos, porque não existe descrita uma metodologia para a selecção dos atributos.

Habitualmente determina-se o número de atributos que permita que a análise, que é, computacionalmente muito pesada, possa ser efectuada no equipamento disponível. Seguidamente, de entre os atributos escolhem-se, os que conduzem, a classificações diferentes dos dados disponíveis. Muitas vezes simula-se o uso de vários grupos de atributos e escolhe- se, para utilizar na análise, o grupo que fornece o resultado mais de acordo com o que se passa no mundo real.

2. Geração da matriz de semelhança

Para gerar a matriz de semelhança, também chamada de distâncias, é necessário definir uma medida de distância entre os objectos.

O vector de distâncias entre n objectos é uma matriz n×n simétrica de diagonal igual a 0. Pode ser escolhida qualquer função de distância. Há três tipos de medidas de distância frequentemente utilizados nesta análise [Caldas,J.91]: coeficientes de correlação, medidas de distância euclidianas e coeficientes de associação.

3. Determinação do número de grupos

A decisão do número de grupos que se pretende formar é tomada atendendo ao número de elementos e à necessidade de obter grupos que traduzam uma discriminação entre os elementos. Frequentemente, o número óptimo de grupos obtém-se por simulação, até encontrar o número de grupos que, nem separa demais e por isso não traduz a semelhança requerida, nem agrega tanto a ponto de não discriminar.

4. Criação da árvore hierárquica

Depois de fixado o número de grupos é necessário distribuir os objectos pelos grupos. Existem dois tipos de métodos para a obtenção da árvore hierárquica [Caldas,J.91]: os métodos de ligação “single-link”e os métodos de ligação “complete-link”.

Estes métodos conduzem a uma hierarquia de partições H={P1,P2,....,Pn}, do conjunto O de

objectos em N grupos em que para cada par de partições, Pi e Pi+1 cada grupo de Pi+1 está

incluído num grupo de Pi.

O algoritmo seguido nestes métodos é o seguinte:

1. Seja Pn, a partição do conjunto O em N grupos, cada um com um objecto.

2. No caso do método de ligação “single-link”, agregam-se os dois grupos da partição corrente cuja distância mínima entre objectos, um de cada grupo, seja mínima. No caso do método de ligação “complete-link”, agregam-se os dois grupos da partição corrente cuja distância máxima entre objectos, um de cada grupo, seja mínima.

3. Repete-se este passo até todos os objectos pertencerem ao mesmo grupo.

Cada novo grupo criado é representado por um elemento novo, o centróide ou o medóide. As coordenadas desse novo elemento são a média das coordenadas dos elementos, no caso do centróide ou, no caso do medóide, a média ponderada, pela probabilidade, das coordenadas dos elementos.

A árvore hierárquica obtida é uma sucessão de ligações de dois elementos. Cada elemento pode pertencer ao conjunto inicialmente fornecido para classificação, ou pode ter sido nele incluído como representante de uma ligação efectuada.

O valor da ligação é atribuído de acordo com a ordem dos elementos que liga. Se liga elementos do conjunto inicial, o valor da ligação é um. Se liga elementos provenientes de ligações de elementos iniciais o seu valor, será dois, se liga elementos ligados por uma ligação de valor dois com outros de valor dois, ou menor, a sua ligação será de valor três, e assim sucessivamente. Cada grupo constituído fica assim caracterizado por um centro de grupo referenciado por um conjunto de coordenadas e por um valor da ligação

Figura 6.2.1.1 Dendograma a Entidade C ompr im ento da li ga çã o c d e Ligações b 1 1 2 3

O resultado final desta análise taxonómica é o conjunto das coordenadas dos centros dos grupos construídos, a lista dos elementos de cada grupo e a árvore hierárquica que os liga. A representação gráfica do processo de construção dos grupos é feita através de um dendograma [Matlab,01;Caldas,J.91].

Um dendograma é um gráfico da árvore hierárquica onde são representados os valores da ligação entre as variáveis. Um exemplo de um dendograma é representado na figura 6.2.1.1., em ordenadas são representados os valores de cada ligação, em abcissas os elementos.

A aplicação dos dois métodos conduz a resultados diferentes. Enquanto o método da ligação

“single-link” tende a agrupar entidades bastantes dissemelhantes devido ao encadeamento de

fusões que produz, mas garante uma boa separação entre os grupos, o método de ligação “complete-link” garante que os elementos agrupados são mais semelhantes dois a dois, mas pode separar deficientemente os grupos.

5. Separar e validar

Para verificar se a árvore hierárquica construída representa agrupamentos com significado, calcula-se um coeficiente de correlação entre o agrupamento representado pela árvore e a proximidade entre os dados representada pela matriz das distâncias. Esse coeficiente, designado por coeficiente de correlação “cophenetic”, toma valores entre zero e um e traduz uma correlação aceitável para valores maiores ou iguais a 0.65.

Uma vez validada a árvore hierárquica construída, usam-se os valores das ligações para separar os elementos no número de grupos que se fixou previamente no passo três.

Existem duas maneiras de calcular o coeficiente de correlação:

Uma baseia-se no cálculo do coeficiente de inconsistência [Matlab,01] e constrói a divisão natural do conjunto de dados. O coeficiente de inconsistência representa o valor da comparação do comprimento de cada ligação com os comprimentos das ligações vizinhas que na árvore estão abaixo dela. Se o valor da ligação é próximo da média dos que estão abaixo, então esses elementos pertencerão ao mesmo grupo. Se não for, encontra-se inconsistência que representa a separação natural dos grupos. O coeficiente de inconsistência varia entre zero

e um e no cálculo dos grupos usando o Matlab [Matlab,01] pode ser especificado quando se invoca a função que cria os grupos.

Outra maneira de formar os grupos é decidir, à priori, quantos grupos se pretendem formar, nesse caso, é necessário observar o dendograma e cortá-lo por uma linha paralela ao eixo do x de forma que as linhas de ligações sejam interceptadas no número de grupos escolhidos. Na figura 6.2.1.2., é representada, respectivamente, a formação de dois e de três grupos, usando o método da decisão à priori.

3 2 . 1 A B C D E

Figura 6.2.1.2. Formação de grupos

A traço ponto, está representada a linha que corta o dendograma e horizontalmente em duas ligações e forma dois grupos: um incluindo os elementos A e B, outro incluindo os elementos C, D e E.

A tracejado, está representada a linha que corta o dendograma horizontalmente em três ligações e forma três grupos: um incluindo os elementos A e B, outro incluindo os elementos

C, D e um terceiro incluindo o elemento E.

Na secção seguinte apresentaremos a análise da amostra dos programas do primeiro grupo

Belgede ULUSAL YAYINLAR (sayfa 55-58)

Benzer Belgeler