1.4. BİR SÖZLEŞMENİN TARAFI OLARAK BOTLAR
3.1.4. Önerinin Bağlayıcılığı ve Bağlılık Süres
A Análise de Componentes Principais (em inglês: Principal Component Analysis - PCA) é um dos pilares da análise de dados moderna e amplamente utilizada na identifica- ção de padrões de dados e expressam os dados, de tal maneira como que realçam as suas semelhanças e suas diferenças. Uma vez que padrões nos dados podem ser difíceis de encontrar em dados de alta dimensão (por exemplo, Cartas Dinamométricas), representar graficamente pode não está disponível. Desta forma, o PCA é uma ferramenta poderosa para a análise de dados multidimensionais [Duda et al. 2001, Haykin 2001].
Uma outra vantagem principal do PCA é que depois de ter encontrado os padrões se pode compactar os dados. Por exemplo, reduzir o número de dimensões, sem grande perda de informação.
Desta forma, PCA é um procedimento matemático que utiliza uma transformação ortogonal para converter um conjunto de observações de variáveis possivelmente correla- cionadas a um conjunto de valores de variáveis linearmente descorrelacionadas chamadas componentes principais. Esta transformação é definida de forma que o primeiro com- ponente principal tem a maior variância possível (ou seja, é responsável pelo máximo de variabilidade nos dados) e cada componente seguinte, por sua vez, tem a máxima variância sob a restrição de ser ortogonal aos componentes anteriores. Os componen- tes principais são garantidamente independentes apenas se os dados forem normalmente distribuídos (conjuntamente). O PCA é sensível à escala relativa das variáveis originais [Duda et al. 2001].
4.5.1
Cálculo pelo Método da Covariância
O cálculo do PCA usando o método da covariância tem o objetivo de transformar um dado conjunto de dados A de dimensão M num conjunto alternativo B de dimensão menor L.
Supondo o conjunto de dados A com N valores em cada uma das dimensões M, para o PCA funcionar corretamente, deve-se subtrair a média de cada uma das dimensões de dados. Isto porque este conjunto A deve possuir média zero. Para isto, é necessário calcular a média dos valores para cada dimensão, pois a média subtraída deve ser a média de cada uma. A Equação 4.37 apresenta o cálculo da média para cada dimensão.
Am= 1 N N−1
∑
i=0 Ai (4.37)Após calculada a média de cada dimensão, é necessário a subtração destas no conjunto de dados, conforme a Equação 4.38. O novo conjunto de dados A′, agora, possui média
nula.
4.5. ANÁLISE DE COMPONENTES PRINCIPAIS 45
O objetivo da PCA é encontrar um conjunto de dados que sejam descorrelacionados. Uma ferramenta estatística muito utilizada para o cálculo destas correlações de dados é a variância. A variância é uma medida da sua dispersão estatística, indicando quão longe em geral os seus valores se encontram do valor esperado em um conjunto de dados de uma dimensão. No entanto, muitos conjuntos de dados têm mais do que uma dimensão, e o objetivo da análise estatística destes conjuntos de dados é, geralmente, para ver se há qualquer relação entre as dimensões. Desta forma, surge o conceito de covariância. A covariância é uma medida do grau de interdependência (ou inter-relação) numérica entre um conjunto de dados de duas dimensões. Assim, dimensões independentes têm cova- riância zero. A covariância de dois vetores (duas dimensões) é apresentada na Equação 4.39 [Varella 2008]. cov(A′x,A′y) = N−1 ∑ i=0 (A′xi− A′x)(A′ yi− A′y) N− 1 (4.39)
Quanto se trata de dados com mais de duas dimensões, é construída uma matriz de covariância. A Equação 4.40 demonstra como calcular a matriz de covariância para um conjunto de dados com M dimensões.
Cm=
cov(A′0,A′0) cov(A′0,A′1) ··· cov(A′0,A′m) cov(A′1,A′0) cov(A′0,A′1) ··· cov(A′0,A′m)
. . . . . . . .. ... cov(A′m,A′0) cov(A′m,A′1) ··· cov(A′m,A′m)
(4.40)
Uma vez que a matriz de covariância é quadrada e simétrica, podemos calcular os autovetores (Yi) e autovalores (λi) para esta. Estes são bastante importante, pois eles
dizem informações úteis sobre os dados. As dimensões que definem as componentes principais são calculadas a partir da matriz de covariância, através dos seus autovetores. O autovetor que possuir o maior autovalor é a principal componente que representa os dados. O autovetor que possuir o segundo maior autovalor, representará a segunda componente principal, e assim por diante.
Em geral, uma vez que os autovetores são encontrados a partir da matriz de covariân- cia, o próximo passo é ordená-los pelos autovalores, do mais alto para o mais baixo. Isto faz com que os componentes se apresentem em ordem de importância. Pode-se decidir ignorar os componentes de menor importância, fazendo com que algumas informações sejam perdidas, mas se os autovalores são muito pequenos, a perda de informação será mínima.
Ao deixar de fora algumas componentes, o conjunto de dados final terá menor dimen- são do que o original. Mais precisamente, considerando, originalmente, um conjunto que possui M dimensões em seus dados, calculando M autovetores e autovalores, e, então, escolhendo apenas os primeiros P autovetores, o conjunto de dados final possuirá P di- mensões. Esse novo conjunto de dimensão P é conhecido como vetor de características (Feature Vector) [Duda et al. 2001], que é apenas um nome fantasia para a nova matriz de autovetores.
O último passo no PCA é bastante simples. Uma vez que os componentes principais (autovetores) foram escolhidos para formar o vetor de características, tomando a trans- posta deste e multiplicando à esquerda do conjunto transposto de dados original, obtém-se o conjunto de dados final Y , como mostrado na Equação 4.41.
YN,M= CN,MT × ATM,M (4.41)
4.5.2
Propriedades das Componentes Principais
Os componentes principais apresentam as seguintes propriedades [Varella 2008]:
1. A variância do componente principal Yi é igual ao valor do autovalor λi (Equação
4.42);
var(Yi) = λi (4.42)
2. O primeiro componente é o que apresenta maior variância e assim por diante (Equa- ção 4.43);
var(Y1) > var(Y2) > var(Y3) > var(YM) (4.43)
3. O total de variância das variáveis originais é igual ao somatório dos autovalores que é igual ao total de variância dos componentes principais (Equação 4.44);
∑
var(Ai) =∑
var(Yi) =∑
λi (4.44)4. Os componentes principais não são correlacionados entre si (Equação 4.45).
cov(Yi,Yj) = 0 (4.45)
4.5.3
Contribuição das Componentes Principais
A contribuição Cide cada componente principal Yipode ser expressa em porcentagem.
Para calcular, dividi-se a variância de Yi pela variância total. Isto representa a proporção
da variância total explicada pela componente principal Yi(Equação 4.46).
Ci= var(Yi) M−1 ∑ i=0 var(Yi) · 100 = M−1λi ∑ i=0 λi · 100 (4.46) A importância de um componente principal é avaliada por meio de sua contribuição, isto é, pela proporção de variância total explicada pelo componente. A soma dos primei- ros P autovalores representa a proporção de informação retida na redução de M para P dimensões. Com essa informação, pode-se decidir quantos componentes vão ser usados na análise, isto é, quantos componentes serão utilizados para diferenciar os indivíduos. Não existe um modelo estatístico que ajude nesta decisão, sendo utilizado para as diver- sas aplicações em áreas do conhecimento o número de componentes principais utilizadas
4.5. ANÁLISE DE COMPONENTES PRINCIPAIS 47
tem sido aquele que acumula 70% ou mais de proporção da contribuição total (variância total) [Varella 2008].
Capítulo 5
Proposta do Trabalho
A solução proposta usa ferramentas de processamento de imagens para reconhecer padrões. Nesta tese, tais ferramentas são usadas para fins de detecção e classificação dos modos de operação no sistema de Bombeio Mecânico (BM) na indústria de petróleo. Mais precisamente, a proposta é baseada na análise dos descritores de bordas de imagens, sendo que assinaturas padrão (ou de referências) de modos de operação são selecionadas e processadas, gerando os descritores de borda para cada possível situação, ou, para cada assinatura padrão do modo de operação. Este processo é, então, repetido com as assina- turas provenientes do campo e, por último, calcula-se a distância ou correlação entre os descritores das duas assinaturas. O resultado de cada distância ou correlação é comparado em uma função de máximo. O valor mais alto está relacionado à referência mais próxima à assinatura proveniente do campo, realizando a classificação do modo de operação. Em paralelo, ocorre o acompanhamento dos valores produzidos pela distância ou correlação.
A Figura 5.1 mostra o fluxo de informação na solução proposta.
5.1
Aquisição de Dados
Os dados são obtidos através de um software supervisório que reúne as variáveis do processo, no caso do Bombeio Mecâncio, são: força e posição.
Como pode ser visto na Figura 5.2, as assinaturas são gráficos bidimensionais entre duas variáveis (X e Y ) obtidas ao longo do tempo do processo ou sistema monitorado.