• Sonuç bulunamadı

3. BATI DÜNYASINDA ÜTOPYA GELENEĞİ

3.1. Ortaçağ’dan Rönesans’a

3

3..77..QQuuiimmiioommeettrriiaa

O uso de computadores para analisar dados químicos cresceu significativamente nos últimos vinte anos, em parte devido aos recentes avanços em hardware e software. Por outro lado, a aquisição de dados principalmente na área de química analítica, atingiu um ponto bastante sofisticado com o interfaceamento de instrumentos aos computadores produzindo uma enorme quantidade de informação, muitas vezes complexa e variada. As características mais interessantes dos modernos instrumentos é o número de variáveis que podem ser medidas em uma única amostra, originando a necessidade de ferramentas novas e mais sofisticadas para tratá-los e extrair informações relevantes. Da necessidade apresentada, surgiu a quimiometria, que é uma área especificamente destinada à análise de dados químicos de natureza multivariada. [59-62]

Como citado por Kowalski "as ferramentas quimiométricas são veículos que podem auxiliar os químicos a se moverem mais eficientemente na direção do maior conhecimento". Isto nos leva a uma definição formal de quimiometria: "... uma disciplina química que emprega métodos matemáticos e estatísticos para planejar ou selecionar experimentos de forma otimizada e para fornecer o máximo de informação química com a análise dos dados obtidos". [59,61]

A quimiometria é, portanto o emprego de estatística multivariada no tratamento de dados químicos, e em geral suas aplicações enfocam dois temas centrais: o planejamento experimental, onde se escolhe as condições experimentais ótimas para uma determinada investigação; e a análise de dados multivariados, de forma a extrair deles o máximo possível de informação química. [62]

IC

DP

LQ=

a

×10

A utilização da estatística multivariada permite que a avaliação da influência das variáveis na informação que se deseja extrair dos dados seja feita de forma global, sendo possível observar as correlações entre elas. [59-62]

Desta forma, o emprego destas técnicas tem encontrado inúmeras aplicações no planejamento de experimentos e tratamento de dados químicos, como: para controle de qualidade e/ou discriminação da origem geográfica de amostras de café [63,64], mel

[65,66], uvas [67,68], vinho [69,70], morango [71], bebidas [72,73] em química de alimentos, e produtos de petróleo [15,16,74] em química tecnológica; ou na alocação de fontes de contaminação em química ambiental [75,76]; na caracterização de regiões costeiras e suas variações sazonais a partir da composição química da água em trabalhos de oceanografia [77,78]; na identificação e/ou classificação de óleos e graxas [79,80], gêneros e espécies de plantas e vegetais [81], e muitos outros trabalhos, nas áreas de biologia, economia, psicologia, geologia, geoquímica e ecologia[17,82,83].

Neste trabalho foram utilizadas ferramentas quimiométricas tais como:

Hierarchical Cluster Analisys (Análise Hierárquica de Agrupamentos – HCA), Principal Component Analisys (Análise de Componentes Principais – PCA), Partial Least Squares (Regressão por Mínimos Quadrados Parciais – PLS), Soft Independent Modeling of Class Analogy (Modelagem Independente Suave de Analogia de Classes –

SIMCA) e Full Fatorial Design (Planejamento Fatorial Completo – FFD) aliado a

Response Surface Methodology (Metodologia de Superfície de Resposta – RSM). Estas ferramentas quimiométricas viabilizaram escolher das condições ótimas experimentais e posterior classificação dos perfis cromatográficos como método exploratório da qualidade das gasolinas.

3

3..77..11..MMééttooddoossddeeOOttiimmiizzaaççããooddeeMMeettooddoollooggiiaa

Os métodos de otimização surgiram em função da necessidade de aprimorarmos o desempenho dos mais diversos sistemas que ocorrem no cotidiano. Literalmente, otimização corresponde a tornar algo "tão perfeito, efetivo ou funcional quanto possível". Desta forma, podemos definir otimização como sendo um processo baseado em instruções que permitam obter o melhor resultado de uma dada situação. [84,85]

Cientificamente estas instruções são freqüentemente expressas através de métodos matemáticos que procuram maximizar ou minimizar alguma propriedade específica do sistema em estudo. É na escolha desta propriedade a ser otimizada e das condições de controle que se encontra grande parte das discussões sobre qual a melhor

indicação para um desempenho ideal do sistema. Em diversas circunstâncias, esta propriedade a ser otimizada é denominada de função objetivo ou resposta. [86]

A metodologia de superfície de resposta é uma técnica de otimização baseada em planejamentos fatoriais que foi introduzida por Box nos anos cinqüenta, para cujos resultados são ajustados modelos matemáticos. Sua aplicação permite selecionar a combinação de níveis ótimos na obtenção da melhor resposta para dada situação. [85]

No entanto, a literatura que pesquisa o tema relata que só a partir da década de 1980, a MSR passou a ser aplicada pelas empresas, principalmente a indústria japonesa e americana. Nas fábricas o método pode contribuir na melhoria da qualidade dos produtos ou processos de fabricação, a aumentar a produtividade e a reduzir o tempo de desenvolvimento de produtos. [85,87]

Na maioria dos estudos publicados observa-se que os projetos experimentais desenvolvidos com o método envolvem a modelagem matemática de apenas uma resposta, single-response analysis.[86,87]

As principais razões para se estudar os problemas de um sistema com MSR são: • determinar quais são as condições dos fatores (x1, x2, ..., xk) que determinam o melhor valor para a resposta yi;

• necessidade de se conhecer as características da função resposta, que se aproxima das condições reais de operação dos sistemas;

• identificar o relacionamento que existe entre os parâmetros e as respostas. A função matemática que descreve a superfície é dada pela Equação 10: onde, x1, x2,...,xk são os fatores experimentais e ε o resíduo ou erro experimental, ou seja, é a dispersão dos resultados em torno da função matemática aproximada dos pontos. [86]

Equação 10

No procedimento de otimização, o primeiro passo é identificar uma função matemática que modele a variação da resposta em função da variação dos fatores avaliados [85,87]. Os polinômios algébricos são amplamente utilizados para se aproximar da região de resposta. Geralmente, a primeira função utilizada são os polinômios de primeira ordem, ou seja, funções lineares, cujas respostas são estimadas pela Equação 11: sendo que y é a resposta, x1e x2 são os fatores experimentais, b0, b1e

b2 são os coeficientes do polinômio, e ε o erro experimental.

Equação 11

(

)

ε

η

= f x1,x2,...,xk +

ε

+ + + =b0 b1x1 b2x2 y

Neste caso, procura-se verificar se a variação da resposta em função dos fatores é bem modelada por uma superfície planar, conforme Gráfico 1.

Gráfico 1. Superfície de Resposta Plana ou Linear.

No entanto, a variação da resposta em função dos fatores é mais bem modelada por uma superfície não plana, ou seja, o teste estatístico aponta que o modelo linear não satisfaz as condições de operação do sistema porque existe uma curvatura na superfície de resposta, conforme Gráfico 2 [86]. Portanto, a função que melhor descreve estes modelos são os polinômios de segunda ordem, ou seja, funções quadráticas, cujas respostas são estimadas pela Equação 12; sendo que, y é a resposta, x1 e x2 são os fatores experimentais, x1x2 é a interação entre os fatores, b0, b1, b2, b12, b11 e b22 são os coeficientes, e ε é o erro experimental.

Equação 12

Gráfico 2. Superfície de Resposta Quadrática.

Os valores de b dos polinômios podem ser obtidos pelos mínimos quadrados, conforme a Equação 13; sendo que, b é o vetor com os coeficientes, X é a matriz com os parâmetros experimentais codificados, e y é a resposta experimental; ou com o auxílio de programas estatísticos.

Equação 13

ε

+ + + + + + = 2 2 22 2 1 11 2 1 12 2 2 1 1 0 bx b x b x x b x b x b y

( )

X X X y b= t −1 t

Finalmente, a última etapa é estudar a superfície de resposta na região de interesse. Essa etapa tem como objetivo determinar os níveis ótimos do sistema investigado através da localização do ponto estacionário. [87]

O ponto ótimo será definido pelo conjunto de pontos (x1, x2, ..., xk) para os quais as derivadas parcias se igualam a zero, conforme a Equação 14; sendo que ∂y/∂x1 é a derivada parcial de y em relação a x1, e ∂y/∂x2 é a de y em relação a x2.[85,86]

Equação 14

Este ponto é denominado ponto estacionário e pode representar um ponto máximo, um ponto mínimo ou um ponto de sela conforme apresentado no Gráfico 3.

Gráfico 3. Ponto estacionário de uma superfície de resposta quadrática:

(a) ponto de máximo; (b) ponto de mínimo; (c) ponto de sela.

3

3..77..22..MMééttooddoossddeeAAnnáálliisseeMMuullttiivvaarriiaaddaa

A extração de informações dos resultados de um experimento químico envolve a análise de um grande número de variáveis. Muitas vezes, um pequeno número destas variáveis contém as informações químicas mais relevantes, enquanto que a maioria das variáveis adiciona pouco ou nada à interpretação dos resultados em termos químicos. A decisão sobre quais variáveis são importantes é feita, geralmente, baseado em critérios subjetivos e objetivos. [88]

A redução de variáveis através de critérios objetivos, permitindo a construção de gráficos bidimensionais contendo maior informação estatística, pode ser conseguida através da análise de componentes principais. Também é possível conseguir agrupamentos entre as amostras de acordo com suas similaridades, utilizando todas as variáveis disponíveis, e representá-los na forma bidimensional através de um dendograma. Estas duas análises são técnicas de estatística multivariada complementares que tem grande aceitação na análise de dados químicos. [59-62]

0 ... 2 1=∂ ∂ = =∂ ∂ = ∂ ∂y x y x y xk

Antes de apresentar as duas técnicas é necessário discutir alguns termos e conceitos básicos:

3

3..77..22..11..AAOOrrggaanniizzaaççããooddoossDDaaddooss

Antes de iniciar um tratamento, devemos organizar e avaliar os dados, pois dependendo da sua natureza pode ser necessário um tratamento prévio, ou a transformação dos dados, ou até mesmo para saber o tipo de método de análise multivariada mais adequado. [62]

A primeira coisa a fazer é organizar as informações na forma de uma matriz X, chamada matriz de dados, em que as linhas representam as n-amostras e as colunas representam as m-variáveis, como mostra o esquema apresentado na Figura 10. Na matriz, cada variável é representada por um vetor coluna, e cada amostra é representada por um vetor linha, sendo que é possível descrever cada vetor linha, ou vetor resposta, como um ponto no espaço de dimensão m, isto é, em que os eixos das coordenadas são descritos pelas variáveis, como pode ser representado na Figura 11.[62,89]

Figura 10. Matriz de dados X.

Figura 11. Representação da amostra

x nos eixos das variáveis: 1, 2 e 3.

Gráficos como o apresentado na Figura 11 são bastante ilustrativos e podem fornecer informações interessantes sobre o conjunto de dados, de uma maneira mais eficiente do que a observação da matriz X. Porém análises baseadas neste tipo de gráficos têm uma limitação: somente três variáveis podem ser utilizadas simultaneamente em cada gráfico tratado. Sendo assim, não é possível analisar a influência de todas as variáveis envolvidas de uma só vez. A utilização de métodos estatísticos de análise multivariada contorna esta limitação.

Uma organização adequada e avaliação dos dados são essenciais para que a análise multivariada seja feita da forma correta. Para tanto, alguns fatores devem ser levados em consideração, por exemplo, investigar a forma como os dados foram gerados, os métodos de medidas utilizados, a confiabilidade destes dados e o mais importante, a representatividade do grupo de amostras disponíveis que se deseja analisar. De nada adiantaria um conjunto extenso de dados com informações interessantes se o grupo de amostras não fosse representativo o suficiente para fornecer as informações adequadas ao tratamento que se propõe fazer. [59]

Outra etapa prévia importante num tratamento de dados é a do preprocessamento, pois muitas vezes os dados são expressos em grandezas diferentes, e dependendo do tipo de informação que se deseja extrair isto poderá ou não comprometer a análise. Um tratamento prévio para ajustar as grandezas em valores equivalentes ou de possível comparação resolverá este problema.

3

3..77..22..22..TTiippoossddeePPrreepprroocceessssaammeennttoo

“Antes de se iniciar qualquer tipo de análise multivariada, é necessária a realização de uma manipulação matemática prévia do conjunto de dados para adequação, ou às vezes até mesmo remoção de possíveis fontes de variação”. Por exemplo, muitas vezes as variáveis possuem diferentes dimensões e amplitudes e é necessário um tratamento prévio para expressar cada observação em dimensões e amplitudes equivalentes, sem perda de informações. [61,62]

Há várias maneiras de se realizar este preprocessamento, os mais comuns são: centrar os dados na média, escalamento pela variância e o autoescalamento. Todos estes métodos são sensíveis à presença de amostras anômalas, que são amostras que apresentam um comportamento muito diferente do restante do conjunto. [62,88]

DaDaddooss CeCennttrraaddooss nana MéMéddiiaa:: este caso é utilizado quando há presença

de sinais caracterizados como ruído e é normalmente utilizado na construção de modelos de calibração. Neste caso a média de cada variável é subtraída de seus respectivos elementos, como na Equação 15; em que, xij = valor da variável j na amostra i, Xij(cm) = valor centrado na média para a variável j na amostra i, e x = média j dos valores das amostras na coluna j, calculado pela Equação 16; onde, n é o número de amostras.

Desta forma, a origem dos eixos nos quais os dados se encontram é deslocada de modo a colocá-los numa forma mais conveniente à análise e visualização.

Equação 15

Equação 16

• Escalamento pela Variância: neste tipo de preprocessamento, cada valor da variável j é dividido pelo seu desvio padrão, como na Equação 17; em que, xij = valor da variável j na amostra i, xij(ev) = valor escalado pela variância para a variável j na amostra i, e Sj= desvio padrão dos valores da variável j, calculado a partir da variância S dada pela Equação 18; onde, n = número de amostras; x2j ij = valor escalado pela variância para a variável j na amostra i; e x = média dos valores das amostras na j

coluna j, calculado pela Equação 16. É utilizado quando as variáveis possuem dimensões muito discrepantes entre si. Desta forma, o peso das variáveis em diferentes escalas é considerado equivalente, minimizando o risco de perda de informações relevantes.

Equação 17

Equação 18

• Autoescalamento: o autoescalamento aplica ambas as técnicas descritas anteriormente de uma só vez, de modo que a transformação realizada sobre o conjunto dos dados permite que cada variável apresente média zero e variância igual a um (autoescalamento). Desta forma será dada à mesma importância para todas as variáveis, independente da sua dimensão, é calculado conforme Equação 19; em que, xij(as) = valor autoescalado da variável j para a amostra i, x = média dos valores das amostras na j coluna j, calculado pela Equação 16, e S = desvio padrão dos valores da variável j,j

calculado a partir da variância S2j dada pela Equação 18.

Equação 19 j ij cm ij x x x ( ) = −

= = n i ij j n x x 1 1 j ij ev ij S x x ( ) =

(

)

2 1 2 1 1

= − − = n i j ij j n x x S j j ij as ij S x x x ( )= −

3

3..77..22..33..AAnnáálliisseeHHiieerráárrqquuiiccaaddeeAAggrruuppaammeennttoossHHCCAA

A análise hierárquica de agrupamento consiste no tratamento matemático de cada amostra como um ponto no espaço multidimensional descrito pelas variáveis escolhidas. [90]

Esta é uma ferramenta excelente para análise preliminar dos dados sendo útil para determinar a semelhança entre objetos e identificar amostras anômalas [59-61]. O método relaciona as amostras de forma que as mais semelhantes são agrupadas entre si com relação às variáveis usadas no processo de agrupamento. Cada amostra é representada como um ponto no espaço de m variáveis e, portanto, a questão fundamental reside em transformar a informação de um espaço m-dimensional para um espaço bidimensional. O parâmetro usado neste processo é a medida de distância entre as amostras. Estas distâncias, quando visualizadas através de diagramas conhecidos por dendogramas, indicam as amostras mais semelhantes entre si, ou seja, quanto menor à distância entre os pontos, maior será a semelhança entre as mesmas. Os dendogramas, como demonstrado na Figura 12, são especialmente úteis na visualização das semelhanças entre as amostras. [88,89]

A interpretação de um dendograma de similaridade entre amostras fundamenta- se na intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas. Ou seja, elas devem ser próximas matematicamente no espaço bidimensional. Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a similaridade entre elas. O dendograma hierarquiza esta similaridade de modo que podemos ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no estudo. Quando o dendograma construído é das variáveis, a similaridade entre duas variáveis aponta forte correlação entre estas variáveis do conjunto de dados estudado. Os dendogramas de amostras são mais comuns. [88,90]

A aplicação da análise de agrupamento hierárquico, quando temos variáveis de escalas diferentes, deve ser precedida por um processamento prévio dos dados. Quando não é feito o preprocessamento, as variáveis com valores numéricos mais altos serão mais importantes no cálculo que as variáveis com valores numéricos mais baixos. O preprocessamento mais comumente empregado é o autoescalamento, que transforma as medidas de cada variável de tal modo que o conjunto de dados tenha média igual a zero e variância um. A finalidade deste procedimento é equalizar a importância estatística de todas as variáveis utilizadas. Para proceder à análise hierárquica por agrupamento, é necessário estabelecer o conceito de distância entre duas amostras a e b (dab) em um espaço de m variáveis. Há várias medidas usuais e neste trabalho utilizaremos à distância euclidiana (Equação 20) que corresponde ao sentido trivial de distância no plano e é determinada pela expressão matemática; em que xajé a j-ésima coordenada da amostra a:[88,89]

Benzer Belgeler