4. MATERYAL VE METOT
4.2. Antioksidan Kapasite Testleri
Com amostras finitas, é sempre melhor resolver diretamente um exemplo particular do problema de aprendizado do que tentar resolver um problema mais geral (e muito mais difícil) de estimação de densidade conjunta entre en- trada e saída (vide (Cherkassky & Mulier 1998)). Os métodos clássicos podem não ser apropriados para muitas aplicações porque modelagem paramétrica (com amostras finitas) impõem muitas suposições rígidas sobre a dependên- cia desconhecida, o que especifica sua forma paramétrica. Isto tende a in- troduzir grande polarização na modelagem, isto é, a discrepância do modelo paramétrico assumido e a (desconhecida) verdade.
Igualmente, métodos não paramétricos clássicos funcionam apenas em ca- sos assintóticos (tamanho das amostras muito grande).
As limitações da abordagem clássica motivam o uso de métodos adapta- tivos (ou flexíveis). Métodos adaptativos conseguem maior flexibilidade especi- ficando uma larga classe de funções de aproximação. O modelo de predição é então selecionado desta larga classe de funções. O principal problema torna- se escolher o modelo de complexidade ótima (flexibilidade) para os dados fini- tos à disposição.
Dois dos princípios indutivos que são mais comumente utilizados em pro- cessos de aprendizado adaptativos são a minimização do risco empírico (Em- pirical Risk Minimization - ERM) e a minimização do risco estrutural (Structural Risk Minimization - SRM) segundo (Cherkassky & Mulier 1998), assuntos das próximas subseções.
2.5.1 Princípio da Minimização do Risco Empírico
O objetivo do aprendizado preditivo é estimar dependências desconhecidas em uma classe de funções de aproximação usando dados disponíveis. A esti- mativa ótima corresponde ao mínimo do risco funcional esperado. O problema é que o risco funcional depende da cdf (cumulative probability distribution func- tion) F (x, w) desconhecida, ou pdf f(x, w) também desconhecida. A única in- formação disponível sobre esta distribuição está nas amostras de treinamento disponíveis.
Uma solução para o problema de aprendizado é estimar a cdf F (x, w) desco- nhecida, ou pdf f(x, w) desconhecida, dos dados disponíveis e então encontrar uma estimativa ótima f(x, ω0). Outra solução é procurar uma estimativa que
garanta o mínimo do risco empírico conhecido, como um substituto para o risco funcional desconhecido. Esta abordagem é chamada de minimização do risco empírico (ERM - Empirical Risk Minimization). Com amostras finitas, a abordagem ERM é sempre preferível à estimação da densidade conforme (Cherkassky & Mulier 1998).
O princípio indutivo ERM é tipicamente usado em problemas clássicos (paramétricos) onde o modelo é especificado primeiro e então seus parâme- tros são estimados dos dados. Esta abordagem trabalha bem apenas quando o número de dados de treinamento é grande relativamente à complexidade do modelo pré-especificado (ou o número de parâmetros livres).
Usando o princípio indutivo da minimização do risco empírico, empirica- mente é estimada a função de risco usando os dados de treinamento. O risco empírico é o risco médio para os dados de treinamento, e pode ser minimizado escolhendo os parâmetros apropriados.
Sob o princípio indutivo da minimização do risco empírico (ERM), é procu- rada uma solução f(xi, ω∗) que minimize o risco empírico (erro de treinamento)
como um substituto para o risco funcional esperado. Para estimação do risco funcional esperado para classificação usando a média do risco empírico sobre os dados utiliza-se a Equação 2.4:
Remp(ω) = 1 n n X i=1 I(wi 6= f (xi, ω)) (2.4)
onde I(·) é a função indicadora que toma o valor 1 se seu argumento é ver- dadeiro e 0 se falso, e f(xi, ω) é a regra de decisão de classificação.
Uma propriedade geral necessária para qualquer princípio indutivo é a as- sintoticidade, ou seja, a estimação obtida pelo ERM deve convergir para o valor verdadeiro (ou melhor valor possível) com o número de amostras de treina- mento grande. Um objetivo inicial da teoria de aprendizado é formular as
condições sobre as quais o princípio ERM é consistente (assintótico).
Considerando a aplicação do princípio ERM ao problema de aprendizado preditivo, suponha que Remp(ω∗|n) indique o valor ótimo do risco empírico
fornecido pela função de perda L(x, w, ω∗
|n) minimizando o risco empírico para n amostras iid, e Rf unc(ω∗|n) indique o valor desconhecido do risco funcional
para a mesma função L(x, w, ω∗
|n). Então o princípio ERM é consistente se o risco funcional (desconhecido) Rf unc(ω∗|n) e o risco empírico Remp(ω∗|n) con-
vergem para o mesmo limite de risco mínimo R(ω0) quando o número de amos-
tras cresce para infinito (vide (Cherkassky & Mulier 1998)). Isto é resumido pelas Equações 2.5 e 2.6, e a noção de consistência é mostrada pelo gráfico da Figura 2.3.
Rf unc(ω∗|n) → R(ω0) quando n → ∞ (2.5)
Remp(ω∗|n) → R(ω0) quando n → ∞ (2.6)
Figura 2.3: Risco empírico e risco funcional.
Assumindo um problema de classificação, o risco empírico corresponde à probabilidade de erro de classificação para os dados de treinamento (erro de treinamento), e o risco funcional esperado é a probabilidade de erro médio de classificação sobre a distribuição p(x, w) desconhecida, onde (xi, wi) são
as amostras de treinamento. Para um dado conjunto de amostras, espera- se Remp(ω∗|n) < Rf unc(ω∗|n) porque a máquina de aprendizado sempre escolhe
uma função (estimada) que minimiza o risco empírico mas não necessaria- mente o risco funcional. Em outras palavras, funções L(x, w, ω∗|n) produzidas
pelo princípio ERM para um conjunto de amostras de tamanho n são sempre estimativas polarizadas da melhor função de minimização do risco funcional.
2.5.2 Princípio da Minimização do Risco Estrutural
Com métodos de modelagem adaptativos ou flexíveis, o modelo não é co- nhecido, e ele é estimado usando um grande número de modelos candidatos (isto é, funções de aproximação de máquina de aprendizado) para descrever os dados avaliados. O principal objetivo é a escolha do modelo candidato de complexidade certa para descrever os dados de treinamento.
O objetivo do aprendizado é escolher um elemento ótimo da estrutura e estimar seus coeficientes por meio das amostras de treinamento. A escolha do modelo da máquina de aprendizado de complexidade ótima resulta no mínimo do risco funcional esperado. Assim, a estimativa do risco funcional esperado pode ser usada para a seleção do modelo.
O princípio indutivo chamado minimização do risco estrutural (Structural Risk Minimization − SRM) providencia um mecanismo formal para a escolha de um modelo com complexidade ótima para amostras finitas. Sob SRM, o conjunto S de funções de perda L(x, w, ω), ω ∈ Ω possui uma estrutura, a qual consiste dos elementos Sk = {L(x, w, ω), ω ∈ Ωk} tal que:
S1 ⊂ S2 ⊂ . . . Sk ⊂ . . .
Para um conjunto de dados de treinamento {(x1, w1), (x2, w2), . . . , (xn, wn)},
o princípio SRM seleciona a função Lk(x, w, ω|n) minimizando o risco empírico
para as funções de Sk. Então, para cada elemento da estrutura Sk, o risco
garantido é encontrado. No final é escolhido um elemento da estrutura ótima Sótimo que garanta risco funcional mínimo. Este subconjunto Sótimo é um conjunto de funções tendo complexidade ótima para um determinado conjunto de dados.
O SRM providencia caracterização quantitativa do compromisso entre a complexidade das funções de aproximação e a qualidade da adaptação (fitting) dos dados de treinamento (vide (Cherkassky & Mulier 1998)). Enquanto a complexidade (subconjunto de índice k) aumenta, o mínimo do risco empírico decresce, ou seja, a qualidade dos ajustes dos dados aumenta. O SRM es- colhe um elemento ótimo da estrutura que produz o limite mínimo do risco funcional.
O princípio SRM não especifica uma estrutura particular. Entretanto, apli- cação de sucesso do SRM na prática depende da estrutura escolhida.