NEFSİN METAFİZİĞİ
3. NEFSİN ÖZELLİKLERİ
Nesta seção, o objetivo é mostrar como a metodologia descrita na seção anterior deve ser utilizada. Para este experimento, é utilizada a série de precipitação mensal de chuva na cidade de Fortaleza, descrita na Seção 4.2.2, para a tarefa de predição recursiva. A rede neural utilizada para verificar o desempenho da predição é a rede FTDNN. Para o treinamento da rede, a série temporal é redimensionada para a faixa [-1,1]. A série redimensionada é dividida em dois conjuntos para a realização da validação holdout, de modo que as primeiras 396 amostras são usadas para o treinamento e as 12 amostras restantes para o teste (predição um ano a frente).
A rede FTDNN tem duas camadas ocultas e um neurônio de saída. Todos os neurônios utilizam função de ativação tangente hiperbólica. O algoritmo backpropagation padrão é utilizado para treinar a rede utilizando a predição um-passo-adiante. Cada rodada de
treino/teste da rede FTDNN é repetida 100 vezes (K=100).
A dimensão de imersão (dE) é estimada pelo método de Cao (Seção 2.7.1) e a curva
gerada pelo método é mostrado na Figura 16(a). Os valores a serem escolhidos são os máximos em torno do “joelho” da curva (ou seja dE = {6,9,11}). O atraso de imersão é estimado como
τ = 4, obtido pelo método da informação mútua (Seção 2.7.2). Este método indica que o primeiro mínimo na curva de informação mútua (ver Figura 16(b)) é adotado como uma boa estimativa para τ.
Para otimização do modelo de predição, foram escolhidas faixas de valores dos parâmetros a serem investigados. A seguir é descrita a faixa de parâmetros para execução de cada bloco da Figura 21.
Execução do Bloco 2: para a taxa de aprendizado, escolhemos valores no intervalo de [0,001...0,2] e para o número de épocas de aprendizado, na faixa de [10...400].
Execução do Bloco 3: uma vez que o método de Cao indicou três possíveis valores para dE,
decidimos testar todas as combinações dentro do intervalo dE ∈ [2..18] e τ ∈ [2..9] e
escolher o par (dE, τ) que retorna o menor valor do NMSE.
Execução do Bloco 4: por fim, o número de neurônios em cada camada oculta é otimizado dentro da faixa de [2...20] neurônios.
A Tabela 2 possui os melhores parâmetros encontrados em cada ciclo de busca do teste com a série de chuva. Cada linha desta tabela representa um ciclo completo do fluxograma da Figura 21. A decisão de mudança ou não dos parâmetros é dada pelo método visto no fluxograma da Figura 22. Neste processo, foram necessários 8 ciclos até que não houvesse mais mudanças nos parâmetros, segundo a heurística adotada como critério de parada. Este procedimento, visto no bloco 6 da Figura 21, se comportou de forma adequada nos testes efetuados, identificando quando o processo de busca, pelos possíveis melhores parâmetros, estabilizou.
Após vários ciclos da heurística efetuados e satisfeita uma condição de parada, a metodologia retorna os melhores parâmetros dentro dos intervalos que foram testados. Com os resultados do último ciclo de busca, é possível construir um mapeamento do NMSE em função de cada combinação de parâmetros, dentro dos intervalos testados. No problema em questão, são organizadas funções de (dE, τ), (taxa de aprendizagem, número de épocas) e (número de
neurônios na 1acamada, número de neurônios na 2acamada).
Tabela 2 – Ciclos de busca por parâmetros ótimos para a rede FTDNN com 2 camadas ocultas. Número Taxa Atraso Dimensão Noneurônios Noneurônios
Ciclo de de de de 1acamada 2acamada
épocas aprendizagem imersão imersão oculta oculta
1 80 0,05 11 4 4 10 2 130 0,05 11 4 8 8 3 90 0,05 11 4 8 8 4 90 0,05 11 4 8 6 5 90 0,05 11 4 4 6 6 80 0,05 11 4 4 6 7 80 0,05 11 4 4 6 8 80 0,05 11 4 4 6
de neurônios ocultos, são mostrados para o caso da escolha da janela de entrada nas Figuras 23(a) e 23(b). Deve ser lembrando que os resultados dos NMSE nestas figuras estão em escala logarítmica, utilizada para facilitar a vizualização. Esta escala também é utilizada nas outras figuras desta tese. O melhor par encontrado é (dE, τ) = (11, 4), confirmando assim os valores
sugeridos na Figura 16 para a dimensão e atraso de imersão, estimados pelo método de Cao e informação mútua, respectivamente.
(a) 2 4 6 8 10 2 4 6 8 10 12 14 16 18 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 Atraso de imersão Dimensão de imersão NMSE (b) Atraso de imersão Dimensão de imersão 2 3 4 5 6 7 8 9 2 4 6 8 10 12 14 16 18
Figura 23 – Gráfico do NMSE em função da dimensão imersão e do atraso de imersão.
Esta mesma metodologia também é efetuada para encontrar o melhor valor da taxa de aprendizagem e número de épocas de treinamento dentro de uma faixa de análise. Os resultados estão mostrados nas Figuras 24(a) e 24(b). Pode-se verificar um padrão de ocorrência dos mínimos do NMSE, áreas mais escuras, que ocorrem com o aumento da taxa de aprendizagem e com a diminuição do número de épocas. A rede FTDNN com duas camadas obteve o melhor resultado, isto é, aquele que alcança o menor NMSE possui 80 épocas e taxa de aprendizagem
de 0,05. (a) 0.001 0.005 0.01 0.05 0.1 0.2 10 30 50 80 100 200 400 -3 -2.5 -2 -1.5 -1 -0.5 0 Taxa de aprendizagem Épocas NMSE (b) Taxa de aprendizagem Épocas 0.001 0.005 0.01 0.05 0.1 0.2 10 30 50 80 100 200 400
Figura 24 – Gráfico do NMSE em função do número de épocas de treinamento e da taxa de aprendizagem.
Para o caso da escolha do número de neurônios do modelo FTDNN com duas camadas ocultas são analisados neurônios na faixa de [2, 20], com os resultados gráficos vistos nas Figuras 25(a) e 25(b). Para o modelo FTDNN o erro mínimo é encontrado com 4 e 6 neurônios, na primeira e segunda camada oculta respectivamente. Também é verificada uma região de parâmetros ótimos, região mais escura da Figura 25(b).
É interessante observar na Figura 25(b) que as curvas de nível mantêm a relação proporcional do número de parâmetros ajustáveis. Isto é, com o aumento do número de neurônios na 2acamada ocultas, o número de neurônios definido na 1acamada oculta tende a ser menor, com o inverso também acontecendo. Outro fato que deve ser destacado é que nenhuma das heurísticas citadas na Seção B.4 sugeriram valores condizentes com os que são determinados aqui.
4.6 Conclusão
Este capítulo apresentou as metodologias empregadas neste trabalho. Inicialmente foram apresentados os índices de desempenho NMSE e U de Theil. Em seguida, as séries temporais utilizadas nesta tese foram descritas. Por fim, foram apresentados os procedimentos para determinar a melhor configuração de uma rede neural, através da proposição de uma heurística para determinar os parâmetros que minimizam o NMSE de um determinado modelo. Utilizando a série temporal de precipitação de chuvas, a heurística confirma, no caso da escolha dos parâmetros da janela de entrada, os valores sugeridos para a dimensão e
(a) 0 5 10 15 20 0 5 10 15 20 -3.5 -3 -2.5 -2 -1.5 -1 Neurônios - 2ª camada Neurônios - 1ª camada NMSE (b) Neurônios - 2ª camada Neurônios - 1ª camada 2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16
Figura 25 – Gráfico do NMSE em função do número de neurônios na primeira e da segunda camada oculta.
atraso de imersão, estimados pelo método de Cao e informação mútua, respectivamente. Para o número de neurônios em cada camada oculta, observa-se que nenhuma das heurísticas citadas no Apêndice B (regra do valor médio, raiz quadrada e Kolmogorov) sugeriram valores condizentes com os que são determinados aqui. Isto reforça assim a necessidade de melhores heurísticas para a seleção dos parâmetros de um modelo de RNAs para predição de séries temporais.
No próximo capítulo, é apresentada a rede neural baseada no modelo NARX. São descritas as redes NARX-MISO e NARX-MIMO, que são arquiteturas derivadas da rede MLP a partir da introdução de mecanismos de memória de curta duração.
5 REDES NEURAIS NARX-MISO E NARX-MIMO
5.1 Introdução
Este capítulo tem por objetivo dar início à apresentação das arquiteturas de redes neurais propostas nesta tese. Inicialmente, será descrita a rede neural NARX para predição recursiva de um valor da série temporal por vez. Esta arquitetura receberá o nome de rede NARX-MISO, em que o termo MISO refere-se as fato de a rede receber várias entradas e prever apenas uma saída por instante de tempo. Em seguida, será descrita uma extensão da rede neural NARX para predição recursiva de vários valores futuros da série a cada instante de tempo. Esta arquitetura receberá o nome de NARX-MIMO, sendo que o termo MIMO refere-se ao fato de a rede receber várias entradas e prever várias saídas por instante de tempo.