• Sonuç bulunamadı

Uma outra extensão possível para as soluções discutidas nesse capítulo é considerar um caso particular de AMG-IP que chamamos de AMG-ST (inspirados no modelo MDP-ST do Capítulo2.1).

Nesse novo modelo, a imprecisão é dada na forma de transições valoradas por conjunto, ou seja, os jo- gadores escolhem um par de ações a serem executadas em um estado s∈ S e há uma transição probabilística para um conjunto de estados k. De forma não-determinística é feita uma transição do conjunto k para um estado s′ ∈ k. Assim, ao invés de selecionar um K(s, pi(s), φ(s)) como no modelo AMG-IP, a Natureza escolhe o estado s′∈ k resultante da transição de estado.

Figura 4.12: Exemplo de um AMG-ST. O par de ações⟨a1, noop⟩ aplicado no estado s1levam os jogadores para o

conjunto{s2, s4} com probabilidade 0.3 e para o conjunto {s4, s6} com probabilidade 0.7.

A Figura4.12ilustra um exemplo de um AMG-ST. No estado s1 ∈ S1 o Jogador I escolhe uma ação

a1 ∈ A1 e o Jogador II uma ação noop. Ao executarem esse par de ações ⟨a1, noop⟩, com probabilidade

0.3 o jogo vai para o conjunto {s2, s4} e com probabilidade 0.7 para o conjunto {s4, s6}. A escolha do

estado resultante desta transição é feita pela Natureza. Uma solução robusta para o Jogador I é considerar que a Natureza sempre escolherá um estado que resulta na menor recompensa total esperada. Assim, após a transição para o próximo estado s′ ∈ {s

2, s4} ou s′ ∈ {s4, s6}, o Jogador I executa uma ação noop e o

Jogador II escolhe e executa uma ação a2 ∈ A2 e, novamente, o estado resultante da transição depende da

escolha da Natureza.

Uma solução “robusta melhorada”, ou seja, adaptando o critério de preferência Lower-First da Seção 4.2.3para AMG-STs é feita calculando as equações:

V∗(s) = max a1∈A1 min a2∈A2 ⎛ ⎝R(s, a1, a2) + γ ∑ k∈F (s,a1,a2) p(k∣s, a1, a2) min s′∈k V ∗(s)⎞ ⎠ (4.36) e V∗(s) = max a1∈A1[V∗](s) min a2∈A2[V∗](s) ⎛ ⎝R(s, a1, a2) + γ ∑ k∈F (s,a1,a2) p(k∣s, a1, a2) max s′∈k V ∗ (s′)⎞ ⎠, (4.37)

4.2 DIFERENTES CRITÉRIOS PARA ESCOLHA DE PARES DE POLÍTICAS DE EQUILÍBRIO DE UM AMG-IP 49

sendo⟨π∗, φ⟩ calculado por:

⟨π∗, φ⟩ = arg max a1∈A1[V∗](s) min a2∈A2[V∗](s) ⎛ ⎝R(s, a1, a2) + γ ∑ k∈F (s,a1,a2) p(k∣s, a1, a2) max s′∈k V ∗ (s′)⎞ ⎠.(4.38) em que A1[V∗](s) e A2[V∗](s) são os conjuntos de ações que alcançam V∗ e que são usadas para

calcular V∗e F(s, a1, a2) é a função que mapeia um estado s e um par de ações a1∈ A1e a2 ∈ A2para um

Capítulo 5

Resultados Experimentais

Os experimentos descritos neste capítulo não são exaustivos, mas servem para ilustrar algumas das ideias deste trabalho. Assim, nesse capítulo mostramos os resultados do uso dos algoritmos: LOWER-

ONLY, UPPER-ONLY, UPPER-FIRST, LOWER-FIRST, EPSILON-UPPER-FIRST(ǫ-Upper-First), EPSILON-

LOWER-FIRST(ǫ-Lower-First), ETA-OPTIMAL(η-optimal). Comparamos os intervalos das funções valor

para as políticas de equilíbrio devolvidas e avaliamos as médias da recompensa esperada acumulada por essas políticas. Para isso, foi usado um simulador de um jogo que considera a Natureza aleatória.

Os experimentos foram feitos usando o domínio do Gato e o Rato (Exemplo1.2, Capítulo1), em que os tamanhos dos problemas variam com grades de 3x3 até 8x8. Para os testes, consideramos que não há “barreiras” entre as células que compõem a grade do jogo (com o objetivo de aumentar o número de ações aplicáveis nos problemas pequenos e médios) e há dois buracos: um localizado nas proximidades do Jo- gador II, com recompensa maior, e outro nas proximidades do Jogador I, com recompensa menor. Assim, dependendo do critério de preferência escolhido, o Jogador I pode assumir uma postura mais otimista e correr um risco maior de ser pego pelo gato tentando alcançar o buraco com maior recompensa ou pode assumir uma postura mais pessimista e tentar alcançar o buraco com menor recompensa.

Mais especificamente, os dados usados nos testes são:

• Estados: S = [lin1, col1, lin2, col2, vez] , em que lini e coli indicam, respectivamente, a linha e a coluna da grade do Jogador i e vez indica de quem é a vez de escolher a ação. As Figuras5.1.a e5.1.b ilustram a grade para o jogo 3x3 e 4x4, respectivamente.

• Ações: A1={mover_para_Leste, mover_para_Oeste, mover_para_Norte, mover_para_Sul, noop } e

A2 ={mover_para_Leste, mover_para_Oeste, mover_para_Norte, mover_para_Sul, noop }, em que

noop= ação sem efeito.

• Recompensa: caso lin1 = 2 e col1 = n (em que n é número de colunas), então Recompensa = 10. Caso lin1 = 1 e col1 = n-1, então Recompensa = 100. Caso lin1 = lin2 e col1 = col2, então Recompensa = -100. Caso contrário, Recompensa = 0.

• Função de Transição de Estados: a função de transição de estados é dada por intervalos. Suponha que o jogo esteja no estado [3,1,1,1,1] (como na Figura5.1.a), ou seja, o Jogador I está na linha 3 coluna 1 do grid e é ele quem escolhe a ação a ser executada. Suponha agora que o Jogador I escolha a ação N (norte), então, com probabilidade variando entre [0.75, 0.85] o jogador faz a transição para o novo estado [2,1,1,1,2], com probabilidade variando entre [0.5, 0.15] ele faz a transição para o estado [3,2,1,1,2] e com probabilidade variando entre [0.5, 0.15] ele fica no estado [3,1,1,1,2]. A Figura5.1.c ilustra como é feita essa transição. De forma semelhante atribuímos imprecisão para as outras ações do Jogador I e ações do Jogador II.

5.1 Média da recompensa acumulada esperada

Para saber quais critérios obtém as melhores recompensas ao longo de uma série de jogos, construímos um simulador com escolhas aleatórias da Natureza. Executando as políticas de cada critério no simulador calculamos a média da recompensa esperada acumulada e seu desvio padrão.

Note que se ao invés de usarmos um simulador com escolhas aleatórias da Natureza, assumíssemos que a Natureza se comporta de forma adversarial ao Jogador I, o critério Lower-First sempre encontraria a melhor

recompensa esperada descontada. Se, por outro lado, a Natureza fosse cooperativa, o critério Upper-First é que alcançaria os melhores valores de recompensa esperada. Sendo assim, para não privilegiar nenhum dos critérios, optamos por uma Natureza aleatória. Dessa forma, o simulador assume que a Natureza escolhe uma distribuição aleatória de probabilidade (ou seja, uma Natureza não-estacionária).

Para garantir que o simulador faça escolhas aleatórias de distribuições de probabilidades e a partir de um conjunto credal, aplicamos o seguinte método: suponha que em um estado s ∈ S os Jogadores I e II escolhem as ações a1 ∈ A1 e a2 ∈ A2. Dado que nesse trabalho definimos a imprecisão através de um

conjunto de parâmetros p1, p2e p3sujeitos a um conjunto de restrições C, queremos gerar uma distribuição

p(.∣s, a1, a2) aleatória para ser escolhida pela Natureza. Para isso, chamamos um otimizador (solver Minos)

para resolver o seguinte problema de otimização:

max(w1p1+ w2p2+ w3p3)

sujeito a C

em que w1, w2e w3são pesos escolhidos aleatoriamente e teremos como resposta do otimizador, valores

para p1, p2 e p3 que satisfazem as restrições que devido ao max, corresponde ao limite superior da região

definida pelo conjunto credal. Feito isso o próximo passo é resolver o problema de otimização (chamando o Minos):

min(w′1p′1+ w2′p′2+ w′3p′3) sujeito a C em que w′

1, w′2e w3′ são pesos escolhidos aleatoriamente e teremos como resposta do otimizador, valores

para p′

1, p′2e p′3que atendam as restrições (limite inferior da região definida pelo conjunto credal).

Assim temos duas distribuições de probabilidades que atendem as restrições, p1, p2, p3 e p′1, p′2,p′3.

Agora, escolhemos uma variável α∈ [0, 1] para fazer uma combinação linear entre os conjunto limites, ou seja: αp1+ p ′ 1 2 + (1 − α) p1+ p′1 2 = p ′′ 1 αp2+ p ′ 2 2 + (1 − α) p2+ p′2 2 = p ′′ 2 αp3+ p ′ 3 2 + (1 − α) p3+ p′3 2 = p ′′ 3

Enfim, temos que p′′

1 + p′′2 + p′′3 = 1 e que tal distribuição de probabilidade é aleatória uma vez que wi,

w′ie α são gerados de forma aleatória.

Assim, utilizando os Algoritmos LOWER-FIRSTe UPPER-FIRST vistos no Capítulo4, resolvemos o

jogo do Gato e o Rato variando o tamanho das instâncias de 3x3 à 8x8. De cada instância, obtivemos um par de políticas ótimas para cada um dos algoritmos. Em seguida, executamos no simulador os pares de políticas calculados considerando o estado inicial dado pela Figura5.1, ou seja, a posição do rato é dada por (n, 1) e do gato por (1, 1), em que n é o tamanho da instância do jogo, calculamos a média da recompensa esperada acumulada em 1000 jogos para cada um dos algoritmos.

5.2 Comparação entre as funções valor ótimas calculadas pelos critérios Lower-First e

Benzer Belgeler