BÖLÜM 5. SIVILAŞMA RİSKİNİN AZALTILMASI
5.2. Sıvılaşma Yönünden Zemin İyileştirme Teknikleri
5.2.2. Sıkıştırma teknikleri
5.2.2.3. Dinamik kompaksiyon ve uygulama kriterleri
Enquanto o critério de preferência Lower-Only é pessimista demais, o critério Upper-Only é otimista demais. Nessa seção mostramos uma forma de combinar esses dois critérios, assim como emGivan et al.
(2000) para BMDPs, usando o operador≤pes.
Seja o par de políticas⟨π, φ⟩ encontrado pelo critério Lower-Only, isto é, V (π, φ)(s) = V∗(s). Suponha que exista outro par de políticas ótimas ⟨π′, φ′⟩ que também satisfaz a igualdade V (π′, φ′)(s) = V∗(s)
(Figura4.3). Suponha ainda que os limites superiores da função valor calculados para esses dois pares de políticas ótimas sejam diferentes e V(π′, φ′)(s) > V (π, φ)(s) (Figura4.3). Nesse caso, a escolha do par
⟨π′, φ′⟩ para o Jogador I (max) é a melhor, uma vez que além de garantir a melhor escolha no pior caso V∗,
Figura 4.3: Comparação entre possíveis valores da função valor intervalar[V∗(s), V (s)] e [V∗(s), V′(s)] , ∀s ∈ S
geradas pelos pares de políticas ótimas⟨π, φ⟩ e ⟨π′, φ′⟩ calculadas segundo o critério de preferência Lower-Only.
Para calcular um par de políticas de equilíbrio segundo o critério Lower-First, calculamos primeiro os conjuntos de pares de políticas de equilíbrio que satisfazem V∗(s) (Equação (4.4)), que chamamos de A1[V∗](s) e A2[V∗](s), respectivamente. Em seguida, escolhemos um par de políticas ótimas calculando
o limite superior da função valor, mas agora consideramos apenas as ações dos conjuntos A1 = A1[V∗] e
A2= A2[V∗]. Assim, a solução para o critério Lower-First é dada pelos seguintes pares de equações:
V∗(s) = max a1∈A1 min a2∈A2(R(s, a 1, a2) + γ min p∈K(s,a1,a2)s∑′∈S p(s′∣s, a1, a2)V∗(s′)) (4.14) e V∗(s) = max a1∈A1[V∗](s) min a2∈A2[V∗](s) (R(s, a1, a2) + γ max p∈K(s,a1,a2)s∑′∈S p(s′∣s, a1, a2)V ∗ (s′)) , (4.15)
sendo o par⟨π∗, φ∗⟩ calculado por:
⟨π∗, φ∗⟩ = arg max a1∈A1[V∗](s) min a2∈A2[V∗](s) (R(s, a1, a2) + γ max p∈K(s,a1,a2)s∑′∈S p(s′∣s, a1, a2)V∗(s′)) . (4.16)
Note que na Equação (4.15), V∗(s) é calculada fazendo max sobre a1 ∈ A1[V∗] e min sobre a2 ∈
A2[V∗], ou seja, considerando todas as ações que satisfazem V∗(s), calculamos V∗(s).
O Teorema4.1dado a seguir garante que o par de políticas⟨π∗, φ∗⟩ encontrados com o critério Lower-
First é um par de políticas de equilíbrio de acordo com a Definição4.7de equilíbrio, adotando a Definição 4.3de ordenação pessimista entre intervalos.
Definição 4.7 (Par de políticas de equilíbrio para AMG-IP – critério pessimista melhorado). Um par da políticas π∗ ∈ Π e φ∗ ∈ Φ é um par de políticas de equilíbrio segundo a relação de ordenação ≤pes
(Definição4.3) se não existe uma política π∈ Π tal que V(π∗, φ∗)(s) <
pesV(π, φ∗)(s), s ∈ S, (4.17)
e não existe uma política φ∈ Φ tal que: V(π∗, φ)(s) <
pesV(π∗, φ∗)(s), s ∈ S. (4.18)
sendoV(π′, φ′)(s) ≡ [V (π′, φ′)(s), V (π′, φ′)(s)] para todo π′∈ Π e φ′∈ Φ.
Teorema 4.1. Um par de políticas π∗ ∈ Π e φ∗ ∈ Φ encontrados pelo critério Lower-First é um par de políticas de equilíbrio (ótimo) de acordo com a Definição4.7.
4.2 DIFERENTES CRITÉRIOS PARA ESCOLHA DE PARES DE POLÍTICAS DE EQUILÍBRIO DE UM AMG-IP 37
Ideia da prova: precisamos demonstrar que:
(A.1) ∄π ∈ Π tal que V(π∗, φ∗)(s) <
pesV(π, φ∗)(s) e
(A.2) ∄φ ∈ Φ tal que V(π∗, φ)(s) <
pesV(π∗, φ∗)(s).
É importante recordar queV(s) é a função valor para o Jogador I e, portanto, deve ser maximizada quando a escolha for do Jogador I (escolha entre π e π∗) e minimizada quando a escolha for do Jogador II (escolha
entre φ e φ∗).
Demonstração de (A.1).
Uma vez que o par de políticas ótimas ⟨π∗, φ∗⟩, devolvido pelo critério Lower-First, satisfaz a Equação
(4.14) com relação às escolhas do Jogador I (maximizador), podemos garantir que não existe π∈ Π tal que:
V(π∗, φ∗)(s) < V (π, φ∗)(s), (4.19)
isto é, V(π∗, φ∗)(s) ≥ V (π, φ∗)(s) para ∀π ∈ Π, ou seja, qualquer outra escolha de política π do
Jogador I permitiria um ganho menor para o Jogador I. Temos portanto que analisar as duas possibilidades:
A.1.1 V(π∗, φ∗)(s) > V (π, φ∗)(s) e A.1.2 V(π∗, φ∗)(s) = V (π, φ∗)(s).
Fazendo a suposição que (A.1.1) é verdade (o que corresponde às relações entre intervalos R1, R3 e R4 da Tabela4.1), podemos concluir que
V(π∗, φ∗)(s) >
pesV(π, φ∗)(s),
(caso 1 da Definição4.3) o que não contradiz (A.1).
Fazendo a suposição que (A.1.2) é verdade (o que corresponde à relação entre intervalos R2 da Tabela 4.1de empate nos limites inferiores dos intervalos), tanto π∗(s) como π(s) devem pertencer ao conjunto
de ações A1[V∗](s) que são usados na segunda fase do critério Lower-First, que garante (Equação (4.15))
e que a escolha ótima do Jogador I (maximizador), π∗(s), garante que:
V(π∗, φ∗)(s) ≥ V (π, φ∗)(s). (4.20)
Assim, dado que as condições (A.1.2) e (4.20) correspondem ao caso 2 da Definição4.3, temos: V(π∗, φ∗)(s) >
pesV(π, φ∗)(s),
que também não contradiz (A.1). Portanto como (A.1.1) e (A.1.2) são todos os casos possíveis para os pares de políticas⟨π∗, φ∗⟩ e ⟨π, φ∗⟩, podemos concluir que:
∄π ∈ Π tal que V(π∗, φ∗)(s) <
pesV(π, φ∗)(s), (4.21)
Demonstração de (A.2).
Uma vez que o par de políticas ótimas ⟨π∗, φ∗⟩, devolvido pelo critério Lower-First, satisfaz a Equação
(4.14) com relação às escolhas do Jogador II (minimizador), podemos garantir que não existe φ∈ Φ tal que:
V(π∗, φ)(s) < V (π∗, φ∗)(s), (4.22)
isto é, V(π∗, φ)(s) ≥ V (π∗, φ∗)(s) para ∀φ ∈ Φ, ou seja, qualquer outra escolha de política φ do Joga-
dor II permitiria um ganho ainda maior para o Jogador I. Temos portanto que analisar as duas possibilidades:
A.2.1 V(π∗, φ)(s) > V (π∗, φ∗)(s) e A.2.2 V(π∗, φ)(s) = V (π∗, φ∗)(s).
Fazendo a suposição que (A.2.1) é verdade (o que corresponde às relações entre intervalos R1, R3 e R4 da Tabela4.1), podemos concluir que
V(π∗, φ)(s) >
pesV(π∗, φ∗)(s),
(caso 1 da Definição4.3) o que não contradiz (A.2).
Fazendo a suposição que (A.2.2) é verdade (o que corresponde à relação entre intervalos R2 da Tabela 4.1de empate nos limites inferiores dos intervalos), tanto φ∗(s) como φ(s) devem pertencer ao conjunto
de ações A2[V∗](s) que são usados na segunda fase do critério Lower-First, que garante (Equação (4.15))
e que a escolha do Jogador II (minimizador), φ∗(s), garante que:
V(π∗, φ)(s) ≥ V (π∗, φ∗)(s). (4.23)
Assim, dado que as condições (A.2.2) e (4.23) correspondem ao caso 2 da Definição4.3, temos: V(π∗, φ)(s) >
pesV(π∗, φ∗)(s),
que também não contradiz (A.2). Portanto como (A.2.1) e (A.2.2) são todos os casos possíveis para os pares de políticas⟨π∗, φ⟩ e ⟨π∗, φ∗⟩, podemos concluir que:
∄φ ∈ Φ tal que V(π∗, φ)(s) <
pesV(π∗, φ∗)(s), (4.24)
como queríamos demonstrar.
O Algoritmo11(LOWER-FIRST) recebe como entrada o AMG-IP dado pela tupla⟨S, A1, A2, R, K, γ⟩
e o número máximo de iterações (maxIter). O algoritmo faz uma chamada ao Algoritmo9(LOWER-ONLY)
para obter os conjuntos de pares de políticas que alcançam V∗(s), A
1[V∗](s) e A2[V∗](s), para depois
fazer uma chamada ao Algoritmo10 (UPPER-ONLY) passando como parâmetro de entrada A1[V∗](s) e
A2[V∗](s). O algoritmo devolve o par de políticas de equilíbrio segundo o Teorema4.1.
O tempo gasto para resolver um AMG-IP usando o critério Lower-First é, no pior dos casos, duas vezes o tempo gasto para resolver o mesmo AMG-IP usando o critério Lower-Only. Isso ocorre porque, no pior dos casos, todas as ações usadas na primeira fase de execução do critério Lower-First alcançam os mesmos valores da função valor intervalar no limite inferior, o que faz com que esses mesmas ações sejam usadas na segunda fase de execução. Sendo assim, a classe de complexidade de resolver um AMG-IP usando o critério Lower-First é a mesma do critério Lower-Only.
4.2 DIFERENTES CRITÉRIOS PARA ESCOLHA DE PARES DE POLÍTICAS DE EQUILÍBRIO DE UM AMG-IP 39
Algoritmo 11: LOWER-FIRST(S, A1, A2, R, K, γ,maxIter) → ⟨π∗, φ∗⟩
Entrada: S (conjunto de estados), A1(conjunto de ações do Jogador I), A2(conjunto de ações do Jogador II), R (função
recompensa), K (conjunto credal), γ (fator de desconto), maxIter (número máximo de iterações) Saída:⟨π∗, φ∗⟩ (π∗e φ∗são as políticas de equilíbrio para os jogadores I e II, respectivamente)
início
⟨A1[V∗], A2[V∗]⟩←LOWER-ONLY(S, A1, A2, R, K, γ, maxIter);
⟨π∗, φ∗⟩←UPPER-ONLY(S, A
1[V∗], A2[V∗], R, K, γ, maxIter);
retorna⟨π∗, φ∗⟩