• Sonuç bulunamadı

BÖLÜM 5. SIVILAŞMA RİSKİNİN AZALTILMASI

5.2. Sıvılaşma Yönünden Zemin İyileştirme Teknikleri

5.2.2. Sıkıştırma teknikleri

5.2.2.3. Dinamik kompaksiyon ve uygulama kriterleri

Enquanto o critério de preferência Lower-Only é pessimista demais, o critério Upper-Only é otimista demais. Nessa seção mostramos uma forma de combinar esses dois critérios, assim como emGivan et al.

(2000) para BMDPs, usando o operador≤pes.

Seja o par de políticas⟨π, φ⟩ encontrado pelo critério Lower-Only, isto é, V (π, φ)(s) = V∗(s). Suponha que exista outro par de políticas ótimas ⟨π, φ⟩ que também satisfaz a igualdade V (π, φ)(s) = V(s)

(Figura4.3). Suponha ainda que os limites superiores da função valor calculados para esses dois pares de políticas ótimas sejam diferentes e V(π′, φ)(s) > V (π, φ)(s) (Figura4.3). Nesse caso, a escolha do par

⟨π′, φ⟩ para o Jogador I (max) é a melhor, uma vez que além de garantir a melhor escolha no pior caso V,

Figura 4.3: Comparação entre possíveis valores da função valor intervalar[V∗(s), V (s)] e [V∗(s), V′(s)] , ∀s ∈ S

geradas pelos pares de políticas ótimas⟨π, φ⟩ e ⟨π′, φ′⟩ calculadas segundo o critério de preferência Lower-Only.

Para calcular um par de políticas de equilíbrio segundo o critério Lower-First, calculamos primeiro os conjuntos de pares de políticas de equilíbrio que satisfazem V∗(s) (Equação (4.4)), que chamamos de A1[V∗](s) e A2[V∗](s), respectivamente. Em seguida, escolhemos um par de políticas ótimas calculando

o limite superior da função valor, mas agora consideramos apenas as ações dos conjuntos A1 = A1[V∗] e

A2= A2[V∗]. Assim, a solução para o critério Lower-First é dada pelos seguintes pares de equações:

V∗(s) = max a1∈A1 min a2∈A2(R(s, a 1, a2) + γ min p∈K(s,a1,a2)s∑′∈S p(s′∣s, a1, a2)V∗(s′)) (4.14) e V∗(s) = max a1∈A1[V∗](s) min a2∈A2[V∗](s) (R(s, a1, a2) + γ max p∈K(s,a1,a2)s∑′∈S p(s′∣s, a1, a2)V ∗ (s′)) , (4.15)

sendo o par⟨π∗, φ⟩ calculado por:

⟨π∗, φ⟩ = arg max a1∈A1[V∗](s) min a2∈A2[V∗](s) (R(s, a1, a2) + γ max p∈K(s,a1,a2)s∑′∈S p(s′∣s, a1, a2)V∗(s′)) . (4.16)

Note que na Equação (4.15), V∗(s) é calculada fazendo max sobre a1 ∈ A1[V∗] e min sobre a2 ∈

A2[V∗], ou seja, considerando todas as ações que satisfazem V∗(s), calculamos V∗(s).

O Teorema4.1dado a seguir garante que o par de políticas⟨π, φ⟩ encontrados com o critério Lower-

First é um par de políticas de equilíbrio de acordo com a Definição4.7de equilíbrio, adotando a Definição 4.3de ordenação pessimista entre intervalos.

Definição 4.7 (Par de políticas de equilíbrio para AMG-IP – critério pessimista melhorado). Um par da políticas π∗ ∈ Π e φ∗ ∈ Φ é um par de políticas de equilíbrio segundo a relação de ordenação ≤pes

(Definição4.3) se não existe uma política π∈ Π tal que V(π∗, φ)(s) <

pesV(π, φ∗)(s), s ∈ S, (4.17)

e não existe uma política φ∈ Φ tal que: V(π∗, φ)(s) <

pesV(π∗, φ∗)(s), s ∈ S. (4.18)

sendoV(π′, φ′)(s) ≡ [V (π′, φ′)(s), V (π′, φ′)(s)] para todo π′∈ Π e φ′∈ Φ.

Teorema 4.1. Um par de políticas π∗ ∈ Π e φ∗ ∈ Φ encontrados pelo critério Lower-First é um par de políticas de equilíbrio (ótimo) de acordo com a Definição4.7.

4.2 DIFERENTES CRITÉRIOS PARA ESCOLHA DE PARES DE POLÍTICAS DE EQUILÍBRIO DE UM AMG-IP 37

Ideia da prova: precisamos demonstrar que:

(A.1) ∄π ∈ Π tal que V(π∗, φ)(s) <

pesV(π, φ∗)(s) e

(A.2) ∄φ ∈ Φ tal que V(π∗, φ)(s) <

pesV(π∗, φ∗)(s).

É importante recordar queV(s) é a função valor para o Jogador I e, portanto, deve ser maximizada quando a escolha for do Jogador I (escolha entre π e π∗) e minimizada quando a escolha for do Jogador II (escolha

entre φ e φ∗).

Demonstração de (A.1).

Uma vez que o par de políticas ótimas ⟨π∗, φ⟩, devolvido pelo critério Lower-First, satisfaz a Equação

(4.14) com relação às escolhas do Jogador I (maximizador), podemos garantir que não existe π∈ Π tal que:

V(π∗, φ∗)(s) < V (π, φ∗)(s), (4.19)

isto é, V(π∗, φ)(s) ≥ V (π, φ)(s) para ∀π ∈ Π, ou seja, qualquer outra escolha de política π do

Jogador I permitiria um ganho menor para o Jogador I. Temos portanto que analisar as duas possibilidades:

A.1.1 V(π∗, φ∗)(s) > V (π, φ∗)(s) e A.1.2 V(π∗, φ∗)(s) = V (π, φ∗)(s).

Fazendo a suposição que (A.1.1) é verdade (o que corresponde às relações entre intervalos R1, R3 e R4 da Tabela4.1), podemos concluir que

V(π∗, φ)(s) >

pesV(π, φ∗)(s),

(caso 1 da Definição4.3) o que não contradiz (A.1).

Fazendo a suposição que (A.1.2) é verdade (o que corresponde à relação entre intervalos R2 da Tabela 4.1de empate nos limites inferiores dos intervalos), tanto π∗(s) como π(s) devem pertencer ao conjunto

de ações A1[V∗](s) que são usados na segunda fase do critério Lower-First, que garante (Equação (4.15))

e que a escolha ótima do Jogador I (maximizador), π∗(s), garante que:

V(π∗, φ∗)(s) ≥ V (π, φ∗)(s). (4.20)

Assim, dado que as condições (A.1.2) e (4.20) correspondem ao caso 2 da Definição4.3, temos: V(π∗, φ)(s) >

pesV(π, φ∗)(s),

que também não contradiz (A.1). Portanto como (A.1.1) e (A.1.2) são todos os casos possíveis para os pares de políticas⟨π∗, φ⟩ e ⟨π, φ⟩, podemos concluir que:

∄π ∈ Π tal que V(π∗, φ)(s) <

pesV(π, φ∗)(s), (4.21)

Demonstração de (A.2).

Uma vez que o par de políticas ótimas ⟨π∗, φ⟩, devolvido pelo critério Lower-First, satisfaz a Equação

(4.14) com relação às escolhas do Jogador II (minimizador), podemos garantir que não existe φ∈ Φ tal que:

V(π∗, φ)(s) < V (π∗, φ∗)(s), (4.22)

isto é, V, φ)(s) ≥ V (π, φ)(s) para ∀φ ∈ Φ, ou seja, qualquer outra escolha de política φ do Joga-

dor II permitiria um ganho ainda maior para o Jogador I. Temos portanto que analisar as duas possibilidades:

A.2.1 V(π∗, φ)(s) > V (π∗, φ∗)(s) e A.2.2 V(π∗, φ)(s) = V (π∗, φ∗)(s).

Fazendo a suposição que (A.2.1) é verdade (o que corresponde às relações entre intervalos R1, R3 e R4 da Tabela4.1), podemos concluir que

V(π∗, φ)(s) >

pesV(π∗, φ∗)(s),

(caso 1 da Definição4.3) o que não contradiz (A.2).

Fazendo a suposição que (A.2.2) é verdade (o que corresponde à relação entre intervalos R2 da Tabela 4.1de empate nos limites inferiores dos intervalos), tanto φ∗(s) como φ(s) devem pertencer ao conjunto

de ações A2[V∗](s) que são usados na segunda fase do critério Lower-First, que garante (Equação (4.15))

e que a escolha do Jogador II (minimizador), φ∗(s), garante que:

V(π∗, φ)(s) ≥ V (π∗, φ∗)(s). (4.23)

Assim, dado que as condições (A.2.2) e (4.23) correspondem ao caso 2 da Definição4.3, temos: V(π∗, φ)(s) >

pesV(π∗, φ∗)(s),

que também não contradiz (A.2). Portanto como (A.2.1) e (A.2.2) são todos os casos possíveis para os pares de políticas⟨π∗, φ⟩ e ⟨π, φ⟩, podemos concluir que:

∄φ ∈ Φ tal que V(π∗, φ)(s) <

pesV(π∗, φ∗)(s), (4.24)

como queríamos demonstrar.

O Algoritmo11(LOWER-FIRST) recebe como entrada o AMG-IP dado pela tupla⟨S, A1, A2, R, K, γ⟩

e o número máximo de iterações (maxIter). O algoritmo faz uma chamada ao Algoritmo9(LOWER-ONLY)

para obter os conjuntos de pares de políticas que alcançam V∗(s), A

1[V∗](s) e A2[V∗](s), para depois

fazer uma chamada ao Algoritmo10 (UPPER-ONLY) passando como parâmetro de entrada A1[V∗](s) e

A2[V∗](s). O algoritmo devolve o par de políticas de equilíbrio segundo o Teorema4.1.

O tempo gasto para resolver um AMG-IP usando o critério Lower-First é, no pior dos casos, duas vezes o tempo gasto para resolver o mesmo AMG-IP usando o critério Lower-Only. Isso ocorre porque, no pior dos casos, todas as ações usadas na primeira fase de execução do critério Lower-First alcançam os mesmos valores da função valor intervalar no limite inferior, o que faz com que esses mesmas ações sejam usadas na segunda fase de execução. Sendo assim, a classe de complexidade de resolver um AMG-IP usando o critério Lower-First é a mesma do critério Lower-Only.

4.2 DIFERENTES CRITÉRIOS PARA ESCOLHA DE PARES DE POLÍTICAS DE EQUILÍBRIO DE UM AMG-IP 39

Algoritmo 11: LOWER-FIRST(S, A1, A2, R, K, γ,maxIter) → ⟨π∗, φ∗⟩

Entrada: S (conjunto de estados), A1(conjunto de ações do Jogador I), A2(conjunto de ações do Jogador II), R (função

recompensa), K (conjunto credal), γ (fator de desconto), maxIter (número máximo de iterações) Saída:⟨π∗, φ⟩ (πe φsão as políticas de equilíbrio para os jogadores I e II, respectivamente)

início

⟨A1[V∗], A2[V∗]⟩←LOWER-ONLY(S, A1, A2, R, K, γ, maxIter);

⟨π∗, φ←UPPER-ONLY(S, A

1[V∗], A2[V∗], R, K, γ, maxIter);

retorna⟨π∗, φ

Benzer Belgeler