Les modèles d’interaction utilisés en apprentissage par renforcement sont les MDP, POMDP et le modèle de bandit. Les équations d’optimalité déterminent les politiques optimales lorsque le modèle d’interaction est connu de l’agent. Les algorithmes d’itération sur les valeurs et d’ité- ration sur les politiques permettent de résoudre cette tâche de planification dans des MDP à espaces d’état et d’action finis. La tâche de planification est plus complexe lorsque l’état n’est que partiellement observé par l’agent, la notion d’état interne est alors utilisée pour la recherche de politique dans ce cadre.
Deux familles d’approches d’apprentissage par renforcement peuvent être distinguées : les approches « model-free » et « model-based ». Dans la suite de cette thèse, nous nous intéresse- rons à des méthodes « model-based ». Le modèle d’interaction particulier que nous considérons dans la chapitre 2 dépendant d’un petit nombre de paramètres, il paraît pertinent d’estimer les paramètres pour déterminer les politiques optimales dans ce cadre. Nous fournissons donc un algorithme d’apprentissage par renforcement « model-based » et continuons alors à suivre ce type d’approche par la suite.
1.
Dans les algorithmes d’apprentissage par renforcement existant, l’équilibre entre l’exploration et l’exploitation est contrôlé de différentes manières. Les algorithmes que nous proposons dans la suite suivent deux approches distinctes. L’algorithme présenté dans le chapitre 2 consiste à diviser l’interaction en deux phases successives, la première étant dédiée à l’exploration et à l’estimation des paramètres tandis que, dans la deuxième, l’agent suit une politique d’exploitation. Dans ce cas, il est crucial de déterminer au mieux la longueur de la phase d’exploration. Dans les chapitres 3 et 4, nous proposons de suivre des approches optimistes. L’exploration est alors implicite et dépend de la largeur des intervalles de confiance.
Pour analyser la performance des algorithmes que nous fournissons, nous proposons de calculer le regret. Ce critère présente en effet les garanties de performance les plus fortes. Cependant, pour pouvoir faire une telle analyse, certaines hypothèses restrictives sur le modèle sont nécessaires. Cela nécessite par exemple de supposer que l’espace d’état est fini et que la récompense est bornée. Ces hypothèses n’étant pas gênantes dans les modèles qui nous intéressent ici, nous pouvons fournir des bornes du regret des algorithmes que nous exposons.
Apprentissage par renforcement dans un modèle d’écoute de
canal
Dans ce chapitre, nous considérons un processus de décision markovien partiellement ob- servé (POMDP) assez particulier dans lequel l’agent a la possibilité d’observer l’état de l’en- vironnement, ou une partie de celui-ci de son choix, en sélectionnant une action spécifique. Plus précisément, nous nous intéressons à un modèle où l’état est un vecteur de dimensionN et l’agent peut choisir quelles composantes de l’état il souhaite observer à chaque instant. Ce modèle permet de considérer une application d’intérêt dans le domaine de la radio cognitive. Il s’agit de l’accès opportuniste à un réseau de communication par un utilisateur secondaire. Dans ce chapitre, nous avons choisi de présenter notre recherche en se focalisant sur ce mo- dèle applicatif. Néanmoins, l’algorithme original que nous proposons dans ce cadre pour gérer de manière adaptative le compromis entre exploration et exploitation pourrait être étendu à d’autres POMDP.
2.1
Introduction
L’accès opportuniste aux ressources spectrales pour la radio cognitive a été l’objet de nom- breuses recherches ces dernières années [Akyildiz et al., 2008; Haykin, 2005; Mitola, 2000]. Dans la radio à bandes licenciées, les ressources spectrales sont divisées en bandes de fré- quences, aussi appelées canaux, attribuées par licence à des utilisateurs. Chaque canal est donc réservé à un utilisateur fixe. Le nombre d’utilisateurs et le besoin en ressources spectrales étant en constante croissance ces dernières années, un besoin de nouveau système d’allocation des ressources se fait ressentir. Des études ont montré que l’utilisation de ces ressources varie très fortement d’un instant à l’autre et d’un canal à l’autre [Force, 2002; Zhao and Sadler, 2007].
L’idée originale de la radio cognitive est celle d’un système de communication intelligent qui détecterait les besoins des utilisateurs et fournirait les ressources radio et les services sans fil les plus appropriés en fonction des ressources disponibles [Mitola III and Maguire Jr, 1999]. La radio cognitive propose d’optimiser l’utilisation du spectre en exploitant de ma- nière ingénieuse la grande portion de bandes de fréquences inutilisée à chaque instant. Le but est de partager les bandes de fréquences attribuées (par licence) à des utilisateurs pri- maires avec d’autres utilisateurs, qui ne possèdent pas de licence. Ces seconds utilisateurs sont appelés utilisateurs secondaires ou utilisateurs cognitifs. En radio cognitive, ces derniers
identifient prudemment les ressources spectrales disponibles afin de communiquer en évitant de perturber le réseau primaire. Cet accès opportuniste aux ressources spectrales permet donc potentiellement d’améliorer de manière très significative l’efficacité du réseau.
La communication opportuniste sur bandes licenciées peut être modélisée par un processus de décision markovien partiellement observé (POMDP). Pour cause de limitations techniques et étant donné le coût énergétique de la surveillance du spectre, on admet que l’utilisateur secondaire ne peut pas observer l’état de toutes les bandes de fréquences simultanément [Lai et al., 2008; Liu and Zhao, 2008; Zhao et al., 2008]. Il doit alors sélectionner de manière adé- quate un ensemble de canaux, dont il observera la disponibilité. Nous nous intéressons dans ce travail à la politique d’écoute des canaux que l’utilisateur secondaire suit pour détermi- ner quels canaux observer à chaque instant. Dans un premier temps, nous nous limiterons au cas où l’utilisateur secondaire connaît les informations statistiques concernant le trafic des utilisateurs primaires. Nous suivrons une approche, similaire à celle proposée par [Bonet, 2002] pour les POMDP généraux, adaptée aux propriétés particulières du modèle de com- munication opportuniste. L’algorithme proposé permet de trouver une stratégie proche de la politique optimale dont la performance théorique peut être étudiée. Néanmoins, la complexité de cet algorithme croît de manière quadratique avec le nombre de canaux. Nous considérerons donc également des simplifications du problème initial qui peuvent être introduites afin de déterminer des politiques d’écoute proches de l’optimale même lorsque le nombre de canaux considérés est grand.
En pratique, les informations statistiques concernant le trafic dans le réseau primaire ne sont pas connues à l’avance par l’utilisateur secondaire. Celui-ci doit alors les estimer avant de rechercher la politique d’écoute optimale. Cette approche plus réaliste s’apparente à un problème d’apprentissage par renforcement dans un POMDP. Nous proposons un algorithme composé d’une première phase d’estimation des paramètres et d’une deuxième phase durant laquelle l’utilisateur secondaire suit la politique optimale pour les paramètres estimés. Cet algorithme original permet de gérer de manière optimale le compromis entre exploration et exploitation qui, dans ce cadre, se traduit par la détermination de la durée de la phase d’es- timation. En plus de résultats numériques encourageants, nous fournissons des garanties de performance théorique de l’algorithme en termes de borne de l’espérance du regret. Celles-ci sont similaires à celles connues jusqu’à présent dans le cas des modèles de bandits ou de MDP à espaces d’états et d’actions finis (voir section 1.3.2).
Ce chapitre est organisé de la manière suivante. Le modèle d’allocation de ressources spectrales, appelé dans la suite modèle d’allocation de canal, est décrit dans la section 2.2. Dans la section 2.3, plusieurs approches pour résoudre le problème de planification sont présentées. L’algorithme original d’apprentissage par renforcement que nous proposons est explicité dans la section 2.4. Cet algorithme est ensuite appliqué à un modèle d’écoute à un seul canal puis à un modèle d’allocation de canal lorsque les statistiques d’utilisation des utilisateurs primaires sont identiques.