• Sonuç bulunamadı

TEKNOLOJİ, SOSYAL MEDYA; FAYDALI MI ZARARLI MI ?

YUSUF AKYOL FELSEFE ÖĞRETMENİ

Les performances de CRAFTML sont meilleures que celles de PD-Sparse à l’exception de WikiLSHTC-325K. Elles sont équivalentes à celles de SLEEC mais il y a une légère do- mination de CRAFTML sur les quatre plus grands jeux de données. De plus, CRAFTML est plus rapide que SLEEC et que PDSparse excepté sur le jeu de données AmazonCat- 13K. Les spécificités de ce jeu de données - un petit nombre de labels et un grand nombre d’instances- favorisent PDSparse. La taille du modèle CRAFTML est inférieure à celle de SLEEC -sauf pour WikiLSHTC-325K-, mais elle est supérieure à celle de PDSparse : 1,2 fois pour EURLex-4K, 1,98 fois pour WikiLSHTC-325K, 93 fois pour Delicious-200K et 45 fois pour Amazon-13K. Avec un seuil appliqué sur ses paramètres après l’entraîne- ment, la taille finale du modèle PDSparse est très faible, mais PDSparse nécessite une grande quantité de mémoire pendant l’entraînement ; par exemple : il ne peut pas être

entraîné sur l’ensemble de données Amazon-670K avec 100 Go de mémoire [2]. La com- paraison avec AnnexML est plus sensible car son temps d’apprentissage et la taille de son modèle ne sont pas publiés pour une implémentation sur un coeur. Les performances publiées montrent que CRAFTML est proche de AnnexML, sauf pour Amazon-670K et WikiLSHTC-325K. Mais pour ce dernier, le temps d’apprentissage d’AnnexML (4 heures) uniquement mentionné pour une implémentation à 24 coeurs suggère que CRAFTML est plus rapide (1.5 heure sur une machine à 5 coeurs).

4.3

Comparaison avec les méthodes parallèles (DISMEC, PPD-

Sparse)

Les résultats des modèles linéaires DISMEC et PPDSparse reportés dans les tableaux 5.2 et 5.3 ont été obtenus sur une machine à cent coeurs. Rappelons que le modèle DISMEC a été spécialement conçu pour la parallélisation et qu’il est inapplicable sur une machine monocoeur. Les résultats de CRAFTML CRAFTML ont eux été obtenus sur une machine monocoeur. Les conclusions de la comparaison sont mixtes et dépendent du jeu de données. Les jeux de données WikiLSHTC-325K et Amazon-670K semblent favoriser les deux approches basées sur un modèle linéaire par rapport à CRAFTML mais aussi toutes les autres méthodes arborescentes.

Pour la plupart des jeux de données, la taille du modèle CRAFTML est inférieure à celle de DISMEC et PPDSparse. Le temps de prédiction de CRAFTML obtenu sur une machine monocoeur est souvent inférieur à celui de DISMEC et de PPDSparse obtenu sur machine à cent coeurs. Son temps d’apprentissage est également inférieur à celui de DISMEC pour les grands ensembles de données et similaire pour les plus petits mais supérieur à celui de PPDSparse. En outre, nous avons mesuré les gains de temps de CRAFTML avec une machine à cinq coeurs. Dans ce cas, le temps d’apprentissage de CRAFTML est inférieur à celui de DISMEC pour tous les jeux de données et à celui de PPDSparse pour Delicious-200K. Et, il se rapproche du temps d’apprentissage de PPD- Sparse pour Amazon-670K. Par conséquent, avec seulement cinq coeurs, CRAFTML est compétitif avec les meilleures approches parallélisées. Plus important encore, son facteur d’accélération d’environ quatre entre une implémentation monocoeur et cinq coeurs et sa faible complexité de temps d’apprentissage/prédiction nous permet d’envisager être en moyenne plus rapide que PPDSparse sur un supercalculateur comparable.

5

Conclusion

Notre nouvelle méthode d’apprentissage multi-label extreme CRAFTML est compéti- tive avec les autres méthodes arborescentes avec une implémentation sur un seul coeur et elle est compétitive avec PPDSparse, même avec une implémentation parallèle restreinte.

Contrairement à la plupart des méthodes XML actuelles, CRAFTML ne s’appuie pas sur un schéma d’optimisation complexe. Il combine des blocs d’apprentissage simples et rapides (par exemple un clustering avec k-means, un classifieur multi-classe très naïf) ce qui permet d’envisager des extensions pour atteindre les performances requises par les défis sociétaux et techniques actuels [233]. Avec la dimension croissante des données, l’apprentissage automatique recourt de plus en plus aux supercalculateurs. Mais cet accès est loin d’être disponible partout aujourd’hui et son coût va fixer des limites à l’avenir. Par conséquent, (i) des algorithmes d’apprentissage machine économes en ressources et évolutifs sont nécessaires pour favoriser la démocratisation des nombreuses applications du monde réel qui dépendent encore du calcul standard. En contraste, le cloud computing [234] et le développement croissant des supercalculateurs [235] nécessitent également (ii) des méthodes qui exploitent pleinement les ressources de calcul disponibles en étant, en particulier, facilement parallélisables. CRAFTML s’inscrit dans les deux cadres (i) et (ii).

Chapitre 6

Applications

Sommaire

1 Introduction . . . 103

2 VIPE : un outil interactif pour l’apprentissage multi-label

sur des messages courts . . . 104

3 Tests applicatifs sur CRAFTML . . . 109

1

Introduction

L’apprentissage multi-label a de nombreuses applications dans des domaines variés comme la vision par ordinateur [1][21], la compréhension de textes [22][23] ou la santé [24][25]. Dans cette thèse, menée dans le cadre d’un contrat CIFRE en partenariat avec le groupe Orange, nous nous sommes intéressés en particulier à l’analyse d’opinions pour le marketing. Nous avons également récemment mené des analyses exploratoires sur des données textuelles.

Dans la première partie du chapitre, nous présentons un outil interactif d’apprentissage multi-label, appelé VIPE (« Visual Interactive and Personalized Exploration of data »), et utilisé au sein du groupe Orange pour l’analyse d’opinions. Basé dans sa première version sur un algorithme de factorisation rapide de matrice, il permet à un utilisateur d’importer des textes courts (tweets, mails, enquêtes, ...), de définir des labels d’intérêts (« client globalement satisfait », « évoque la rapidité du débit »,...) et de proposer pour chaque texte des recommandations de labels et pour chaque label des recommandations de textes. Les dernières contributions algorithmiques de cette thèse pour permettre l’apprentissage multi-label extrême n’ont pas encore été intégrées mais leur exploitation est prévue dans un avenir proche pour rendre l’outil plus performant.

CRAFTML. La première consiste à évaluer sa capacité à traiter des problèmes de compré- hension de textes, reformulés comme des problèmes d’apprentissage multi-label extrême. La deuxième consiste en l’extension de CRAFTML vers le paradigme multi-classe.

2

VIPE : un outil interactif pour l’apprentissage multi-