Vie de l'équipe

Soutenance de thèse de Mina Rafla

par Mina Rafla

Europe/Paris
S3 102 (Sciences 3)

S3 102

Sciences 3

Description
"A Bayesian Apprοach fοr Uplift Μοdeling: Applicatiοn οn Biased Data". 
 
  • Mme AMER-YAHIA, Sihem - Directrice de recherche, Université de Grenoble Alpes (Rapporteur)
  • M. JAROSZEWICZ, Szymon - Professeur, Institue of Computer Science, Polish Academy of Sciences (Rapporteur)
  • M. GUNS, Tias - Professeur, KU LEUVEN (Membre du jury)
  • M. LERAY, Philippe - Professeur des universités, Université de Nantes (Membre du jury)
  • Mme LESOT, MARIE-JEANNE - Professeure des universités, Sorbonne Université (Membre du jury)
  • M. CREMILLEUX, Bruno - Professeur des universités, Université de Caen Normandie (Directeur de thèse)
  • M. VOISINE, Nicolas - Ingénieur de recherche, Orange Innovation (Encadrant de thèse)
 
Résumé:
La modélisation de l'uplift vise à estimer l'impact d'un traitement, comme une campagne marketing ou un médicament, sur le comportement d'un individu. Cette approche est très utile dans de nombreuses applications, comme la médecine personnalisée et la publicité, car elle permet de cibler la sous-population sur laquelle le traitement aura le plus grand impact. La modélisation de l'uplift est une tâche ardue car les données disponibles ne sont que partiellement connues (pour un individu, les réponses aux traitements alternatifs ne peuvent pas être observées). Cette thèse, réalisée en collaboration avec la société française de télécommunications Orange, est une contribution au domaine de la modélisation de l'uplift. Plus précisément, elle traite de trois défis majeurs rencontrés dans toute approche de modélisation d'uplift: 1- La paramétrisation des algorithmes existants. 2- Le biais des données. 3- La haute dimensionalité des données.

 
Cette thèse répond à ces défis en définissant une approche bayésienne sans paramètre utilisateur pouvant être appliquée à une variété d'algorithmes d'uplift. Nous introduisons d'abord une approche de discrétisation bayésienne de l'uplift pour le prétraitement des données. Nous l'étendons ensuite à la sélection des variables. Nous montrons que les méthodes que nous proposons pour la transformation et la sélection de variables sont efficaces pour la modélisation de l'uplift. Puis, nous présentons une méthode sans paramètre utilisateur de construction d'un nouvel arbre de décision. Cette méthode, appelée UB-DT, transforme le problème d'apprentissage de l'arbre de décision en un problème d'optimisation, avec pour objectif de trouver l'arbre de décision le plus probable sachant les données. De plus, nous étendons UB-DT aux forêts aléatoires et démontrons sa performance par des évaluations expérimentales. Nous répondons au défi du biais de sélection en concevant un protocole expérimental de simulation sous contrôle de jeux de données biaisés selon le biais de non affectation aléatoire. Cette démarche nous a permis de tester rigoureusement nos méthodes ainsi que les solutions existantes de l'état de l'art face à ce type de biais et de mieux déterminer lesquelles employer face à ce type de biais. Enfin, nous avons évalué nos méthodes en les confrontant à des jeux de données télécom réels. Chaque méthode a été évaluée de façon individuelle et dans le cas d'une chaîne de traitement d'un problème d'uplift. Nous avons implémenté toutes nos approches proposées dans une nouvelle bibliothèque Python nommée 'Kuplift' que nous présentons.