Retour à tous les articles

La datascience à Pôle emploi

Publié le 21 December 2017

Savez-vous que Pôle emploi possède 2 Peta-octets de données ?

Savez-vous que Pôle emploi possède 2 Peta-octets de données ?

L’établissement a entrepris depuis cinq ans une transformation profonde de sa culture et de son offre de services. La valorisation des données est l’un des leviers dans la transformation digitale de Pôle emploi pour offrir des services toujours plus adaptés et rendre le marché du travail plus performant.

Sa mise en œuvre se caractérise à travers un socle Big Data, la pratique de la Datascience et l’impulsion d’une dynamique d’Open innovation, entre Pôle emploi et l’écosystème des start-up, des professionnels…  Avec notamment un projet d’ouverture d’un lac de données, le Datalake1, à des partenaires externes.

Nicolas Pineau, Product Owner de la DSI de Nantes de Pôle emploi nous parle un peu plus sur la Datascience à Pôle emploi.


La Datascience, c’est quoi ?

C’est le résultat du mélange de 3 grands domaines : l’expertise mathématique, la technologie et le business. Concrètement, cette science s’attache à extraire et à donner du sens à des ensembles de données en s’appuyant sur des outils mathématiques, statistiques ou encore des outils de visualisation. Il existe 3 niveaux de « valeur » de la Datascience qui sont traitées par le Maching Learning2 et le Deep Learning3 : la vue 360° des données (agrégation), vue prédictive d’une situation et la recommandation ou prescription d’actions.

Un datascientist est donc avant tout un explorateur de données mais aussi un détective doté d’une forme de créativité, capable de résoudre des problèmes complexes grâce à des algorithmes.

La Datascience à Pôle emploi ?

Solution 1 : Toutes les entreprises aujourd’hui misent sur l’utilisation de la data. Sa manipulation en grand volume est plus aisée, les usages plus pertinents.
Le Big Data est pour Pôle emploi une source évidente d’apport de valeur, les données sont stockées dans un Datalake. La Datascience permet d'identifier de nouveaux indicateurs pour améliorer des stratégies et des usages  en se basant sur de la data.

Un autre volet porte aussi sur la création d’algorithmes de recommandation qui se basent sur l’analyse des données que possède l’entreprise pour suggérer aux utilisateurs des parcours ou des services personnalisés, par exemple :

-    un ou plusieurs métiers dans le cadre d’une reconversion
-    l’analyse de parcours gagnants pour proposer les formations adaptées
-    des services de l’Emploi Store, adaptés aux besoins de l’internaute suite à un auto-diagnostic
-    un moteur de recommandation partagé entre conseiller et le demandeur d’emploi qui permettra de suggérer des pistes de travail et d’actions

Dernier cas, la Datascience permet également de lutter contre la fraude aux offres d’emploi en analysant les millions d’offres stockées dans le Datalake pour identifier les critères de risque de fraude.

Focus sur l’algorithme Emploi Store

M2R-1.pngDepuis la rentrée, un moteur de recommandation a été intégré sur l’Emploi Store. L’objectif est d’utiliser les données de navigation des utilisateurs pour recommander des services, de la même manière que les sites marchands vous proposent des produits en fonction des comportements des autres utilisateurs.
Le système est dit auto-apprenant (machine learning) car chaque jour les comportements des utilisateurs sont récupérés pour enrichir l’algorithme.

Mais comment se construit un algorithme de ce type ?

•    La 1ere phase est la préparation des données : il faut les récupérer dans le Datalake, les mettre en forme, les agréger et calculer des indicateurs : c’est le travail du data analyst. Cette longue phase de préparation des données est essentielle et nécessite une bonne connaissance fonctionnelle générale.

•    Un algorithme est ensuite créé par les datascientists et implémenté sur l’Emploi Store. Monter un algorithme de ce type fait donc intervenir des data analysts, datascientists, développeurs web, le tout développé en mode Scrum avec un Product Owner. Des démonstrations régulières sont ainsi faites aux équipes de l’Emploi Store.

02_Schéma de regroupement de données.png  data01.png

Schéma de regroupement de données (clustering)                 Schéma d’un arbre de décision                

 

L’algorithme auto apprenant sous surveillance !

Il faut garder à l’esprit04_abtesting.png que les algorithmes peuvent se tromper, il faut alors recueillir les informations permettant l’amélioration du modèle utilisé, pour que le système apprenne de ses erreurs et s’améliore (machine learning). En effet, par définition les recommandations sont fluctuantes car elles sont basées sur des données qui évoluent tous les jours. Certaines peuvent ne pas être pertinentes : la difficulté est ici de tester et vérifier. Impossible de prévoir un plan de test figé.
La solution a donc été de mettre en place une interface de  « A/B/C Testing »  permettant aux équipes de Pôle emploi de comparer la pertinence des résultats  grâce à au nouvel algorithme et de doser le poids du maching learning.
4 algorithmes sont proposés dont un utilisant la méthode de pondération TF-IDF4

Si l’utilisateur clique sur un des produits recommandés, alors cela signifie que la recommandation est pertinente : c’est l’analyse de ces « retours utilisateurs » qui permet au modèle d’apprendre et de s’améliorer.
Un système de monitoring a été mis en place pour détecter les décrochages : si on constate que les utilisateurs cliquent de moins en moins sur les produits recommandés, une alerte peut être déclenchée. Les datascientists interviennent alors pour analyser et modifier le modèle si nécessaire.


Dans les prochaines années, ces 2 Peta-octets de données seront de plus en plus analysées pour continuer à enrichir les services, portails ou sites Internet de Pôle emploi et ainsi améliorer l’expérience utilisateur.
Tout un programme !

 

 


---------------------------------------------------------

1 Datalake : référentiel de données permettant de stocker des données brutes dans le format natif accessible en lecture seule qui doit être la source de données de référence utilisée par les autres applications de traitement de données.
2 Maching Learning : Appelé également « apprentissage automatique » ou « apprentissage statistique » – regroupe la conception, l’analyse, le développement et l’implémentation de méthodes permettant à une machine de remplir des tâches et d’apprendre  à l’aide d’algorithmes en utilisant le big data
3 Deep learning : appelé “apprentissage profond” est un sous-domaine du Machine Learning et un ensemble de méthodes d'apprentissage automatique tentant de modéliser avec un haut niveau d’abstraction des données grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.
4 TF-IDF : permet d'obtenir un poids, une évaluation de la pertinence d'un document par rapport à un terme, en tenant compte de deux facteurs : la fréquence de ce mot dans le document (TF) et le nombre de documents contenant ce mot (IDF) dans le corpus étudié

 

Commentaire