Chaire Cyber CNI

Chaire Cyber CNI – Cybersecurity for Critical Networked Infrastructures

Léo LAVAUR’s intervention, Federated learning for defending Cyber-Attacks, in “La Méthode Scientifique” on France Culture

On Jan 26, 2022, Léo Lavaur presented his thesis work on Federated Learning for defending Cyber-Attacks in a science popularization program on French radio France Culture. Listen to the podcast here.

“La Méthode Scientifique” is a science popularization program on French radio. This program hosts a session for PhD student to present their work. Léo explains how machine learning helps intrusion detection, and how it can be collaboratively improved with Federated Learning to ensure privacy and quicker response time. Finally, he presents the work he has done with his literature review, and research directions for his future work at the chair.

Transcript (french)

Je suis doctorant en sécurité informatique et, au sein de la chaire, je travaille en particulier sur les sujets de la détection d’intrusion et des systèmes collaboratifs. Un exemple de système collaboratif peut être le traitement de texte partagé qu’on utilise entre collègues ou entre étudiants pour éditer à plusieurs un fichier unique. Moi, ce que j’essaie de faire, c’est appliquer ce principe à la détection d’intrusion. La détection d’intrusion, c’est le fait d’observer les caractéristiques d’un système (par exemple ces communications réseau) qui évoluent dans le temps et de chercher soit des motifs—comme des motifs des attaques connues—soit une déviation par rapport à un comportement nominal que l’on aurait défini au préalable.

Pour réaliser ces traitements, on utilise de l’apprentissage automatique dont l’objectif est de fournir un jeu donné un algorithme pour qu’il extraie lui-même les caractéristiques pertinentes et qu’il traduit en un ensemble de règles, qu’on appelle le modèle, et le que l’on peut utiliser pour faire de la détection d’intrusion ou de la classification. La plupart des algorithmes d’apprentissage automatique ont besoin de beaucoup de données, soit pour être exhaustif, soit pour être capable de s’adapter aux changements. Cela devient un problème lorsqu’ils sont exécutés localement sur des données capturées au sein du système d’informations.

Pour résoudre cette problématique, on utilise ce qu’on appelle des systèmes des de détection collaboratifs, qui permettent d’obtenir un modèle unique à partir des données de plusieurs clients. On a ici une intersection intéressante avec les thématiques de cette émission parce que le choix qui est souvent effectué, c’est le choix d’une architecture centralisée avec une machine distante qui reçoit les données des participants et qui effectue les traitements elle-même. Si on reprend l’exemple du traitement de texte, c’est ce qui se passe avec le fichier que vous avez produit qui reste détenu par Google Microsoft, et vous n’avez accès qu’à une vue sur ce fichier au travers de votre navigateur. Ce problème de centralisation a des impacts sur l’exposition des données : elles sont transmises entre le point de collecte et le point de traitements (risques d’interception et de divulgation) et cette communication induit de la latence, ce qui est un problème lorsqu’on veut un système réactif.

Là encore, pour pallier ces limites on utilise ce qu’on appelle de l’apprentissage automatique fédéré. L’objectif est de répartir les tâches d’apprentissage et de détection vers des agents locaux, ce qui veut dire qu’on supprime le transfert de données entre le point de collecte et de traitement. Les deux se font même endroit, on améliore ainsi la confidentialité et on réduit la latence. Pour garder l’aspect collaboratif, on ne va plus partager les données elles-mêmes, mais le résultat de l’apprentissage (donc les modèles dont je parlais tout à l’heure) et les fusionner grâce à des procédés mathématiques en un modèle unique, qui aura bénéficié de l’expérience de tous les participants. Cela permet par exemple aux entreprises de collaborer tout en se protégeant contre les fuites de données où l’espionnage industriel.

Ces technologies ont été appliquées sur les systèmes de détection d’intrusion à partir de 2019 environ et c’est dans ce contexte que mes travaux prennent place. Comme beaucoup de doctorants, j’ai commencé avec un état des lieux de ces systèmes : comparer les approches, ce qui existe, et les différentes stratégies. Mais puisque le domaine est émergeant, on a décidé d’aller un peu plus loin et de participer à sa structuration en proposant une architecture de référence, qui permet de conceptualiser de futurs systèmes fédérés, ainsi qu’une taxonomie pour les classer et les comparer sur des styles critères objectifs. Cet état de l’art a aussi produit des directions de recherche, à la fois pour nous pour identifier nos travaux futurs, mais aussi pour partager avec la communauté. Tout ceci a été synthétisé dans un article soumis dans une revue en novembre dernier.

Parmi les directions de recherche que nous avons sélectionnées, nous avons choisi de concentrer sur l’adaptabilité et le transfert de connaissances ; où comment s’assurer que l’apprentissage qui est fait chez un participant sera aussi pertinent chez les autres. Par exemple, comment est-ce qu’on transfère des connaissances entre ce qu’on a appris sur un système d’information bancaire, vers un système d’information industriel avec des chaînes de production et des automates.

L’autre point intéressant, c’est l’applicabilité en conditions réelles, parce que le passage du jeu de données de laboratoire standardisé vers un environnement réel n’est pas forcément facile. La Chaire CNI travaille depuis plusieurs années sur une plateforme de simulation qui permet de recréer des environnements réalistes et représentatifs de ce qu’on a en entreprise et qui vont nous permettre de valider nos hypothèses. À plus long terme, et là on va commencer à dépasser les échéances de ma thèse, l’objectif est de construire un observatoire collaboratif des menaces cyber qui permettrait d’enrichir les systèmes de détection des entreprises ou des organisations.

Léo Lavaur

Related Posts

Leave a Reply

Your email address will not be published.

This site uses Akismet to reduce spam. Learn how your comment data is processed.