INTELLIGENCE ARTIFICIELLE

Détection des malwares : une approche innovante basée sur le Deep Learning

6 min

Hibou est un module de détection de fichiers malveillants basé sur le Deep Learning. Ce module fonctionne sur les fichiers exécutables Windows (fichiers PE) et donne, pour chaque échantillon, un « score de malveillance ». Cette méthode de Deep Learning à l’état de l’art appliquée à la détection des fichiers malveillants est désormais intégrée à l’EDR d’HarfangLab.

Comment le Deep Learning améliore la détection de malwares

Deep Learning et règles classiques : une approche complémentaire

Les approches du Deep learning s’ajoutent à d’autres techniques, comme des méthodes de Machine Learning et des approches plus classiques basées sur des règles et signatures. Lorsque ces dernières analysent en profondeur des caractéristiques spécifiques des fichiers, les solutions de Deep Learning vérifient la forme générale du binaire dans son intégralité pour formuler une prédiction. Le Deep learning ne s’appuie pas sur des caractéristiques, mais les calcule implicitement. Ceci lui permet d’obtenir une perspective différente sur les fichiers exécutables, que les autres techniques n’ont pas, et qui le rend pertinent pour compléter les prédictions qu’elles formulent.

Par ailleurs, comme les méthodes de Deep Learning produisent des prédictions depuis la structure générale des fichiers, elles présentent une capacité de généralisation leur permettant de détecter des menaces jamais encore observées.

Aussi, dans l’EDR d’HarfangLab, des méthodes de Deep Learning enrichissent les prédictions des règles classiques, des approches basées sur les signatures, ainsi que d’autres approches fondées sur le Machine Learning.

Comment Hibou améliore les capacités de détection de notre EDR

En tant que composante du module HL-AI-Binaries d’HarfangLab qui procède à des opérations d’analyse de fichiers et de détection de fichiers malveillants, Hibou tourne directement sur les endpoints protégés par l’EDR, ce afin d’identifier et bloquer les menaces. Les fichiers malveillants sont rapidement repérés (en moins de 200 millisecondes) et immédiatement bloqués, avant qu’ils ne soient exécutés.

Outre cette rapidité, l’un des avantages présentés par Hibou est sa capacité de remplir ses fonctions complètement hors-ligne, en consommant peu de mémoire. Les alertes identifiées par Hibou sont centralisées au sein du module HL-AI-Binaries et agrégées depuis les endpoints pour faire l’objet de plus d’analyses.

Hibou : chiffres clés

Nous avons évalué la performance de détection d’HL-AI-Binaries, avec et sans Hibou. Cette évaluation concerne 10 000 fichiers malveillants et 10 000 fichiers bénins. Ces fichiers s’intègrent dans un sous-ensemble d’une base de données d’HarfangLab contenant plusieurs millions de fichiers. Les fichiers malveillants sont ceux identifiés comme les plus critiques dans l’ensemble de données.

Nous avons d’abord constaté qu’Hibou repère des fichiers malveillants qu’HL-AI-Binaries ne détecte pas sans lui. Sur les 10 000 fichiers malveillants évoqués plus haut, trois fois moins ne sont pas détectés par la combinaison HL-AI-Binaries/Hibou : leur nombre baisse de 77 à 25 (soit, de 0,0077 % à 0,0025 % de malwares non détectés).

Nous constatons aussi l’absence d’une barre pour indiquer le nombre de faux positifs pour l’association HL-AI-Binaries/Hibou. Autrement dit, les détections de fichiers malveillants critiques remontées par cette combinaison d’outils sont toujours de vrais fichiers malveillants, jamais de fausses alertes !

Le graphique ci-dessous présente les types de fichiers malveillants détectés par HL-AI-Binaries avec et sans Hibou.

L’illustration ci-dessus souligne l’éventail des fichiers détectés avec Hibou, en particulier les fichiers de type miners et backdoors. Il est important de préciser que les données sont représentées sous forme de pourcentage et que les barres sont classées par nombre de fichiers malveillants en fonction de leur type. Les ransomwares comptent pour la majorité des malwares dans le sous-ensemble analysé ; les miners sont quant à eux moins nombreux.

Hibou : mode de fonctionnement

Maintenant que vous êtes convaincus de la pertinence de Hibou pour la détection de fichiers malveillants dans l’EDR HarfangLab, nous allons détailler la méthode utilisée par Hibou.

Avec les réseaux de neurones convolutifs (Convolutional Neural Networks – CNN), le domaine de la vision par ordinateur a connu des percées d’envergure ces dernières années pour le traitement et la classification des images. Hibou tire parti de ces progrès dans le domaine de la cybersécurité en analysant les fichiers exécutables exactement comme s’il s’agissait d’images (comme évoqué dans un article de McAfee).

À cette fin, Hibou convertit d’abord le fichier en image en considérant directement les octets bruts du fichier et en les interprétant en une représentation semblable à une image. Cette représentation est alors donnée en entrée à un CNN conçu pour distinguer les images en fonction de leur nature malveillante ou légitime.

L’architecture de Hibou a été conçue en utilisant le mécanisme au cœur de l’une des plus célèbres architectures CNN, Xception (créée par François Chollet, un chercheur français). Nous avons modifié et optimisé cette architecture spécifiquement pour la détection de fichiers malveillants. Par ailleurs, l’architecture sélectionnée a fait l’objet d’un entraînement et d’une évaluation sur un ensemble de données de plusieurs millions de fichiers détenu par HarfangLab.

Avec cette architecture de réseau neuronal, Hibou et l’approche de Deep Learning basée sur les images ont prouvé leur efficacité une fois appliqués à des scénarii réels. Il s’agit d’une couche de détection supplémentaire efficace.

Et par la suite ? De plus amples recherches sur Hibou sont envisagées, comme l’amélioration de la représentation de l’image. Comment ? En optimisant l’interprétation d’une séquence variable unidimensionnelle (octets) vers une matrice bidimensionnelle fixe (image), voire même en concevant directement des réseaux de neurones convolutifs unidimensionnels.