Méthodologie

L’OSINT vecteur de renseignement sur la menace cyber, du recueil d’indicateurs à l’attribution

9 min

Le renseignement sur la menace cyber est le produit d’une démarche d’identification, d’analyse et de traque des attaques et menaces informatiques. Il s’agit d’obtenir des informations notamment techniques, qui aident les organisations à prendre des décisions et améliorer leurs capacités de défense. C’est une approche "multi-sources" : plus les sources exploitées sont nombreuses et complémentaires, plus le potentiel de renseignement est grand.

Les sources ouvertes sont bien sûr exploitées dans ce cadre. Elles présentent des avantages notables : elles sont denses, actualisées régulièrement, accessibles simplement, à moindre coût et rapidement. Leur hétérogénéité [1] peut exiger des efforts d’acquisition, de normalisation et de traitement technique avant toute exploitation. L’avènement du traitement systématique des données à grande échelle ("data-driven", "big-data") conduit néanmoins de nombreuses organisations à exposer du contenu via Internet et à le rendre accessible à des machines ("API"), facilitant cette exploitation.

Dans l’ensemble vertigineux de données qu’offrent ces sources ouvertes, quels renseignements peut-on puiser sur la menace cyber, et dans quelle mesure peuvent-ils être utiles à l’identification des acteurs de la menace ?


Types de sources ouvertes utiles pour le renseignement

Outre l’ensemble des contenus conventionnels susceptibles d’être exposés sur Internet [2] à dessein par leurs producteurs ou auteurs (sites Web, publications scientifiques, livres numérisés, documents techniques, photographies ou vidéos, etc.), les sources ouvertes qui présentent un intérêt particulier pour notre cas d’usage peuvent être distribuées selon 3 catégories principales :

  • les sources "sociales" : toute forme de réseaux sociaux (forums, messageries, X/Twitter, etc.). Elles véhiculent des informations variées, non structurées, mais fournissent également des informations sur des individus et organisations (profils) ainsi que leurs liens (interactions) ;
  • les sources "techniques" : bases de données structurées, mises à disposition publiquement (souvent à titre onéreux et via un service), dont la consommation automatique ou l’intégration sont en général facilités. On recherchera en particulier celles qui offrent un intérêt spécifique en matière de cybersécurité (indicateurs de compromission - IOC ; fichiers ou URLs malveillants, eg. MalwareDB, VirusTotal, URLScan ; résultats de scans d’adresses Internet, eg. Censys, Shodan, Onyphe ; données d’archive et métadonnées sur les noms et addresses Internet, eg. WHOIS, Farsight DNSDB, RiskIQ, Validin, ou encore flux statistiques sur les communications réseau, eg. Pure Signal), même si d’autres peuvent aussi répondre à un besoin (offres d’emploi, status de sociétés, appels d’offres, dépôts de codes sources informatiques, etc.) ;
  • les sources "grises" : données plus ou moins structurées qui n’avaient pas vocation à être rendues publiques. C’est le cas des fuites de données ("leaks") obtenues illégalement (par exemple dans le cadre d’attaques informatiques) mais mises à disposition sur Internet, ou encore de données d’administration (journaux, statistiques, accès directs à des bases de données, etc.) laissés en libre accès sur Internet par erreur.

Ces sources et les contenus génériques exposés via Internet peuvent par ailleurs être rendus accessibles à travers deux principaux types de canaux distincts :

  • le "contenu Internet indexé" : données exposées directement sur Internet, dont l’existence peut être révélée par un annuaire ou outil de recherche (eg. Google, Internet Archive, moteur de recherche X/Twitter, index d’archive numérique, etc.) ;
  • le "contenu Internet alternatif" : données exposées sur Internet mais non indexées par des outils de recherche conventionnels ("Deep Web"), ou exposées à travers des systèmes de communication tiers (surcouches, eg. Tor) qui nécessitent l’utilisation d’outils de navigation spécifiques (parfois nommé "Dark Web" ou "Dark Net").

Usages courants des sources ouvertes

Dans notre cas, l’usage le plus courant des sources ouvertes consiste à recueillir des IOC ou scores de réputation, qui permettent ensuite aux analystes de constituer des collections propres, d’assurer des détections d’attaques informatiques, de mieux qualifier ces dernières, d’élaborer des heuristiques de recherche ou encore d’entraîner des modèles experts ("machine-learning", IA). De nombreuses sources techniques fournissent des données qualifiées qui peuvent être consommées et exploitées directement par des systèmes automatisés. Les données ainsi recueillies peuvent être enrichies et croisées avec d’autres sources techniques, ouvertes ou non. L’exploitation des sources sociales ou du contenu Internet indexé à cette fin est souvent plus complexe, en raison de leur présentation non structurée. Le développement des algorithmes et outils de traitement du language naturel (LLM) permet aujourd’hui d’extraire automatiquement des données techniques du contenu littéraire (rapport d’analyses d’attaques par exemple) ou d’échanges sociaux.

Parmi les autres usages courants, on peut également évoquer l’investigation ("pivot") : à partir d’un IOC, il s’agit d’exploiter des sources techniques pour identifier des liens, puis de nouveaux indicateurs exclusifs qui permettront à leur tour d’anticiper ou de détecter des attaques. C’est ce que nous faisons couramment lorsque nous étudions une menace, et cette tactique nous permet d’améliorer continument la connaissance d’une infrastructure malveillante exploitée par des attaquants. Par exemple, tout début 2024, l’étude des caractéristiques d’un routeur compromis (désigné comme exploité par APT28 par le gouvernement Ukrainien) et d’une source ouverte technique nous ont permis d’identifier puis de partager les adresses de milliers d’autres routeurs compromis de la même façon. Plus récemment et de la même façon, nous avons pu découvrir la création d’infrastructure de désinformation qui aurait certainement pu être exploitée ultérieurement contre la France.

Les sources sociales en particulier sont aussi exploitées par des analystes à des fins de veille. Elles permettent de s’informer sur de nouvelles attaques ou vulnérabilités, qui sont autant de sources d’inspiration et de recherche pour la détection de menaces. Ces sources sociales peuvent également être le vecteur de signaux faibles et témoignages d’utilisateurs ("crowdsourcing") révélant le début d’un incident informatique ou confirmant son ampleur, comme les plaintes d’utilisateurs français du fournisseur NordNet lors de l’attaque des modems ViaSat en Février 2022, ou plus récemment les premiers symptômes de la panne causée par CrowdStrike.

Utilité des sources ouvertes pour identifier les acteurs de la menace

Les usages les plus courants de sources ouvertes sont spécialisés, techniques, et permettent en retour le recueil de nouvelles données techniques. Mais ces sources peuvent également appuyer une attribution d’attaques informatiques - c’est à dire permettre d’identifier les organisations ou individus qui contribuent à des attaques informatiques ; et fournir ainsi des renseignements stratégiques.

Les données exfiltrées fournies par les sources grises présentent souvent des informations utiles à l’attribution. Par exemple, une fuite de documents chinois en Février 2024 contenait une adresse réseau qui a permis rétrospectivement d’attribuer les attaques informatiques "Poison Carp", qui ciblaient la communauté tibétaine, à la société chinoise "I-Soon". En 2016, des fuites de données exposées en 2015 et contenant des documents de présentation de l’outil "Pegasus" de la société "NSO Group" avaient permis d’attribuer une attaque informatique contre un dissident aux Emirats Arabes Unis. Dès 2013, les données récupérées par Edward Snowden avaient déjà permis d’attribuer des attaques informatiques visant l’Europe à la NSA américaine.

Les sources techniques contiennent des données utiles à l’attribution tout aussi précieuses. En 2015, des enregistrement publics de noms Internet avaient ainsi permis de déterminer que le "CyberCaliphate", prétendument affilié à l’organisation terroriste ISIS et responsable des attaques informatiques contre TV5Monde, était en fait certainement un faux-nez des services de renseignement militaires russes. De tels enregistrements de noms ont également trahi à plusieurs reprises d’autres acteurs malveillants, et combinés à des informations présentées sur des réseaux sociaux, permettent même régulièrement d’identifier des individus contribuant aux attaques informatiques, comme le cas de "M. WU", membre du groupe chinois "APT3", identifié en 2017. En 2022, une société autrichienne commercialisant des services d’attaques informatiques avait été trahie par une infrastructure de test d’attaques hébergée en son nom sur Internet. L’analyse des outils déployés par cette société m’avait alors même permis d’identifier l’auteur d’un code malveillant : des noms rares présents dans les outils existaient également dans le code source rendu public qu’avait publié un individu sur Internet.

Les informations utiles à l’attribution et disponibles en sources ouvertes ne sont parfois pas suffisantes seules, et ne sont utiles qu’en complément d’information privées. Par exemple en 2018, il avait été possible d’attribuer des attaques informatiques ciblant des téléphones mobiles à un service de renseignement libanais. C’est la combinaison d’information privées obtenues par une société de sécurité sur des téléphones mobiles, et d’informations de géolocalisation de points d’accès WiFi disponibles en sources ouvertes, qui avait permis d’associer les premiers tests des outils d’attaques à un bâtiment gouvernemental.

Ironiquement, les sources ouvertes sont exploitées par les attaquants pour préparer ou conduire des attaques informatiques : sur le territoire de l’OSINT au moins, les attaquants et défenseurs jouent à armes égales.


[1] Les sources ouvertes constituent un ensemble global "non structuré", c’est-à-dire dont le format varie et peut être localement indéfini.

[2] On ignore volontairement par la suite l’ensemble des sources ouvertes exclusivement exposées sur supports physiques (bibliothèques, archives, registres, etc.). Bien que susceptibles d’être exploitées, le rapport intérêt/difficulté est trop souvent défavorable dans notre cas d’usage face aux sources accessibles depuis Internet. La tendance consiste d’ailleurs à numériser puis exposer sur Internet ces sources physiques.