Software Heritage et Scikit-learn, ou la « bibliothèque d’Alexandrie » du code supply

Les musées conservent les peintures, les bibliothèques les livres, « mais où sont les codes sources des logiciels sur lesquels désormais tout repose ? », interroge Roberto Di Cosmo, professeur d’informatique détaché à l’Institut national de recherche en sciences et technologies du numérique (Inria). Pour répondre à cette question devenue essentielle, Inria a lancé, en 2016, l’initiative Software Heritage, aujourd’hui dirigée par l’informaticien. L’ambition de ce projet d’« archive ouverte » est de « collecter, préserver et partager tous les logiciels disponibles publiquement sous forme de code source », est-il annoncé sur le site Internet du projet.

En moins d’une décennie d’existence, Software Heritage a collecté quelque 22 milliards de codes correspondant à 340 millions de projets. « Le volume double à peu près tous les deux ans », affirme Roberto Di Cosmo. Collectés et vérifiés par des automates, ces codes sont très utiles au monde de la recherche pour la science ouverte, qui consiste à rendre accessibles à tous les données et les résultats des travaux menés.

Ils jouent également un rôle de cybersécurité, car ils constituent une référence standardisée permettant la vérification de l’intégrité des codes, d’en identifier les premiers auteurs, etc. Et, surtout, ils servent à présent à l’entraînement des modèles de langage, si précieux pour les outils d’intelligence artificielle (IA).

Il vous reste 52.28% de cet article à lire. La suite est réservée aux abonnés.