Si les diverses catastrophes en devenir, à commencer par le réchauffement climatique, laissent exister une humanité dans plusieurs siècles, que lui restera-t-il de l’informatique contemporaine – hormis peut-être des montagnes de déchets? Il est probable qu’à cette lointaine échéance, nos descendants cherchent parfois à faire fonctionner tel ou tel artefact de nos 20e et 21e siècles. Mais comment s’y prendre, avec des logiciels depuis très longtemps dépassés? C’est là qu’entrera en jeu un des projets les plus étonnants (un cas d’utopie réalisée à la Wikipédia) du numérique, Software Heritage.
Un catalogue universel
Cet énorme projet de collecte et d’archivage des codes sources, «l’Internet Archive du code source», était lancé en novembre 2016 par l’Inria (Institut national de recherche en sciences et technologies du numérique) après plus de deux ans de préparatifs.
Avec un triple objectif, indiquait son fondateur et PDG Roberto Di Cosmo: constituer un catalogue universel de tous les codes sources de tous les logiciels, leur archivage universel pour les préserver, et une infrastructure de recherche pour permettre l’analyse.
Pour marquer sa première demi-décennie, Software Heritage organise un événement au siège de l’Unesco à Paris mardi 30 novembre. Ce sera l’occasion de faire un point d’étape, et de mettre en avant trois sujets: la science ouverte – l’Unesco vient d’adopter une recommandation sur l’Open Science -, le rôle de la préservation de la culture et de l’enseignement des compétences numériques, et l’innovation pour l’industrie et l’administration.
L’événement, mardi matin, sera sur les réseaux sociaux avec le mot-dièse #SWH5YEARS, et retransmis en direct sur le site de l’Unesco. L’organisme lance aussi, pour la première fois, un appel aux dons pour #GivingTuesday.
Aux origines: le constat d’un manque dangereux
En février 2019, dans l’émission Libre à vous (transcription là), son créateur expliquait le concept de Software Heritage, en faisant le parallèle avec Internet Archive. «Comme informaticien je pense toujours au futur, on est toujours projeté vers le futur, on a du mal à se confronter avec l’idée de perdre, de disparition, de mort, d’échec, de perte d’informations. Donc on ne réfléchit pas trop, on est toujours dans la dynamique de construire des choses nouvelles, mais après, si on se pose un instant, on se rend compte qu’il y a énormément de cette connaissance, énormément de logiciels qu’on a construits, de codes sources qu’on a écrits qui sont en réalité en danger; personne ne s’occupe vraiment de les préserver, de les protéger, de les indexer, de les rendre facilement disponibles.»
«Ce qui manquait dans le panorama, c’était une plateforme qui fasse vraiment l’archivage de ces logiciels. Donc c’était vraiment quelque chose qui manquait et, en regardant un peu plus, on s’était rendu compte qu’effectivement il y a plein de logiciels, il y a plein de codes sources de logiciels qui sont disponibles; cela dit, on n’a pas un vrai catalogue. Ils sont éparpillés sur plein de ces autres plateformes, soit sur les plateformes de développement, soit sur les plateformes de distribution, on ne sait pas où chercher. Donc la meilleure approche, en général, c’est un moteur de recherche, demander à un copain à la machine à café: où est-ce que je trouve telle librairie, telle bibliothèque pour faire telle application. Finalement on a découvert qu’il n’y avait pas d’archive.»
Sur les risques de disparition du code source, Roberto Di Cosmo rappelait deux fermetures de plateformes d’archivage annoncées en 2015: Gitorious, après son rachat par GitLab, et Google Code, deux secousses qui ont montré a contrario l’importance de pouvoir compter sur un archivage pérenne.
«La troisième chose qu’on avait observée c’est qu’effectivement aujourd’hui, non seulement le logiciel est au cœur de toute la transformation numérique de notre société, mais le logiciel libre est au cœur des logiciels qui transforment notre société. Presque toutes les entreprises utilisent du logiciel libre de façon massive encore aujourd’hui, donc il est devenu super important, par exemple, de se doter d’une plateforme qui permette d’analyser systématiquement le code source de ces logiciels pour essayer de repérer les erreurs, les vulnérabilités, rendre plus facile l’analyse des codes, aider les développeurs à mieux réutiliser leurs codes, etc. Pour ça on a besoin d’une plateforme commune qu’on n’a jamais réussi à construire avant.»
Microsoft, soutien rapide…
Software Heritage a connu une belle croissance durant ces cinq premières années: en septembre 2021, l’organisation – qui compte à présent une quinzaine de personnes – indique dépasser 11 milliards de fichiers sources issus de 160 millions de projets de logiciels, ce qui en fait déjà la plus grande collection de code source jamais créée.
L’organisation compte plusieurs sponsors, organismes publics (CNRS, Université de Paris…) et entreprises, dont… Microsoft, qui fut un des premiers acteurs industriels partenaires. Roberto Di Cosmo, qui publia en 1998 «Piège dans le cyberespace», puis, avec la journaliste Dominique Nora, «Le hold-up planétaire: la face cachée de Microsoft», un virulent essai contre l’entreprise alors dirigée par Bill Gates, l’évoquait en février 2019:
«On avait contacté, je ne vais pas donner les noms, mais un certain nombre d’acteurs, même des grandes entreprises qui utilisent massivement du logiciel libre, même des grands acteurs industriels du logiciel libre, mais, grande surprise, au mois de juin au moment où il fallait devenir public, personne de ceux-là n’avait répondu présent. Peut-être qu’ils considèrent que développer du logiciel libre ça suffit, ce n’est pas la peine de s’occuper de le maintenir sur le long terme. Et, à ma grande surprise, c’était par contre Microsoft qui avait répondu présent.»
«Ça c’était drôle, parce que je n’aurais jamais dit il y a 20 ans que je me serais retrouvé à Redmond, à Seattle au siège de Microsoft avec tout le top management de Microsoft pour leur dire pourquoi c’était intéressant de soutenir un tel projet. Mais c’était quand même une expérience intéressante parce que là j’ai découvert un Microsoft qui n’est pas tout à fait le même que celui que j’avais connu il y a 20 ans. Il y a eu un changement complet de direction.»
Infrastructure en logiciels libres
Sur la protection physique des collectes, le fondateur expliquait que «la base de notre stratégie est:
un, de faire en sorte que toute l’infrastructure qu’on construit, nous, soit entièrement faite en logiciels libres pour rendre plus facile à d’autres de la répliquer ailleurs; deux, d’avoir un réseau de miroirs au niveau planétaire dans lesquels l’ensemble des données que nous collectons est réparti et distribué. Et là on utilise en particulier une terminologie qui est un peu particulière dans notre projet, on ne l’a pas formalisée, mais on peut la partager dès aujourd’hui, on utilise le terme copie pour une copie entière de toutes les données qui sont dans l’archive mais qui sont sous notre responsabilité.
Donc par exemple aujourd’hui, Software Heritage dispose de trois copies de l’archive: deux qui sont dans les locaux de l’Inria, chez nous, et une qui est sur une plateforme Azure qui est sponsorisée par Microsoft.»
Rappelons que depuis, Software Heritage a aussi commencé à stocker des codes sources au pôle Nord, en partenariat avec GitHub – on parle là d’un archivage destiné à durer des milliers d’années.
Lire aussi
Internet Archive : 25 ans d’archivage et de préservation de la mémoire d’internet – 12 novembre 2021
Au Pôle Nord, GitHub va stocker des logiciels open source pour mille ans (minimum) – 17 novembre 2019
Software Heritage veut devenir l’internet Archive du code open source – 17 novembre 2016
(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "//connect.facebook.net/fr_FR/all.js#appId=243265768935&xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk'));