L’institut national de l’audiovisuel dispose d’un riche patrimoine de données (27 millions d’heures de documents TV et radio archivées à fin 2023). Dans une démarche proche de l’open data, celui-ci a mis en ligne un nouveau site internet (Data.ina.fr) visant à explorer une partie de ce patrimoine et ainsi à “mieux comprendre l’information.”
Au lancement, la plateforme couvre une période allant du 1er janvier 2019 au 30 juin 2024. Pour analyser des tendances sur ces cinq années de données, les utilisateurs disposent de critères de recherche et de résultats affichés sous forme de graphiques interactifs.
27 millions d’heures stockées et archivées
L’INA fait état de “dizaines de questions” comme paramètres de recherche et de 28 graphiques interactifs, de la datavisualisation. Le service cible “les amateurs de médias, journalistes, experts, chercheurs” et les curieux.
L’organisme définit son site comme “un puissant outil d’objectivation de la médiatisation sur le temps long.” Comment ? En permettant d’explorer de manière personnalisée les grandes tendances de présence médiatique.
Grâce à quatre entrées thématiques (personnalité, mot d’actualité, lieu et temps de parole femmes/hommes) et trois catégories (journaux télévisés, chaînes d’info en continu et radios) et 20 médias sources, le service rend accessible des “tendances statistiques majeures des médias.”
L’INA inscrit également l’utilisation de son site de datavisualisation dans une “démarche pédagogique de sensibilisation aux outils d’intelligence artificielle (IA).” Sa conception s’appuie en effet en partie sur le recours à des algorithmes d’IA.
Creuser les grandes tendances médiatiques
Pour concevoir ce Data Product, l’institut a développé des compétences internes en tech et en IA. L’INA cite notamment sa direction Data, dont la création remonte à 2021. Ces compétences ont été mobilisées pour traiter une partie de son capital de données.
Le traitement par des technologies d’IA a ainsi permis de procéder à de la transcription, de la reconnaissance d’entités nommées et à de la classification sonore – des opérations indispensables pour rendre les données analysables.
Après ce lancement inaugural, l’INA prévoit deux rendez-vous éditoriaux par an et autant de mises à jour. Ces jalons seront l’occasion d’intégrer des données les plus récentes et plus de profondeur historique.