Pourquoi les données ?

Gérer, préserver, ouvrir ou partager les données sont autant d’actions qui bénéficient aux progrès de la recherche scientifique

Dans un contexte d'augmentation exponentielle des données, de crise de la reproductibilité de la recherche et de défiance des citoyens, les données de la recherche constituent le 2e axe du Plan National pour la Science Ouverte. Gérer et partager les données rend la recherche scientifique plus efficiente en permettant de mutualiser les efforts de collecte des données et de consolider les résultats issus de leur exploitation.
 
Que sont les données de la recherche ?

Matériel primaire et/ou résultats des activités de recherche, les données de la recherche peuvent être très variées, selon leur nature, leur format et les disciplines. Cette hétérogénéité fait qu'il n'existe pas une définition unique, cependant la plus communément admise est celle de l' OCDE : "enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche."

Pourquoi ouvrir et gérer ses données ?
  • Préservation des données
Panne de disque dur, perte de données lors du départ d'un doctorant ou d'un chercheur,... les données doivent être préservées de ces aléas. Or beaucoup sont encore stockées sur des supports individuels et vulnérables et risquent de se perdre également sous le coup de l’obsolescence matérielle ou logicielle (un format obsolète devenu illisible).  La perte des données produites sur une durée de 20 ans est estimée à 80%. (source)
L'utilisation de dispositifs de stockage robustes et adaptés permet de limiter le risque de perte.
  • Réutilisation et reproductibilité
Bien gérer ses données et les documenter pour les rendre compréhensibles facilite leur éventuelle réutilisation dans un autre contexte de recherche, que ce soit par le chercheur qui a conduit la recherche ou par tout autre personne si les données sont partagées. Cela permet également de reproduire et donc valider les résultats d'une recherche. Cet enjeu de la reproductibilité est crucial d'un point de vue scientifique mais aussi éthique et économique.  En savoir plus
  • Intégrité et transparence
Rendre ses données disponibles est un gage de transparence et d'intégrité en permettant la validation des résultats et en offrant une meilleure garantie contre la fraude scientifique. Cela permet également de renforcer la confiance de la société envers la démarche scientifique.
La gestion des données est inscrite dans le décret n°2021-1572 relatif au respect des exigences de l'intégrité scientifique qui charge les établissements publics de définir une politique de conservation et de valorisation des données produites et de veiller à la mise en œuvre de plans de gestion de données.
  • Obtention d'un financement
La plupart des agences de financement exigent la livraison d'un plan de gestion de données, document explicitant la gestion des données du projet financé. L'ouverture des données peut également être exigée. En savoir plus
  • Gain de temps et d'argent
Réutiliser des données existantes plutôt que les recréer représente un gain de temps mais aussi d'argent, le coût engendré par la création, la collecte, le traitement des données pouvant être très élevé. Une étude de la Commission Européenne a estimé à 10 milliards d'euros par an la non réutilisation des données.
  • Visibilité scientifique
Bien gérer ses données permet de mieux les valoriser en les partageant. Des données correctement décrites sont des données plus visibles et donc davantage citées. D'autre part  les publications accompagnées des données sous-jacentes bénéficieraient d'un gain de citations de 25% en moyenne (source). Partager les données permet également la reconnaissance de la paternité de leurs producteurs. 
Tous concernés !
L'ouverture des données est  guidée par le principe "Aussi ouvert que possible, aussi fermé que nécessaire", des restrictions éthiques ou juridiques pouvant exister.

Cependant même si les données ne peuvent pas être partagées, leur gestion reste primordiale. En effet, des données de recherche correctement formatées, décrites et identifiées gardent une valeur à long terme et  permettent de retracer les processus qui ont conduit aux résultats. La gestion des données accompagne également l'évolution actuelle du processus de publication où de plus en plus de revue exigent dorénavant l'accès aux données pour publier un article.

 
Mise à jour le 2 novembre 2023
https://scienceouverte.univ-perp.fr/donnees-de-la-recherche/pourquoi-les-donnees