Ouvrir et partager ses données

Les données de la recherche sont la matière première de la connaissance. Les partager, c’est ouvrir de nouvelles perspectives scientifiques

Plan national pour la science ouverte, 2018-2021

Exigée par certains financeurs, encadrée par la loi, l'ouverture des données de la recherche offre de nouvelles perspectives d'analyses et de collaborations en permettant leur réutilisation par d'autres chercheurs, favorise la reproductibilité des résultats et apporte visibilité et crédibilité aux travaux de recherche.
Toutes les données cependant ne peuvent pas être librement et totalement diffusables, des raisons légales ou contractuelles peuvent amener à restreindre ou interdire leur ouverture. C'est pourquoi le principe "aussi ouvert que possible, aussi fermé que nécessaire" est au cœur de la démarche d'ouverture des données de la recherche.
 
Questions éthiques et juridiques

L'Open data et la loi pour une République Numérique

L'Open data (démarche d'ouverture des données publiques) est basée en France sur la loi CADA (Commission d'accès aux Documents Administratifs) de 1978 qui posait le principe de communicabilité des données administratives au public. La loi Valter de 2015 introduit le principe de la gratuité de la réutilisation de ces données et met fin au régime dérogatoire dont bénéficiaient les établissements de recherche et d'enseignement. Avec la loi pour une République Numérique de 2016, l'ouverture des données de la recherche financée par des fonds publics devient le principe par défaut. Leur réutilisation est libre, à condition toutefois qu'elles aient été rendues publiques par le chercheur ou son organisme et qu'elles ne soient "pas protégées par un droit spécifique ou une règlementation particulière".
 

Les exceptions à l'ouverture

Selon la nature et le statut juridique des données il peut exister une règlementation interdisant ou limitant leur ouverture. Il convient donc de vérifier que ses données ne sont pas concernées avant de les ouvrir. Un outil d'aide à la décision élaboré par le CIRAD permet d'identifier les points de vigilance et les éventuelles actions à mettre en œuvre avant d'ouvrir ses données.

Communication interdite par principe :

  • Données relevant du secret de défense nationale
  • Données présentant des risques pour la sécurité de l’État, la sécurité publique, la sécurité de l'établissement
  • Données relevant du secret professionnel (secret médical, secret de l'instruction, secret bancaire, etc)

Communication sous condition :

  • Données à caractère personnel (anonymisation ou consentement requis)
  • Données relevant du droit de la propriété intellectuelle détenue par un tiers (autorisation du détenteur des droits requise)
  • Données issues de projets en partenariat (respect des clauses du contrat de partenariat)
  • Données statistiques

Certaines données au contraire doivent obligatoirement être ouvertes au public :

  • Les données géographiques sous format numériques doivent être accessibles librement, selon la directive européenne INSPIRE
  • Les données relatives à des émissions de substances dans l'environnement

En savoir plus
 

Quelle licence utiliser ?

Pour ouvrir ses données il est très fortement conseillé de leur attribuer une licence libre. Celle-ci permet la réutilisation des données tout en garantissant une sécurité juridique aussi bien pour le producteur des données que pour les ré-utilisateurs.
La Loi pour une République numérique a fixé par décret une liste des licences à utiliser par les administrations. Pour les données il s'agit des licences Etalab et ODbL. Ces licences et celles considérées comme équivalentes sont détaillées dans ce guide.
 

En résumé

Diffuser via un entrepôt de données

Qu'est-ce qu'un entrepôt ?

Les entrepôts de données sont des plateformes web sur lesquelles les chercheurs peuvent déposer leurs données et qui offrent des services concernant la description, la conservation à moyen terme, la recherche et la diffusion des jeux de données.

Il existe différents types d'entrepôts:

Ces outils sont généralement gratuits mais certains peuvent être payants ou demander des frais de publication.  Si les entrepôts certifiés ou reconnus proposent les fonctionnalités de base de dépôt, description, stockage sécurisé, attribution d'un identifiant pérenne et exposition des données, les services peuvent varier. La plupart permettent de déterminer les conditions d’accès aux données (ouvert, fermé, restreint, embargo). Certains offrent également des services de valorisation comme la génération de modèles de data papers.
 

Comment choisir son entrepôt ?

Plusieurs critères sont à prendre en compte dans le choix d'un entrepôt :

  • Les recommandations éventuelles : l'institution ou l'organisme peut émettre des recommandations, de même un éditeur lorsqu'il s'agit de données liées à un article (il convient alors d'être vigilant quant à l'entrepôt exigé)
  • Les pratiques de sa communauté : certaines disciplines ont une pratique aguerrie de la gestion de leurs données et utilisent des outils dédiés. Il est  recommandé de privilégier ces entrepôts disciplinaires
  • Les services offerts : choisir un entrepôts adaptés à ses besoins en termes de types de données et formats acceptés, de conservation, d'accès aux données, de licences, etc
  • La certification : CoreTrust Steal est une organisation internationale qui certifie à la demande des entrepôts répondant à des critères définis et réévalués régulièrement. La certification permet d'être assuré de la qualité d'un entrepôt mais il en existe également qui, bien que non certifiés, sont reconnus par la communauté scientifique et offrent des garanties équivalentes.

Pour identifier un entrepôt répondant à vos besoins vous pouvez vous aider d'annuaires comme Cat OPIDoR pour les entrepôts français ou re3data (Registry of Research Data Repositories) au niveau international.

Si aucun entrepôt disciplinaire ou institutionnel ne correspond à vos besoins, il est recommandé de déposer vos données dans l'entrepôt national pluridisciplinaire recherche.data.gouv
Aide au dépôt sur Recherche Data Gouv
 

Pourquoi déposer dans un entrepôt ?

Déposer ses données dans un entrepôt de confiance ou certifié permet de :

  • Augmenter sa visibilité scientifique : les jeux de données déposés dans un entrepôt existent indépendamment de l’article scientifique. Décrits par des métadonnées généralement riches et dotés d'un identifiant pérenne ils sont alors visibles, accessibles pour les moteurs de recherche et citables. Lorsqu'ils sont liés à une publication ils constituent une deuxième porte d'accès au travail de recherche et augmentent ainsi les chances d'être cité
  • Conserver et partager de façon sécurisée vos données et faciliter leur réutilisation
  • Faciliter la gestion des modalités de partage et la structuration des données en s'appuyant sur de bonnes pratiques et des standards bien définis, ces entrepôts respectant les principes FAIR
  • Respecter les recommandations des financeurs et institutions sur l'ouverture des données et des éditeurs qui sont de plus en plus nombreux à demander l'accès aux données avant publication d'un article.
     

En résumé

Valoriser les données liées à une publication

Une pratique courante de partage des données consiste à les intégrer à la publication, soit directement dans l'article soit sous forme de matériel supplémentaire (supplementary materials ou supporting information ou additional content). Cependant cette solution est à éviter car elle présente plusieurs inconvénients : la conservation à long terme n'est pas assurée, Il n'est pas possible d' identifier ces données indépendamment de la publication, l’accès à ces données dépend des conditions d’accès à la revue et peut donc être bloqué par un abonnement payant.

Pour garantir la conservation, la diffusion et la réutilisation des données liées à une publication il est recommandé de les déposer dans un entrepôt, de préférence avant de publier son article, puis de créer un lien entre  données et article : indiquer l'identifiant pérenne des données dans l'article à paraître puis ajouter l'identifiant pérenne de l'article dans l'entrepôt où sont déposées les données. 

Voici un guide synthétique pour vous accompagner dans cette démarche. 

Valoriser ses données avec un data paper

Un data paper ou article de données "décrit finement un ou des jeux de données de façon à en faciliter la compréhension et l’éventuelle réutilisation." (Lexique du PNSO2). Evalué par les pairs et  citable au même titre qu'un article scientifique classique, il permet de faire connaître et de rendre accessible ses données et d'augmenter ainsi la visibilité et l'impact des résultats de recherche.

Le data paper doit comprendre toutes les informations utiles à la compréhension et réutilisation des données par d'autres scientifiques (description des données, contexte et méthodes d'obtention, potentiel de réutilisation) et donner accès aux données, de préférence par un lien pérenne (URL, DOI) vers l'entrepôt où elles sont déposées. Cette vidéo explique brièvement comment publier un data paper.

De nombreuses revues classiques publient des data papers mais il existe aussi des revues dédiées à ces articles. Pour vous aider à la rédaction d'un data paper, certaines revues disposent d'outils de rédaction en ligne. Des entrepôts de données proposent également des services d'aide à la rédaction comme la génération d'un modèle de data paper à partir des données déposées. C'est le cas par exemple de l'entrepôt Recherche data gouv.

Pour en savoir plus :
Fiche CoopIST du Cirad dédiée aux data papers
DORAnum Data papers et data journals

Mise à jour le 6 mai 2024
https://scienceouverte.univ-perp.fr/donnees-de-la-recherche/ouvrir-et-partager-ses-donnees