La réutilisation de données existantes, que ce soit pour produire une nouvelle analyse, pour les croiser avec un autre jeu de données, ou pour reproduire des résultats, constitue un facteur d'efficience de la recherche scientifique. Il existe plusieurs manières de trouver de jeux de données. Lors de leur réutilisation il faut veiller à respecter certaines règles, notamment les conditions juridiques qui leur sont associées (licence, droits de propriété intellectuelle) et les citer correctement.La valeur des données réside dans leur exploitation
(OCDE, Principes et lignes directrices pour l’accès aux données de la recherche financée sur fonds publics 2007)
- Comment trouver des jeux de données ?
-
Explorer les entrepôts
Les entrepôts de données sont des services en ligne permettant le dépôt, la description, la conservation, la recherche et le partage des jeux de données en vue de leur réutilisation. Ils peuvent être généralistes comme par exemple l'entrepôt national Recherche Data Gouv, ou disciplinaires comme Nakala pour les SHS. Ces plateformes intègrent des moteurs de recherche avec des filtres pour faciliter l’accès aux données qu’ils contiennent.
Il existe des annuaires permettant de retrouver ces entrepôts parmi lesquels :- Re3data Répertoire international d'entrepôts multidisciplinaires
- Cat OPIDoR Catalogue des services dédiés aux données de la recherche dont les entrepôts français
- FAIRSharing Répertoire d’entrepôts en sciences de la vie
CoreTrustSeal est un organisme communauté de certification d'entrepôts qui promeut le développement d'infrastructures de données durables et fiables. Il donne accès à une liste d'entrepôts certifiés.
Pour d'autres informations reportez-vous à la rubrique Diffuser via un entrepôt de données.
Utiliser des moteurs de recherche
Des méta-moteurs permettent de chercher des jeux de données dans plusieurs entrepôts à la fois. En voici quelques uns :- OpenAIRE Explore permet de rechercher des publications et des données issues pour l’essentiel de projets financés par l’Union Européenne
- DataCite, consortium international dédié à la valorisation des données de la recherche, propose un moteur de recherche recensant tous les jeux de données ayant bénéficié de son service d’attribution de DOI (identifiant pérenne)
- Google Dataset search, outil de recherche de jeux de données développé par Google
- BASE (Bielefeld Academic Search Engine), moteur de recherche de ressources académiques de tous types, dont des jeux de données
En savoir plus
Consulter des articles et des data papers
Les données sous-jacentes d'une publication peuvent être parfois diffusées soit intégrées dans l’article, soit en accompagnement sous forme de matériel supplémentaire. Elles peuvent aussi être déposées dans un entrepôt et dans ce cas leur identifiant pérenne est indiqué dans l'article et permet d’établir le lien vers les données.
Les data papers sont des articles décrivant des jeux de données et qui ont pour but de les rendre accessibles, interprétables et réutilisables. Ils peuvent paraître dans des revues classiques ou dans des revues spécialisées, appelées data journals.
En savoir plus - Dans quelles conditions réutiliser des données?
-
L'article 30 de la loi pour une République numérique a instauré un droit de libre réutilisation des données de la recherche publique, à condition toutefois que celles-ci aient été diffusées par le chercheur ou son organisme et qu'elles ne soient pas protégées par un droit spécifique ou une règlementation. Il est donc indispensable de s'assurer du statut juridique des données.
Dans tous les cas, la réutilisation de ces données doit se faire dans le respects des conditions fixées par l'article L322-1 du Code des relations entre le public et l'administration (CRPA) qui stipule que " Sauf accord de l'administration, la réutilisation des informations publiques est soumise à la condition que ces dernières ne soient pas altérées, que leur sens ne soit pas dénaturé et que leurs sources et la date de leur dernière mise à jour soient mentionnées".
Une licence de diffusion peut également être associée aux données : elle permet de préciser les modalités de leur réutilisation. Pour connaître les principales licences utilisées vous pouvez consulter ce guide. - Comment citer un jeu de données ?
-
Pour citer correctement un jeu de données, sa référence bibliographique doit comporter au moins les éléments suivants:
- Auteur(s)
- Date de publication ou de diffusion
- Nom du jeu de données
- Localisation (entrepôt où les données sont accessibles)
- Édition ou version s'il y a lieu
- Identifiant
- Licence associée au jeu de données s'il y a lieu
Webinaire "Réutilisation des données de la recherche" par Claire Tignolet, conservatrice des bibliothèques