Fair data

Dans le contexte de l'accessibilité de l'Internet, du big data (mégadonnées) des données de la recherche et des sciences ouvertes et plus largement du partage et l'ouverture des données, la notion de FAIR data ou données FAIR recouvre les manières de construire, stocker, présenter ou publier des données de manière à permettre que les données soient « faciles à trouver, accessibles, interopérables et réutilisables »[1] (en anglais : findable, accessible, interoperable, reusable), d'où l'acronyme « FAIR ».

Les 4 principes du Fair data (en anglais)

L'interopérabilité vise à permettre de croiser des types et formats de données très divers ; c'est l'un des principes et critères du FAIR data

Le mot fair (« équitable », « juste ») fait aussi référence au fair use, commerce équitable (fair trade), fair play, etc., il évoque un comportement proactif et altruiste du producteur de données, qui cherche à les rendre plus facilement trouvables et utilisables par tous, tout en facilitant en aval le sourçage (éventuellement automatique) par l'utilisateur des données.

Histoire de FAIR

Ces principes voient leur origine en janvier 2014 dans des travaux collectifs autour de l'initiative Data FAIRport[2] en 2014[3], par un groupe de travail au sein de FORCE 11, une communauté internationale fondée en 2011 composée de chercheurs, d’éditeurs, de sociétés savantes, d’universités, de bibliothécaires, d’archivistes[4].

Ces travaux ont abouti, en 2016, à une publication considérée comme fondatrice des principes FAIR, dans la revue Nature[5] - [6], par un groupe de chercheurs de différents laboratoires à travers le monde (dont Mark D. Wilkinson du Centro de Biotecnología y Genómica de Plantas à l'université polytechnique de Madrid[7]).

Depuis cette publication, différentes initiatives se mettent en place pour déployer ces principes, dont GO FAIR[8] ou en France[9], un projet de recherche ANR 2020-2022: FOOSIN[10].

Principes et critères

Le FAIR data implique que les données publiées répondent aux principes détaillés ci-dessous [11].

F: Faciles à (re)trouver

Pour être FAIR selon les principes énoncés en 2016, les données doivent être faciles à trouver ou retrouver par tous, humains et machines[11]. Pour ce faire, les (méta)données doivent avoir un identificateur unique et pérenne[11]. Elles doivent être décrites avec des métadonnées riches (voir plus bas) incluant notamment et explicitement un identificateur des données qu'elles décrivent, unique et pérenne. Ces (méta)données doivent être enregistrées ou indexées dans un dispositif permettant de les rechercher[11].

En général, cette fonction s'effectue via les moteurs de recherche, ce qui implique des arborescences de classement et des mots-clés cohérents et une stratégie de préservation à long terme des données (archivage sécurisé, etc.).

A: Accessibles

Les données FAIR ne sont pas obligatoirement des données ouvertes. Elles doivent dans tous les cas être récupérables par leur identifiant en utilisant un protocole standard de communication (ouvert, libre, et d'usage universel)[11], et dans tous les cas les (méta)données sont disponibles à des conditions connues, grâce à des licences claires (Creative Commons par exemple), et bien visibles ; si un protocole de procédure d'authentification et d'autorisation est nécessaire (ex : identification précise de la personne qui consulte, passage par un comité d'attribution de droits de consultation) cette condition doit être également bien visible. Enfin, les métadonnées doivent rester accessibles, même si les données ne sont plus disponibles[11] ; Quand les données ne peuvent être ouvertes, ou ne sont ouvertes qu'à certaines entités, il est recommandé d'indiquer pourquoi et pour combien de temps, clairement et en séparant les raisons juridiques et contractuelles de toute restriction volontaire (ex : accord de consortium)[11]. Si des outils logiciels ou méthodes particulières sont nécessaires pour accéder aux données ou les exploiter, la documentation sur ces logiciels nécessaires ou la méthode devraient aussi être disponibles pour tous en utilisant un logiciel libre quand c'est possible. Le lieu de consultation des (méta)données doit aussi être clairement identifié et accessible[11]. Les dépôts certifiés de données qui soutiennent l'accès libre devraient tant que possible être préférés[11].

I: Interopérables

L'interopérabilité (à ne pas confondre avec une simple « compatibilité ») ; elle est sémantique et syntaxique, et elle implique l'utilisation des métadonnées contextuelles précises, et de contenu et de formats respectant les grands standards internationaux et utilisant un vocabulaire informatique respectant les principes FAIR[11] ;

R: Réutilisables

La réutilisation (libre, conditionnelle ou payante) doit être facilité par l'utilisation de standards communs, grâce à des bases de données rassemblant des données claires, vérifiées et bien décrites, directement (ré)utilisables pour la recherche ou d'autres usages[11].

Les (méta)données doivent être richement décrites, par une pluralité d'attributs précis et pertinents, incluant des détails sur leur provenance[11]. Elles sont libérées avec une licence d'utilisation claire et accessible[11] (exemple : Creative Commons).

Histoire du concept

Les bailleurs de fonds publics de la recherche, certains éditeurs et un nombre croissant d'agences gouvernementales commencent à exiger la publication de données ouvertes ou plus facilement réutilisables, et des plans de gestion de données numériques à long terme. Les données FAIR sont aussi apparus comme l'un des moyens de mieux valoriser le big data.

Dans le monde depuis plusieurs années de grands organismes tels que la National Science Foundation des États-Unis, les Conseils de la recherche du Royaume-Uni (en), la Nederlandse Organisatie voor Wetenschappelijk Onderzoek aux Pays-Bas ou l'Agence nationale de la recherche (ANR) en France[12], exigent déjà des « plans de gestion des données » pour les recherches qu’ils financent et encouragent les données ouvertes.

En Europe, le programme européen Horizon 2020 intégrait un projet pilote Open Research Data (« données de recherche ouvertes ») puis dès son programme de travail 2017, il a élargi à tous les thèmes l'incitation au FAIR, avec un « accès libre par défaut » pour les données de recherche générées au moyen de subventions européennes. Il invite les chercheurs à s'appuyer sur des licences ouvertes et sur les principes et critères FAIR, en réponse notamment aux demandes de l'Organisation de coopération et de développement économiques (OCDE) et de la Commission européenne d'une large ouverture des données. Dans ce cadre, l'approche FAIR data a été notamment portée par « FORCE11 », une communauté d'académiques, bibliothécaires, archivistes, éditeurs et bailleurs de fonds de la Recherche.

Les data papers sont encouragés pour mieux disséminer et faire partager les résultats des projets financés dans le cadre européen, et pour favoriser l’innovation et la création de connaissances nouvelles.

En France, le statut des donnés pour la recherche a également récemment changé [13]. La loi « pour une République numérique »[14] précise que dès lors que les données, liées à une publication, ne sont pas protégées par un droit spécifique et qu'elles ont été rendues publiques par le chercheur, leur réutilisation est libre. « L'éditeur d'un écrit scientifique ne peut de ce fait pas limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication. La description, la publication et la réutilisation des données liées à une publication sont entrées dans la loi française, le bien-fondé de leur exposition dans des data papers s’en trouve renforcé »[15].
le Plan d’action de l'ANR (et son Appel à projets générique 2016) incitent les chercheurs à utiliser les grandes bases de données existantes et à publier leurs résultats en accès ouvert.

Enjeux

Logo de la science ouverte.

Quelques concepts en jeu avec le FAIR data.

Schéma d'organisation de Dataverse.

Pour le P^r Barend Mons (spécialiste néerlandais de la gestion et de l'interopérabilité des données), le FAIR data est notamment l'une des réponses à la croissance exponentielle des données (ex : doublement tous les six mois par exemple dans le domaine de la biologie)[16] et une nécessité pour l'exploration de données devenu nécessaire dans le cadre du big data.

Ces principes visent à faciliter et améliorer la réutilisation de données déjà publiées, issues de la science ou utiles à la Recherche notamment dans les domaines hautement complexes (ex : prévision météorologique, changement climatique, biologie computationelle, biodiversité et services écosystémiques, médecine, économie, etc.

Les quatre principes du FAIR concernent l'accessibilité et l'usage par et pour l'être humain, mais aussi l'usage direct des données brutes par les ordinateurs et les « agents de calcul », au service de la recherche, de la connaissance, de l'éducation, de la formation, de l'innovation et de plus en plus de formes d'intelligence artificielle (apprentissage automatique, etc.). En accédant plus facilement à des données bien décrites, les ordinateurs peuvent en effet mettre en relation d'énormes quantités de données et identifier des tendances, détecter des signaux faibles, considérablement accélérer certains processus d'innovation. Mais ils ont besoin que les données soient rangées dans des ensembles bien structurés et qu'elles soient décrites dans un langage non ambigu.

Ces quatre principes accélèrent et facilitent le travail collaboratif ; ils sont par exemple utilisés dans les plans de gestion des données qui prennent une importance croissante alors qu'apparaissent de nouveaux lieux de stockage mondial de grandes quantités de données avec par exemple Dataverse, FigShare [17], Dryad, Mendeley Data [18], Zenodo [19], DataHub [20], DANS [21], EUDat, etc. Dans des domaines plus spécialisés et anciens on peut citer dans le domaine des sciences de la vie et de la génétique : GenBank, Worldwide Protein Data Bank (wwPDB)[22] UniProt[23] ; ou pour le domaine des sciences et technologies spatiales : le Space Physics Data Facility de la Nasa (SPDF) [24] ou la base d'identifications astronomiques SIMBAD[25] ; ou encore pour les sciences humaines et sociales les services NAKALA de l'infrastructure Huma-Num[26].

Partant du principe que toutes les composantes du processus de recherche devraient être disponibles pour assurer la transparence, la reproductibilité, la vérifiabilité et une possible réutilisation, certains auteurs invitent à appliquer ces principes aux « données » au sens conventionnel du terme (données numériques et certains objets numériques tels qu’algorithmes ou modèles mathématiques et informatiques par exemple, gènes et codes génétiques dans les banques de données génétiques développées pour la recherche et les biotechnologies), mais aussi à tous les algorithmes utiles, et aux outils, méthodes et flux de travail qui ont conduit à pouvoir produire ces données.

Des enjeux éthiques et notamment bioéthiques sont associés à ces approches, ainsi que de sécurité informatique.

Difficultés

Un temps et des moyens significatifs et croissants devront être consacré à préparer les données et leur gestion future. Les gestionnaires de données doivent continuellement se former et s'adapter à la croissance du big data et aux nouveaux outils de gestion de données.

Des systèmes « automatiques » de création de métadonnées existent mais souvent ils ne déchargent pas le producteur de donnée de tout le travail. Par exemple les appareils photographiques numériques et caméras récentes, dotés d'un GPS (et d'un capteur de pression/profondeur pour la photographie subaquatique) produisent automatiquement une donnée enrichie sur le lieu, le moment et les conditions de la photo, sur le matériel utilisé, etc. mais c'est au photographe de prendre le temps et les moyens de légender correctement sa photo, et avec des données contextuelles et quelques mots-clés pertinents, et avec éventuellement une version en anglais et de l'hypertexte pour enrichir cette légende. Une licence peut éventuellement être associée en amont à chaque document[11].

Le producteur et le gestionnaire de données devraient le plus en amont possible préparer leur plan de gestion des données après avoir réfléchi aux buts de la collecte ou production de données (en lien avec les objectifs de leur projet) aux formats de données qui seront générés ou recueillis, en prévoyant les modes de réutilisation, la taille de la base de données, ses mises à jour, le public des futurs utilisateurs (publics, privés...)[11].

Données concernées

Les données peuvent être publiques ou privées, et plus ou moins « ouvertes ».
Au sens large il peut s'agir de données de bases ou d'images, de textes, de photos, films, sons, etc.
Wikipédia, Wikimedia Commons et Wikidata sont des exemples de mise en œuvre collaborative de ces principes, en amélioration continue.

Revues dédiées

Plusieurs publications scientifiques spécialisées sur le thème des données et de leur gestion sont apparues depuis les années 1970, mais pour la plupart après 2012[27] - [28].

Journal of Physical and Chemical Research Data (créée en 1972), pas en open data
Journal of Open Archaeology Data (2012)
Genomics Data Elsevier (2013)
Geoscience Data Journal (2014)
Scientific Data Nature (2014)
Research Data Journal for the Humanities and Social Sciences Brill (2016)

Notes et références

Commission d’enrichissement de la langue française, « données FAIR », sur FranceTerme, ministère de la Culture.
FAIR Guiding Principles - For Comment (google doc) (Consulté le 03/04/2020)
FAIR Data Publishing Group (Consulté le 03/04/2020)
(en) Mark Wilkinson, « FAIR Principles - GO FAIR (article fondateur) », sur go-fair.org (consulté le 3 avril 2020).
Sophie Aubin, « Les principes FAIR (en français) », sur ist.blogs.inrae.fr, 2 avril 2020 (consulté le 3 avril 2020).
BIOLOGICAL INFORMATICS (Consulté le 03/04/2020
GO FAIR
Science ouverte : la France rejoint GO FAIR en tant que co-fondatrice - Ministère de l'Enseignement supérieur, de la Recherche et de l'Innovation (Consulté le 03/04/2020)
Projet FOOSIN
(en) Mark Wilkinson, « FAIR principles. Living Document », sur datafairport.org, 25 janvier 2016 (consulté le 3 avril 2020).
L’ANR met en place un plan de gestion des données pour les projets financés dès 2019
Maurel Aka Lionel (2016) Quel statut pour les données de la recherche après la loi numérique ? Publication du 3 novembre 2016. S.I.Lex – Carnet de veille et de réflexion d'un juriste et bibliothécaire
L’article 38 de la loi « pour une République numérique » ; République française. LOI n^o 2016-1321 du 7 octobre 2016 pour une République numérique
Reymonet N (2017) Améliorer l’exposition des données de la recherche : la publication de data papers 5 / 5)
Professor Barend Mons – Social machines & FAIR data, mis en ligne sur YouTube par l'Université de Leyde le 11 janvier 2017
http://figshare.com
(en) « Mendeley Data », sur mendeley.com (consulté le 22 avril 2023).
(en) « Research. Shared. », sur zenodo.org (consulté le 22 avril 2023).
http://datahub.io
(nl) « DANS - Expertisecentrum & repository voor onderzoeksdata », sur DANS (consulté le 22 avril 2023).
Berman, H., Henrick, K. & Nakamura, H. (2003) Announcing the worldwide Protein Data Bank. Nat. Struct. Biol. 10, 980–980 .
The Uniprot Consortium. UniProt: a hub for protein information. Nucleic Acids Res. 43, D204–D212 (2015).
(en) « NASA's Space Physics Data Facility (SPDF) », sur spdf.gsfc.nasa.gov (consulté le 22 avril 2023).
Wenger, M. et al. The SIMBAD astronomical database-The CDS reference database for astronomical objects. Astron. Astrophys. Suppl. Ser. 143, 9–22 (2000)
« Nakala », sur Nakala (consulté le 22 avril 2023).
Nathalie Reymonet. Améliorer l'exposition des données de la recherche : la publication de data papers. Ce texte pr_esente la structure et le contenu d'un " data paper " ainsi que des exemples de revues.. 2017. <sic 01427978>
Akers, Katherine. A Growing List of Data Journals. Posted on May 9, 2014

Voir aussi

Bibliographie

Maryse Carmes et Jean-Max Noyer, Le mouvement « Open Data » dans la grande transformation des intelligences collectives et face à la question des écritures, du web sémantique et des ontologies, décembre 2012 (lire en ligne).
Aurore Cartier, Magalie Moysan et Nathalie Reymonet, Réaliser un plan de gestion de données :guide de rédaction (V1), 9 janvier 2015, 30 p. (lire en ligne [PDF]).
Simon Chignard, L'open data, comprendre l’ouverture des données publiques, Fyp Éditions, 2012
Commission européenne (2016). mgt_en.pdf H2020 Programme Guidelines on FAIR Data Management in Horizon 2020 (Version 3.0 26 July 2016)
European Commission. DG Research and Innovation. H2020 Programme: Guidelines on FAIR Data Management in Horizon 2020 [PDF, Version 3.0. 26/06/2016).
The FAIR Guiding Principles for scientific data management and stewardship
Samuel Moore (2016), Issues in Open Research Data, travail académique, Ed:Ubiquity Press, en licence ouverte CC (DOI: https://dx.doi.org/10.5334/ban) ;

Liens externes

(en) GO FAIR, initiative autogérée, qui vise à construire un Internet des données et services FAIR.
(en) FAIR-data ; site Web DTL du DTLS
(en) Open Data Commons - outils légaux pour les données ouvertes
(en) association FAIRDOM
(fr) Principes de données FAIR (FAIR data principles : forum de discussion ; FORCE11 )
(fr) Projet FOOSIN (ANR-19-DATA-0019-01), partie française du GO FAIR Food Systems Implementation Network

Vidéographie

FAIR Data in Trustworthy Data Repositories (12 décembre 2016, Projet EUDAT ; webinar coorganisé par DANS, EUDAT & OpenAIRE ; 12 & 13 déc 2016.)
FAIR Data in Trustworthy Data Repositories (13 décembre 2016, Projet EUDAT ; webinar coorganisé par DANS, EUDAT & OpenAIRE ; 12 & 13 déc 2016.)
Barend Mons/FAIR Principles (13 décembre 2016, Projet EUDAT ; webinar coorganisé par DANS, EUDAT & OpenAIRE ; 12 & 13 décembre 2016.)

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.