Accueil🇫🇷Chercher

Lac de données

Un lac de données (en anglais data lake) est une méthode de stockage de données massives utilisée par le big data[1] (mégadonnées en français). Ces données sont gardées dans leurs formats originaux ou sont très peu transformées[2] - [3]. Le lac de données donne la priorité au stockage rapide et volumineux de données hétérogènes en adoptant une architecture en cluster. Il n'est pas optimisé pour les requêtes SQL comme les SGBD relationnels classiques, et s'écarte des Propriétés ACID traditionnelles. On parle depuis 2010 de SGBD NoSQL.

On trouve donc dans un lac de données des données de natures et de sources différentes, telles que :

  • des donnĂ©es structurĂ©es issues notamment de bases de donnĂ©es relationnelles (lignes et colonnes) ;
  • des donnĂ©es variĂ©es issues de bases NoSQL ;
  • des donnĂ©es semi-structurĂ©es (fichiers CSV, journaux, XML, JSON...) ;
  • des donnĂ©es non structurĂ©es (emails, documents, PDF) ;
  • des fichiers de type blob (images, audio, vidĂ©o notamment).

Ces données sont conservées dans le lac de données pour analyse ultérieure. Il s’agit d’une solution de gestion de données hybrides et variées ayant pour objectif de stocker de manière rapide et peu chère une grande quantité de données brutes.

La principale qualité du lac de données réside en sa flexibilité. Il doit pouvoir stocker les données, quel que soit leur format. Lorsqu’une donnée est intégrée au sein du Data Lake, elle se voit attribuer un identifiant unique et est marquée au moyen d'un jeu de balises de métadonnées étendues. Lorsqu'un besoin se présente, le Data Lake est parcouru pour y rechercher des informations pertinentes. L'analyse de ces données permet alors d'apporter de la valeur et de répondre à ce besoin.

Origine du terme

Le concept de Data Lake a été évoqué pour la première fois, en 2010, par James Dixon, CTO de Pentaho, comme une solution pour le stockage de données sans pré-traitement et sans connaître précisément l’usage futur qu’il en sera fait. L'image du lac, permettant d'expliquer, que différentes sources peuvent l'alimenter de manière naturelle et brute, et que les utilisateurs peuvent y plonger pour l'explorer et en rapporter des échantillons à examiner[4] - [5].

Usages et fonctions

Les lacs de données facilitent l'accès et l'analyse des données pour des tâches telles que :

Le lac de données est donc un outil de gestion des données et de métadonnées dans des domaines variés qui vise le stockage et l'analyse de volumes massifs de données. Associé à des moyens d’analyse en temps réel et d’intelligence artificielle cela permet une meilleure mise en valeur de l'information et la saisie d’opportunités.

Cet outil apporte certains avantages tels que la rationalisation du stockage des données, la réduction des coûts de stockage, et facilite l'accès pour l'analyse et la prise de décisions d’une façon globale. Pour ce qui est de la rationalisation, le lac de données permet en effet de réduire les coûts temporel et de développement liés à la préparation des données avant leur stockage puisque leur format d’origine est conservé.

On note également une réduction des dépenses d'exploitation en utilisant le lac de données comme référentiel pour les données plus anciennes. Sans le lac de données, il serait nécessaire d’opter pour des entrepôts de données pour stocker celles-ci, or cette solution est bien plus onéreuse.

Plusieurs environnements fournissent des services complets permettant la gestion d'un lac de données. La plupart d'entre eux sont basés sur la technologie Hadoop et fournissent des installations en local (MapR, Cloudera, Hortonworks) ou dans le Cloud (Microsoft Azure, Google Cloud Platform, Amazon S3)[6].

Avantages et inconvénients

Le lac de données est avant tout un moyen de stockage dont les avantages sont:

  • une capacitĂ© de stockage de grosses volumĂ©tries de donnĂ©es,
  • une rapiditĂ© de stockage sans prĂ©-traitement des donnĂ©es brutes,
  • une souplesse et polyvalence pour stocker diffĂ©rents formats et sources de donnĂ©es,
  • une rationalisation du stockage des donnĂ©es,
  • une rĂ©duction des coĂ»ts de stockage,
  • une rĂ©duction du temps passĂ© et du coĂ»t liĂ©s Ă  la prĂ©paration des donnĂ©es avant leur stockage, puisque leur format d’origine est conservĂ©.

Si bien utilisé, cela permet de:

  • Garder un historique des donnĂ©es anciennes sur de longue pĂ©riodes.
  • Faciliter le partage, la mise Ă  jour des donnĂ©es, et l'utilisation des donnĂ©es de façon cohĂ©rente et homogène dans l'entreprise, en Ă©vitant le silotage des donnĂ©es.
  • Rechercher, analyser et corrĂ©ler l'ensemble des donnĂ©es de l'entreprise pour une meilleur analyse et crĂ©ation de valeur.
  • Faciliter l'accès pour l'analyse et la prise de dĂ©cisions d’une façon globale.

Malgré tout, la solution présente aussi certains inconvénients:

  • La difficultĂ© Ă  conserver un lac de donnĂ©es propre et organisĂ©, ce qui est relativement chronophage et peut ĂŞtre Ă  terme particulièrement onĂ©reux. Le risque est de se retrouver avec une masse de donnĂ©es devenues massives et inexploitables, voire inutilisables. On parle alors de « marĂ©cage de donnĂ©es »[7] - [8] - [9]. Ce terme est utilisĂ© pour dĂ©signer un lac de donnĂ©es inaccessibles ou de peu de valeur. Andrew Brust assimile pour sa part complètement le marĂ©cage de donnĂ©e Ă  un lac de donnĂ©e qui aurait sursaturĂ© au fur et Ă  mesure que des quantitĂ©s trop importantes de donnĂ©es auraient Ă©tĂ© intĂ©grĂ©es[10].
  • La difficultĂ© Ă  organiser et maintenir une gouvernance des donnĂ©es efficace.
  • Le temps nĂ©cessaire Ă  traiter et analyser les donnĂ©es stockĂ©es Ă  l'Ă©tat brut.
  • L'expertise requise pour rechercher, analyser et traiter les donnĂ©es de manière pertinente et crĂ©atrice de valeur, souvent confiĂ©es aux Data Scientists.
  • La sĂ©curitĂ©, la confidentialitĂ© et les problĂ©matiques liĂ©es aux donnĂ©es personnelles et au respect des rĂ©glementations, inhĂ©rentes aux donnĂ©es, sont toujours prĂ©sentes et d'autant plus importantes que le lac de donnĂ©es regroupe et conserve des donnĂ©es massives[11].

Distinctions avec d'autres méthodes de stockage

Aujourd’hui il existe différents moyens de stocker les données autres que les Data Lake, comme les entrepôts de données (Data Warehouses), ou les Datamarts.

  • Le risque est que ces bases de donnĂ©es spĂ©cialisĂ©es ne soient utilisĂ©es que par un petit nombre de personnes, et par la mĂŞme mĂ©connues et sous-exploitĂ©es par le reste de l'entreprise. C'est le phĂ©nomène de silotage ou Data Silo, oĂą les donnĂ©es ne sont accessibles qu'Ă  une partie de l'organisation, et finissent par poser des problèmes de mise Ă  jour, de cohĂ©rence et de partage.
  • Ces bases sont structurĂ©es diffĂ©remment, car chaque donnĂ©e est traitĂ©e et transformĂ©e avant d'ĂŞtre stockĂ©e. Ceci peut ĂŞtre un gain de temps sur les donnĂ©es rĂ©ellement utiles, mais au contraire une perte de temps si les donnĂ©es stockĂ©es ne sont pas utilisĂ©es par la suite, ce qui peut ĂŞtre frĂ©quemment le cas pour les masses de donnĂ©es en Big Data. Le modèle prĂ©Ă©tabli de ces bases peut aussi limiter les possibilitĂ©s et Ă©volutions des interrogations et recherches futures qui peuvent ĂŞtre faites sur les donnĂ©es stockĂ©es.
  • L'implĂ©mentation des propriĂ©tĂ©s ACID des SGBD relationnels classiques est coĂ»teuse en ressources et temps de traitement. Elles ne sont donc plus nĂ©cessairement respectĂ©es dans les systèmes NoSQL qui privilĂ©gient la rapiditĂ© et la distribution des traitements en clusters pour gĂ©rer les donnĂ©es massives.
  • La limite de volume des donnĂ©es gĂ©rĂ©es.

Références

  1. Alain Clapaud, « Qu’est-ce que le Data Lake, le nouveau concept "Big Data" en vogue », sur Le Journal du Net, (consulté le )
  2. (en) « Top Five Differences between Data Lakes and Data Warehouses », sur Blue-Granite.com, (consulté le )
  3. « Data Lake : définition et guide définitif | Talend », sur Talend Real-Time Open Source Data Integration Software (consulté le )
  4. (en) « Pentaho, Hadoop, and Data Lakes », sur James Dixon's Blog, (consulté le )
  5. +Bastien L, « Data Lake : définition, avantages et inconvénients pour l’entreprise », sur LeBigData.fr, (consulté le )
  6. « Data lake as a Service : Amazon et Microsoft surnagent, Google sous l'eau », sur journaldunet.com, (consulté le )
  7. (en-US) Daniel Gutierrez, « Data Swamp or Data Lake? Five Key Questions Before You Dive In », sur insideBIGDATA, (consulté le )
  8. « Gouvernance de lac de données », sur www.ibm.com (consulté le )
  9. Légifrance, « Vocabulaire de l'informatique (NOR : CTNR2307721K -Texte n° 109) », JORF,‎ (lire en ligne)
  10. Collibra, « Data Lake vs. Data Swamp - Pushing the Analogy », sur Collibra (consulté le )
  11. Philippe Nieuwbourg, « Le concept de « data lake » - lac de données : explication de texte », sur Decideo - Actualités sur le Big Data, Business Intelligence, Data Science, Data Mining (consulté le )

Articles connexes

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.