AccueilđŸ‡«đŸ‡·Chercher

Apache Druid

Druid est une base de donnĂ©es distribuĂ©e, orientĂ©e colonnes et open source, Ă©crite en Java. Druid est conçu pour ingĂ©rer rapidement d’énormes quantitĂ©s de donnĂ©es d’évĂ©nement et renvoyer les donnĂ©es avec un faible temps de latence[2]. Le nom Druid fait rĂ©fĂ©rence aux druides de nombreux jeux de rĂŽle, par analogie Ă  l'aptitude de l'architecture du systĂšme Ă  se mĂ©tamorphoser pour rĂ©soudre diffĂ©rents types de problĂšmes de donnĂ©es.

Druid est couramment utilisé dans les applications d'informatique décisionnelle et de traitement analytique en ligne pour analyser de gros volumes de données historiques et en temps réel[3]. Druid est utilisé en production par les sociétés technologiques telles que Alibaba, Airbnb, Cisco[4], eBay[5], Netflix[6], PayPal, Yahoo[7] et Wikimedia Foundation[8].

Historique

Druid a été lancé en 2011 pour alimenter le produit d'analyse de la société Metamarkets. Le projet a été open source sous licence GPL en [9] - [10] et est passé à une licence Apache en [11] - [12].

Au fil du temps, un certain nombre d’organisations et de sociĂ©tĂ©s ont intĂ©grĂ© Druid dans leur back office[3] et des committers de nombreuses organisations diffĂ©rentes ont Ă©tĂ© ajoutĂ©s[13].

En , la société commerciale Imply a été lancée pour fournir un produit d'entreprise construit autour de Druid[14].

En , Spicule Ltd a publié une version prise en charge de Druid sur la plate-forme Juju de Canonical[15].

Architecture

Architecture of the Druid cluster

EntiĂšrement dĂ©ployĂ©, Druid s'exĂ©cute en tant que cluster de processus spĂ©cialisĂ©s (appelĂ©s nƓuds dans Druid) afin de prendre en charge une architecture tolĂ©rante aux pannes[16] les donnĂ©es sont stockĂ©es de maniĂšre redondante et en l'absence de point de dĂ©faillance unique[17]. Le cluster inclut des dĂ©pendances externes pour la coordination (Apache ZooKeeper), le stockage de mĂ©tadonnĂ©es (par exemple MySQL, PostgreSQL ou Derby) et une installation de stockage profond (par exemple HDFS ou Amazon S3) pour la sauvegarde permanente des donnĂ©es.

Gestion des requĂȘtes

Les requĂȘtes du client sont d’abord envoyĂ©es aux nƓuds broker, qui les transfĂšrent ensuite aux nƓuds appropriĂ©s (historiques ou en temps rĂ©el). Comme les segments Druid peuvent ĂȘtre partitionnĂ©s, une requĂȘte entrante peut nĂ©cessiter des donnĂ©es provenant de plusieurs segments et partitions stockĂ©s sur diffĂ©rents nƓuds du cluster. Les brokers peuvent savoir quels nƓuds ont les donnĂ©es requises et fusionner ensuite des rĂ©sultats partiels avant de renvoyer le rĂ©sultat agrĂ©gĂ©.

Gestion de cluster

Les opĂ©rations relatives Ă  la gestion des donnĂ©es dans les nƓuds historiques sont supervisĂ©es par des nƓuds de coordination. Apache ZooKeeper est utilisĂ© pour enregistrer tous les nƓuds, gĂ©rer certains aspects des communications entre nƓuds et organiser des Ă©lections d'un leader.

Caractéristiques

  • Ingestion de donnĂ©es Ă  faible latence (streaming)
  • Exploration de donnĂ©es arbitraire sur les tranches
  • RequĂȘtes analytiques en moins d'une seconde
  • Calculs approximatifs et exacts

Articles connexes

Références

  1. « Release 26.0.0 », (consulté le )
  2. (en) Nicole Hemsoth, « Druid Summons Strength in Real-Time » [« Druid appelle la force en temps-réel »], sur Datanami, (consulté le ).
  3. (en) druid, « Druid | Powered by Druid », druid.io (consulté le ).
  4. (en) Butler, « Under the hood of Cisco’s Tetration Analytics platform » (consultĂ© le ).
  5. (en) « Druid at Pulsar - ebay的䞓栏 - 捚漱鱑道 - CSDN.NET », blog.csdn.net (consultĂ© le ).
  6. (en) « The Netflix Tech Blog: Announcing Suro: Backbone of Netflix's Data Pipeline », techblog.netflix.com (consulté le ).
  7. (en) « Complementing Hadoop at Yahoo: Interactive Analytics with Druid » (consulté le ).
  8. (en) Andrew Otto et Fangjin Yang, « Analytics at Wikipedia: Big data conference: Strata Data Conference, September 25 - 28, 2017, New York, NY » (consulté le ).
  9. Tschetter, Eric. "Présentation du druide" , Druid.io , 24 octobre 2012.
  10. Higginbotham, Stacey. "Metamarkets open sources Druid, sa base de données en mémoire" , GigaOM , 24 octobre 2012.
  11. Harris, « The Druid real-time database moves to an Apache license », (consulté le ).
  12. « Druid Gets Open Source-ier Under the Apache License » (consulté le ).
  13. druid, « Druid | Druid Community », druid.io (consulté le ).
  14. Novet, Jordanie. "Imply lance 2 M $ pour commercialiser le magasin de données open source Druid" , VentureBeat , 19 octobre 2015.
  15. Downie, Stephen. "L'entreprise de données Spicule met la puissance du magasin d'analyse utilisé par Netflix entre les mains des clients" , EIN Presswire , 7 novembre 2018.
  16. Documentation du projet druide.
  17. Yang, Fangjin; Tschetter, Eric; Léauté, Xavier; Ray, Nelson; Merlino, Gian; Ganguli, Deep. "Druide: un magasin de données analytiques en temps réel" , Metamarkets , extrait le 6 février 2014.
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplĂ©mentaires peuvent s’appliquer aux fichiers multimĂ©dias.