Liste des projets autour du big data
Bases de Données
Apache Hbase
HBase est une base de données distribuée disposant d'un stockage structuré pour les grandes tables. Comme BigTable, HBase est une base de données orientée colonnes.
Site: http://hbase.apache.org/
Apache Cassandra
Apache Cassandra est un système de gestion de base de données (SGBD) NoSQL. Le projet est Open source et porté par la Fondation Apache. Cassandra est conçue pour gérer des quantités massives de données réparties sur plusieurs serveurs (cluster), en assurant tout particulièrement une disponibilité maximale des données et en éliminant les points individuels de défaillance.
CouchDB
Apache CouchDB est un système de gestion de base de données orienté documents, écrit en langage Erlang et distribué sous licence Apache. Conçu pour le Web, il fait partie de la mouvance NoSQL, et a été conçu pour pouvoir être réparti sur de multiples serveurs.
MongoDB
MongoDB est un système de gestion de base de données orientée documents, répartissable sur un nombre quelconque d'ordinateurs et ne nécessitant pas de schéma prédéfini des données. Il est écrit en C++. Le serveur et les outils sont distribués sous licence AGPL, les pilotes sous licence Apache et la documentation sous licence Creative Commons2. Il fait partie de la mouvance NoSQL.
Site: https://www.mongodb.org/
Apache Accumulo
Accumulo est un système de gestion de base de données créé par la NSA et légué à la fondation Apache en 2011. Le logiciel est écrit en Java et a été développé dès 2008. Il se classe dans la catégorie des bases de données NoSQL. Il est spécialisé dans la gestion de données de masse.
Accès aux données/ requetage
Pig
Pig est un plateforme haut niveau pour la création de programme MapReduce utilisé avec Hadoop. Le langage de cette plateforme est appelé le Pig Latin4. Pig Latin s'abstrait du langage de programmation Java MapReduce et se place à un niveau d'abstraction supérieur, similaire à celle de SQL pour systèmes SGBDR.
Site: http://pig.apache.org/
Hive
Apache Hive est une infrastructure d’entrepôt de donnée infrastructure intégrée sur Hadoop permettant l'analyse, le requétage et synthèse de données.
Site: https://hive.apache.org/
Data Intelligence
Apache Drill
Apache Drill est un framework logiciel open-source qui supporte les applications temps réel distribués pour l'analyse interactive des jeux de données à grande échelle. Site: http://drill.apache.org/
Apache Mahout
Apache Mahout est un projet de la fondation Apache visant à créer des implémentations d'algorithmes d'apprentissage automatique distribués. D'abord développé au-dessus de la plate-forme Hadoop1,2, Mahout a ensuite utilisé Apache Spark. Mahout est encore en cours de développement ;
H2O
Site: http://www.h2o.ai/
Data Serialisation
Apache Thrift
Thrift est un langage de définition d'interface (IDL) conçu pour la création et la définition de services pour de nombreux langages. Il est utilisé en tant que framework RPC et a été développé par Facebook pour le « développement de services évolutifs multilangage ». Une pile logicielle est jointe à un moteur de génération de code, permettant la création de services fonctionnant plus ou moins efficacement et en continu entre C#, C++ (sur systèmes POSIX), Cappuccino, Cocoa, D, Erlang, Go, Haskell, Java, Node.js, OCaml, Perl, PHP, Python, Ruby, et Smalltalk. Bien que développé par Facebook, il est désormais un logiciel libre hébergé par la fondation Apache. L'implémentation a été décrite en avril 2007 dans un livre technique publié par Facebook, actuellement hébergé par Apache.
Data integration
Cette Section regroupe les outils permettant l'import et l'export de données
Apache Flume
Apache Flume est un logiciel de la fondation Apache destiné à la collecte et à l'analyse de fichiers de log. L'outil est conçu pour fonctionner au sein d'une architecture informatique distribuée et ainsi supporter les pics de charge.
site: http://flume.apache.org/
Apache Chuckwa
Requetage
Presto
Presto est un projet distribué sous licence Apache, il s'agit d'un moteur de requete SQL optimisé pour les interactions temps réel. Site: https://prestodb.io/
Impala
Cloudera Impala est moteur de requête SQL open source de Cloudera (MPP) pour les données stockées dans des cluster d'ordinateurs exécutant Apache Hadoop http://impala.io/
Sécurité des données
Sqrrl
Site: https://sqrrl.com/
Calcul distribué
Spark
Spark (ou Apache Spark) est un framework open source de calcul distribué, initialement développé à Berkeley par AMPLab et maintenant un projet de la fondation Apache. Contrairement a Hadoop qui utilise le patron d'architecture MapReduce sur des disques, Spark travaille en mémoire vive ce qui est potentiellement cent fois plus rapide.
Indexation de Documents
Elasticsearch
Elasticsearch est un moteur de recherche libre open source utilisant Lucene (un des projets de l'Apache Software Foundation).
Apache SolR
Solr est une plateforme logicielle de moteur de recherche s'appuyant sur la bibliothèque de recherche Lucene, créée par la Fondation Apache et distribuée et conçue sous licence libre.
Non Classé
cascalog
site:http://cascalog.org/
Cascading
Apache Hadoop
Hadoop est un framework Java libre destiné à faciliter la création d'applications distribuées et échelonnables (scalables), permettant aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Hadoop a été inspiré par les publications MapReduce, GoogleFS et BigTable de Google.
Tachyon
Apache Phoenix
permet de requĂŞter sur HBase
Apache Oozie
Apache Oozie est un logiciel de la Fondation Apache servant à l'ordonnancement de flux dédié au logiciel Hadoop. Site: http://oozie.apache.org/
Apache Hama
Apache Zookeeper
ZooKeeper est un logiciel de gestion de configuration pour systèmes distribués, basé sur le logiciel Chubby développé par Google. ZooKeeper est utilisé entre autres pour l'implémentation de HBase.
Apache Ambari
Le projet Apache Ambari vise à rendre la gestion de Hadoop plus simple en développant des logiciels pour le provisionnement, la gestion et la surveillance des clusters Apache Hadoop. Ambari fournit une interface utilisateur Web de gestion Hadoop, soutenue par ses API RESTful. Site: http://ambari.apache.org/
Hue(Cloudera)
Hue est une interface web open-source sous licence Apache V2 prenant en charge Hadoop et son écosystème. Site: http://gethue.com/
Ganglia
Apache Giraph
Giraph est un projet Apache destiné à réaliser du traitement de graphes sur des volumes importants de données. Giraph utilise l'implémentation de MapReduce réalisée par Apache Hadoop afin de traiter les graphes.
HCatalog
couche de gestion de métadonnées pour Hadoop
Apache Crunch
Apache Kafka
Apache Kafka est un projet open-source courtier de message développé par Apache Software Foundation écrit en Scala. Le projet vise à fournir un système unifié, temps réel à latence faible pour la manipulation de flux de données en temps réel. La conception est fortement influencée par transaction logs1.
Kibana
Apache Bigtop
Apache S4
Apache Slider
Apache Kudu
Apache Kudu complète la couche de stockage d'Hadoop pour permettre de développer des applications analytiques en temps réel https://kudu.apache.org/
Apache Kylin
Apache Kylin est un moteur distribué analytique Open source conçu pour fournir une interface SQL et l'analyse multidimensionnelle (OLAP) sur Hadoop supportant des ensembles de données extrêmement volumineux, ce projet est issue d'eBay Inc. http://kylin.apache.org/