H2O (logiciel)
H2O est un logiciel open source pour l'analyse de données Big data. Il est produit par la société H2O.ai. H2O permet aux utilisateurs de tester des milliers de modèles dans le cadre de la découverte des modèles dans les données.
Dernière version | 3.31.0 ()[1] |
---|---|
Dépôt | github.com/h2oai/h2o-3 |
Assurance qualité | Test unitaire |
Écrit en | Java |
Système d'exploitation | Linux |
Environnement | Machine virtuelle Java |
Type |
Bibliothèque logicielle Bibliothèque logicielle Python (d) |
Licence | Licence Apache |
Site web | www.h2o.ai et h2o.ai |
H2O peut être appelé à partir de programmes en R, Python, ou d'autres environnements. Il est utilisé pour l'exploration et l'analyse de données stockées dans le cloud ou systèmes tel que HDFS, ou sur des systèmes plus conventionnels Linux, mac, Microsoft Windows. H2O est écrit en Java, Python, et R. Son interface graphique est compatible avec les quatre navigateurs: Google Chrome, Safari, Firefox, et Internet Explorer.
H2O
Le projet H2O vise à développer une interface pour l'analyse de l'informatique en cloud, en fournissant aux utilisateurs des outils pour l'analyse des données. Le logiciel est open-source et distribué librement. La société se rémunère sur la prestation de service.
Exploration de données big data
Certains jeux de données sont trop grands pour être analysés à l'aide de langages traditionnels comme R. H2O fournit des structures de données et des méthodes appropriées pour le big data. H2O permet aux utilisateurs d'analyser et de visualiser l'ensemble du jeu de données (sans avoir besoin de l'échantillonner). H2O inclut les algorithmes statistiques : K-means, modèles linéaires généralisés, forêt d'arbres décisionnels, machines d'amplification de gradient, classification naïve bayésienne, analyse en composantes principales, et généralisée à faible rang de modèles[2].
H2O est également capable de fonctionner sur Spark[3].
Méthodes itératives pour les problématique temps réel
H2O utilise des méthodes itératives qui fournissent des réponses rapides à l'aide de toutes les données du client. Quand un client ne peut pas attendre pour une solution optimale, le client peut interrompre les calculs et utiliser une solution approximative. Dans son approche de l'apprentissage profond[4], H2O divise les données en sous-ensembles, puis analyse chaque sous-ensemble simultanément à l'aide de la même méthode. Ces processus sont combinés pour estimer les paramètres à l'aide de l'approche Hogwild[5], une méthode comparable à l'Algorithme du gradient stochastique[6]. Ces méthodes permettent à H2O de fournir des réponses sur l'utilisation de toutes les données du client, plutôt que de jeter la plus grande partie de l'analyse d'un sous-ensemble avec les logiciels traditionnels.
Les langages de programmation
Le H2O logiciel dispose d'une interface pour les langages de programmation: Java (6 ou plus), Python (2.7.x, 3.5.x), R (3.0.0 ou plus) et Scala (1.4-1.6).
Les systèmes d'exploitation
Le H2O logiciel peut être exécuté sur les classiques systèmes d'exploitation: Microsoft Windows (7 ou plus récent), Mac OS X (10.9 ou version ultérieure), et Linux (Ubuntu 12.04 ; RHEL/CentOS 6 ou version ultérieure), Il fonctionne également sur de grands volumes de données systèmes, en particulier Apache Hadoop Distributed File System (HDFS), plusieurs versions populaires: Cloudera (5.1 ou version ultérieure), MapR (3.0 ou version ultérieure), et hortonworks a (HDP 2.1 ou version ultérieure). Il fonctionne également sur les environnements de cloud computing, par exemple à l'aide d'Amazon EC2, Google Compute Engine, et Microsoft Azure. Le logiciel l'Eau Pétillante de H2O est Databrickscertifié sur Apache Spark.
Interface utilisateur graphique et navigateurs
Son interface utilisateur graphique est compatible avec les quatre navigateurs: google Chrome, Safari, Firefox, Internet Explorer (IE10).
Références
- « Release 3.31.0 », (consulté le )
- Aiello, Spencer, Tom Kraljevic et Petr Maj, h2o: R Interface for H2O, The R Project for Statistical Computing, coll. « Contributed Packages », (lire en ligne)
- (en) « FAQ — H2O 3.10.2.1 documentation », sur docs.h2o.ai (consulté le )
- "Prediction of IncRNA using Deep Learning Approach". Tripathi, Rashmi; Kumari, Vandana; Patel, Sunil; Singh, Yashbir; Varadwaj, Pritish. International Conference on Advances in Biotechnology (BioTech). Proceedings: 138-142. Singapore: Global Science and Technology Forum. (2015)
- Description of the iterative method for computing maximum-likelihood estimates for a generalized linear model.
- Benjamin Recht, Re, Christopher, Wright, Stephen, Feng Niu, Re, Christopher, Re, Christopher, Re, Christopher, Re, Christopher, Re, Christopher et Re, Christopher, « Hogwild: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 24,‎ , p. 693–701 (lire en ligne) Recht's PDF