Apache ORC

Apache ORC (Optimized Row Columnar) est un format de stockage de données orienté colonne libre et à code source ouvert de l'écosystème Apache Hadoop. Il est similaire aux autres formats de fichiers de stockage en colonnes disponibles dans l'écosystème Hadoop, tels que RCFile et Parquet. Il est compatible avec la plupart des infrastructures de traitement de données de l'environnement Hadoop .

Apache ORC

Informations
Développé par	Apache Software Foundation
Première version	12 mai 2015[1]
Dernière version	1.6.7 (22 janvier 2021)[2]
Dépôt	gitbox.apache.org/repos/asf/orc.git
Écrit en	C++ et Java
Type	Format de fichier (en) Format de sérialisation de données (d) Projet de la fondation Apache (d)
Licence	Licence Apache version 2.0
Site web	orc.apache.org

En février 2013, Hortonworks a annoncé le format de fichier Optimized Row Columnar (ORC) en collaboration avec Facebook. Un mois plus tard, le format Apache Parquet était annoncé, développé par Cloudera et Twitter[3].

Comparaison

Apache ORC est comparable aux formats de fichier tels RCFile et Parquet - les trois font partie de la catégorie de stockage de données en colonnes dans l'écosystème Hadoop. Ils ont tous une meilleure compression et un meilleur encodage avec des performances de lecture améliorées au prix d'écritures plus lentes.

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Apache ORC » (voir la liste des auteurs).

« https://projects.apache.org/json/projects/orc.json » (consulté le 8 avril 2020)
(en) « ORC 1.6.7 Released », 22 janvier 2021 (consulté le 30 janvier 2021)
Justin Kestelyn, « Introducing Parquet: Efficient Columnar Storage for Apache Hadoop », Cloudera blog, 13 mars 2013 (consulté le 4 mai 2017)

Voir aussi

Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.