Data profiling
Le profiling est le processus qui consiste à récolter les données dans les différentes sources de données existantes (bases de données, fichiers,...) et à collecter des statistiques et des informations sur ces données. C'est ainsi très proche de l'analyse des données.
Objectifs
Le profiling a pour objectif :
- d'identifier les données réutilisables pour d'autres fins ;
- d'avoir des mesures sur la qualité des données et sur la conformité par rapport aux standards de l'entreprise ;
- d'évaluer les risques engendrés par l'intégration de ces données dans de nouvelles applications ;
- d'évaluer si les métadonnées décrivent correctement les données sources ;
- d'avoir une bonne compréhension de l'enjeu des données sources sur les projets à venir afin d'anticiper de mauvaises surprises. La découverte tardive de problèmes de données peut entrainer des dépassements de délais et de budget sur un projet, ex. : avoir à modifier le format d'un code à des centaines d'endroits sur son projet mais aussi éventuellement sur des projets connexes en cours développement, avoir à reconstruire les référentiels associés, avoir à rediscuter et à revalider des documents contractuels…
- d'avoir une vue globale des données pour permettre la gestion des données de référence ou la gouvernance des données afin de renforcer la qualité des données.
Notes et références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « data profiling » (voir la liste des auteurs).
Lien externe
Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.