Skip to content

DDD : Data Quality, Data Pipeline, Data Lake

Photo of Etienne Hibert
Hosted By
Etienne H.
DDD : Data Quality, Data Pipeline, Data Lake

Details

La qualité des données est un enjeu majeur pour toutes les entreprises. Elle est souvent la cause de nombreux incidents et d’inefficacité opérationnelle, à cause des processus manuels qui doivent être mis en place pour compenser ce manque de qualité.

Lors de ce meet-up, vous découvrirez comment Expedia a décidé d’adresser cette problématique en :

  • mettant en place une registry de schémas protobuf permettant d’atteindre des objectifs de cohérence et de consistance des données, incluant le développement d’un outil d’analyse de schéma protobuf avec Neo4J

  • concevant un processus appelé CDDC (Consumer Driven Data Contract) permettant de formaliser les contrats entre producteurs et consommateurs de données, et détecter au plus tôt les potentiels breaking changes dans ces contrats, à la fois au build et au runtime

  • construisant un Data Pipeline basé sur AWS Kinesis pour monitorer la qualité des données transmises vers les systèmes consommateurs, ainsi qu’un pipeline de recovery permettant de corriger les données invalides à l’aide de fonctions Lambda

  • construisant un Data Lake basé sur AWS S3 comme unique source de vérité pour l’ensemble de nos données métier.

Speaker : Remy Crepin (Principal Software Architect, Egencia, Expedia Group)

***

Début du meetup à 18h00, la session Bluejeans sera ouverte pour 17h45.

A très bientôt !!!

Photo of Amex GBT Product & Engineering group
Amex GBT Product & Engineering
See more events