Apache Iceberg Paris Community Meetup #1


Details
Le Meetup
Date: 19/06/2025
Venue: Criteo: 32 Rue Blanche, 75009 Paris, France
Speakers: Khanh Tuong Maudoux, Charly CLAIRMONT, Julien Le Dem, Jean-Baptist Onofré, Viktor Kessler
Agenda
18:00 Networking
18:30 - Khanh Tuong Maudoux, Criteo, mot d’accueil (FR)
18:30 - 18:50 Charly CLAIRMONT, Synaltic, Introduction : comment j’ai rencontré Apache Iceberg (FR)
18:55 - 19:15 Julien Le Dem, Datadog, L’avènement du Lac de données ouvertes (FR)
19:15 - 19:30 break
19:30 - 19:50 Jean-Baptist Onofré, Dremio, Evolution & Future d’Apache Iceberg (FR)
19:55 - 20:15 Viktor Kessler, Vakamo, Governing the Lakehouse: Metadata-Driven Control with Apache Iceberg Catalogs (EN)
20:15 - 21:30 Networking
-------------------------------------------------------------------------------------------------------
Comment j’ai rencontré Apache Iceberg ?
Charly clairmont, Synaltic
Charly CLAIRMONT, milite depuis 2004 pour faire progresser les plateforme de données en open source tant à travers son activité professionnelle, que dans l'animation de communauté, tel le Hadoop User Group France, Paris Spark Meetup, Modern Data Stack France.
Talk
On est en 2019 ! On est dans un meeting avec Tomer Shiran ! A toutes les questions qui lui sont posées… Il répond que Apache Iceberg va résoudre ce problème !
Il faut avouer que l'on n'y comprenait pas grand-chose en 2019.
Plus tard, en 2020 Owen O’Malley, un des cofondateurs d’Hortonworks rejoint LinkedIn… Et il est l’une des personnes qui commence à le plus promouvoir Apache Iceberg… A cet instant là, j’étais loin d’imaginer que ce format table allait autant transformer le secteur.
Plus sérieusement, l’architecture vous amène à composer une stack : un collecteur avec le client C++ de Kafka, Kafka pour le transport des données, MinIO pour stocker les données, le format table Iceberg, Apache Flink pour la transformation… Et vous voilà en train de pousser des tables avec plus de 1000 colonnes ! Vous bouger la structure des données ! Et vous n’avez aucun souci de schéma… Alors vous vous arrêtez ! Vous repenser à ce que disait Tomer Shiran ! On est 5 ans plus tard !
Apache Iceberg présente une solution ACID et une interopérabilité multi-moteurs exceptionnelle, répondant de manière efficace à de nombreuses problématiques actuelles.
-------------------------------------------------------------------------------------------------------
L’avènement du Lac de données ouvertes (FR)
Julien Le Dem, Datadog
Julien Le Dem est ingénieur principal chez Datadog, il est membre de l’Apache Software Foundation et membre du conseil consultatif technique de Linux Foundation AI & Data. Il a co-créé les projets open source Parquet, Arrow et OpenLineage. Il est impliqué dans plusieurs autres. Sa carrière de leadership a commencé dans les plateformes de données chez Yahoo! - où il a reçu son initiation à Hadoop - puis s'est poursuivie chez Twitter, Dremio et WeWork. Il a ensuite cofondé Datakin (acquis par Astronomer) pour résoudre les problèmes d'observabilité des données.
Talk
Au cours de la dernière décennie, l'écosystème du big data a mûri et évolué, passant d'un melting-pot de projets concurrents à un écosystème composable organisé autour de quelques standards open source.
Les composants des bases de données, distribuées ou non, ont été transformés en produits de base, des pièces individuelles que chacun peut assembler pour créer des moteurs spécifiques à un cas d'utilisation. Définissez vos propres contraintes et, au lieu de tout construire à partir de zéro, vous pouvez tirer parti de ces pièces pour construire un moteur de requête qui résout votre problème. Cela en fait une "Base de Données Déconstruite" que vous pouvez recombiner à volonté.
Il a été incroyable de voir l'adoption de composants clés tels que Parquet, Arrow, Iceberg, Calcite et OpenLineage. Ils fournissent une couche d'interopérabilité qui permet d'utiliser les données à de nombreuses fins sans créer de silos ni de duplication.
Dans cette présentation, je discuterai de l'impact du cloud et de l'avènement du Lac de Données Ouvertes - rendu possible par le projet Iceberg - brisant les silos pour former la base de cet écosystème. Comme le calcul et le stockage peuvent être efficacement découplés, une couche de stockage commune permet un écosystème dynamique d'outils à la demande spécialisés pour des cas d'utilisation spécifiques, évitant ainsi le verrouillage fournisseur.
Je passerai en revue ces composants, comment ils fonctionnent ensemble et, plus important encore, les contrats qui les maintiennent découplés et composables.
-------------------------------------------------------------------------------------------------------
Evolution & Future d’Apache Iceberg (FR)
Jean-Baptiste Onofre, Apache Software Foundation, Dremio
Jean-Baptiste Onofre est un Principal Software Engineer chez Dremio et une figure centrale de l'Apache Software Foundation (ASF) depuis plus d'une décennie. Membre de l'ASF et siégeant à son conseil d'administration , il est impliqué dans de nombreux projets Apache en tant que Président (Chair) d'Apache Karaf, membre PMC et committer sur une vingtaine de projets incluant Beam, Camel, et ActiveMQ. Son expertise couvre le Big Data, les technologies Java d'entreprise et l'intégration de données. Ancien architecte chez Talend , il a joué un rôle clé dans l'incubation de projets comme Apache Beam (anciennement Dataflow). Auteur du livre "Learning Apache Karaf Cellar" et conférencier régulier , il est également committer à la Fondation Eclipse.
Talk
L'écosystème du lakehouse connaît une évolution rapide, notamment autour d'Apache Iceberg et du catalogue REST Apache Polaris. La présentation abordera Iceberg en tant que format de table ouvert essentiel, en détaillant comment sa gestion des métadonnées améliore l'évolution des schémas, optimise les performances des requêtes par le filtrage et la planification avancée, et offre une flexibilité accrue dans les stratégies de partitionnement, y compris le partitionnement caché. Les nouvelles fonctionnalités de la spécification Iceberg V3, telles que le support natif JSON, l'amélioration des suppressions positionnelles Parquet, le support géospatial et les transformations multi-colonnes, qui enrichissent ses capacités, seront également présentées.
Ensuite, l'importance des catalogues dans l'écosystème Iceberg sera soulignée, en mettant en évidence la standardisation apportée par la spécification du catalogue REST pour garantir l'interopérabilité entre les moteurs de calcul. Apache Polaris sera présenté comme une implémentation de référence de ce service de catalogue REST, en détaillant ses caractéristiques clés : interopérabilité des moteurs, gouvernance des données via le contrôle d'accès basé sur les rôles (RBAC) unifié, gestion de plusieurs catalogues au sein d'une instance unique et flexibilité de déploiement.
-------------------------------------------------------------------------------------------------------
Governing the Lakehouse: Metadata-Driven Control with Apache Iceberg Catalogs (EN)
Viktor Kessler, Vakamo
Viktor a passé toute sa carrière à l'intersection des données et de l'innovation, en construisant des moteurs de risque, des entrepôts de données et des lacs de données modernes. Il a mené des initiatives de données transformatrices dans des firmes mondiales comme SAP, PwC, ERGO, MongoDB et Dremio. Aujourd'hui, il est le fondateur de Vakamo Inc. et le créateur de Lakekeeper, un projet open-source en pleine croissance qui aide les organisations à adopter l'architecture Lakehouse avec confiance et clarté.
Talk
Apache Iceberg has redefined how data is stored and queried in modern lakehouses by introducing a table format that supports ACID transactions, time travel, and schema evolution. At the heart of this transformation lies the Iceberg Catalog—a critical component that manages table metadata and connects distributed storage systems with compute engines.
Catalogs play a central role in enabling metadata-driven governance, allowing data teams to enforce consistency, traceability, and access control at scale. In this session, we explore how Iceberg’s metadata model empowers key governance capabilities such as auditability, reproducibility, multi-engine interoperability, and simplified lineage tracking.
But while Iceberg provides a solid foundation, essential governance features are still emerging. We'll examine what’s missing today: fine-grained policy enforcement, unified access control, real-time metadata observability, and first-class support for data contracts. As Iceberg adoption grows, evolving the catalog layer will be key to achieving enterprise-grade governance in open lakehouse architectures.
-------------------------------------------------------------------------------------------------------
A propos de Criteo
Criteo est l'entreprise mondiale de média commerce qui permet aux services marketing et aux propriétaires de médias d'obtenir de meilleurs résultats commerciaux. Sa plateforme, Media Commerce, leader de l'industrie, connecte des milliers d’entreprises et de propriétaires de médias pour offrir des expériences consommateurs plus riches, de la découverte de produits à l'achat. En alimentant une publicité fiable et percutante, Criteo soutient un internet ouvert qui encourage la découverte, l'innovation et le choix.
Criteo soutient les événements communautaires et open source depuis de nombreuses années.
www.criteo.com
À propos de Synaltic
Synaltic est une société spécialisée dans la gestion et l’analyse de données. Depuis 20 ans, Synaltic accompagne ses clients dans la valorisation de leurs données pour améliorer leur performance et leur compétitivité. Synaltic est reconnu pour être un dénicheur de solutions et pour son expertise open source.
Synaltic, a fait le choix de Dremio dès 2017 ! C’est tout naturellement que Synaltic a aussi fait le choix d’Apache Iceberg et accompagne ses clients à son adoption.
www.synaltic.fr
À propos de Datadog
Datadog est la plateforme d'observabilité et de sécurité des applications cloud. Notre plateforme SaaS intègre et automatise la surveillance de l'infrastructure, la surveillance des performances applicatives, la gestion des logs, la surveillance de l'expérience utilisateur, la sécurité cloud et bien d'autres fonctionnalités pour offrir une observabilité et une sécurité unifiées et en temps réel à l'ensemble de la pile technologique de nos clients. Datadog est utilisé par des organisations de toutes tailles et de tous secteurs pour faciliter la transformation numérique et la migration vers le cloud, favoriser la collaboration entre les équipes de développement, d'exploitation, de sécurité et métier, accélérer la mise sur le marché des applications, réduire les délais de résolution des problèmes, sécuriser les applications et l'infrastructure, comprendre le comportement des utilisateurs et suivre les indicateurs clés de l'entreprise.
www.datadoghq.com
À propos de Dremio
Dremio est la plateforme de lakehouse intelligente à laquelle font confiance des milliers d'entreprises mondiales telles qu'Amazon, Unilever, Shell et S&P Global. Dremio amplifie les initiatives d'IA et d'analyse en éliminant le processus important et chronophage de création d'ensembles de données. Conçu pour aider les équipes d'ingénierie de données qui sont déjà surchargées de sources de données déconnectées et de cycles d'itération prolongés avec les parties prenantes de l'entreprise qui ralentissent les progrès, Dremio élimine les goulots d'étranglement en unifiant les sources de données sans ETL, en simplifiant la création d'ensembles de données gouvernés et de haute qualité, et en offrant une optimisation autonome des performances pour accélérer l'IA. Développé par les créateurs originaux d'Apache Polaris et d'Apache Arrow, Dremio est le seul lakehouse construit nativement sur Apache Iceberg, Polaris et Arrow - offrant une flexibilité, empêchant le verrouillage et permettant une innovation axée sur la communauté.
www.dremio.com
A propos de Vakamo
Vakamo développe Lakekeeper est une implémentation de catalogue REST Apache Iceberg sous licence Apache (elle est à vous !), sécurisée, rapide et facile à utiliser, écrite en Rust. Avec une gestion avancée des permissions, une interface utilisateur complète et une intégration native pour Kubernetes, Lakekeeper facilite la construction de Lakehouses ouverts avec Iceberg.
vakamo.com
docs.lakekeeper.io
Apache Iceberg, Apache, Iceberg, the Iceberg logo, and the Apache feather logo are either registered trademarks or trademarks of the Apache Software Foundation. All other products or name brands are trademarks of their respective holders, including the Apache Software Foundation.

Apache Iceberg Paris Community Meetup #1