Skip to content

Paris Open Source Data Infrastructure Meetup - June 2023

Paris Open Source Data Infrastructure Meetup - June 2023

Details

DETAILS

Scaleway nous accueille pour cette seconde édition dans les locaux de sa maison mère Iliad.

PROGRAMME

18:30 : Ouverture des portes

19:00 : Dive into Avro: Everything a data engineer needs to know, Ryan Skraba
Apache Avro is the de-facto standard for serializing structured data: Big data engines, streaming platforms, and data lakes use it to optimise storage or transmission of data.
Avro is stable and mature, and usually "just works", but there's a lot going on behind the scenes. This talk covers topics, gotchas and best practices for using Avro in your systems: types and schemas, logical types, binary and JSON serialization, code generation, and its strong ecosystem of tools.
Finally we'll dive a bit deeper into schema evolution, an important topic especially in event-driven architectures.

Ryan Skraba (he/him/they/them) is a Staff Software Engineer at Aiven, working in the Open Source Program Office. He accidentally got his first programming job 25 years ago due to a clerical error, in a sequence of events that led to him moving from Canada to Paris. He is currently the PMC Chair for Apache Avro, an ASF Member and a contributor to several projects related to Big Data and distributed processing. When he's off the computer, he enjoys baking sourdough bread, gardening and yoga.

19:45: Développer des bases de données fiables grâce à la simulation, Pierre Zemb

Tester la fiabilité d’un logiciel est toujours une chose assez difficile. Malgré tous nos efforts, nous n’arrivons pas à écrire des programmes sans bugs. La raison est assez simple: l’être humain est étonnamment mauvais pour pouvoir imaginer toutes les erreurs possibles qu’un programme peut avoir. Ce constat est encore + vrai quand l'on travaille dans les entrailles des bases de données, où la moindre erreur peut générer de la corruption de données clientes.
Existe-t-il de l'outillage permettant de palier à ce problème ? Une des solutions consiste à venir tout contrôler de façon déterministe: du temps que va prendre l’I/O, au scheduling des threads, en passant par quelle erreur a été déclenché. C’est ce qu’on appelle le Deterministic Simulation Testing. C'est la technique que nous avons choisi afin de pouvoir valider l'implémentation de nos propres bases de données serverless.
Durant ce talk, vous découvrirez les enjeux et les impacts de la simulation dans le cycle de développement d’un logiciel fortement distribué. Vous apprendrez à utiliser notre simulateur open-source. Vous découvrirez également comment Clever Cloud utilise la simulation pour venir accélérer la R&D des futures produits data de l'entreprise.

Pierre Zemb est responsable infrastructure Data chez Clever Cloud. Il a utilisé, opéré, et contribué à une variété de systèmes distribués tout au long de sa carrière comme Hadoop, HBase, Kafka, Pulsar, ETCD ou bien encore FoundationDB.
Il réalise actuellement son rêve d'écrire sa propre base de données en Rust, mais chut, c'est un secret 🤫

20:30 : Snack, drinks and networking

Photo of Paris.dev group
Paris.dev
See more events
16 Rue de la Ville-l'Évêque · Paris