Aujourd'hui Apache Spark est un outil incontournable pour le traitement de données à l'échelle. Est-ce que tu savais qu'il s'intègre nativement avec Apache Kafka ? Dans mon talk, à travers une analyse de son implémentation, je vais te montrer comment. Avant cela, j'expliquerai quelques concepts communs pour la partie streaming, tels quels fault-tolerance, delivery semantics ou stateful processing. Après le talk tu devrais être capable d'écrire une pipeline avec l'utilisation d'Apache Kafka et comprendre ce qui se passe derrière.
Bio:
Bartosz Konieczny est data engineer, reconverti dans la data en 2016 après de belles années passées sur les projets web (MVC, tu te rappelles de ça?) et web services (REST). Tout de suite tombé sous le charme d'Apache Spark, il a commencé à explorer ce framework pour apprendre Scala et data processing en même temps. Avec le temps il a rajouté d'autres outils dans sa liste et rédigé un certain nombre d'articles à leur sujet sur son blog www.waitingforcode.com . Depuis automne 2019 il apprend une autre façon de partager le savoir à travers des conférences telles que Spark Meetup, Spark Summit ou Paris.py.