Creando una arquitectura Big Data con Apache Spark, por Ricardo Fanjul de Letgo


Details
Hey there! We hope you recharged your batteries during this Easter holidays because we're continuing this season with more Meetups!
Next week we are invited to Letgo! Our next speaker, Ricardo Fanjul will share with us how they developed their data infrastructure and how Apache Spark is helping them to be one of the biggest second-hand marketplaces in the USA.
See you next Thursday 12th of April 19:00 @ Letgo offices. We want to thank them for the venue, drinks, and snacks they offer.
This time the speech will be in Spanish, don't miss it!!
Title:
Creando una arquitectura Big Data con Apache Spark
Abstract:
Letgo es un second-hand marketplace con decenas de millones de usuarios, siendo de las apps del sector más usadas en EEUU.
Además, Letgo es una empresa orientada a datos. Debido al crecimiento constante en número de usuarios, se ha visto obligada a construir una arquitectura dinámica y horizontalmente escalable que permita el procesado de TBs de datos tanto batch como en streaming.
En esta charla discutiremos en profundidad sobre:
- Las decisiones que hemos tomado y su motivación.
- La ingesta de datos empleando Kafka Connect y Kafka.
- Almacenamiento y deduplicación de datos mediante Cassandra y su posterior almacenamiento en S3 y HDFS.
- Uso de Hive Metastore para construir una visión global de todas nuestras fuentes de datos sea cual sea su origen: S3, HDFS, Redshift, Cassandra, MySQL.
- La creación de nuestro Data Lake, realizando transformaciones y enriquecimiento de datos. Entre otras cosas con información geoespacial.
- Integración en la arquitectura de diversas herramientas: Airflow, Jupyter, Zeppelin, Superset.
- Los procesos necesarios para asegurar la calidad de los datos.
- Y lo más importante, cómo hemos estandarizado el uso de Spark tanto para el procesamiento en batch, streaming y como query engine (Spark Thrift Server).
Bio:
Ricardo Fanjul trabaja como Data Engineer en Letgo, una de las startups con mayor crecimiento en EEUU.
Desde su llegada a Barcelona en el 2016, Ricardo trabaja en el desarrollo de la arquitectura de datos de Letgo, donde emplea las últimas tecnologías Big Data para procesar los datos de millones de usuarios.
Anteriormente trabajó desarrollando arquitecturas distribuídas en empresas como ING o Fintonic.
Desde que terminó sus estudios en el 2009, siempre ha tratado de trabajar con las últimas tecnologías, buscando enfrentarse a todos los retos tecnológicos posibles.

Creando una arquitectura Big Data con Apache Spark, por Ricardo Fanjul de Letgo