Skip to content

Arquitecturas Lakehouse y los estándares abiertos que las soportan

Photo of Alfonso Roa
Hosted By
Alfonso R. and Constantino C.
Arquitecturas Lakehouse y los estándares abiertos que las soportan

Details

El ponente de esta charla será Constantino Casado.
Tras el evento Idealista ofrecerá comida y bebida para amenizar el networking.
Abstract
La arquitectura Lakehouse, un nuevo paradigma en la gestión de datos, combina los mejores elementos de los lagos de datos y los almacenes de datos. Esta arquitectura proporciona una plataforma unificada para manejar tanto datos estructurados como no estructurados, permitiendo una exploración de datos eficiente, informes y análisis en tiempo real.

Adoptar una arquitectura Lakehouse requiere tomar una decisión crítica sobre el estándar de código abierto adoptado para las tablas: Hudi, Iceberg y Delta.

1. Hudi: Desarrollado por Uber, Hudi (Hadoop Upserts Deletes and Incrementals) está diseñado para gestionar grandes conjuntos de datos analíticos en almacenamiento distribuido. Proporciona soporte de upsert y metadatos de línea de tiempo para gestionar versiones de archivos, lo que lo hace ideal para simplificar el procesamiento de datos incrementales y el desarrollo de tuberías de datos.
2. Iceberg: Creado por Netflix, Iceberg introduce un nuevo formato de tabla para datos tabulares grandes y de movimiento lento. Mejora el rendimiento y transforma cómo los ingenieros de datos pueden manejar y gestionar los datos, ofreciendo aislamiento de instantáneas entre lecturas y escrituras sin ninguna degradación del rendimiento.
3. Delta: Desarrollado por Databricks, Delta Lake es una capa de almacenamiento de código abierto que trae transacciones ACID a Apache Spark y cargas de trabajo de big data. Proporciona cumplimiento y evolución de esquemas, asegurando la integridad de los datos.

La elección entre Hudi, Iceberg y Delta depende del caso de uso específico, la carga de trabajo de datos y la pila de tecnología existente de una organización. Cada formato tiene sus fortalezas y está diseñado para resolver desafíos únicos en el ecosistema de datos.

Disponemos ya de una versión de Delta que puede combinarse (UniForm) con Iceberg y Hudi. Estas capacidades de interoperabilidad se fundamentan en que el formato en que se almacena la información es parquet en todos los casos. Exploramos estas posibilidades y las tendencias de estos estándares a futuro.
Info del speaker:
Constantino es doctorado en Física y tiene un posgrado por el IESE. Trabajó como CTO/CIO durante la mitad de su carrera en medios y organizaciones gubernamentales y luego pasó a proveedores de tecnología para trabajar en funciones de consultoría tecnológica.

Desde un punto de vista técnico, Constantino tiene una sólida formación en matemáticas, desarrollo de software y arquitectura de sistemas con experiencia práctica en ingeniería de datos, plataformas de nube, arquitecturas de datos, herramientas ETL, Data Science y DevOps.
Está certificado profesionalmente como Azure Data Engineer, Azure AI Engineer, Google Cloud Data Engineer y AWS Big Data Specialist, así como EMC Data Science Associate.

En Microsoft actualmente trabaja como "Global Black Belt" de Datos e Inteligencia artificial, diseñando arquitecturas óptimaizadas para aplicaciones modernas de Analítica avanzada e Inteligencia Artificial.

TITLE: Lakehouse architectures and its open standards.

The Lakehouse architecture, a new paradigm in data management combines the best elements of data lakes and data warehouses. This architecture provides a unified platform for handling both structured and unstructured data, enabling efficient data exploration, reporting, and real-time analytics.

Adopting a Lakehouse architecture requires making a decision over the open source format adopted for tables: Hudi, Iceberg, and Delta.

1. Hudi: Developed by Uber, Hudi (Hadoop Upserts Deletes and Incrementals) is designed to manage large analytical datasets over distributed storage. It provides upsert support and timeline metadata for managing file versions, making it ideal for simplifying incremental data processing and data pipeline development.
2. Iceberg: Created by Netflix, Iceberg introduces a new table format for large, slow-moving tabular data. It improves performance and transforms how data engineers can handle and manage data, offering snapshot isolation between reads and writes without any performance degradation.
3. Delta: Developed by Databricks, Delta Lake is an open-source storage layer that brings ACID transactions to Apache Spark and big data workloads. It provides schema enforcement and evolution, ensuring data integrity.
The choice between Hudi, Iceberg, and Delta depends on the specific use case, data workload, and the existing technology stack of an organization. Each format has its strengths and is designed to solve unique challenges in the data ecosystem.

We can already make our delta format compatible with Iceberg and Hudi (Uniform). This interoperability capacity is based on the fact that the data is stored in the same parquet format. We explore these capabilities together with future trends.

Photo of Apache Spark Meetup group
Apache Spark Meetup
See more events
Apache Spark Meetup
Photo of Apache Spark Meetup group
No ratings yet
Idealista
Pl. de las Cortes, 2 · Madrid, MD