This Meetup is past

47 people went

Location image of event venue

Details

Procesamiento distribuido con Apache Spark

Apache Spark (https://spark.apache.org/) es una plataforma de procesamientos de datos a gran escala que combina el procesamiento batch, interactivo y en tiempo real en una sola herramienta.

Creado por los laboratorios AMP Lab de la Universidad Berkeley Spark se posiciona como el sucesor natural de Hadoop MapReduce logrando mejoras en los tiempos de ejecución de hasta 100 veces para algunas aplicaciones.

Spark obtuvo recientemente el nuevo récord Sort Benchmark (https://databricks.com/blog/2014/10/10/spark-petabyte-sort.html) al ordenar 100TB de datos en 23 min con 206 máquinas, desplazando el récord anterior de Hadoop de 100TB en 72 min con 2100 máquinas.

En la actualidad más de 50 empresas contribuyen en el desarrollo de Spark (incluyendo Yahoo e Intel) y ha sido adoptado por las principales distribuciones de Hadoop (Cloudera, MapR, HortonWorks, Pivotal, IBM, DataStax, etc).

Presentado Por: Fernando Rodríguez (@frodriguez (https://twitter.com/frodriguez))

Fernando Rodríguez es egresado de la carrera de Ingeniería de la Univ. de La Matanza y cuenta con más de 15 años de experiencia en el desarrollo de software.

Comenzó su carrera en los laboratorios de Fuego, Inc. y luego trabajó en BEA Systems y Oracle principalmente en el diseño y desarrollo de software de base para un producto de BPM.

Actualmente se desempeña como consultor independiente y profesor de las cátedras de Sistemas Distribuidos, Diseño de Compiladores y Lenguajes de Programación de la Universidad Austral.

Fernando es el creador de mvnrepository.com (http://mvnrepository.com/) uno de los sitios mas populares de la comunidad de Java, organizador del grupo "Buenos Aires High Scalability" (http://www.meetup.com/buenos-aires-high-scalability-group/) y autor de los cursos nosqlessentials.com (http://nosqlessentials.com/).