Skip to content

Por qué cambiar de Hadoop a Spark? Teoria y ejemplos de nuestra experiencia

Photo of Juan Pablo Saraceno
Hosted By
Juan Pablo S. and Jorge A.
Por qué cambiar de Hadoop a Spark? Teoria y ejemplos de nuestra experiencia

Details

Por qué cambiar de Hadoop a Spark? Teoria y ejemplos de nuestra experiencia con Apache Spark

Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.

Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.

Los tópicos a discutir son:

• Qué és?

• Aspectos que hacen Spark tan atractivo para la comunidad

• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)

• Soporte a distintos lenguajes

• Ejecución: RDD y DAG / Task Scheduller

• Tracción de la comunidad (# commits, # commiters)

• testing, etc

• Demos:

• Spark-shell: Explicar paso a paso el WordCount

• LogAnalytics - compilar y submeter al cluster

• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL

[1] http://spark.apache.org (http://spark.apache.org/)

[2] https://linkedin.com/in/arjones

Photo of SUGAR - Scala User Group Argentina group
SUGAR - Scala User Group Argentina
See more events
SCV
Nicolas Repetto 1841 · Buenos Aires