Shanghai Spark+AI Online Meetup (Jan 22)


Details
Topic 1: Some of the most basic but easily overlooked traps in Spark
Topic 2: BigDL 2.0: Accelerates building large-scale AI applications on Spark-based big data platforms
【议题一】Spark中最基本却易被忽略的若干坑
【主题介绍】Apache Spark是最强大最流行的大数据处理工作之一。网上和各种会议都会介绍大量成功案例,动辄PB级数据,或者通过改造核心部件达到十倍百倍提速。我们为这些成就欢欣鼓舞,然而对于大部分实践者来说,最关键的还是怎样有效并且正确利用Spark的基本功能。在实际工作中,我们发现很多Spark工作流只需简单改动便可产生巨大的速度和稳定性提升,这是因为大量的Spark使用者都被简明易用的教程蒙蔽了,不知不觉踩了很多坑,然后在大数据上这些错误又被进一步放大,最终可能导致整个项目都不能推进。因此,我总结了若干基本却又反复被踩的隐蔽大坑。当你注意到它们的时候,其实非常容易重现也非常容易避免。在此讲座中每一个问题将被现场重现并解决。我希望听众可以从此讲座得到三点启发:
- 避免这里提及的问题。
- 回归根本遇到新问题首先自省基本思路和基本逻辑而不是去找更玄妙的解决方案。
- 明白Spark的设计并不完美,不要迷信,也不要丧失信心。
【讲师介绍】
汪涵,开源项目 Fugue 创始人,目前任职 Lyft 机器学习平台架构师,之前在多家大厂与高频交易公司任职。在以下国际会议:Spark Data AI Summit, PyData Global, KubeCon, Dask Summit, (Linux Foundation) Open Source Summit 汪涵演讲并探讨了大规模计算和机器学习的多个方面。他同时也在 O'Reilly Learning Platform 授课,并与彭河森合著《构建实时机器学习系统》。
【议题二】BigDL 2.0: 加速在基于Spark的大数据平台上构建大规模的人工智能应用
【主题介绍】 Pytorch和Tensorflow是数据科学家和AI工程师们最常用的机器学习框架,但对于他们来说如何把AI从科研或者实验平台无缝迁移到生产环境中部署是个巨大的挑战。通常的做法会搭建两个集群分别用于大数据处理和深度学习应用,但这样不仅有很大的数据传输成本,同时也需要额外的人力去维护不同的系统和工作流。利用BigDL,用户能直接把端到端的数据分析和AI流水线无缝扩展到基于Spark的 大数据集群上。本次分享主要介绍BigDL最新2.0版本的功能以及BigDL包含的各个模块。其中,bigdl-nano能帮助用户以很少或者无代码改动的情况下,加速Pytorch和Tensorflow的训练,推理以及部署准备等工作;bigdl-orca能帮助用户把TensorFlow或者PyTorch的应用直接扩展到大数据上。利用bigdl-nano和bigdl-orca,用户能快速构建AI应用原型并且很容易地实现生产环境中的落地。
【讲师介绍】
邓珺玮,Intel人工智能框架工程师。他目前专注于BigDL大数据与人工智能平台上对自动机器学习, 机器学习框架性能加速组件以及时间序列分析框架的研发。他曾在NIPS,WSDM等人工智能会议上发表论文。在加入intel之前,他分别在密歇根大学安娜堡分校和上海交通大学获得了硕士与学士学位。
黄凯,Intel人工智能框架工程师。负责开发基于Apache Spark的深度学习框架,同时支持企业客户在大数据平台上构建端到端的深度学习应用。他是BigDL的核心贡献者之一。
【直播时间】
2022/01/22(周六) 9:30 - 11:00am
报名请移步至:https://www.slidestalk.com/m/660
BigDL代码开源地址
https://github.com/intel-analytics/BigDL

Shanghai Spark+AI Online Meetup (Jan 22)