Past Meetup

1st Beijing Alluxio (Formerly Tachyon) Meetup

This Meetup is past

27 people went

What we'll do

Alluxio(前Tachyon)是一个开源内存级虚拟大数据存储系统, 其源自UC Berkeley AMPLab(Mesos和Spark也出自此实验室)。此次Meetup是一次展示和交流该项目最新研究成果以及在大数据领域内应用的活动。

时间: 2016年8月7日 上午09:30-中午12:30

地点: 北京市海淀区学院路37号北京航空航天大学如心楼会议中心二层(北航体育馆对面)

议程:

9:30am - 10:00am 签到/Signup

10:00am - 12:30pm 主题演讲/Technical Session:

1 Alluxio项目创始人李浩源将会介绍大数据、存储领域业界发展,Alluxio项目所取得的最新进展等;

2 Alluxio项目PMC, 范斌和富羽鹏会介绍和示范Alluxio最新的功能;

3 来自百度美国研究所的Leo Wang博士会介绍Alluxio在百度的应用;

4 去哪儿网的工程师李雪岩也会带来Alluxio如何帮助去哪儿网的streaming应用峰值提速300x的介绍;

5 北航计算机学院ACT实验室的张扬扬博士会介绍在内存计算、大数据处理方面的系统和研究工作。

主讲内容:Alluxio(前Tachyon)的历史、现状与发展方向

Alluxio,前称Tachyon,是一个开源内存级虚拟大数据存储系统。在其开源的三年的时间里,Alluxio社区已汇集全世界100多家公司的超过300名贡献者,成为大数据领域内历史上成长最快的项目之一。Alluxio系统已经被部署使用在例如百度、巴克莱银行、去哪儿网等公司的生产环境中,Alluxio已经其中一些部署应用中运行了一年多,管理着PB级别的数据。

在过去一年的活跃社区开发中,Alluxio在读写性能、可扩展性以及用户体验方面都得到了极大的提升。此外,功能方面,Alluxio还增加了一系列新功能,比如可扩展的分层存储、透明的UFS数据读写、统一命名空间等。这些功能为Alluxio用户带来更多的价值和更高效便捷的集群存储管理。与此同时,Alluxio生态系统还扩展了对不同的存储系统和计算框架的支持。现在Alluxio支持多种存储系统包括Amazon S3、谷歌云存储、Gluster、Ceph、HDFS、NFS和OpenStack Swift等;支持多种主流大数据处理框架,包括Spark,MapReduce,Flink等。这些生态系统的发展使Alluxio可以与更多大数据生态系统组件配合起来为用户带来更多的价值。

未来,为了更广泛的用户人群可以使用Alluxio,我们会着重提高Alluxio的安全性、支持新语言以及进一步增加稳定性和对资源的有效使用。此外,我们还会探索新的API,让应用程序能够更有效地访问和管理数据。

嘉宾李浩源(Alluxio) Alluxio(前称Tachyon Nexus)创始人及CEO。 加州大学伯克利分校AMPLab读博期间,联合创建开源内存级虚拟分布式存储系统Alluxio,目前也是Alluxio开源项目的PMC成员;Apache Spark的Founding Committer。 在进入AMPLab之前,曾在Conviva和Google公司工作,并已获得了北京大学、 康奈尔大学的学士和硕士学位。

主讲内容:Alluxio: 统一的文件名称空间与层级存储管理

在大数据应用场景中,针对不同的计算框架与任务特点,分别配置数据源和存储资源,以及在不同的计算框架间高速有效地实现数据共享和管理是一件困难且有挑战性的任务。Alluxio(前Tachyon)是开源内存级虚拟大数据存储系统。它为不同的计算框架提供统一的接口来访问来自不同数据源的数据,并实现了层级存储机制,从而有效地解决数据存储的管理与配置问题:

1. Alluxio为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据,比如阿里巴巴OSS/亚马逊S3/谷歌GCS等云存储、OpenStack Swift、Ceph、HDFS、GlusterFS等。并且Alluxio提供统一命名空间以及挂载API,可以使得用户在Alluxio中同时访问管理多个数据源中的数据。并且在Alluxio上进行的如创建、删除、重命名等操作会直接无缝的映射到底层存储上的操作。

2. 针对集群内存容量有限的情况,Alluxio提供的分层存储机制,不仅可以管理内存,也可以同时管理SSD和HDD。这不但能够扩大Alluxio管理资源的容量,使得计算框架可以处理更大规模的数据,同时还可以自动的把更经常访问的热数据迁移到更快的存储层上,使得数据的访问速度能比现有常规方案快几个数量级。而这一切过程都对计算框架完全透明.

Alluxio PMC Maintainer 范斌会详细讲解Alluxio的分层存储管理机制与统一命名空间的设计与使用。演示如何在Alluxio中配置内存、SSD、HDD,以及Alluxio内部对数据在不同层之间迁移的机制与策略。同时也会介绍定制化的数据管理策略,例如用户可以把一个文件指定存储在某个层上,或者设定一个文件的生命周期。此外还会讲解Alluxio与底层存储的对接接口,与对不同类型的底层存储进行无缝对接的操作。

嘉宾范斌(Alluxio) Alluxio公司软件工程师, Alluxio PMC以及Maintainer成员。 加入Alluxio项目之前曾在Microsoft Research,Google任职并研发分布式存储系统,并获Google Technical Infrastructure奖。 范斌博士毕业自卡内基梅隆大学计算机系,博士期间主攻分布式系统方向,并有多篇论文发表于SOSP,SIGCOMM,NSDI等顶级学术会议。

嘉宾富羽鹏 Alluxio公司的工程师, Alluxio PMC以及Maintainer成员。 在加入Alluxio之前,曾在Palantir带领团队开发存储平台。富羽鹏本科与硕士毕业于清华大学,并在加州大学圣地亚哥分校进行了博士学习,有多篇论文发表于VLDB, SIGMOD, WWW等顶级学术会议。

主讲内容:Alluxio帮助去哪儿网酒店数据业务最高提速300x

Qunar酒店数据部门驱动了公司酒店业务的数据化决策和数据化运营工作;具体工作包括基于hive的离线数据仓库,基于storm/ spark streaming的实时数据仓库,以及基于spark,通过机器学习驱动的智能定价系统。通过使用Alluxio,我们的实时仓库系统效率得到了很大提升,我们的模型训练效率也有显著提升。

我们利用Alluxio提供的分布式缓存机制,配合分层存储机制,将Spark Streaming运行过程中的数据,如block,checkpoint,计算结果等数据,存储到内存、SSD两种存储资源中,并利用Alluxio提供的缓存策略,保证热数据存储在更快的存储(内存)中,同时计算结果写入Alluxio并同步给underfs(HDFS),减少整个mirco batch的迭代时间,通过Spark Streaming on Alluxio,我们不但在降低了数据在不同的数据中心的加载延时,更得到了最高300x的数据提速,极大的缩短了数据计算/验证的时间。

在Spark/Zeppelin on Alluxio的帮助下,Qunar酒店数据组构建了一套低延时的基于机器学习的酒店定价系统。我们通过Zeppelin完成模型的构建和修正工作,利用Spark on Alluxio驱动整个Qunar的酒店房间报价的智能化,通过Batch模式大批量计算报价及策略信息,并将结果写入Alluxio并同步给HDFS,这些数据既可以由Hive直接读取,又可以通过Alluxio的Key-value接口对外提供更快速的访问。同时,Spark Streaming读取这些训练结果并快速的反馈到更高层次的应用系统中。

嘉宾李雪岩(去哪儿) 北京趣拿软件科技有限公司平台事业部数据平台研发工程师。 毕业于黑龙江大学软件工程专业。现主要负责资源管理系统Mesos和布分式内存管理系统Alluxio的持续集成开发,为各业务线的数据方面基础公共服务支持。主要涉及ELK日志ETL平台,Spark&Flink批处理系统和流式处理系统, zeppelin交互式处理等系统的发布与监控。

主讲内容:百度无人车背后的巨大数据挑战

百度是无人车竞赛中最重要的竞争者之一。 目前在中国,只有百度完成了实际的高速公路和本地道路测试。百度的目标是实现Level 4自动驾驶的商业化和产业化。在2016年,我们计划部署数十辆无人车,在北美和中国同时展开大量的道路测试。

在这一演讲中,我们会向听众介绍无人车项目,尤其是数据处理方面的巨大挑战与机遇;以及百度通过自身多年的积累,如何来应对这些挑战。我们会具体的描述:

1. 百度无人车所用的多种传感器,数据融合,用于离线机器学习的海量数据以及在线计算吞吐量的需求;

2. 百度在计算机视觉,深度学习,大数据处理方面的技术积累,包括我们运用并参与开源系统开发,在我们的产品线上取得良好的收益。一个具体的例子是我们与Alluxio合作,在百度的即时查询系统Pingo上使用Alluxio作为缓存,取得30倍速度提升效果。

3. 我们如何运用我们的技术积累来应对无人车的技术挑战,比如Alluxio和Spark在无人 车离线系统中的应用场景。

嘉宾Leo Wang(百度) Leo Wang来自百度美国研发中心无人车团队,作为系统架构师,他目前负责百度无人车在线运算系统和离线数据工程。他拥有多年大数据系统设计和开发经验。 加入百度前,他在IBM Silicon Valley lab担任高级软件工程师,从事DB2引擎和大数据平台研发工作。美国南加州大学计算机学博士。

主讲内容:大数据处理平台RING及内存计算技术

在这一演讲中,我们会向听众介绍北航计算机学院ACT实验室在内存计算、大数据处理方面的系统和研究工作:我们基于Alluxio、HBase、Elastic Search、Kafka、Spark、Spark Streaming等构建了面向实时流式大数据的基于内存的分布式处理平台RING。并对各部分组件进行修改和优化,使得RING可以支持通用内存计算;增量式的、类SSP(Stale Synchronous Parallel)模式的分布式图计算;以及基于分布式共享内存的高效参数服务器和机器学习计算。在此之上,RING平台分别支撑了由北航牵头的国家973“网络信息空间大数据计算理论”示范项目、“车联网”项目等,满足了这些项目在实时性、大规模数据处理和分析方面的需求。

嘉宾张扬扬(北航) 北京航空航天大学计算机学院在读博士,研究方向包括虚拟化,分布式系统。 曾在LISA等国际会议上发表论文,参与CMU分布式机器学习系统及数据处理系统的开发、国家973“网络信息空间大数据计算理论”示范项目等。