Past Meetup

Shanghai Big Data Streaming 1st Meetup

This Meetup is past

93 people went

Details

日程:

12:45 – 13:00 签到

13:00 – 13:15 开场白 (Intel + 太库介绍)

13:15 – 14:00 JStorm/Storm在阿里的实践和社区进展 (阿里巴巴)

14:00 – 14:30 StreamingCQL - 构建在分布式流处理平台上的查询语言 (华为)

14:30 – 14:50 茶歇

14:50 – 15:35 Pulsar– Real-time analytics at Scale (eBay)

15:35 – 16:15 Gearpump – 基于Akka的开源流处理引擎 (Intel)

16:20 – 17:00 继续讨论

主办:Intel

金牌赞助伙伴: 太库

Speaker List:

Speaker1:

封仲淹(淘宝花名: 纪君祥) 阿里巴巴阿里中间件团队高级技术专家

阿里巴巴JStorm 核心作者之一,流式计算权威人士之一,曾从事分布式计算,分布式存储多年, 专利颇多,目前专注于实时计算和流式计算。 梦想有朝一日能实现类似Hadoop的系统。曾就职于EMC,VIA。

分享主题: JStorm/Storm在阿里的实践和社区进展 (45分钟)

随时业务对数据的实时性要求越来越严格, 越来越多的应用开始使用JStorm、Storm进行实时计算, 本次演讲将介绍jstorm在阿里的现状,和jstorm正在开发的特性,以及Jstorm 并入storm后的计划与安排(STORM-717)。

Speaker2:

汪兴朗 eBay资深架构师

毕业于上海交通大学计算机系,于2013年4月加入eBay, 目前是ebay Cloud Service的资深架构师,eBay CCOE technical board主席。加入ebay之前,在HP专注于电信行业的实时系统平台, 曾担任HP电信业务实时平台的首席架构师。具有丰富的分布式实时系统的经验,在eBay成功的将实时系统和用户行为数据结合起来,搭建了一个实时的用户行为数据的处理的平台,大大缩短了业务部门的决策时间,推动了eBay用户行为数据分析从hadoop批处理转向实时处理

分享主题: Pulsar – Real-time analytics at Scale. (45分钟)

Pulsar – 来自eBay的一个分布式复杂事件流处理平台,在eBay内部用于对于用户行为数据的数据分析。通过对用户行为数据流的实时分析,给客户带来更好的个性化体验,帮助客户监控实时业务信息并定制实时营销策路,及时监测网络欺诈行为并减少机器人干预。并且Pulsar是基于标准的分布式云架构部署并跨越多个数据中心,从而保证了在系统升级和拓扑更新时没有集群停机时间。

Speaker3:

何志强 华为实时分析团队高级技术专家

StreamingCQL核心作者之一,实时处理资深架构师。2011年4月加入华为,目前在华为进行实时分析开发。一直从事大数据分析、分布式计算、流式处理等方面的研究及开发。

分享主题: StreamingCQL——构建在分布式流处理平台上的查询语言 (30分钟)

StreamingCQL(Streaming Continuous Query Language)是建立在分布式流处理平台基础上的类SQL查询语言,架构支持构建在多种流处理引擎之上,目前主要适配Storm。当前多数流处理平台仅提供分布式处理能力,业务逻辑开发复杂,流计算业务功能较弱,存在业务逻辑重用性不高、重复开发、开发效率低下等问题。StreamingCQL提供了较丰富的分布式流计算功能,除了具有过滤、转换等传统的SQL基本能力之外,StreamingCQL引入基于窗口的计算,提供窗口数据的统计、关联等能力,以及流数据的拆分、合并等功能。本次演讲将介绍CQL功能,目前现状和后期发展计划。

Speaker4:

钟翔 Intel大数据技术部工程师

2011年加入Intel,2014年前是Intel大数据发行版开发(IDH)的核心力量,开发了IDH的几个核心功能,比如MapReduce NativeTask,HBase 大对象存储等。现在主要关注实时流处理,创立了基于Akka的新型流处理引擎Gearpump( http://www.gearpump.io/ )。钟翔是Apache Storm的PMC成员。

分享主题: Gearpump – 基于Akka的开源流处理引擎 (40分钟)

Akka是一个分布式软件开发的中间件,基于Actor模型提供了通信、并发、隔离、容错等基础设施。本次演讲将介绍Intel怎样使用Akka Actor抽象,解决流处理的各种问题,实现一个每秒钟处理千万消息的流处理引擎Gearpump。解决的问题包括:

1) 实时性,毫秒级延时。

2) 一致性,Exactly once 的消息处理,数据不丢不重。

3)吞吐量,每秒能处理百万甚至千万条消息。

4)可用性, 没有单点失效。

5)灵活性,支持计算图的动态升级替换,支持弹性扩展,支持时间乱序的消息。