南京大数据技术Meetup第二次活动


Details
无法在Meetup网站上报名的童鞋请注意:
本活动接收现场报名,报名1点开始。为了不影响活动的正常进行,请现场报名的童鞋尽早抵达现场报名,谢谢!
===========================================
活动时间
8月30日下午14:00-17:00
活动内容
1.范斌(卡耐基梅隆大学博士,Tachyon Nexus初创成员,前Google大规模分布式存储系统工程师):大数据存储系统Tachyon的基本原理、开源发展与用例分析
2.杨玉皓(Intel大数据平台软件工程师, Spark Contributor):Spark MLlib开发经验分享:LDA和卷积神经网络
3.中场茶歇 & 技术海报交流(40分钟)
4.赵晓东(华为电信软件大数据产品架构师):基于DAG的流式ETL引擎
活动注意事项
1.本活动免费参加。由于场地座位有限,优先保证在线注册的前120个同学的座位,在waitlist或现场报名的同学需要最后进场;
2.根据会场要求, 请务必认真填写报名问题, 谢谢;
3.为保证活动正常进行,活动签到将于13:00开始,13:50结束;
4.如果您无法通过Web注册,请尝试使用手机App注册。
本次活动设有抽奖环节,凡是参加了问卷调查并在当天到场的同学们都有机会中奖。问卷链接 http://www.wenjuan.com/s/Fvye2u/
如果希望分享相关话题(讲师有精美礼品哦~)或赞助后续活动, 请发送邮件到 gurongwalker@gmail.com
本次活动的主办方:
南京大学PASA大数据实验室
南京大数据技术Meetup活动赞助单位(持续更新中):
华泰证券、苏宁云商
支持机构:
江苏省计算机学会大数据专家委员会
江苏省软件新技术与产业化协同创新中心
江苏省大数据产业技术创新联盟
附录1:本次活动讲者和技术分享简介题目1:大数据存储系统Tachyon的基本原理、开源发展与用例分析讲者简介:范斌博士就职于Tachyon Nexus, 是目前Tachyon开源项目的核心开发者之一. 加入Tachyon Nexus之前范斌曾于谷歌工作, 从事下一代大规模分布式存储系统的研究与开发, 并因此获得谷歌Technical Infrastructure Award. 范斌曾在卡耐基梅陇大学(Carnegie Mellon University)攻读并获得计算机博士学位, 有多篇学术论文发表在SIGCOMM, SOSP, NSDI等网络和分布式系统方向的顶级计算机学术会议.摘要:在越来越多的大数据应用场景诸如机器学习,数据分析等, 内存成为保证和提升性能的关键. Tachyon正是以内存为中心而构建的可容错的分布式存储系统, Tachyon全局管理和调度服务器集群的内存资源并通过lineage来实现内存数据丢失的容错. 通过Tachyon, 不同的计算平台如Hadoop MapReduce, Spark可以充分利用内存的速度优势来存取数据, 并无缝实现数据的共享. Tachyon项目诞生于UC Berkeley AMPLab的研究项目并迅速开源. 在仅仅两年多的时间里. Tachyon项目取得了飞速的成长. 系统被超过50家公司部署并应用. 目前社区里有100名以上的开发者, 来自超过30家不同的学校, 机构和公司(包括Baidu, IBM, Intel, Yahoo等). ====================================================
题目2:Spark MLlib开发经验分享:LDA和卷积神经网络讲者简介:杨玉皓, Intel大数据平台软件工程师。为行业内的Spark用户提供咨询和解决方案,同时与Spark社区紧密合作,参与实现LDA,Distributed Matrix和ML pipeline等多个算法模块.摘要:本次分享主要挑选Intel近期基于Spark MLlib的一些开发工作进行分享。包括 1)Spark MLlib中LDA的现有算法,着重介绍online LDA的算法过程,对海量数据和流数据的支持及调优经验. 2)Intel完成的首个基于Spark的卷积神经网络框架,及社区相关工作进展.
====================================================
题目3:基于DAG的流式ETL引擎讲者简介:赵晓东,华为电信软件大数据产品架构师,2005年加入华为,先后从事计费平台、SOA平台的设计开发工作。2013年开始从事大数据相关领域的技术研发,目前主要负责数据集成的开发管理相关工作。摘要:电信领域经常需要对海量的信令数据进行各种KPI统计分析,且统计周期和时延要求以分钟为单位。基于MapReduce的ETL计算模式已经难以胜任此类任务。本技术分享介绍了一种在YARN上实现的DAG计算模式,尽量采用内存计算,减少中间数据落地,减少数据重分布的开销以降低端到端的时延,满足业务上准实时计算的要求。
附录2:本次活动技术海报环节的参展单位及其海报标题:
苏宁云商: 苏宁云商大数据
中兴通讯: 中兴通讯大数据平台DAP的技术架构
烽火通信: 烽火大数据平台构建安全云
星环科技: 星环科技一站式Hadoop大数据平台软件
华泰证券: 互联网金融的机遇与挑战
哈勃数据: 哈勃大数据情感倾向分析系统
云联华康: 大数据平台在智慧医疗领域中的应用
杰世欣: 面向教育科研行业的大数据基础平台架构
南京大学PASALab: 统一大数据分析编程平台——大章鱼

南京大数据技术Meetup第二次活动