专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
数据派THU  ·  多模态复合编辑与检索综述 ·  4 天前  
大数据文摘  ·  门板上做研究的首席科学家:Jeff ... ·  3 天前  
股妖姬  ·  数字经济时代的数据要素龙头股盘点 ·  4 天前  
大数据文摘  ·  概率、统计学在机器学习中应用:20个Pyth ... ·  6 天前  
51好读  ›  专栏  ›  大数据文摘

专属福利 | 全球顶尖数据盛会Strata + Hadoop World八折门票专享

大数据文摘  · 公众号  · 大数据  · 2017-04-23 22:09

正文


会议时间

2017年7月12日~13日(培训)

2017年7月13日~15日(会议)

会议地址

中国 · 北京

建国门内大街9号

北京国际饭店会议中心

会议内容

Strata Data Conference是最前沿科学与新兴商业基础碰撞和融合的地方。在这里我们会深入探索新兴技术和科技。您将通过深入的辅导课剖析案例研究、发展新技能,分享数据科学中新兴的最佳实践并畅想未来。

该活动之前作为Strata + Hadoop World创建于2012年,O'Reilly和Cloudera将两个成功的大数据会议组合在一起。

议题主席Doug Cutting(Cloudera首席架构师,Apache Hadoop创始人)、Jason Dai(Intel大数据技术CTO)与议题开发总监Ben Lorica(O'Reilly首席数据科学家)已经安排了一个覆盖整个大数据工具和技术的议题日程。Strata Data Conference涵盖了像人工智能和机器学习等当前热门话题,并且重点放在如何实施数据战略上。

大数据文摘作为大会合作伙伴,为读者们发放专属福利啦!

二维码,或点击文末“阅读原文”进入报名页面。

优惠:使用专属 优惠码 WENZHAI  享受20%票价优惠

门票类型青铜门票白银门票
包含全部教学辅导课

全部主题演讲&议题演讲全部主题演讲&议题演讲

展示厅&全部现场社交活动展示厅&全部现场社交活动

90天Safari Books Online会员资格90天Safari Books Online会员资格
官网价格3369元
4451元
文摘专属价格
2695.23560.8

门票有多种,WENZHAI优惠码只能在“青铜门票”和“白银门票”中使用。


到场嘉宾(部分)

Strata + Hadoop World邀请了包括谷歌、英特尔、微软、领英、百度、腾讯等国内外互联网巨头公司的讲师和嘉宾。



部分议程

■  在领英搭建Hadoop和Kafka之间的桥梁——Hadoop团队的视角(Building the bridge between Hadoop and Kafka at Linkedin - A Hadoop team's perspective)

Kafka是由领英创造并开源的。目前在领英,我们有一个超过1400台机器的Kafka集群。这个集群每天接收并处理超过14万亿条消息。我们还有一个Hadoop集群,包括1万多个节点,存储着50PB的数据。在领英的数据世界里,我们使用Kafka和Hadoop构建了我们的数据生态系统,分别作为实时和离线基础设施部分的核心。我将会从一个Hadoop成员的角度讲解领英是如何搭建Hadoop和Kafka之间的桥梁,让它们更好地一起工作。内容包括:

1. 简要介绍领英的数据生态系统。

2. 讲解Kafka和Hadoop集群间的数据流。我们使用用户交互数据(如页面浏览、印象和点击)作为例子来展示这些数据是如何从用户前端页面进入Kafka集群,然后通过ETL收集框架(Gobblin,我们在去年开源的)到达我们的Hadoop集群,并最终通过Pig、Hive、Presto和Spark为数据科学家们所使用。我也将会讨论一下我们为Hadoop用户开发的一些工具,能让他们很容易地在他们的Hadoop工作流里把数据推给Kafka。

3. 讲解Hadoop团队的一个有趣的使用案例(Hadoop+Flume+Kafka)。我们Hadoop团队有一些系统日志,比如HDFS审计日志、RM调度日志和任务的历史日志。我们希望能近乎实时地从这些日志里获取有用信息来帮助进行问题告警、调试以及随机分析。我们使用Hadoop系统里面的Flume作为桥梁来收集Hadoop的日志(单节点上就有80K条消息每秒),并发布到Kafka上,然后基于Kafka来开发实时分析应用。

4. 讲解我们最新的工作:通过OLAP类型的SQL来消费实时的Kafka数据流。在领英的Hadoop生态系统里,我们通过SQL(Hive)表和视图来为用户提供数据接入API,而底层的HDFS上的数据是来自Kafka并经过ETL处理的。在这个Hadoop的世界里,数据分析师的分析工作依赖于何时数据到达Hadoop/HDFS,而通常数据会有1小时的延迟。在我们最新的尝试里,我们把数据接入层(原来是Hive视图)变成了直接使用Kafka数据流。从而数据分析师可以无差别地使用HDFS上的历史数据和来自Kafka上的最新的数据。

■  终端设备上的机器学习: Android设备上的TensorFlow (On-device machine learning: TensorFlow on Android)

机器学习传统上只能在服务器和高性能计算机上执行,但是能在移动设备上进行机器学习是非常有价值的,而TensorFlow内置了与移动平台的兼容性。 在本议题中,我们将在移动设备上运用深度学习模型来做运行在本地设备的预测。

首先,您将了解为什么在移动设备上拥有机器学习能力是有用的。 接下来,我们将介绍一些可用的图像分类技术。 最后,我们将使用TensorFlow实现针对自定义数据集的图像分类的机器学习模型。

我们还将讨论一些需要考虑的权衡和部署考量。 你在结束时会学到足够开始实现你自己的深度学习解决方案的知识。

■  基于深度学习的网络表示 (Network representations based on deep learning)

网络结构在现实世界中无处不在(如航线网络、通信网络、论文引用网络、世界万维网和社交网络等),大规模的网络结构数据和丰富的网络节点信息对相关的研究方法提出了新的挑战,受到了学术界和工业界的广泛关注。本报告重点介绍北大博士毕业生唐建和导师张铭团队合作的系列工作。

学习网络的低维网络表示,在不同应用领域中体现出很好的效率和效果,近年来受到了学术界和工业界的密切关注。本报告将对基于神经网络的网络表示方法进行了介绍,
,相比传统的独热表示(one-hot representation),表示学习能够抓住数据之间的相似性同时缓解数据稀疏性问题(data sparsity)。这些方法可以处理现实世界中拥有百万级节点和十亿级边的网络结构,主要考虑了网络结构信息和网络节点自身信息(如文本信息和属性信息等)。

LINE模型提出了一种适用于不同类别网络图结构(有向图、无向图和加权图)的网络学习模型LINE。具体上,LINE模型从一阶相似性(first-order proximity)和二阶相似性(second-order proximity)两方面设计目标函数。基于一阶或者二阶相似性,LINE可以分别学习到一种网络表示。为了同时使用这两种相似性,LINE模型将一阶节点向量和二阶节点向量拼接起来作为最终的节点表示。LINE模型很好地抓住了词之间的全局共现信息,学习词的向量表示,相比现在流行的Skip-gram词向量模型效率更高而且效果更好。

LargeVis研究如何将庞大的信息网络植入到低维空间并进行可视化分析。首先根据数据构造一个准确的K近邻图,然后再在低维空间对图进行布局。LargeVis显著降低了计算成本,有效地优化通过异步的随机梯度下降法达到了线性时间复杂度,整个过程因此很容易扩展到数百万高维数据点,使得在二维或者三维空间上直观地观察和理解高维数据成为可能。

LINE和LargeVis的研究论文先后发表在WWW 2015和 WWW 2016上,获得WWW 2016最佳论文奖提名(最终排名第二),累计他引已经超过200篇次,在深度学习相关领域得到了广泛的应用。

二维码

或点击文末“阅读原文

进入报名页面。