专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
天池大数据科研平台  ·  DeepSeek R1 最新全面综述:R1 ... ·  昨天  
数据派THU  ·  【ICLR2025】LLMS能否识别您的偏好 ... ·  昨天  
大数据分析和人工智能  ·  一款更适合小白的AI工具,强的可怕 ·  2 天前  
51好读  ›  专栏  ›  大数据文摘

专属八折福利 | 全球顶尖数据盛会Strata Data Conference早鸟门票最后一周

大数据文摘  · 公众号  · 大数据  · 2017-06-06 09:31

正文


会议时间

2017年7月12日~13日 (培训)

2017年7月13日~15日 (会议)

会议地址

中国 · 北京

建国门内大街9号

北京国际饭店会议中心

会议内容

Strata Data Conference 是最前沿科学与新兴商业基础碰撞和融合的地方。 在这里我们会深入探索新兴技术和科技。您将通过深入的辅导课剖析案例研究、发展新技能,分享数据科学中新兴的最佳实践并畅想未来。

该活动之前作为Strata + Hadoop World创建于2012年,O'Reilly和Cloudera将两个成功的大数据会议组合在一起。

议题主席Doug Cutting(Cloudera首席架构师,Apache Hadoop创始人)、Jason Dai(Intel大数据技术CTO)与议题开发总监Ben Lorica(O'Reilly首席数据科学家)已经安排了一个覆盖整个大数据工具和技术的议题日程。 Strata Data Conference涵盖了像人工智能和机器学习等当前热门话题,并且重点放在如何实施数据战略上。

大数据文摘作为大会合作伙伴, 为读者们发放专属福利啦!

二维码 ,或点击文末“ 阅读原文 ”进入报名页面。

优惠: 使用专属 优惠码 WENZHAI 享受20%票价优惠

门票类型 青铜门票 白银门票
包含 全部教学辅导课

全部主题演讲&议题演讲 全部主题演讲&议题演讲

展示厅&全部现场社交活动 展示厅&全部现场社交活动

90天Safari Books Online会员资格 90天Safari Books Online会员资格
官网价格 4065元
4961元
文摘专属价格
3252 3968.8

门票有多种,WENZHAI优惠码只能在“青铜门票”和“白银门票”中使用。


👇 购买门票即可获取下方赠书


到场嘉宾(部分)

Strata + Hadoop World邀请了包括谷歌、英特尔、微软、领英、百度、腾讯等国内外互联网巨头公司的讲师和嘉宾。



部分议程

在领英搭建Hadoop和Kafka之间的桥梁——Hadoop团队的视角(Building the bridge between Hadoop and Kafka at Linkedin - A Hadoop team's perspective)

Kafka是由领英创造并开源的。目前在领英,我们有一个超过1400台机器的Kafka集群。这个集群每天接收并处理超过14万亿条消息。我们还有一个Hadoop集群,包括1万多个节点,存储着50PB的数据。在领英的数据世界里,我们使用Kafka和Hadoop构建了我们的数据生态系统,分别作为实时和离线基础设施部分的核心。我将会从一个Hadoop成员的角度讲解领英是如何搭建Hadoop和Kafka之间的桥梁,让它们更好地一起工作。内容包括:

1. 简要介绍领英的数据生态系统。

2. 讲解Kafka和Hadoop集群间的数据流。我们使用用户交互数据(如页面浏览、印象和点击)作为例子来展示这些数据是如何从用户前端页面进入Kafka集群,然后通过ETL收集框架(Gobblin,我们在去年开源的)到达我们的Hadoop集群,并最终通过Pig、Hive、Presto和Spark为数据科学家们所使用。我也将会讨论一下我们为Hadoop用户开发的一些工具,能让他们很容易地在他们的Hadoop工作流里把数据推给Kafka。

3. 讲解Hadoop团队的一个有趣的使用案例(Hadoop+Flume+Kafka)。我们Hadoop团队有一些系统日志,比如HDFS审计日志、RM调度日志和任务的历史日志。我们希望能近乎实时地从这些日志里获取有用信息来帮助进行问题告警、调试以及随机分析。我们使用Hadoop系统里面的Flume作为桥梁来收集Hadoop的日志(单节点上就有80K条消息每秒),并发布到Kafka上,然后基于Kafka来开发实时分析应用。

4. 讲解我们最新的工作:通过OLAP类型的SQL来消费实时的Kafka数据流。在领英的Hadoop生态系统里,我们通过SQL(Hive)表和视图来为用户提供数据接入API,而底层的HDFS上的数据是来自Kafka并经过ETL处理的。在这个Hadoop的世界里,数据分析师的分析工作依赖于何时数据到达Hadoop/HDFS,而通常数据会有1小时的延迟。在我们最新的尝试里,我们把数据接入层(原来是Hive视图)变成了直接使用Kafka数据流。从而数据分析师可以无差别地使用HDFS上的历史数据和来自Kafka上的最新的数据。

终端设备上的机器学习: Android设备上的TensorFlow (On-device machine learning: TensorFlow on Android)

机器学习传统上只能在服务器和高性能计算机上执行,但是能在移动设备上进行机器学习是非常有价值的,而TensorFlow内置了与移动平台的兼容性。 在本议题中,我们将在移动设备上运用深度学习模型来做运行在本地设备的预测。

首先,您将了解为什么在移动设备上拥有机器学习能力是有用的。 接下来,我们将介绍一些可用的图像分类技术。 最后,我们将使用TensorFlow实现针对自定义数据集的图像分类的机器学习模型。







请到「今天看啥」查看全文