技术人:
易观 CTO 郭炜
本文采编:
SegmentFault COO 江波 Nadia
像找媳妇一样找人才,真情换真心
Nadia:可以简单介绍一下您此前的求学和职业经历吗?
郭炜:
我是北京人,高中毕业在北大读了七年书,直到研究生毕业。
我从研究生阶段学的就是数据,那个时候还不叫数据挖掘,叫信息与信号处理,毕业论文题目是《过程神经网络的客户流失分析》,那个时候(2005 年)还没有 AI 人工智能。
毕业后我去了 TereData,美国当时最大的数据仓库公司,后来去了 IBM、中金、万达、联想,都在聚焦大数据平台建设及项目应用的落地。还是会
感觉在大公司在数据创新应用上的体系化管控流程更复杂
,也受到了易观创始人于揚的感召,2016 年加入易观。
Nadia:
2016 年易观是什么状态?
好像那个时候我印象里的易观还是一个做分析报告的公司?
郭炜:
当时的易观其实已经开始通过数据产品为客户数据洞察赋能了,也开始建起了技术团队,但是整个团队能力其实还不够达标。
甚至那个时候,市场上还不太理解技术背景到易观来做什么。
所以,我中间有一个阶段,重新调整了技术团队,更加聚焦数据架构、算法等方向。
Nadia:
你加入的时候,易观的商业模式是已经规划得很清晰了,还是说也是摸着石头过河?
郭炜:那时候,易观的创始人于揚一直坚持要做产品和技术,但具体是哪个产品,哪条产品线能做到什么程度我们都不知道,但是我们通过易观千帆
(移动互联网产品对标分析平台)
迈出了第一步。
Nadia:
2016年加入易观之后都遇到了什么挑战?
郭炜:
大家可能都看过 「创业曲线」, 一开始是特别快速的上升,然后断崖式下跌,在谷底沉寂一段时间后还要再跌一下才能慢慢曲线上升 —— 其实创业经历都是这样的。
我刚进入易观的时候,大家都很乐观,觉得易观有品牌、有想法、有数据源,只是缺技术。
我当时也非常乐观,觉得仅仅是把技术弄起来,这个简单。
但亲自去做时候才发现,我们向技术公司升级的路上要过的山头真的很大,遇到的问题特别多。
之前我其实已经很多年不写代码了,但那时候没办法,尤其一些核心的模块只能我自己上。
2016 年,易观千帆能够承接分析的用户月活跃数据也有接近一个亿了,当时遇到一个很大的挑战就是数据接收并发的问题。
在千帆刚开始服务客户的时候发生过一次比较严重的事故,整整 3 天,系统 down 在那里没数据。
我印象特别深刻,6 月份,CEO 找我谈话说“你们很辛苦,但是这个问题怎么解决呢?
”当时我也不知道怎么解,后来没办法,我重新学了 Lua 语言,然后用了两天时间把代码重新写了一遍,问题解决了。
这是当时的状态,整个技术团队对于技术与业务结合的理解其实都还不够,也是从那个时候我发现创业团队招人最重要,人才是核心。
Nadia:
创业团队不好招人吧?
郭炜:我们开源项目 Dolphin Scheduler 的核心贡献者代立冬当时是我去找他吃了多少顿饭才说服他加入的。他是第一个大数据方向我觉得不错的人才,也是从他开始,我开始像找媳妇一样找人才,
到现在也是跟团队和人才们聚会的时间比陪家人的时间长得多。
就像糟糠之妻,那个时候你什么都没有,通过真情换真心
,把这个团队从没有到 1,到 3,5 个,到现在 100 多人慢慢成长起来。
Nadia:
你们招人的时候会比较喜欢什么样的人才?
郭炜:
我觉得招人第一是看价值观,是不是真的想做数据这个事,谈到数据的时候,是不是眼睛会有亮光,会有光芒,这个很重要。
第二个是看潜力,逻辑性、学习能力、阅读能力、沟通表达能力行不行?
第三个才看究竟现在能力怎么样。
究竟会什么、会不会 Hadoop、懂不懂大数据这都不重要,如果你真的很想做这个事,很愿意去学,我们就愿意给你这样的机会。
不是每个企业都有这么大的六个亿的月活数据让你去学习,也没有像招商银行、当当这样的客户能够让你去实践。
郭大侠的开源情怀,易观技术的变与不变
Nadia:
2016 到 2019,您加入易观 3 年,帮助易观从一个大众认知里的分析报告公司,转型为一个产品技术驱动的大数据公司,技术上发生了哪些变化?
郭炜:
变化真的蛮多的,下面的图片大概体现了易观从 2016 年到 2019 年的技术架构变迁。
从产品上,2016-2017 年,我们主要的产品还是易观千帆、易观万像,它本质上是易观自有的大数据平台。
到 2018 年的时候,我们发现自己的大数据技术是可以帮助更多企业的,我们开始做技术输出
,开始有了易观方舟,今天已经成为了包含用户行为智能分析、智能运营及技术开放的智能用户运营产品套件。
我们自己原来的东西特别庞大,6.8 个 PB,几百台服务器,不是每个企业都用得了,所以在 2018 年我们开始把这么复杂的大数据组件通过一个新的架构来精简,我们希望帮助企业方也都能用上好用的大数据平台。
这个新的架构叫 IOTA(Big Data IOTA),它的核心思路其实就是边缘计算 —— 原先大数据都是将所有的数据存到云端去计算,但现在其实我们的手机都越来越厉害了,所以我的思路是要通过边缘计算的方式,在手机端先做好一些计算,云端只做存储和查询,这样效率就大大提高了,当年好多的大数据集群的东西浓缩在一台服务器上就可以完成。
把我们的自己的技术,通过新的架构迭代抽象成一个可让用户去用的产品和技术(易观方舟),这其实就 2018 年我们在做的事情。
到 2019 年我们又发生了变化,在过去易观方舟只做用户行为分析,今天已经实现了智能运营功能,后来我们发现很多用户希望基于自己的需求去做一些二次开发。
我们把易观方舟 PaaS 化,从一个产品变成了一个平台。
比如说你要做推荐,我们把相关数据通过 SDK 全都收集上来了,把非结构化数据整理好变成了结构化数据,基于这些数据你自己的分析师就可以在里边做一些推荐引擎,用户画像等等。
2020 年,我们会进一步把这个平台做得更稳定,希望除了我们之外,也可以有更多的开发者在上面开发一些东西。
Nadia:
所以从明年开始,其实也会做一些开发者生态的事情?
郭炜:
其实我们今年也在做,易观方舟本身是一个商业产品,但其实我们有免费版本。
私有化、单机服务器的这个版本我们把它免费了,叫易观方舟 Argo。
在这个之前,国内现在还没有私有化部署的用户数据分析免费产品。
私有化部署,数据放自己这里,用户放心。
普通开发者可以直接把这个产品接入自己的后台,一台服务器,你就可以开始做用户行为分析。
将来我们希望基于易观方舟 Argo,可以有各种各样的新的小东西开发出来,我们鼓励大家开发各种新玩意儿,开发完以后你可以自己用,可以把它 Share 出来我们帮你去售卖,也欢迎你基于我们的产品开源,做开源组件让大家都去用,因为易观方舟 Argo 本身就是免费的。
Nadia:
刚刚提到了 IOTA 架构可以实现更高效的数据处理速度,能否在具体应用层面为我们解释一下它的价值?
郭炜:
比如说拿 SegmentFault 思否举例,最近 SF 某一个渠道注册留存超过七天的用户在最近一周没有登录,你想发邮件做一次召回。
原先你需要提一个需求给技术,他需要跑个 SQL,SQL 跑不过可能还得跑 ETL 脚本,两三天才能给到你,公司需求多了以后或许还需要排期。
但在基于 IOTA 架构的易观方舟里,你只需要勾选一些条件,不到三秒钟,这个数据马上就出来了。
几秒内,可能我们就要查 100 亿条数据,出一个结果,在技术上是非常难的。
所以 IOTA 架构解决的核心问题是在大量数据中做一个复杂查询,秒级把这个数据查回来。
那么随之而来的其实就是帮助我们将数据能力平民化,让数据分析师之外的角色也可以用这个产品去做点数据分析,而不需要大数据工程师天天去给你写脚本。
Nadia:
提到数据处理效率,您之前还曾提到过“数据河”(Data River)的概念?
郭炜:数据河其实是 IOTA 抽象化的东西。过去云厂商经常提到“数据湖”——把数据全部装进去,它的好处是把它存下来了。但你真的想去用这个数据的时候成本就会越来越高,数据越放越多,慢慢就会变成数据沼泽。
我们做的其实是让数据流动起来,通过 IOTA 这样的架构,数据是直接从产生端流向消费者,不再经过数据湖,不再需要工程师去写 ETL。
Nadia:
那有什么是这三年一直坚持不变的?
郭炜:我们有两个基本点是不变的,我把它称之为技术价值观 ——
一是开源,二是云化。
今年我们的开源项目 Dolphin Scheduler 入选了 Apache 基金会,但它其实不是我们第一个开源项目,我们此前已经开源了很多个项目,这是我们慢慢运营、拥抱开源的成果。
数据是有灵魂的,我将用此生去追寻
Nadia:
现在很多公司都在谈自己是数据驱动,当然大部分都是假数据驱动,在你们的客户里面,有没有哪个公司是你们认为他真的已经把数据应用到非常好的案例?
郭炜:
在我们客户里,有一家第一梯队的股份制城商行做得非常不错。
其实即便是互联网公司,也不一定真的能把“数据驱动”这个词落下去。
数据驱动是一个管理思维,不是一个工具能搞定的事儿。
我们见过这家银行用北极星指标
(即所有员工都要关注的唯一关键指标)
,这个指标对招行来讲是它的月活,他的营业员都要扛这个。使用的时候,我们能感觉到他们的 APP 确实好用,就是因为 APP 每个的点击、每个功能模块分栏目的流程,都是有明确分析路径的。这点很多互联网公司都做不到,它跟一个公司的管理阶段和成熟度是有关系的。
Nadia:
大数据这几年一直是一个热词,你个人是如何去理解大数据的?
展望一下未来,它背后真正的价值是什么?
郭炜:
我有一个座右铭叫数据是有灵魂的,我将用此生去追寻。
从整个技术和行业来讲,我觉得是会越来越火的。因为人们通过各种各样数字化的手段,能把这个现实世界变成数字、信息和数据,再基于此去做相关的分析。
最早我做 BI 的时候,报表全都是内部 CRM 产生的。
到后来大家拿 APP 的点击做分析,现在又有了人脸识别,线下动作的识别,声纹的识别……其实一个人在线下的所有行为都是可以采集到的,数据把这个世界本身数字化,那么怎么用起来呢?
每一个行业、不同的赛道其实用法都不太一样,未来再加上 5G、IoT……可能大家在这会议室里面就跟黑客帝国一样,摆一个姿势、说一句话,这些服务就都到了,这些其实都是数据的应用。
对于大数据公司来讲挑战还蛮大的,很多数据公司后来都变成项目型公司了,他们就没有办法去做更好的增长。
2016 年前后,国内大概有十几家公司都在做易观千帆同类型的产品,现在做得好的只剩两家了。易观方舟现在可能还有很多的竞争者,在这个赛道里面将来可能也只会留下几家。
对于未来,易观还是根据用户实际的需求去解决用户的问题,大数据不是一个特别容易做的赛道,每个能坚持下来公司都值得尊敬。
CTO 的匪气: