专栏名称: 硅发布
我们在硅谷,为您报道最前沿趋势。
目录
相关文章推荐
译中人  ·  旺旺集团外贸岗, 20-25k ·  昨天  
译中人  ·  旺旺集团外贸岗, 20-25k ·  昨天  
51好读  ›  专栏  ›  硅发布

国内风投来美国必备神器Otter

硅发布  · 公众号  ·  · 2018-07-11 13:50

正文


上周去Los Altos拜访Sam Liang,想看看他最近在做什么。Sam之前是谷歌地图的架构师,是谷歌地图团队最早的成员之一。之后他离开谷歌做了Alohar,公司2013年底被高德地图收购,现在已经归属阿里巴巴。


Alohar旗下有个产品叫PlaceUs,很有意思,它指出了地图业务的一个发展趋势,即


基础地理数据其实已经不再具竞争优势,因为某种程度上,它已经是一个可以购买的东西(已经有多种数据来源)。那么,现在什么东西具有竞争优势呢?


把“场景”也就是context引入到地图概念里。我举个例子。


当我在应用上看到我国内助理时,我得到的信息将不只是她的地理位置信息,而是她在“干什么”的一个状态,好比她在开车。那么这时我可能就不会给她打电话了,因为开车接电话不安全。显示“场景/状态”而非“地理位置”,以此帮助协调多人的生活和工作,这是AI在地图中的意义之一。



如上图,三年前的PlaceUs曾经非常开拓我的视野。那么,现在Sam在干什么呢?





去Los Altos前,我特地搜索了一下他的新公司AISense,发现去年底已经完成A轮,已有投资者包括德丰杰DFJ DragonFund、500 Startups等。早期天使投资人里,我还看到了大卫.切瑞顿。


这个人是谁?就是那个闻名硅谷的斯坦福教授,他第一个写了支票给拉里.佩奇和谢尔盖.布林,后面那两个人拿了这张支票创办了谷歌。


传奇天使投资人David Cheriton

言归正传。Sam的新作品是Otter,这是一个语音产品。我问Sam:“其实你有非常多选择,为什么二次创业选择做语音呢?”


请注意:这个时候,Otter这个App就放在我和Sam中间的桌子上。下面是Otter记录下来的Sam说的东西。我的第一感觉是:天啦,那边语音刚落,Otter已经基本全记下来了,这个速度太快。


我翻译一下:


“我做这个东西有很多原因,第一个原因是:世界上有这么多人,每个人都需要用语音沟通,尤其是对企业家,有很多重要商务会谈,比如今天这种情况,我们面对面见到,然后可能只有40分钟。


但我们会谈很多信息,而企业家的时间很贵,我们怎么才能最好地利用时间呢?那就是不要把谈话内容又忘了个精光。但我发现:人们花很多时间开会或会谈,但其实一结束就忘了大半部分,所以Otter这个App,第一个作用就是帮人们更好地记住会谈内容。”



下面,我帮大家快速拎一下Otter的核心要义。这里,已经显示出硅谷关于语音的一些趋势和洞见了。


第一,Otter关键字:转录


这是我最需要强调的一点,因为不同人用Otter,Otter能帮到他/她的地方不一样。比如中国很多小孩在美国读书,刚开始时可能英文听力不好,听教授讲课吃力,这种情况下就可以用Otter看英文文本抓关键字,因为你的阅读能力一定比听力强。


但这是Otter的核心吗?绝对不是。


Otter核心是“转录(transcription)”,也就是说:把声音转成文本信息,而且转的速度极快,几乎实时。这样的产品形态,就把一堆以“录音”为切入点然后再付费转文本文字的产品甩出去了。


那么为什么转录会成为一个趋势呢?我想是因为:文字形式的信息有其它形式的信息(如语音、视频)不可替代的功能,越是严肃/商务领域的信息,越是如此,因为你听完看完会忘,而严肃/商务领域的东西,你不想忘。


2,Highlight神器


文字信息还有一个好处,那就是能够让你在最短时间内,对内容一目了然。


这一点,语音做不到,视频做不到,甚至后两者在信息的展开中,还是不可逆的。而既然,你能够以很快的速度阅读并来回逆,你抓重点的速度肯定也就更快了。


3,技术上和亚马逊的Alexa或谷歌的Google Assistant不同


我第一次用Otter时,其实愣了一下,因为它要我先对它说一段语音,包括告诉它我是谁,我做什么职业。


我想:这应该是个“工具”,应该像谷歌地图那样打开就直奔主题,怎么往复杂方向去了呢?后来我才明白,看下图:



图里描红之处,会自动呈现你的名字和头像。但为什么要这样做呢?


因为凡涉及谈话,必然涉及两个人或多人,那这个时候,“什么信息是谁说的”这件事就很重要。而Otter被设计成:能对多人谈话进行理解和捕捉,这和亚马逊虚拟语音助手Alexa或谷歌语音助理Google Assistant的技术不同。


后者一般发生在人和设备之间,而且通常是一个人在说话,同时,你和Alexa说话时的内容都会很短,无非是问一些短问题。


但人类的谈话则要复杂多了:不少于两个人;其次一聊一小时很正常;再次,语速不会像我们对着机器说话时那样慢,而Otter的目标,就是捕捉类似情境下的对话、会议、采访、讲座等,然后把它们变成一个可搜索的档案。



值得注意的是:这里涉及的所有技术包括语音识别,都由AIsense自己构建,不用现有语音识别API。据Sam说,这是因为希望提高准确性,并优化多个扬声器。


4,也支持导入音频、视频,帮你转录


但需要打开电脑用Otter的官网搞。


5,语音世界的Dropbox和Slack


这时你闭上眼睛,脑海里出现一大片语音的海洋,我们再来看下Otter的Logo,它强调语音谈话的可记忆、可搜索和可分享。


这个概念熟不熟呢?

想起来就是一片语音的海洋


其实挺熟的,让人想起Dropbox,只不过Otter做的是语音会话。甚至在商业模式上,Otter和Dropbox也很像:


免费用户这块,每个月可以用10小时的语音转录,而如果你想要更多,则需要付费$9.99,获得一个月100小时的转录。


Sam估计:免费用户会占这个App的绝大多数,付钱的则将来自企业级用户。但就像Dropbox和Slack,他们的绝大部分付费/企业级用户,其实都由他们的消费级用户带来,比如职员用着用着觉得需要,回头和老板推荐购买。Otter应该也是这种模式。


不过,Otter应该还有一种商业模式,那就是技术授权。


目前AIsense已经和美国最大在线视频会议提供商Zoom合作。其实我也是Zoom的用户,经常用它视频采访,我知道Zoom不提供文字信息,只有在线录音功能,而现在,AIsense将为Zoom提供转录技术。


6,潜在使用场景


理论上,除了企业内部使用外,Otter的技术使用场景还可以包括医疗保健、教育等。


因为这些领域的信息,都是极严肃信息领域。Otter负责提供这些领域的语音对话搜索,就像支持用户搜索电邮和文本。


7,但其实,Otter还有一大用途


我写这篇文章,除了给到大家硅谷的一些趋势信息外,其实还有一个特别的用意。


每年,我都看到国内风投和创业者朋友一波波地呼啸而来,然后,再一波波地呼啸而去,有一些,总是很头痛自己的英文听力,加上硅谷是个移民城市,这里的英文有非常多国家的口音,印度的,爱尔兰的,英格兰的等等等等,也许你可以用Otter帮你记忆,会谈中老外说的关键信息;或者,仅仅是把它当作速记神器用,回国飞机上再全面check一遍英文文字,也很好。


总而言之,什么东西对创投圈朋友最贵呢?我想绝不是钱,而是时间。但愿你们的每一次辛苦奔波,都没有被辜负。


与之相关阅读:

1,美科技巨头在语音交互方面布局和差异

2,起底亚马逊”智能音箱“10个逻辑链