专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
新浪科技  ·  【#苹果回应用户隐私顾虑#,iOS ... ·  8 小时前  
新浪科技  ·  【#腾讯2024年全年营收超6600亿元## ... ·  23 小时前  
爱范儿  ·  不止核弹芯片,黄仁勋发布两台 AI ... ·  昨天  
新浪科技  ·  【#iPhone17有望全系标配24MP自拍 ... ·  昨天  
新浪科技  ·  【#FF成立全球首家AI混增电驱系统公司#— ... ·  3 天前  
51好读  ›  专栏  ›  雷峰网

深度 | 狼人杀这么火,但背后的虫洞连麦技术你知道多少呢?

雷峰网  · 公众号  · 科技媒体  · 2017-04-18 20:49

正文

用 10 周时间,让你从 TensorFlow 基础入门,到搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握开发的实战技能。4 月线上开课, www.mooc.ai 现已开放预约。


雷锋网按: 今年,最受欢迎的游戏当属狼人杀,据不完全统计,截止到现在已经有 40 多款狼人杀 APP 上线,热度毫不逊于如日中天的视频直播市场。事实上, 狼人杀与视频直播一样,也是高度依赖语音视频技术的应用 ,但前者对产品的互动能力的要求比后者更高。



语音互动是狼人杀游戏当中的重要环节,但资深玩家肯定知道,很多排在前列的狼人杀 APP 即使在复盘讨论等社交环节,也不能让用户同时发言,更不要说相互能看到视频了,这大大影响了产品的用户体验。

从目前的趋势来看,越来越多的产品开始使用多路连麦技术来解决这一问题。然而多路连麦技术仍然存在很多挑战,例如如何解决跨网传输问题?如何在复杂的网络环境中降低延迟?...

雷锋网了解到,即构科技为狼人杀的特定应用场景量身定做了一项名为 “狼人杀虫洞连麦技术” 的语音视频通讯 云计算 服务。那么,这一项技术的核心是什么?解决了什么痛点?如何进行验证?

本期硬创公开课邀请到了即构科技市场运营总监冼牛为大家深度解读狼人杀虫洞连麦技术。

嘉宾介绍

冼牛,即构科技市场运营总监,资深技术人,市场营销新兵,客串投资顾问,骨灰级游泳者。北京邮电大学计算机硕士,香港大学工商管理硕士,一直秉承人丑应该多读书的理念,读书不断。2008 年起旅居香港至今,2015 年回流深圳南山创业,服务过爱立信香港,摩根大通香港,和分期乐集团等老东家。

2002 年北邮硕士期间开始钻研视频会议,现深耕语音视频云服务,直播技术应用和直播行业研究。

以下内容整理自本期公开课,雷锋网做了不改变愿意的编辑:

顾名思义,狼人杀虫洞连麦技术是为狼人杀应用量身定做的一款产品,连麦技术不是新鲜的技术,在 2016 年网络直播元年,就已经被很多一线的直播公司应用。

2017 年,狼人杀引领了一波新的浪潮到来,这款应用的直播技术也因此发生了一些变化。今天主要讲的是狼人杀虫洞连麦技术的系统结构以及它能为狼人杀这种场景解决哪些痛点。

背景

我们可以从两个维度来比较市面上的狼人杀游戏:1)有没有视频;2)能不能同时说话。

从市面上主流的狼人杀游戏的比较中可以发现,有些只支持音频,比较少能支持视频,有些只支持单向的语音,比较少能支持连麦互动。

参考去年直播行业的发展趋势,请允许我断言,今年乃至明年狼人杀会把直播行业发展成熟的语音视频技术继承过来,并且结合本身的应用场景,发展出更多丰富的玩法。

目前,狼人杀的产品形态主要是游戏环节,同时在探索复盘讨论环节的玩法,甚至还有才艺表演等更多的玩法。后两种玩法包含更多的社交元素,对语音视频互动有更高的要求。

在游戏环节,通过单向的语音视频通讯技术就可以实现;在社交环节,对语音视频互动技术的要求甚高,必须要有多路连麦技术才能获得良好的用户体验。

技术痛点

目前,狼人杀类 APP 存在以下技术痛点:延迟大、无连麦、无视频、语音失真、卡顿不流畅、和语音有回声等。

延迟比较大可能因为目前的狼人杀类 APP 主要是采用单向音视频通讯,拉流端直接推流到 CDN 网络,然后拉流端直接从 CDN 网络拉流,一般的延迟会大于 3 秒。

狼人杀包含游戏环节和讨论复盘环节,甚至才艺表演等环节。在游戏环节中,用户轮流发言,发言之间会需要思考时间,因此还勉强可以玩,但是用户体验比较差。

在讨论复盘环节甚至其他社交环节,用户会同时发言,而且要求能看到其它用户的视频。在这种应用场景下,这么大的延迟会成为狼人杀类 APP 往社交化发展的绊脚石。

另外,很多狼人杀游戏中,卡顿不流畅,背景噪音,语音失真、回声的问题都是普遍存在。

失真有可能是因为回声消除和噪音抑制过度造成的。卡顿可能是因为在语音网络传输的过程中处理得不好,丢包或者抖动等网损都会造成的,也可能是因为终端设备解码和播放处理不流畅而造成。

解决方案

要在语音视频通讯中获得超低的延迟,就要在网络中找到最短最优的传输路径。

在网络中,从 A 点到 B 点最短的距离,我们借用宇宙学中的概念,把它叫做网络上的虫洞。

狼人杀虫洞连麦技术所做的就是通过一系列的策略和算法优化各个环节,配以优质的网络资源,绕开网络拥塞、穿越物理距离,选择最优网络路径,实现超低延迟的连麦互动。

即构的狼人杀连麦解决方案可以在超低延迟和流畅的基础上实现语音视频连麦互动,让身处世界不同角落的用户,感觉就像是在面对面对话一样玩狼人杀。回声消除,噪声抑制,和自动增益控制等痛点都得到有效的解决。

在图中,左边显示的是即构的客户美播直播的 9 路连麦的场景,最右边是 12 路连麦的场景,中间是使用即构狼人杀虫洞连麦 SDK 开发的贴近狼人杀应用场景的 DEMO,按住按钮就可以显示视频同时说话。

连麦的流程

狼人杀连麦和直播连麦的流程是类似的。图中深蓝颜色代表的是终端和业务层的逻辑,浅蓝色代表的是服务器端的逻辑。

首先是第一主播先发布直播,把流推到服务器,然后服务器再流转推到 CDN,普通用户再从 CDN 拉流。这一过程是单向的音视频通讯,并没有连麦互动的。

然后第二主播向业务服务器申请连麦,业务服务器再把这个请求传递给第一主播。通过业务服务器,连麦双方用信令完成了连麦的申请和应答。

两个主播连麦时,可以相互看到对方,所以拉流和推流都必须在媒体服务器,因为媒体服务器网络资源更好,而对于处于观看模式下的观众则可以采取低成本的方式,即从 CDN 拉流。

另外,从图中可以看出,整个传输和处理环节可以分为三个部分:推流端、拉流端和云端。

推流端包括采集、前处理、编码和推流,采集是推流端的麦克风或者摄像头采集音视频的数据,前处理包括音频变声、视频滤镜等。推流可以推到云端或者 CDN,在云端会做混流、转码工作,随后就是分发,把流分发到 CDN 网络然后推到边缘节点,让观众端拉流。

拉流端和推流端的过程是相反的,拉流后进行解码,然后做后处理、渲染。

在图中,左边处于连麦模式的用户在进行连麦互动时,语音视频、信令全部是经过媒体服务器集群,右边是不需要连麦的用户,只需要从 CDN 网络拉流。

系统架构

连麦模式的用户接入到连麦模式的服务器集群,这些服务器的计算资源和网络资源比较优质,而且在算法策略上做了很多工作,可以获得比较低的延迟。连麦模式的服务器集群包括语音视频服务器集群,信令服务器和调度服务器。语音视频服务器集群负责语音视频流的转码等处理,信令服务器负责信令的同步和通讯,调度服务器负责网络资源,计算资源,存储资源,和流量等的全局调度。

中间是混流服务器,它支持旁路混流服务,从语音视频服务器集群拉取多路单独的语音视频流,然后进行解码,音画同步,混流,然后在重新编码,最后推送到 CDN 网络。

聆听模式的用户要看这些语音视频,可以从 CDN 网络的边缘节点拉流播放。混流服务器加上 CDN 网络提供了旁路直播的服务,虽然一定程度牺牲了实时性,但是可以维持相对比较低的成本。

语音视频终端

语音视频的连麦涉及到了三部分内容:终端的处理,包括回声消除、噪音抑制、音量自动增益这些语音前处理部分;在网络传输上,为了对抗网络损伤必须要配置三个模块,抖动缓冲、前向纠错、丢帧补偿;另外还需做到兼容性跨平台,安卓手机稂莠不齐,在安卓的兼容性上需要花很多功夫。

语音前处理: 回声消除具有挑战性,当两个用户对讲的时候对技术要求很高,这需要看对讲时语音的通透度,语音消除本质就是参考远端信号把近端的回声处理掉,处理后可能会有两个问题,如果处理过度会造成语音失真,如果处理不够则会导致一部分回声没被消除。

噪音抑制: 也有同样的要求,在没有噪音的时候需要尽可能的把语音保护好。传统的降噪的做法是通过分析背景噪音的强度和频谱分布,分析用户的声音的频谱,然后根据分析的结果建模模型,构建一个滤波器;这个滤波器能区分用户的声音和背景噪音,把噪音频段外的声音予以保留,把噪音频段内的声音能量降低,最终的效果就是抑制了噪音,让用户的声音更加清晰。

音量自动增益: 主要在两个场景中发挥作用,一是在嘈杂环境中,它能自动调整麦克风的音量,增强有效的声音信息;另外,如果用户离麦克风较远,拾音效果会调整得比较好。

自适应复杂网络: 包括三个模块:抖动缓冲、前向纠错、和丢帧补偿。网络抖动是不可避免的,抖动会导致数据的损伤,为了对抗抖动需要在算法上做一系列的处理,及适当地增加延迟,让抖动变得比较平缓。

前向纠错: 用空间换时间,一次传送多个冗余数据包,就算丢包丢到 20%-30%,接收方也可以把有效数据恢复,但是数据量是变多了,占的带宽也会更多。前向纠错和丢帧补偿一般结合起来互补使用。

丢帧补偿:







请到「今天看啥」查看全文