专栏名称: 三声

「三声」聚焦文娱创业领域的企业、人物、热点、资本，提供最专业的文娱产业报道。

虚拟偶像的十年女优路，AI要再走一次

三声 · 公众号 · 娱乐 · 2017-08-28 23:47

正文

作者 | 喃酱

转自 | PingWest品玩（ID：wepingwest）

从2014年推出到现在，距离微软小冰以人工智能美少女的形象第一次和我们见面已经三年了。

在这三年里，微软为她不断地更新换代，添加了许多新功能，现在我们见到的已经是第五代小冰了。

和她的姐妹小娜作为人工智能助手主攻助理领域不同，小冰给人们的感觉更像是一个（有些智障的）邻家少女。

即使她的回答经常会让人感觉莫名其妙，但还是会有一批又一批的用户每天打开他们的微信，像跟女朋友谈恋爱一样和小冰有一搭没一搭地聊天。

从第四代开始，小冰已经拥有了“人工智能感官系统”：有了五种情感，拥有文本、语音、图像、视频和全时语音感官，用户甚至可以和小冰打电话。

而第五代小冰上线了高级感官，让小冰具备了更加贴近人类自然交互行为的“全双工语音”。

如今的小冰，不仅仅会被动地对人类的提问产生回应，还会写诗，会主持电视节目，给人打电话送去生日祝福，甚至可以主动开始一段和人类的交流。

今年8月31日，虚拟歌姬初音未来即将迎来她第十个16岁生日。

作为VOCALOID 2软件上的第一款日语音库，VOCALOID的开发方Yamaha和初音的开发方Crypton Future Media恐怕都没有想到，这个梳着双马尾的元气女孩可以有今天这样的人气。

现如今，恐怕很多人类歌手的演唱会，也不能像初音的演唱会一样场场爆满，一票难求。

初音的出现，彻底带动了虚拟歌姬这样一块当时几乎处于无人开发状态的市场。

现如今，基于VOCALOID技术的虚拟歌姬已经数不胜数——除了初音未来，还有经常在她演唱会上露面的好朋友镜音铃/连；作为御姐形象吸引大量粉丝，早早拥有了英文音库的巡音LUKA；作为首个使用了VOCALOID3引擎的虚拟歌手，在JIN的《阳炎Project》中大放异彩的IA；以声音接近真人发音为特点，由SSW Internet公司在自家Megpoid引擎上推出的GUMI；由禾念代理，在中国发行的首个中文音库洛天依；由GYNOID在台湾发售，连发音也带着浓浓台湾腔的心华……这些还只是商业化虚拟歌姬的一角。

同时，由于UTAU这样免费的歌声合成软件的存在，任何人都有了用自己的声音制作虚拟歌姬的可能。

相比问世三年的小冰和十年的初音，以“世界上第一个虚拟YouTuber”自诩的虚拟角色绊爱（Kizuna AI）和我们见面的时间就短了很多。

从今年2月15日爱酱的第一个访谈视频放出，3月21日在AnimeJapan 2017上首次亮相，至今也不过五六个月。

爱酱虽然在官方的宣传和自己的视频里多次使用了“虚拟YouTuber”“人工智能”之类的词语，甚至名字也叫做“AI”，但其实它和人工智能连一点点关系都沾不上。

爱酱背后所用到的技术，说到底就是一个3D动画人物和一些配音。相比人工智能小冰，或许她和初音的关系还更大一些。

因为用来制作爱酱动画的工具MMD，全称就叫做MikuMikuDance——没错，这个由日本宅男程序员樋口優开发的3D动画制作软件，最开始就是为了让大家都可以制作Miku的舞蹈视频而出现的。

此外，爱酱的模型制作监督Tda，也曾经制作了MMD上有名的初音Append人物模组。

或许从一开始就准备反差萌为特点，标榜自己是“人工智能”的爱酱不仅仅在制作技术上和人工智能没有任何关系，就连在自己视频中的表现也蠢得不行，一点都不“智能”。

但正是这种反差萌，反而给爱酱带来了成千上万的粉丝，国内的粉丝们还亲切地给爱酱起了一个昵称：人工智障。

其实看到爱酱的时候，我的第一反应是三年前发生的一件事。

那是在小冰刚刚发布的时候，我的一个朋友小齐在和小冰聊了几次天之后对我说：小冰太傻了，根本不是人工智能，简直就是人工智障。

至于那个时候的小冰，还只是微软的一个技术试验品。她的身上搭载了微软大批量的先进技术。

在那个AlphaGo还没有称霸棋坛，深度学习也没有人尽皆知。小冰的出现，的确为微软带来了不少的关注度。

同时小冰身上还有一个艰巨的使命，那就是帮微软收集自然语言甚至人类行为方面的数据。

对于微软这种拥有一批顶尖计算机科学家的公司，自然比谁都清楚数据对于机器学习和人工智能的重要性。

于是，经过这么多年的数据积累和技术升级，小冰比以前“聪明”了不止一个数量级。

在这三年里，小冰收集了超过300亿次直接人机对话，居业内同类产品第一。现在的小冰，已经可以和人类进行一些看似正常的大段对话了：

小冰可以有这样的飞跃式进化，主要归功于这些年收集到的海量数据。

靠着这些数据，微软的科学家们不仅可以训练出更可靠的模型，还可以用于提升小冰背后的机器学习算法，然后反哺科研界。

不过，作为一项早就比较成熟的技术，自然语言理解（NLP）还是有它的局限性的。

其中的一个例子，就是机器对上下文和语境的理解与人类有明显差距。即使小冰已经进化了若干代，我们还是可以看到这样的对话：

于是，小冰也在寻求着更进一步的突破。

从产品上来看，小冰的目标是打造一个情感计算的框架。现在的小冰具备了流媒体视觉，可以实时分析摄像头前物体的位置、移动、表情和姿态。

同时，小冰还试水了电台和朗读有声少儿读物。微软方面称，小冰制作的有声少儿读物朗读质量超越98%的人类创造者。

微软希望通过扩展小冰的能力范围，把小冰打造得更加有血有肉，人物形象更加丰满。

而从技术上看，小冰在这一次发布的新特性中大量使用了生成对抗网络（Generative Adversarial Network，简称GAN）的技术。

官方给出的说明中表示，“在印尼全国100%（的小冰上）使用了生成模型”。

我们先放下这个“100%”的计算方法和宣传上的夸张不谈，这至少说明了GAN这个近年来机器学习领域的新宠，已经被微软足够地重视了起来。

在这一系列技术的支持下，小冰已经和市面上其它只会聊天的chat bot从根本上拉开了差距。对于不懂技术的普通人来说，小冰可能已经看起来越来越像真正的人工智能了。

在本周的第五代小冰发布会上微软透露，经过新技术的训练，第五代小冰唱歌已经达到48kHz采样率，大幅度扩展了音域。

同时微软还和TFBoys的词曲创作人合作，联合推出了歌曲《我是小冰》。这不由得让人想到初音：小冰难不成也要和初音未来在虚拟歌手的领域抢夺粉丝了吗？

事实上，小冰固然已经拥有了庞大的粉丝群，但是对于同样拥有庞大粉丝群的初音来说，她的粉丝忠诚度与小冰相比高到不知道哪里去了。

和不断充实着官方人设的小冰不同，初音未来的官方设定单薄的可怜。除了外貌和名字、生日、体重这种公式化设定之外，官方几乎没有任何多余的性格方面的设定。

甚至连声音这个作为虚拟歌姬本应最突出的特点，在不同歌曲制作者（他们一般被成为“P主”，即Producer的简称）的调校下听起来都会不尽相同。

然而，这完全没有影响大批忠实粉丝们对初音的热爱。在P主们的歌曲里，初音有时候是一个只会甩葱的呆萌少女（《Ievan Polkka 甩葱歌》）；有时候摇身一变，成了世界第一的公主殿下（《World is Mine》）；又有时回到了自己虚拟歌姬的定位，对听众倾诉自己作为软件被删除时的复杂情感（《初音未来的消失》）。

而这种种二设（二次设定），都会随着歌曲的传播而在初音的粉丝群体里传播开来。

“世界第一的公主殿下”，来自于歌曲《World is Mine》的歌词

虚拟偶像的十年女优路，AI要再走一次

正文

请到「今天看啥」查看全文