专栏名称: OFweek人工智能
提供人工智能行业最新热点新闻、技术、产品以及线上线下研讨会、产品资讯、市场信息等。
目录
相关文章推荐
美股投资网  ·  英伟达黄仁勋首谈DeepSeek:投资者搞错 ... ·  13 小时前  
爱股君2020  ·  今夜,暴涨了! ·  3 天前  
超短龙补切  ·  大帅晒出3亿账户 ·  4 天前  
超短龙补切  ·  大帅晒出3亿账户 ·  4 天前  
51好读  ›  专栏  ›  OFweek人工智能

在媒体和娱乐行业中用人工智能解决的十大领域

OFweek人工智能  · 公众号  ·  · 2019-10-22 19:30

正文

在这个数据爆炸的时代,收集数据本身是不够的。它需要被加工,切片和切割,以获得经营和发展业务的洞察力。不幸的是,当今世界上大多数可用的数据是非结构化的和隐藏的,使得在没有显著的人类参与的情况下难以处理。媒体行业的大部分数据都属于这一类,但已经开始改变。


任何视频文件,并将大量的非结构化数据交织在其结构中这需要密切的人类参与才能理解和解码。它需要人力来完成内容管理,处理,解释,质量检查等最基本的工作,然后才能标记为可供分发。有趣的是,人工智能和ML算法,特别是深度学习,现在达到了与人类精确度相当的水平,以大规模地执行大部分这些任务。人工智能处于有利位置,既可以自动执行工作流程活动,也可以从隐藏资产“数据”中获得巨大的洞察力。因此,媒体行业目睹了自然语言处理(NLP),面部识别,异常检测等领域的几位获奖者,其中人工智能以其无与伦比的效率实现大规模自动化。2107标志着人工智能在广播中开始收获丰厚红利的重要一年,内容管理,后期制作,广告和更多垂直行业。他们说,这只是AI之旅的开始!



娱乐业大概是能为人们描绘出最早最具像的、有关AI未来前景的行业了。比如电影《终结者》中的“Skynet”。但其实人工智能在娱乐业已经有着非常真实的近期应用。比如下面这些令人兴奋的实例:

预测分析和深度学习


预测分析使用了一个重要的假设,即未来的行为可能受过去趋势的影响,并且在大多数情况下,它在一段时间内保持良好。在这些预测模型的基础上,一组假设将多个独立变量结合在一起(例如,对于内容个性化的变量——如年龄、性别、财务状况、教育、内容兴趣),以建立统计相关性。正是这些相关性的集体强度和程度,可以预测未来的行为。在这里阅读更多关于预测分析的知识。最近,利用神经网络来产生人类大脑般的分析能力的深度学习正在使机器学习到更高的认知水平。通过模拟人脑对情境的反应,深度学习带来了从旧学校暴力决策树到更真实的事物的显著转变。



内容制作

内容结构和基于对象的分析已经开启了人工智能协助实际内容开发的新途径。从屏幕上角色的行为,走动,谈话和所有可能的面部表情的细节中学习,AI系统可以创建虚拟表演。看到如何创造像真正的表演这样的生活真是令人惊讶 - 检查美国总统奥巴马的一个他从未给出的演讲剪辑,留下的想象力很少。人工智能在内容创作领域仍然在不断努力,并且在许多领域它可以使生产过程受益

通过学习流行名人的流行特征,表情,角色和风格,创建虚拟人物角色(仅限数字化身)

使动画电影中的计算机图形工作自动化,取代人为密集的角色动画,但效率更高。


深入的视频分析,翻译,转录和标记

AI花了几年的时间来完善手写识别并迅速转向自然语言理解(NLU)。现在它已经加速超越自然语言和元数据处理,深入深入分析内容。机器主导的自动化将口述音频转换成可读文本,转录变得近乎实时。我们都看到了Alexa,Cortana和Google语音的早期到来。神经网络训练系统正在取代传统的单词转换,通过增加新的情境和意图相关维度。预计未来3年,AI将完全接管转录和翻译活动,并将驻留在日常使用的音频设备上。

深度视频分析是另一个有趣的领域,通过学习场景变化,位置参考,语音,面部和物体识别,导致视频见解的多方面扩展。这种智能在丰富内容分类和适当标记内容方面有很长的路要走,这提高了内容链接,搜索和关联的准确性。在这里,人工智能通过机器驱动索引,元数据标记,编目等方式显着改变整个内容管理环境,将手动流程转变为高度自动化的工作流程。视频翻译为多种语言和方言以及多语言字幕,有助于将内容的可寻址市场扩大到比以往更多的受众。


基于语音的虚拟助理

在过去的两年中,像Alexa,Google家庭和语音遥控器(如Siri和Roku)的语音助理已经开始通过完善基本的菜单导航功能来消除笨重的电视遥控器。接下来是在用户跟进命令的帮助下进行内容搜索和发现的情报。使用监督式学习算法的人工智能现在可以为虚拟助手提供动力,将消费者的知识图,地理坐标,语音输入和丰富的内容元数据(演员表,摘要,报价,位置等)结合起来提供个性化推荐。虚拟助手了解语言特征,情感和用户意图的能力使他们更智能,直观和成熟的对话系统增加了更好的客户体验。随着个人数字关系变得更加深刻。

优化的视频编码和传输

引入自适应比特率(ABR)流后,视频流有一个主要的优点。 ABR编码将原始文件的小块创建为不同的比特率,以基于可用带宽为客户端提供服务(请阅读此处以了解更多关于流媒体)。 通过引入技术来提高固定比特率分块到基于场景的编码,人工智能正在付出更多的努力。 人工智能通过学习多个质量度量的场景复杂度,可以确定所需的压缩级别并给出编码视频,系统可以确定帧级复杂度和最佳压缩参数,同时保持质量跟踪。 Netflix掌握了这项技术,即使在比特率较低的情况下,也可以生成精确的编码流。 这种新的编码方式正在彻底改变为不断增长的新兴经济体观众提供不间断视频的方式,在这些新兴经济体中,手机上的低带宽网络是观看视频的最主要平台。 人工智能还通过根据观众位置,网络拥塞等优化所需比特率来提高在线媒体播放器的性能。



明星的语音替身



人工智能不仅会实现语音交互,而且还能模仿明星的声音。Lyrebird是一家专门提供名人声音的公司。该公司可以从音调,口音和调频的角度来模仿声音。比如,你可以输入一些内容,然后人工智能可以模仿泰勒·斯威夫特(小清新Taylor Swift)的声音来说出这些内容,就像她本人“亲口说出来”的一样。不难想象,这样的技术很快会应用在类似我们的Siri或者谷歌助手的语音中。谁不喜欢摩根弗里曼或者别的偶像跟自己聊个天或者播报一下天气提醒自己增减衣服啊。
自己读纽约时报或许是一种多年的习惯,而让“ Anderson Cooper ”(美国记者、作家和电视主持人——编者注)来亲自给你一个人讲述新闻,会是另一种全新的体验。当然这个“讲述新闻”的过程是互动的,你可以随时提出问题,当然会是你的Siri或者Google Assistant去网上查询,然后再由“Anderson Cooper ”亲自回答你。
Alexa的Echo,Google Home以及苹果即将推出的HomePod(今年在北美拥有近2000万台设备),预计到2020年,北美市场将覆盖1.4亿台设备,这意味着 有足够大的市场已经可以使用语音交互式AI 重要的是,使用这些设备的人越多,底层的算法就会得到更多训练,AI就更聪明。针对每一个问题或命令给出的解答都变得更加智能。

名人替身也不会仅仅局限在声音上。华盛顿大学Paul G. Allen计算机科学与工程学院制作的奥巴马替身的视频,完全能够以假乱真。当然这类对于AI的应用有其“黑暗的一面”:在一个公众越来越被假新闻困扰的时代,再制造出如此引人注目的政治人物的“假新闻”视频,简直无法想象将引发什么样的混乱局面。你能想象如果在大选年,希拉里在视频中支持哈维温尼斯坦会造成什么样的结果吗?( Harvey Weinstein ,今年被曝光多次性侵的臭名昭著的好莱坞名人)。
在制作上述奥巴马数字替身的那段视频时,制作部门先输入奥巴马的声音,然后在声音、脸部动作和肢体语言上分别复制合成出一个虚拟的奥巴马的生动可信的视频,如果人们看到这段并不真实存在的视频时,没有人会意识到这不是奥巴马本人在演讲。

虚拟现实



对于虚拟世界而言,人工智能可以使其中几乎每一个部分都更加沉浸和真实。如果你向往的虚拟世界不是你独自一人的话,那你的世界中所有的虚拟角色,不管是朋友还是敌人都是无需脚本的多维角色。一家名为Rival Theory的AI技术公司,已经在这方面有了长足进步。该公司的Rain AI引擎在全球已经有超过10万游戏开发者在使用。在2016年游戏开发者大会上,很多开发者在多家VR平台上为自己创建了交互式虚拟角色(Gary the Gull)的短视频游戏。
随着人工智能的进步,故事本身也会变得更加复杂。通过神经网络训练,可以从VR体验者的经验与现有的故事情节中、产生更多符合个性化需求的量身定制的体验。Massive(软件,最先用于制作彼得杰克逊《魔戒》的‘中土世界’),已经增加了人工智能模拟能力。可以先将AI替身设置到场景中,并由视觉艺术家量身打造故事细节,从而缩短生成CG角色所需的时间。
动画片

动画片当然在AI的瞄准线上。Midas Touch Interactive(详细报道戳这里)。是前皮克斯技术专家和艺术家Kevin He(Jiayi Chong)的初创公司。该公司已经推出了一款名为Midas Creature的新工具,可以自主创作2D动画。

Kevin He及其伙伴创建公司的愿景是,用新型智能程序和技术突破在电影、VR/AR以及传统游戏创作过程中的工作流程。成为正在蓬勃发展的沉浸式娱乐行业的技术专家,为从事深度交互内容的创作者/工作室的创作,在降低成本,优化流程、获得收益方面提供服务。新的智能动画引擎Midas Creature就是验证这一理念的产品之一。

广告


人工智能的进步不仅会扩大视觉和互动的视野。AI也将带来更广泛的内容定位和针对每个具体客户的口味,甚至心情产生的内容。除了Netflix用来吸引你点击的推荐算法之外,情感和面部识别技术将使内容提供商能够根据用户的感受来选择你所看到的内容。iPhone X的前置摄像头通过“看”主人脸部的能力,利用计算机视觉技术解锁手机。设想一下,苹果可以通过用户在手机上查看内容来跟踪目光聚焦在整个屏幕上的定位,并依此来确定广告位。它可以知道你正在看屏幕的哪一部分,以及你在观看时的情绪反应。相信要不了两年, 像 iPhone X这类智能手机,可能会让类似尼尔森(Nielsen)这样的广告评级机构被淘汰。
事实上,已经有公司率先在苹果之前推出了这些先进的广告方式:例如,TVision Insights公司已经通过分析“屏幕上的真实眼睛”来测量观众注意力,从而判断支付电视内容的费用。Affectiva正在结合计算机视觉和深度学习来确定非语言线索和面部表情所传递的情绪。视频游戏公司Flying Mollusk Studio已经在使用Affectiva的软件来制作一个心理惊悚游戏,其难度随着玩家的恐惧程度而变化。再进一步,聪明的AI助手可以了解你在伤心,快乐或精力充沛时喜欢什么样的音乐。因此用户对内容的要求可以变得像“Alexa,给我来些放松的(音乐)”一样简单。






请到「今天看啥」查看全文