欢迎关注映魅咨询(IMC)旗下教育科技媒体“POWER4EDU”官方微信:
power4edu,做不一样的教育科技媒体,看不一样的教育科技
借助人工智能手段从文本片段中创建出原始剪辑似乎听上去并不是什么新鲜事了。
去年,一些研究人员详细描述了一种系统,该系统利用一对神经网络(模拟生物神经元的数学函数层)从“playing golf on the grass”(在草地上打高尔夫球)的文本描述中生成出32帧长,64*64像素的视频。
近日,迪士尼研究院(Disney Research)和罗格斯(Rutgers)大学共同发布的一篇论文中又将这一想法往前推进了一步。
他们创建了一个端到端的模型,可以创建一个从电影剧本中的文字创建出一个简单的故事版(Storyboard)和视频。
具体来说,这个从文本到动画的模型可以用来创建动画,而不需要借助注释数据或预先的训练,只需要用于描述特定活动或动作的文本即可。
研究人员表示,从自然语言文本中自动生成动画有很多的应用领域,比如在电影剧本写作、教学视频、公共安全等。
这些系统能够为内容创作者提供更快的迭代,原型开发、概念证明等很有价值,对剧本的创作也尤其有价值。
我们开发了一个从文本转换到动画的模型,它可以处理复杂的句子,但是这个系统不是为了取代作家或艺术家,而是让他们的工作更有效率,不再单调乏味。
正如该研究团队所解释的,将文本翻译成动画并不是件简单的事情。
无论是输入的文本语句还是输出的动画都没有固定的格式,这就是为什么大多数的文本转换到动画的工具无法处理复杂语句的原因。
为了解决以往系统的问题,研究人员创建了一个模块化的神经网络,该神经网络包括了几个组成部分:
一个全新的脚本解析模块,可以自动地将相关文本与剧本中的场景描述隔离开来。
一个自然语言处理模块,其使用一组语言规则来对复杂的句子进行简化,并将简化句子中的信息提取为预定义的动作表示。
此外,还包括了一个将上述动作表示转换成动画序列的动画生成模块。
研究人员表示,简化方法使得提取关键脚本信息变得容易地多。
为此,他们的系统能够自主地确定给定的文本片段中是否包含了特定的语法结构,然后将其分割和组成更简单的句子,并进行递归处理直到无法再简化为止。
接下来,一个被称为“协调”(coordination)的步骤被应用到与头部具有相同语法关系且具有相同功能角色的句子中。
最后,一个被称为语法简化器的模块从预定义库中使用52个动画来和简化后的句子中的动作进行匹配。
再之后,一个被称为Cardinal的模块可以用于操作输入,并在视频游戏引擎Unreal中创建预可视化。
它利用了预先定义的动画库、预先上传的对象和模型来创建动画角色,生成3D动画视频。
为了训练这一系统,研究人员从1000多个脚本中提取了996个剧本,从包括 IMSDb、SimplyScripts和ScriptORama5等在内的免费资源中提取剧本,并对场景进行描述。
最后,这个系统包括了525708个描述、1402864个句子,其中的920817个句子(超过40%)包括了至少一个动作的动词。
在定性测试中,包括了22名参与者对20个由系统生成的动画进行评估,评估标准设定了5分制,比如说评测这个动画视频是否是对本文的合乎逻辑的描述,文本中的多少信息被转换成了动画,动画中的多少信息是在文本中提到的等等。
其中有68%的测试者表示,文本中的内容转换成动画内容时是合乎逻辑的。
研究人员表示,对于测试结果的不一致的争议,除了系统本身的局限性之外,也包括了任务的模糊性和人们的主观看法。
研究人员认为目前的系统并不是完美的,系统的动作和对象列表并不完整。
而且有时候,词汇简化也不能将动词(如Watch)映射到类似的动画(如Look)上。
研究人员希望在未来的工作中解决这些不足。
映魅咨询活动
4月20日上海LiveVideoStackCon音视频技术大会教育科技专场
(点击本条微信“阅读原文”链接详细了解和报名)
映魅咨询研究报告
《2018年年度全球教育科技创业投资报告》