专栏名称: 智东西
智东西-聚焦智能变革,服务产业升级!作为智能行业新锐媒体,智东西专注五大领域:VR/AR;AI/机器人/无人机;智能汽车/智能出行;智能家居/物联网;智能穿戴/智能医疗,通过内容、活动、报告以及社群等方式助力“智能+”时代的创业和产业升级。
51好读  ›  专栏  ›  智东西

第一本机器学习写的书面世!狂啃53000篇论文写成

智东西  · 公众号  · 科技媒体  · 2019-04-12 20:08

正文

看点: 学术出版商Springer Nature和歌德大学共同开发新算法,通过机器学习自动生成研究书籍。

导语: 学术出版商Springer Nature与歌德大学开发新算法,使用 机器学习 技术集合大量文献摘要,生成研究书籍。

智东西4月12日消息,近日学术出版商Springer Nature公布了第一本使用机器学习生成的研究书籍《锂离子电池: 机器生成的当前研究摘要》,它概述了锂离子电池领域的最新研究成果。

Springer Nature和法兰克福的歌德大学共同开发了机器学习算法Beta Write,使用机器学习集成相似的聚类分析,将海量的文献连贯的排列起来,并创建出简洁的文章摘要,将论文摘要和原文链接生成书籍,帮助读者尽快获取系列论文的重要内容,还有助于读者进一步阅读原始文章。

我们一起来看看AI写书水平怎么样:


上图原文: 隔膜的厚度和孔状结构应该严格管控,为了满足这两项功能,机械强度和离子导电率之间应达到良好的平衡。 孔状结构和材料的多孔性对于电池中分离器的性能也至关重要。

什么是机器学习?

传统的计算机编程只能重复性的运行一种程序,只要不改变编程信息,程序运行就永远不会发生改变。 而机器学习是从示例中学习的软件,不需要人为的编写机器学习的运行程序,通过提供大量的相关数据来训练它们,当训练数据达到一定量的时候,机器学习算法就能自动通过数据中的重复信息总结出答案。 不断的训练也能不断的提高机器学习的算法能力。

例如,你想教会机器算法“什么是猫”,就需要将大量猫的图片输入算法中标记为“猫”,再将一些错误的图片标记为“不是猫”。 大量的数据训练后,机器算法就能通过这些数据中的重复性信息来做出判断,当你向程序提出“什么是猫”的问题时,它将向你展示正确答案。

机器学习如何生成书籍?

机器学习算法总结了2016年到2018年三年所发表的53000多篇关于锂电子电池的研究论文,找出150多篇权威研究论文,并将这些论文的摘要进行集合,同时将引用的文章链接附在摘要后,帮助读者进一步阅读原始的文章。

提取海量文本中高质量的内容形成连贯的摘要,对于人类科学家来说是一个巨大的挑战,需要大量的时间和精力阅读成千上万的论文。 而这本书中的摘要由机器学习通过算法完成,AI 的自动扫描和总结输出,让科学家们把更多时间用在重要的研究上。


AI生成文本还存在许多问题

机器学习的蓬勃发展极大地提高了计算机产生书面文字的能力,但这些输出仍然受到严重限制。 AI生成的文本是根据数据形成的统一的公式化内容,无法像人类一样创造更具连贯性和平衡性的内容。 所以像AI生成的小说或诗歌等内容更倾向于是一种格式,而不是创造令人信服并喜欢的引人入胜的阅读体验。

实际上,当翻阅AI文本时,不难发现其中会有很多乱码和不连贯的句子。 这项技术的关键难度在于能否生成适合人类阅读习惯,表意清晰的AI文本。

卡内基梅隆大学人机交互研究的副教授Jeff Bigham认为,把高质量的文本连贯的输入系统,再由系统生成具有可读性的摘要并不是困难的事情,关键难点在于机器学习算法是否具备自动提炼摘要的能力。

此外,AI生成文本还涉及到伦理方面的问题。 比如: 谁是机器生成内容的创始人? 算法的开发者能被视为生成作品的作者吗? 谁对机器生成的内容负责?

机器学习算法发展到今天所做的更多的还是提出问题,而不是解决问题。 新技术出现带来的是一系列新技术本身发展和其他相关的引申问题。

目前机器学习算法已经成功地开发出了第一个可以生成书籍的原型,但它对大型文本语料库的精炼摘要仍然不完善,解释文本、句法和短语关联有时看起来仍然很笨拙。 虽然为了凸显机器生产内容这一技术的突破,研究人员不会手动润色或复制编辑任何文本,但是这也同时表明了机器学习还有很长的路要走。


目前,这本书还有需要优化改进的地方,但这是AI在自然的语言输出方面新的尝试,这种不完美不能否定这一技术在机器学习领域的新成就。

结语: 无限算法或将改变世界

机器学习生成书籍的技术会给我们的工作和生活带来极大的便利,如果你告诉系统“将过去4年的生物工程研究总结成一个50页报告”几分钟后它就会把准确的内容发送给你。







请到「今天看啥」查看全文