专栏名称: TechWeb
TechWeb专注于互联网消费领域,每日专业提供互联网产品、智能设备及互联网服务等方面的最新资讯。
目录
相关文章推荐
新浪科技  ·  【#门店回应Mate70提前拆封罚款50万# ... ·  23 小时前  
36氪  ·  叶国富:没有勇气,何来运气? ·  4 天前  
51好读  ›  专栏  ›  TechWeb

直击高考人机大战:技术、争议与人族胜利

TechWeb  · 公众号  · 科技媒体  · 2017-06-08 19:16

正文

允中 发自AI考区
量子位 报道 | 公众号 QbitAI

6月7日17点,2017年第一日高考结束,数学学科停笔交卷的铃声划破长空。

北京第八十中学望京校区人潮涌动,结束数学厮杀的考生正陆续走出考场,有欢有悲,神色各异。

也在此时,相隔5公里外的丽都皇冠假日酒店,另一场同样试题的考试已经展开,名为Aidam的人工智能程序,据称在200技术工程师、经历3年研发、吃下50万道考题后,开始正式尝试2017年新课标文科数学卷。

为了对照,主办方教育科技公司学霸君,还邀请了去年6位各省高考状元,两两组队组合作为人族代表——又是一场人机大战呐。

同一时间,相隔千里之外的四川省成都市高新区,另一场机器答题的活动也已经开始。

比起Aidam,这家名为准星云学科技的成都公司取名更为直接:AI-MATHS,据说已经是一位平均分达90的数学答题机手。

唯一不同的是,两场千里相隔的“机器高考”,学霸君让Aidam选择了联网,准星云学让AI-MATHS选择了单机。

 AI-MATHS所用的11台服务器,断网考试

派AI出来搞事情,这是国家计划

人工智能太热闹,但凡掏出来搞个“人机大战”,或许都能搞个大事情。

就在一周前,人类最顶尖的围棋选手柯洁九段在乌镇被AlphaGo完败,所有吃瓜群众都在问:下一个被完全击败的智力领域,在哪里?

全民关注的高考,成为了学霸君、成都准星云学瞄准的热点。当然,他们还不是全部。

中国范围内,还有更为知名的玩家科大讯飞,这家总部位于合肥的AI公司,之前最为著名的口号是2020年让AI考上一本。

而且从现在研发的进展来说,科大讯飞研发的将是一个“高考文科AI”,他们将进行语文、数学、地理和历史等四门学科的集中研发。

更早之前,讯飞还通过论文发表的形式对外公布,联合哈工大进行的英语完形填空和阅读理解有不错进展,准确率达70%以上。

值得注意的是,这些高考AI的进展背后,虽有商业目的的热点行为,但更关键的是,这也是一次“国家计划”。

时间回到两年前。

2015年7月21日,全名为“基于大数据的类人智能关键技术与系统”(简称“类人智能”)的国家863计划项目正式启动。

项目以科大讯飞为牵头单位,联合清华大学、中科院自动化所、北京大学、北京理工大学等超过30家科研院校和企业共同负责项目的研发与实施,主要针对大数据所带来的新的技术与挑战,研究相关类脑计算关键技术和类人答题系统,希望通过这个项目的实施,研制出能够参加高考并考取大学的智能机器人。

明确来说,“高考机器人”是国家863计划“类人智能”的重要研究目标之一。

而在技术目标上,这个国家计划希望能够在可预见的将来,通过强化学习能力,“高考机器人”不仅可以储存知识和高考题型,还将具有逻辑推理能力。

此外通过建立模型和算法,可以让机器在大数据中找到数据之间的关系和差异,让这个模型的结果和人的表现很接近,甚至在最终结果上超过人的表现。

实际上,量子位还获悉,科大讯飞在该计划中主攻语文、数学、历史和地理四门学科,而本次在成都开考的“AI-MATHS”也是计划组成员,只是专攻数学而已。

高考AI背后的技术

不过,或许更加直接的问题是,通过让机器参加高考,到底可以解决哪些方面的AI问题?又会遭遇哪些技术挑战?

量子位得到了科大讯飞轮值总裁吴晓如的回答,他说,人工智能本身就是对人类智能的一种模拟、扩展和延伸,所以拿它去参加测试,也就是要看看机器能达到一个什么样的人工智能水平。

并且在具体攻关中,让机器高考,还具体包括了题目理解、知识表现、逻辑推理等,涉及怎样用人机互助的方式获得知识,还有在符号逻辑方面,让机器来学会表达。比如作文、阅读理解,就既需要读懂文章、去理解题目的意思,同时还需要去理解相应的常识。

 学霸君首席科学家谈考试机器人原理

那背后的具体人工智能如何发挥技术之力?

学霸君方面给出的答案是:深度学习、专家系统和自然语言理解为核心的复杂系统。

首先是基于深度神经网络的句法和语义分析器,实现在大数据——海量题库中不断强化和扩充训练集。

其次是构建模拟器,用来模拟人类世界中的知识图谱和常识。对于学霸君来说,具体就是利用K12中数学应用题数据,让机器模拟“习”得知识图谱和常识,逐步提升其对于真实世界的接近程度。

第三是为解题准备的精准推理算法,主要是基于人工智能的专家系统。在该方面,学霸君的做法是利用资深老师和工程师在7000万题目之上构建了推理引擎和庞杂的知识元——还称这是机器在所有的解题路径中探索出的最简明的一种。

最终,直接展现上来说,就是要模仿人脑的感知、记忆、认知、分析、建立经验知识库、联想、判断、决策整个过程,可以挑战中学框架范围内的所有题目,就是找到数千万人类学霸的解体经验——如同AlphaGo在学习人类棋谱后成为围棋高手。

不过,这其中最大的挑战来自形式化语言是自动解题,这对于机器是挑战极大,关键在于“简明完备”。尤其是涉及到概率等应用题,挑战又上升了几个数量级,在知识图谱基础上,需要探索出一种兼容句法和语义转化的表示方法,能够支持代数、几何、概率题等。

微软亚洲研究院还非常具体地解释过机器在考数学方面会遭遇的挑战:

首先涉及自然语言理解。一方面,对于一道题目的文字描述,计算机需要知道并理解其中包含的概念,对于人类很简单的概念,对机器却需要自然语言理解方面的“造诣”。

举例来说,“一加一等于几”以及“小明有一个苹果和一个梨,问小明有几个水果”,同样本质是“1+1=?”的两道题,在题型概念上是一样的,表达方式却截然不同。计算机需要知道如何把以上两道问题都抽象成两个对象相加。

另一方面,机器抽取题目中各个概念变量的关系也十分具有难度。其次,在一定程度上理解文字之后,数学解题需要通过逻辑推理生成解题公式。最后,计算机需要具有一定有关现实世界的常识去理解自然语言里面一些隐式的指代。

他山之石:AI2

让人工智能考试这件事,并不只有中国人在研究。

位于美国西雅图的艾伦人工智能研究所(AI2)成立于2014年,创办者是微软的联合创始人保罗·艾伦,CEO是知名的人工智能专家Oren Etzioni博士。

目前AI2主要进行四个项目研究。

  • Aristo(亚里士多):这是一个结合了机器阅读和NLP、文字蕴含和推论、不确定推理、大型语料库的统计技术、图表理解等多项人工智能技术,开发而成的第一个有关科学的“知识机器”。

  • Semantic Scholar(语义学者):基于NLP、数据挖掘、计算机视觉等技术,构建而成的搜索引擎,能帮助科学家更有效的发现和回顾研究论文。

  • Plato(柏拉图):聚焦于从图像和视频中提取视觉知识,用以丰富传统上基于文本资源形成的知识库。

  • Euclid(欧几里得):这个系统试图在标准化测试(如SAT)中,回答数学、几何方面的问题。几何问题需要文本和图表能力的创新及组合。

这其中,Aristo和Euclid跟高考AI有点像,举例说明。

比方你问Aristo:一年的哪个季节,兔子的毛皮最厚?

A.秋季 B.春季 C.夏季 D.冬季

Aristo回答:D。如果你查看详情,Aristo会进一步解释说,回答的依据来自Barrons四年级学习指南,指南里提到熊的毛皮在冬天最为厚实。所以Aristo推断兔子也一样,这个回答的置信度是60.14%。

如果你问Euclid:如果从-5到x的连续整数和是13,那么x等于几?

Euclid回答:7。它对这个题目的拆解思考如下图所示。

之前独家采访图灵奖得主Raj Reddy时,这位人工智能先驱曾经对量子位谈起AI2的研究,因为Etzioni是他的学生之一。

Reddy说AI2用了生物学AP(美国大学预修课程)教材,构建了一套知识系统,准备让电脑通过AP考试。花了好多时间,还有好多钱,最后发现行不通。

“在我看来,这个方法根本就是错的。在搞AP生物知识之前,应该先搞明白高中生物;搞中学生物之前,应该先搞明白小学科学。Oren去了之后就是这么做的,他们先研究中学的生物课程,现在已经能回答60%的问题。”Reddy说。

关于Reddy这次采访,这里是传送门:《对话图灵奖得主Raj Reddy》。

争议:一场炒作?

不过,要做高考答题方面的AlphaGo,听起来简单做起来难,不少从业者觉得当前技术达不到。

同样在研发“高考机器人”的科大讯飞就表示,对于目前的展示方式的权威性有疑惑,因为就科大讯飞牵头的863课题来说,人工智能能力通过高考去实现,是有硬指标的。

按照科研的通常做法,以及科技部的要求,需要按照一种完全没有任何疑义和漏洞的测试方法进行,即这个测试要在完全断网的状态下进行。

其次,要确保在测试之前机器是没有办法获取任何题目相关内容,也就是说需要“同步”进行,而不是考试试题已然公开的情况下。

第三,在整个处理过程中,要有完全可监督的第三方,符合公正性。

并且在实际操作中,还必须把整个测试过程的日志,即机器上所输出的、详细的中间处理过程全部要输出来,以便来确认,这是一个完全由机器自动、一步一步求解过来的过程。

质疑不只限于操作方式。

相对其他学科,机器考高考数学要“相对”容易一些。一方面,数学更多的是依据符号逻辑,数学题目的语言理解相对比较容易,因为相对而言都是一些比较标准化、结构化的描述语言或出题语言,所以机器较好理解。

另一方面,数学中很少有“一千个读者有一千个哈姆雷特”的现象,很多定理、公理和自动证明等,在几十年前就已经有了一系列研究成功,所以目前数学方面的进展还算不错。

但是,最大的难点在于“应用题”,因为涉及到常识理解,目前还有较为明显的短板。

科大讯飞方面还解释称,同属863计划中“高考机器人”研发的“AI-MATHS”,除了自身研发能力,也和电子科技大学数学攻关组保持对接,目前机器解答数学应用题方面,因为涉及常识理解的问题,仍是最大挑战所在。

此外,创新工场人工智能工程院副院长王咏刚,也认为目前的技术远未达到可以应对高考试卷中各类试题的水平。

这位前Google工程师表示,“高考机器人”需要将机器视觉、自然语言处理、知识图谱、机器推理、机器阅读理解等AI方法综合起来,可以部分解决少数类型的文科、理科试卷中的试题,但要说能够应对各类试题,甚至还要跟高考状元等PK,并不现实。

甚至目前的技术水平,科研层面的检验也没有看到有所突破。

王咏刚介绍称,在科研领域,一些单独的计算机解题类任务,比如阅读理解,求解代数题,完形填空,知识问答等,目前都有相对客观的测试标准,相对完善的数据集,比较成熟的评估体系。

所以他认为,如果这一类“高考机器人”采用的AI技术真的有科研突破层面的意义,那首先应该做的不是参加高考,而是在权威期刊或权威会议上发表论文,接受同行评议。

对于类似项目对标AlphaGo,王咏刚觉得应该先发或者同时发布学术论文,通过科研同行评测认可,不然会有商业炒作嫌疑。

这位创新工场人工智能工程院副院长还认为即便“直播”也不能完全令人信服,比如现在因为保密的原因,机器是在高考结束后才开始答卷的,而且机器运行时是否有网络和物理层面的隔离,也难以证实。

最后,对于机器做出来的试卷如何评判,也需要有相关标准先定义。

当然,也有人更加直接地表示,这样的“高考机器人”商业炒作意义大于实际。

一位人工智能领域的知名CEO告诉量子位,不看好高考机器人,因为让机器理解题目并不是一件容易的事儿,即便是可能相对有希望的数学,在很多题型上读题难解题更难。

新时代的图灵测试

当然,虽然吹得有点过,但现在的“机器人高考”也并非全无价值。

首先,最直观方面肯定是客观上加速了人工智能的民主化,可以让更多人了解人工智能在教育领域的应用和变革,对于更多机构、学校、老师、家长和学生,也能够利用最新进展,帮助提升应试能力和效率。


 衡水中学学生晒练习题 如果借助AI可能不再会有这么多

比如使机器判卷、个性化指导、个性化作业、教案改进等变成可能,老师的教学效率和学生的学习效果都可以得到大幅度提升,从孔子以来就开始追求的教育终极问题——因材施教,将不断趋近现实。

其次,如牵头参与“高考机器人”项目的科大讯飞所言,根本目标不是为了这个高考,而是聚集科学家对一些人工智能问题进行攻关,产生一批成果,然后在更多领域,比如像机器翻译这样涉及语言理解的任务当中,去应用这些成果。

比如同样的成果就能迁移应用到客服系统中,以及车载人机交互系统里。类似的领域都需要让机器预先对一些行业知识拥有理解,同时基于这个理解的结果,能够做一些决策判断、一些相关问题的回复。

当然,讯飞方面还向量子位提供了一种此前鲜被提及的意义——图灵测试。

讯飞研究院院长胡国平介绍说,在传统历史上,大家比较多的是以通过“图灵测试”的方式来进行,让一个机器和一个参加测试的人坐在一个外部不可见的空间里,然后测试人提出一些问题,由机器和被测试人分别来作答。

作答以后,如果这个提问的人分不清哪个答案是机器作答的、哪个是人作答的时候,我们就觉得这个机器通过了图灵测试。

但是现在有了新情况,随着后台海量数据库的增长,以及一些简单的规则和方法运用,传统的图灵测试可能正在“过时”。

比如2014年6月,就有报道称俄罗斯有一些人工智能的软件已经通过了图灵测试,机器拥有了相当于13岁少年的智力。另外,也有一些其他的人工智能软件,也在现在数据和技术进展中通过了图灵测试。

所以图灵测试之外,该用怎样的标准衡量最新的人工智能发展水平?高考是不是有资格?

如果把高考看作衡量人的知识水平、理解能力、推理能力等相关智能能力水平的测试工具,那显然借此衡量人工智能的能力,也可以接受。

更何况在“机器学习”大行其道的当下,高考作为人类学校几十年学习之后的选拔,也能对学习过程形成参照。

高考人机大战结果

最终,从17点开始答题的人工智能Aidam,在联网的基础上,通过云计算,在400台主服务器和1000台辅助服务器支持下,耗时9分47秒交卷,选做题23题12分得0分,压轴题得6分,选择错2个丢10分,总得分134分。

另外两两合力的状元也在1小时计时后全部交卷,最高分146,最低分119,还有一组得分140,三组平均得分135分,象征性赢得了“人机大战”胜利。

另一场位于成都高新区进行的比赛,准星云学的AI-MATHS,断网单机,使用了11台服务器,对2017年高考北京文科数学卷耗时22分钟,得分105分,对2017年高考文科全国卷II用时10分钟,得分100分。

【完】

 扫码强行关注『量子位』

追踪人工智能领域最劲内容