▲点击上方 雷锋网 关注
【大咖Live】AI自适应教育专场第二期,独角兽一起教育科技CTO杨康带来了关于“解码「AI+教育」在K12领域的落地与实践”的主题分享,详解一起教育科技在AI+教育方面的实践经验。目前,本期分享音频及全文实录已上线,雷锋网旗下会员组织「AI投研邦」会员可进入【AI投研邦】页面免费查看。
本文对整场分享进行了要点总结及PPT整理,以帮助大家提前清晰地了解本场分享重点。
1、教育当前现状及面临的困境是什么?
2、AI+教育可以解决什么?
3、传统教育教学如何与当前的AI技术结合?
4、场景化的AI+教育是怎样的?
以下为一起教育科技CTO杨康的部分分享内容,【AI投研邦】在不改变原意的基础上做了整理和精编:
大家好,我是一起教育科技CTO杨康,今天分享的话题是“AI+教育”在K12领域的落地与实践。
一起教育科技将所有用产品、技术手段帮助老师学生更好的完成教学和科研的过程定义为AI助教工作,包括课下多学科作业批改、课堂辅助教学、课前教学设备以及AI+老师的研发工作等。
上述探索和应用的目的在于,一方面更好解放老师工作,将重复的机器擅长的工作交给机器,让老师更好地进行教学工作;同时,一起教育科技希望学生能够更多地完成自主学习,希望通过大数据和AI,让学生更有针对性地进行学习。
在教育领域,一起教育科技的落地实践主要包含以下方面:语音识别&评测、图像识别&批改、自然语言处理&语义理解属于感知和语义层面技术,自适应学习、AI诊断、智能测评更贴近教育场景和数据。
一起教育科技通过语音识别解决英语口语打分的自动评测问题,通过图像识别技术解决各个学科学生练习册的自动批改;通过自然语言技术解决作文批改问题;通过自适应学习技术,解决学生个性化练习需求;同时,将大数据和AI结合,解决学生做错题后的错因分析和诊断问题;以及目前正在进行的与学科能力测评相关的智能评测技术。
杨康提到,语音评测在教育领域的应用包括两点:
一是口语朗读的语音评测。口语朗读即学生根据一段文本英语内容进行跟读,在发音过程中,音频将通过设备端传送至后台服务器,一起教育科技后台进行相应的口语打分,该过程主要评估学生语音的完整度、流利度。同时,在流利度本身中也会遇到一些细节性问题,比如流利英语发音(即考察韵律、重音、语速等细节)。
二是半开放口语评测。半开放口语相对跟读英语口语评测,前者多出的是语义的相似度判断和语义匹配过程。半开放口语面对的问题是,给出一段文本和相应的问题,学生需根据文本的理解对问题进行语音回答。在语音回答过程中,用户答案并不唯一,后台不仅仅按照发音角度评估用户打分,还需参考用户回答问题的内容本身是否有错、内容本身是否完整、是否回答题干相应的关键词或答案等等。 我们称之为半开放口语的评测技术。事实上,这是语音打分技术+自然语言处理技术合成的综合性技术解决方案。
我们通过机器打分和专业的教研⽼师的打分的⽐较来进⾏⼝语评测技术效果评估, 和⽼师打分越接近的⼝口语评测引擎, 我们认为其表现更好。
上图可以看到各家的引擎,一起教育科技与其他第三方引擎进行评测。在小学英语的口语场景中,一起教育科技引擎效果良好。更集中在零区间附近。
如何进行相应的半开放口语评测?一起教育科技分为三个环节:
语义分割:一起教育科技将一句话或一个段落划分成不同的短语,短语中包含一些关键信息,利用短语和答案进行匹配,即短语和短语之间的匹配。
同时,因为在所有中小学教学过程中,人名或代词使用较多。所以在此类型问题中,一起教育科技利用指代消歧技术将一些单词(例如my 、this)与原文中的名词或人名、物体名进行对应,除指代消歧以外,一起教育科技进行语义相似度的判断。针对一句话,用户的描述可能不同:比如doing sports和doing exercise 是一个意思。同义词的判断和语音相似度判断可以用传统的自然语言处理技术来实现。杨康表示,如果有更多样本,可以使用深度学习的方法来进行更好的分析。
整体来看,语音技术在目前K12领域偏向于监督式学习场景,如果有大量的用户语料在小学、中学里面(包括发音、跟读、开放口语等回答)。这些语料进行标注训练,可很好的提升本身语音技术的识别效果。
图像识别技术在教育领域的应用较广,主要是感知层面上的智能应用。如何识别作业场景中的一些场景,比如相对复杂的数学符号,是AI教育领域应用的一大难点。一起教育科技提出了一个基于 Attention 的识别模型。
为什么选用 Attention 作为拍照、批改场景的识别?传统的OCR识别中,CRNN占据了一个重要的角色,但是CRNN技术更偏向于对行进行扫描识别。而对于公式识别来说,由于分式等特殊符号的存在,不再仅仅是一个Seq2Seq的方式,而是考虑二维空间上下文信息。
一起教育科技通过Attention机制对图像平面的信息按内容采集,实现二维空间的搜索,同时用LSTM将序列模型能力发挥出来。
基于图像识别技术,NLP技术和大数据技术,一起教育提出了基于O2O批改的算法架构,O2O代表着Offline to Online,意思是将纸质教辅、练习册数字化还原至线上,这是一起教育定义的O2O。
基于O2O批改算法架构中,底层是大量数据标注,包括好的标注平台、好的标注团队(或外包、或公司团队),好的数据管理。因为针对性的标注和训练和线上的使用反馈贯穿,线上效果不好的之处,我们通过边角案例的挖掘,通过数据管理把它拎出来,让标注团队相应的进行标注,从而进行相应的训练,重新训练效果即可得到提升。
上一层是图像识别基础模型和已上线效果,包括手写识别、印刷体识别、公式识别、图形检测、图形轨迹识别。再向上,一起教育科技做的是教辅批改和练习册批改,除图像识别能还原文字外,还需要考虑如何更好地批改。
智能教学系统由一起教育科技自研,解决以下问题:孩子做错题后,能够通过一系列的自主完成的手段做对这道题。同时,孩子不是因为看到某答案或者只是通过这道题记住答案而学会的,而是通过一些干预,通过讲解将自己的错误原因回溯而学会。
一起教育科技将这套系统智能教学系统分成几个模块,实现了诊断干预、再次讲解,帮助孩子学会这个过程。一起教育科技也在线上进行实验评估这套系统是否有效,称之为后测率指标。后测率是孩子做错一道题,给予相应的干预、讲解。未来,我们看他再次做错的比例是多少,故称之为后测率。
我们通过线上 A/B Test 进行评估,对学生进行实验分组, 发现使用这套系统后孩子的后测率对比原来未使用这套系统提高了很多, 证明在Socrates下, 学习效果和效率都有显著提升。
使用这套系统后孩子的后测率对比原来未使用这套系统,一起教育科技进行了实验班和实验分组。结果所示学习效果提升了很多。
学科能力量尺搭建,一起教育科技也称之为智能评测技术。该技术相对传统,国内外例如我国各省的教研专家委员会上,一些学科能力量尺在数学/语文/英语上都有相应的模型。其主要用于评估一个区域/一个学校/一个班级的教学效果。我们能够形象的联想到,班级学习效果是按考分进行评估。
实际上,分数是一个笼统概念,如何对应到每个孩子的能力,如何对应到班级整体能力,需要学科能力量尺进行度量,用多个维度判断孩子认知、模型和相应教学目标是否达到?
以数学为例,一起教育科技覆盖了七个常见教材版本,并在去年上线了一期项目,帮助公立学校完成其评估过程。学科能力评测目标要有两个:一是为区域教员(比如教育局委员会)提供教学质量的监督,同时微观指导班级,甚至指导个人进行学科能力评估,为班级/家长/老师输出学生的学科能力的强项、弱项,指导日常工作。 学科能力量尺目前的覆盖范围大概有270万学生,去年覆盖7万多个班级。
为更深入的解决听众在AI+教育方面的困惑,「Live」在分享结束后开设问答环节,杨康对雷锋网旗下会员组织「AI投研邦」会员疑问进行了一一解答。
问题一、某AI教育公司从业者:请问数学作业中的应用题,目前可以实现自动批改吗?
一定程度上是能的。一起教育科技在今年也将发布相应技术。数学阶段的应用题批改,因其耗时较长,老师批改的时长也较大。一起教育科技认为第一步是答案抽取,即答案在哪个区域?(比如用户的答案可能是一个确定的数字+一个单位,答案在哪个区域需要识别出来);同时,一起教育科技也希望做到过程级批改,不只是一个答案,对学生在前面的三/五个过程中的回答点是否正确,是否按照思考路径来进行预期回答,一起教育也会进行相应处理。
问题二、AI+教育领域学生:请问在技术落地的过程中,有没有遇到什么瓶颈?这些问题是如何解决的?
比如,一起教育科技在早期自动批改技术上线时,内部评测效果较好;但实际第一次冷启动上线时,你会看到线上效果比预期效果低十个百分点甚至更多。
这个问题的瓶颈在哪里?主要是在样本。线下测试集实验时,训练样本相对少,所以一起教育科技鼓励在AI研发阶段分成两个阶段:一是冷启动阶段,尽可能用能够收集到的数据提高数据样本的标注准确率,然后准确度达到一个基础分(基础分不会太高,冷启动一般来说较难)。
第二阶段是线上放量,即实验或正式生产阶段。该阶段可以看到各种各样的样本,原来的模型、原来的方法在这些样本上工作效果的可能并不好,但一定要有很好的边角案例管理意识和边角案例跟踪意识,将处理不好的问题单独挑出,把样本进行针对性标注。如此得到很好的提升。
问题三、某AI教育公司从业者:AI+教育,在推向K12学校时,面临最大的问题是什么,我们是怎么应对的?
一起教育科技已经成立八年多,面对的问题多种多样。 举例来说,一起教育科技覆盖的学校不只是信息化程度很好的北京、上海,也有信息化程度较差的城镇乡村小学,在这些小学中,一起教育科技花费了很多精力思考如何赋能信息化教学程度较差的一些地区。但我们欣喜的发现,即使在乡村小学,每个孩子的家庭中也有一部手机,通过手机上网进行口语打分、作业批改,可以让老师跟踪其学习情况,家长跟踪学情。
所以,一起教育科技认为移动互联网带来相对公平的教学机会,无需通过一个很大的多媒体教室才能完成口语教学过程。一起教育科技积极应对此事,同时也希望未来将更多的线下作业场景搬到线上。因为孩子在上课过程中,如果能引用相应的作业大数据,可以看到“我的班级”、“我的年级”及全市区域的错题分布。这样即可帮助老师针对性的指导孩子。
另外,关于AI+教育等其他问题,杨康也在分享中进行了解答,报名本场直播可进行观看。
「AI自适应教育」专场开讲中
「AI自适应教育」专场,雷锋网旗下会员组织「AI投研邦」继续每周邀请一位一线从业者带来项目实践过程中的方法和思路,为AI教育从业者与投资人、分析师提供行业参考。
2019年3月27日(本周三)20:00,朗播首席科学家(CSO)贾艳明将带来关于“AI+大数据落地语言学习的实践和思考”的主题分享,详解朗播在AI+教育方面的实践经验。