内容来源:2017年6月11日,沪江数据挖掘总监王新义在“饿了么&七牛云联合论坛 大数据最新场景化应用实践”进行《自适应学习:机器学习在开心词场中应用》演讲分享。IT 大咖说作为独家视频合作方,经主办方和讲者审阅授权发布。
阅读字数:2768 | 4分钟阅读
摘要
教育是最传统和复杂的社会活动,如何使用AI(机器学习)技术改造和促进人类自身学习(提高学习效率和学习效果) ,是互联网教育大数据及挖掘的基本问题;简单介绍AI 技术应用沪江各个产品线(核心包括辅助学生“个性化”学习和辅助教师教学工作)的情况,重点分享:使用DM、ML技术结合RM(Retention Model)、IRT(Item Response Theory)、DKT(Deep Knowledge Tracing)等模型在开心词场中应用实践和认识。
教育是最传统、最复杂、涉及面广的社会活动,而学习是痛苦的,人类都是不爱学习但是渴望成长。
互联网教育的特点是低频、高交互。我们的使命就是使用机器学习技术改造和促进人类自身学习,让学习更快乐,提高学习效率和学习效果。
机器学习在沪江网应用主要四个维度出发:老师(网师)、学生者、内容、工具,进行构建四大应用场景:
自适应学习、人机交互、教学过程监控、内容加工。
机器学习可以在大数据基础上帮助网师全方位洞察学生者、洞察自己,以及洞察整个市场。
洞察学生是要知道所有学习该课程的学生的学习情况如何,了解每个细节知识点的掌握程度。
洞察自己是发现网师在讲课过程中哪些知识点、流程或节点会使大家在理解上有问题,并辅助网师对课件进行修改。
洞察市场是概括地从整个大方向来说,哪些课程会比较热门。
随着人工智能在教育及互联网教育上逐步应用和发展,老师(网师)角色也在改变,逐步从“知识传递”的角色转移“能力培养”和“品德培养”。
自适应学习分为智能导学服务和智能学习助手。智能导学是把一门课拆分成不同的知识块,给每个人提供不同的合理学习路径。智能学习助手就是重新定义老师和机器的定位,将老师的一些重复性工作交给机器来完成。
我们在丰富的大数据基础上,充分利用数据分析、挖掘和机器学习技术,根据学习者详尽学习轨迹数据从学习需求、学习意愿、学习能力、经济能力、学习毅力等维度构建用户模型。
在学习过程(学习系统)中做一些高交互的改进,优化课件的内容和设计,在题库等内容库上推荐题目和学习资料,在考试过程中提供合理的评测周期,带来丰富多样的学习体验。
教育场景中存在老师、学生、教学辅助人员等多种⻆色。⻆色互动时会产生大量数据,包括并不限于文本、图片、音频、视频、用户行为等内容形态。传统教学中,除了少部分能被老师感知的部分,大量数据都没有得到利用。
充分地对数据进行收集,并构建一种面向教育行业的标签体系;一方面,将这些数据沉淀为结构化的知识,让他们具备教学价值;另一方面,在不同的应⽤场景,这些数据也能对商业化提供帮助。
标签及度量体系:教育场景存在大量维度,通过数据挖掘和机器学习,对内容进行打标,输出对应标签及相关性、相关度量指数。
构建各学科、各层次知识图谱,题库及资料库。所有课件、知识点的内容都会关联到知识图谱上。在知识图谱上我们可以做很多工作,比如一个知识点掌握得不好,可以通过知识图谱进行分析关联。
为加速内容的产品化和助推内容商品化提供一些开源的数据、算法支撑。
机器学习在工具线应用主要包括以下三方面:
通过开放接口与教学场景深度融合;
开放用户行为感知和数据分析;
应用智能云服务。
通过数据和机器学习技术构建学、练、测等全流程的智能化、个性化的工具。
开心词场是沪江旗下的背词练习工具,通过学习、测试、复习的游戏闯关模式,掌握词汇,更添学习乐趣。机器学习在开心词场中应用主要介绍两个模块:基于IRT模型的自适应词汇量测试和基于记忆模型的个性化闯关路径。
基于IRT模型的自适应词汇量测试:基于IRT模型最少用户交互准确评估用户的词汇量,在自适应词汇量测试的基础上,推荐一些合理的词书。
基于记忆模型的个性化闯关路径:在背单词的过程中,根据每个人的记忆特点计算记忆曲线,利用这个记忆曲线来安排合理的关卡。
静态考卷:每个人所做的题目相同,学生在肯定会做的容易题和肯定不会做的难题上浪费较多时间,影响用户体验。
动态交互式测试:每个学生所做的题目不同,下一道题目根据历史做题的反馈动态改变。算法可以聚焦于算法不确定的题目,请学生回答,从而避免在肯定会做和肯定不会做的题目上浪费太多时间。
IRT (Item Response Theory)
人能力越高,答对概率越大;
词难度越高,答对概率越小,曲线越靠右;
人能力=词难度, 则答对概率0.5。
选难度和当前能力估计最接近的,且用户没有回答过的词。对于该词,P(答对|词难度,人能力)~0.5,即最不确定,从而避免两种可能浪费时间的词。
如果存在多个学习路径,可以使用混合IRT。
使用深度神经网络,可以很好的解释现有的数据。
推题策略的改进就是使用MDP。
基于记忆模型的个性化闯关路径:在背单词的过程中,根据每个人的记忆特点计算记忆曲线,利用这个记忆曲线来安排合理的关卡。基于记忆模型的个性化闯关路径的算法模型经历三个主要阶段:艾宾浩斯记忆曲线、间隔效应、Act-R;接下来正实施MCM模型。第一段(艾宾浩斯记忆曲线):主要构建群体艾宾浩斯记忆曲线及每个学习者的个性化记忆曲线;第二阶段考虑间隔效应进行构建曲线模型;第三阶段基于Act-R算法建模。
艾宾浩斯记忆曲线→间隔效应→Act-R→MCM
概率随着时间指数衰减: