大数据文摘作品,转载要求见文末
作者 | 安德鲁·丁歌顿
编译 | Chris Qiu,寒小阳,钱天培
“尽管教育领域有着结构上的保守性,教育考试还是在变得越来越陌生。考试工具(比如,在线虚拟模拟)在变化,数据在变化(编码光标和点击的数据),应用在变化,领域也在拓展。
因此,数据分析方法也将会改变。我认为机器学习方法必将取而代之。
”
几个月前,这个有点醒目的观点出现在我的邮件箱里。一场有趣的辩论发生在一次邮件讨论中,就在那里,一位美国的计量心理学家(Psychometrician)写下了这个观点。
它就如微凉的周日清晨的教堂钟声一般,发出阵阵清晰冷彻的回响。曾经有一段时间,我计划将由我掌管的教育评估(Educational Assessment)部门转型成数据科学和机器学习团队。就在上周这些计划终于有了成果,正式成立的心理测量与分析(Psychometrics & Analytics)部门将是澳大利亚第一个拥有法定权力的教育部门。
我最初的目的是两方面的。
一是巩固现有的计量心理学专业知识,并以此为基础来建设。二是通过让团队学习诸如人工神经网络(artificial neural networks)、支持向量机(support vector machines),以及分类和回归树(Classification and Regression Trees)这样的模型,来发展团队在机器学习方面的能力。
我已经开始将这些模型应用在已有的数据上了。下一步是利用大数据技术,如Hadoop、MapReduce和Spark,来开发专业技术。之前,我已使我们的团队完成了在软件工具使用上的转型,在处理心理测量和自动报告生成的工作时从SAS转向了R;并且我想发展我们使用另一种被广泛使用的机器学习语言——Python——的技能。
但那封来自于我美国同行的邮件比我过去一直思考的东西有更深远的意义。计量心理学这门有百年历史的学科是应用统计学的一个分支,主要基于查尔斯·斯皮尔曼(Spearman,1904)的工作发展而来。不过,也许再过不久,计量心理学对教育评估来说就不那么有用或相关了。
这是一个有点大胆的预言,并且有可能激起计量心理学家们过度的反应。还有,
试题反应理论
(Item Response Theory)1对于复杂的在线考试系统,比如
计算机自适应测试
(Computerized Adaptive Testing)2,来说难道不是必不可少的吗?
试题反应理论(Item Response Theory):
一系列心理统计学模型的总称。IRT是用来分析考试成绩或者问卷调查数据的数学模型。这些模型的目标是来确定的潜在心理特征(latent trait),比如语言能力(language proficiency),是否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。目前广泛应用在心理和教育测量领域。
计算机自适应测试(Computerized Adaptive Testing):
以试题反应理论为基础建立题库,并由计算机根据被试者能力水平自动选择测题,最终对被试者能力作出估计的一种新型测验(比如,GRE考试)。
这个问题的答案毫无疑问是肯定的,但是这个问题没有抓住那个预言的重点。不是说考试测验必须变成在线的(有些时候我们会在教育部门的走廊里或者会议室听到这样的言论),而是说教育评估的本质可能会受到数字技术引发的深远变革的影响。
然而,当前的在线考试评估在结构、形式和内容上基本照搬了传统的笔试测验(pencil and paper based test)。进行网上考试的学生很可能会回答一些跟纸质考试中遇到过的类似的多选题。偶然地,学生也会遇到用HTML、CSS和Javascript语言“打扮”的被称为“技术增强题(Technology-enhanced Items)。这类多选题的选项可能是一个下拉菜单,而被试者则可能被要求将选项进行排序,或把选项拖拽到屏幕上恰当的位置里。
但是不管怎么样,对被试者来说他们还是像在考传统考试一样:给每个选项题选个答案,选完后到下一题,直到全部做完。考完之后马上或者过一段时间,被试者会收到考试成绩。考试成绩要么是回答正确的题目的总数(如果这个考试是
线性计算机考试
(Linear Computer Based Test)的话),要么是一个按照量表转换后的分数(scale score)(如果这个考试是比如计算机自适应测试(CAT)的话)。被试者也可能会收到一些描述性的反馈,告诉他们哪些内容他们掌握了,哪些还需要提高。
线性计算机考试(Linear Computer Based Test):
与计算机自适应测试(CAT)不同,线性计算机考试的整套试题是在考试开始前随机整合完成。虽然该形式基本保证了每个被测者拿到的整套试题不同,但不能像CAT一样根据每道题的答题情况对被测者进行能力估计,进而选出下一题。
考试评估真如开头那段引述的话里所说的,正在变的“面目全非”吗?可能还不至于。但一些略具雏形的创新科技正在涌现,它们阻断了传统方法对在线考试的统治。这方面,我们可以参考一下帕特里克·格里芬(Patrick Griffin)教授在
协作性问题解决
(Collaborative Problem Solving)方面的工作(请参考凯尔和格里芬2014年发表的论文,以及视频访谈)。在今年的二月,我有幸邀请到了格里芬教授来做了一个关于他工作的讲话;之后我和我的一位同事一起展示了格里芬教授设计的考试平台。
合作性问题解决(Collaborative Problem Solving):
CPS被定义为当个人的能力和资源不足以解决一个问题的时候所需要依靠的一整套技能。其核心是在面对复杂问题时,个人如何去与他人协作整合不同的资源和技能。具体有五项构成要素:参与、视角选择、社交管理、认知管理,以及知识学习。
格里芬教授开发的这项技术将一个问题解决任务,同时向至少两个使用不同电脑的人展示。每个被试者看到的问题都是不完整的,从而被试者必须通过通讯软件协同解决问题。不同于简单地记录正确和不正确的答案,这个平台会详细记录参与者在完成任务过程中,包括沟通信息在内的所有屏幕活动。这些数据被附在日志文件中用于之后的分析。
日志中的某些数据被认为是和协作性问题解决中涉及的社交和认知两个要素(比如视角选择和任务管理)紧密联系的。人们根据数据和每个要素的关系强度,把数据以正整数(或分数)的形式进行编码(数值越大,关系强度越高)。之后,这些编好的数据被
Rasch 部分给分模型
(Rasch Partial Credit Model) (Masters, 1982)5 分析,以获得要素的难度(difficulty)和被试者能力(ability)的估计值。
Rasch 部分给分模型(Partial Credit Model):
试题反应理论(IRT)模型的一种,被用来分析部分给分数据。数据中被试者的得分 s = 0, 1, 2, 3, ……, k, k 是一道试题的最高得分。该模型由马斯特斯(Masters) 在1982年根据Rasch (1960) 的二分模型(dichotomous model)发展而来。
我对格里芬平台的一个重要的观察所得是,尽管平台评估的是人的认知能力,但却不同于任何传统的计量心理考试。
格里芬的平台能使学生专注在更重要的任务上——学习如何与其他人实时协作解决问题。
因为被试者看不到评估的具体内容,传统的考试策略如考试技巧、作文的前期准备、猜题或者直接作弊等都不管用了。确实,这样的评估相较于传统考试更好。格里芬的研究发现,在他的平台上的测试不会出现国家间倾向(between-nation bias)。而标准化的
国际学生评估项目(PISA)
的试题却一直因这种倾向被诟病(Kreiner & Christensen, 2014)。格里芬平台的测试对学生使用的不同语言也是稳健的(robust)(Vista, Care and Griffin, 2014)。
国际学生评估项目(Program for International Student Assessment):
一个由经济合作与发展组织筹划的对全世界15岁学生学习水平的测试计划,最早开始于2000年,每三年进行一次。该计划旨在发展教育方法与成果。是目前世界上最具影响力的国际学生学习评价项目之一。47万名15岁学生,共代表65个国家和地区,参加了2009年的测试。另外5万名学生代表9个国家于2010年做了测试。2015年超过53万名学生代表72国参与测试(摘自维基百科)。
事实上,考试评估回避了一个重要问题:计量心理建模分析到底有什么价值?它真的有贡献吗?为了满足一个老旧的、以纸质考试框架为基础而设计的计量心理模型的条件,我们不得不将丰富的数据编成整数序列。这真的有必要吗,或者说这是我们想要的吗?
用机器学习模型岂不是更有效吗?毕竟我们从机器学习了解到,IRT心理测量所基于的逻辑回归(logistic regression)模型可能不再是做分类的最佳选择了。
为什么我们不能使用随机森林处理数据,把跟协作性问题解决有强相关的数据特征提炼出来呢?那些被认为是重要的数据特征会在进行提升回归决策树(boosted regression tree)分析后显现出来呢?人工神经网络会建议被试者在接下来完成什么样的问题解决任务呢?我们能否使用分层聚类分析(hierarchical clustering analysis)识别出问题解决中需要用到的技能和知识,并在之后把这些结果实时地报告给学生和老师呢?
再进一步来看,成年人的社交媒体数据(如果被允许获取的话)可以告诉我们哪些在协作问题解决中跟社交有关的信息(比如视角选择、参与,以及社交规范)呢?对他们的脸书数据进行的机器学习分析有没有准确预测他们在格里芬测试中的表现呢?他们的领英数据能告诉我们些什么?在问题解决的社交层面精通的人,是不是会被吸引到某些特定的行业里去?或者,是不是很多行业会要求从业人员在问题解决的认知和社交方面掌握优秀的技能?
再者,要是格里芬的平台纳入虚拟现实技术会怎么样?问题解决任务的内容范围将得到极大的延伸,结果数据流也会被丰富。举个例子,优秀的运动技能或手眼协调能力是如何与协作性问题解决中的任务管理要素相联系的呢?我们很难知道确切的答案,但是现实生活场景可以被研究、模拟,或同时进行。举例来说,一队潜水员在修理海上石油钻井时需要什么样的问题解决技巧?他们该如何彼此协作,并如何与海面平台上的同事协作呢?
这些思考将能力评估带入了极有趣且未知的领域里;但这些问题对计量心理模型来说过于复杂。
那么,计量心理学家需要学习机器学习吗?很可能他们需要。但是在现实中,这完全取决于特定的环境、问题以及计量心理学家自己。只要立法者继续要求进行大规模标准化考试,至少还会有岗位需要从业者具备心理测量技能和教育行业经验。
但是,迅速而高调的数据科学职业发展不能被忽略。为此,我相信招聘那些专门喜爱把定量模型应用在计量心理这个相对狭小领域的人才会变得困难。入门级的职位至少应该提供机器学习培训方面的支持。这不仅可以吸引更多的有才干的申请者,也可能造就一支能处理更有趣的项目而不只是考试评估的团队。这样的团队将具备与更广大的数据科学社区建立联系的潜能。