专栏名称: 图灵人工智能
人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。
目录
相关文章推荐
实验万事屋  ·  博士生发这样的10.7分SCI文章,算是合格 ... ·  16 小时前  
北京日报  ·  松牙可以原位固定?口腔医生:是真的! ·  2 天前  
51好读  ›  专栏  ›  图灵人工智能

一个神奇的北大专业:文科生跨界AI,3年论文引用破2000!

图灵人工智能  · 公众号  ·  · 2025-03-04 00:00

正文

点击上方“ 图灵人工智能 ”,选择“星标”公众号

您想知道的人工智能干货,第一时间送达

图片

版权声明

转自科学网,版权属于原作者,仅用于学术分享,如有侵权留言删除
林子用一句话总结自己的大学四年:“背过诗词歌赋,算过高数线代,啃过编程算法,训过AI模型。”她的专业——北大中文系应用语言学(中文信息处理),堪称全校“最迷你”的专业,每届毕业生仅4-5人。有人因难熬文理“分裂感”转走,有人为热爱留下,而林子成了2015级唯一“全程通关”的学生。

图片

林子。图源:受访者供图


这个专业有多特别?课程从古代汉语到算法编程“混搭”,既要学繁体字溯源,又要敲代码做数学题。大一结束时,同学纷纷转去文学或计算机系,林子却选择留下。大二起,她一头扎进实验室,大三便在国际AI顶会发表两篇论文,毕业后直通硅谷谷歌总部,从事自然语言处理研究,成果还被写入机器学习教科书。2021年,她重返学术界,在加州大学圣地亚哥分校攻读计算机博士,3年论文引用量超2000次。


发蒙的开端


“起初我连‘语言学’是啥都不知道。”林子坦言。高中拿过新概念作文一等奖的她,本被父母建议学经济,却因理科生身份被“分配”到这个文理交叉专业。第一年,课程割裂感让她“像盲人摸黑开车”,直到接触科研才豁然开朗:“原来文学情怀和逻辑思维真能兼得!”
北大教授詹卫东,这个专业的创始人之一,揭秘道:“学生学着学着全偏计算了。”课程设计从“文科为主”转向“文理并重”,但最终大部分人走向了AI领域。林子便是典型——她将汉语语料库与深度学习结合,创新词向量算法,甚至和计算机系学生同台竞技科研比赛,一举夺魁。



“学着学着都偏计算了”


北大教授詹卫东,这个专业的创始人之一,揭秘道:“学生学着学着全偏计算了。”课程设计从“文科为主”转向“文理并重”,但最终大部分人走向了AI领域。林子便是典型——她将汉语语料库与深度学习结合,创新词向量算法,甚至和计算机系学生同台竞技科研比赛,一举夺魁。


林子从大二就参与到计算语言所的一些科研工作中,其中有两项工作分别发表在自然语言处理领域很有影响力的两个国际会议上:一项工作是探索了汉语中介语语料库的语义角色自动标注;另一项工作是提出一种新的方法,将人工构建的关于汉语语素的语言学知识库跟深度神经网络中的词向量表示结合起来,改进了词向量表示在词义相似度计算任务上的效果。


走到今天,林子觉得虽然对这个专业有了一定理解,但还不够。


她说,交叉学科的魅力就在于它是一个并集,而不是一个交集,它需要同时掌握两方面的知识,但就像做菜一样,哪个调料多 一点,其实是你可以自己决定的。


“想得更清楚了”


如今,林子专注大模型安全性与人类语言学习机制的关联研究。而她的导师詹卫东,这位30年“语言与计算碰撞者”,正面临大模型时代的冲击:“靠数据‘暴力投喂’的AI,让传统语言知识提炼变得尴尬。”但他仍抱希望:“若能将语言学规律融入数据,或许能打开新大门。”

林子这样的“后浪”,成了破局的关键。从谷歌精英到博士研究员,她证明了冷门专业也能闯出通天路:“没有固定模板,反而让我看清自己——跨界,才是最大的优势。”

图片

2006年6月,北京大学中文系应用语言学本科专业第一届学生毕业。左四为詹卫东,右一为孙薇薇。图源:北大中文系



大模型来袭


跟林子相比,詹卫东已然将自己视作“前浪”。当大模型时代来临,詹卫东对这个专业也有了新的认识。


詹卫东自1993年9月进入北大攻读硕士和博士。至今,他已经在语言与计算的交叉中碰撞了超过30年时间。


为了开发机器翻译系统,詹卫东曾自学C++语言,程序中的很多问题都由他亲自解决。他的博士论文《面向中文信息处理的现代汉语短语结构规则研究》正是出自他在机器翻译中的工作总结与提炼,并获得了2001年全国百篇优秀博士论文奖。


入门计算语言学30年来,詹卫东一直在试图拆解语言,提炼语言规律,然后再组装回去应用。就像一直以来的还原论,这个过程是透明清晰的。


然而,横空出世的大模型动摇了计算语言学家们的信念,语言知识的提炼在大模型这里毫无用武之地——只需要投喂足够的数据,辅以强大算力,就能得到鲜活的语言输出。


詹卫东 说,最近领域内专家经常讨论这一情况,但并无明确应对之道。同行们对大模型还是了解得太少了,“去年一年大家都处在一种懵的状态,我们内部其实还缺乏更加深入的、更多的交流”。


詹卫东的导师、语言学家陆俭明并没有那么悲观。 他在去年的一篇文章中谈到,人工智能是靠数据、算力、算法这“三驾马车”驱动,如果“语言知识”能加入到数据中,将肯定会大大推进人工智能事业。 陆俭明也是应用语言学专业创建的主要倡议者。


詹卫东说,当语言学家把这些知识归纳之后,或许就可以变成计算机可以用的更有效的知识。


不过,让詹卫东尤为忧虑的是, 一批老学者正在纷纷退休,留下的职位空缺却迟迟找不到新人填充


一方面,好的自然语言模型人才已经被工业界垄断,那里有更高的薪水和更好的资源(算力和数据);另一方面,既熟悉语言学,又懂大模型技术的人才少之又少。


就在2023年年末,受詹卫东邀请,林子回到母校给学弟学妹们作了专业学习的经验分享。他们这些“后浪”也被詹卫东寄予了厚望:万一哪天回来报效母校呢?

图片

图为2023年12月27日,林子回北大讲座后合影。前排中间是林子,后排左二为詹卫东。受访者供图。


图片 图片


文章精选:

1. 万字长文详解DeepSeek-R1模型工作原理
2. 巴黎AI峰会,斯坦福教授李飞飞演讲:当前才是"首个真正的AI时代"






请到「今天看啥」查看全文