专栏名称: 机器学习算法与自然语言处理
一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
目录
相关文章推荐
河北省发改委  ·  冰雪奇遇“冀”|萌宠大集结!快来吸一口“毛茸 ... ·  13 小时前  
河北省发改委  ·  冰雪奇遇“冀”|萌宠大集结!快来吸一口“毛茸 ... ·  13 小时前  
南京零距离  ·  宠物狗狂叫,救了主人一命! ·  昨天  
南京零距离  ·  宠物狗狂叫,救了主人一命! ·  昨天  
51好读  ›  专栏  ›  机器学习算法与自然语言处理

中国科学技术大学、西湖大学、香港大学、南京大学等知名学者重磅来袭!

机器学习算法与自然语言处理  · 公众号  ·  · 2024-05-24 09:00

正文


MLNLP 社区是国内外知名自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流,特别是初学者同学们的进步。

MLNLP 2024学术研讨会 是由 MLNLP社区 中国中文信息学会青年工作委员会 联合举办的学术活动。 社区会定期举办学术研讨会并邀请国内外机器学习与自然语言处理领域知名青年学者进行报告交流,旨在加强国内外同学们之间的交流。

MLNLP社区将在 05 月26 于线上举办第二十五次学术研讨会,由 学术委员会委员 Sea AI Lab的 刘乾 老师 微软亚洲研究院高级研究员 矣晓沅 老师 共同担任本期 程序委 员会主 本期研讨会以线上报告的方式进行,分为上下两半场:上半场由 刘乾 主持;下半场由矣晓沅主持。具体而言,社区很荣幸邀请到 中国科学院计算技术研究所副研究员 敖翔 老师担任 大会主席 ,并做开场致辞;中国科学技术 大学博士生 张洋 ,西湖大学博士生 鲍光胜 ,香港 大学博士生 穆尧 ,南京大 学博士 赵飞 做专题报告。

1

会议概况


  • 召开时间:

    • 2024年05月26日 9:00-12:00(北京时间)

  • 主办单位:

    • MLNLP社区

    • 中国中文信息学会青年工作委员会

  • 大会主席:

    • 敖翔:中国科学院计算技术研究所副研究员

  • 程序委员会主席:

    • 刘乾 Sea AI Lab的研究科学家

    • 矣晓沅: 微软亚洲研究院高级研究员

  • 组委会:

    • MLNLP社区秘书处(刘洪宇、段然、陈麒光、鹿纯林、李勤政)

  • 直播平台:

    • 哔哩 哔哩:http://live.bilib ili.com/23872620

    • 微信视频号 :请点击下方卡片预


2

日程安排


3

嘉宾介绍


一、主持人:

刘乾

Sea AI Lab的研究科学家

嘉宾简介: 刘乾目前是新加坡Sea AI Lab的研究科学家。在加入Sea AI Lab之前,他是北京航空航天大学和微软亚洲研究院的联合博士研究生。他的主要研究方向是自然语言处理,主要包括代码生成与合成数据预训练。他在人工智能会议如ICLR, NeurIPS, ACL上发表了数十篇论文,其代表工作包括TAPEX,LoraHub和 OctoPack 等。他所参与的StarCoder 1/2 是开源社区知名的代码生成模型。他曾获得2020年百度奖学金提名,获得北京市2023年优秀博士论文提名奖,并入选KAUST Rising Stars in AI 2024。同时,他是MLNLP社区联合创始人之一,并担任第一届MLNLP大会程序委员会主席。


矣晓沅

微软亚洲研究院高级研究员

嘉宾简介: 矣晓沅,微软亚洲研究院高级研究员,博士毕业于清华大学计算机系,主要从事自然语言生成(NLG)与社会责任人工智能(Societal AI)的研究。曾主导开发的中文古典诗歌自动创作系统“九歌”作为最著名的AI作诗系统之一,多次登上央视《机智过人》、《朗读者》等节目展示,荣获全国计算语言学大会最佳论文奖和最佳系统展示奖。个人曾获清华大学特等奖学金、海淀区十大杰出青年、新华网十大年度网络人物、西贝尔学者称号、IJCAI-SAIA学术新星、CCF优博,CAAI社会计算青年学者新星等荣誉。


二、大会主席:

敖翔

中国科学院计算技术研究所副研究员

嘉宾简介: 敖翔,博士,中国科学院计算技术研究所副研究员、博士生导师。研究方向为智能金融、数据挖掘与自然语言处理。先后主持国家重点研发项目子课题1项,国家自然科学基金项目3项,CCF-腾讯犀牛鸟科研基金、阿里巴巴AIR计划(获优秀奖),腾讯广告犀牛鸟专项基金、蚂蚁集团金融安全专项基金等10余项科研项目,在IEEE TKDE、KDD、WWW、ICDE、SIGIR、ACL、AAAI、IJCAI等国际权威期刊和会议上发表论文80余篇,其中CCF A类40余篇,谷歌引用2800余次,H-index为28。入选北京市科技新星、中国科学院青促会、微软亚洲研究院“铸星计划”。担任SIGKDD、WWW、SIGIR、ACL、AAAI、IJCAI等学术会议的(高级)程序委员。


三、分享嘉宾:

张洋

中国科学技术大学博士

嘉宾简介: 张洋,新加坡国立大学计算机学院即将入职博士后,博士毕业于中国科学技术大学。研究方向为:推荐系统及Agent个性化(Recommender System and Agent Personalization)。个人主页: http://home.ustc.edu.cn/~zy2015/

报告题目: 大模型推荐: 任务、信息、目标对齐研究

报告简介: 大语言模型的成果,激发了各大领域对其应用的探索,推荐系统这一研究领域也不例外。然而,推荐任务关注用户行为建模,大模型预训练关注自然语言的建模,二者间存在根本性的差别。我们从任务范式对齐、信息对齐、目标对齐等几个角度进行了探索,对大模型进行定向利用或适配,使其具有更好推荐能力。在任务范式对齐方面,基于指令微调等使大模型学会推荐,在信息对齐方面,探索大模型对于协同信息的利用以加强对行为信息利用,在目标对齐方面,探索大模型实现终身学习或优化长期收益的目标。通过这些研究,我们希望更充分地激发大模型能力或对其能力进行弥补,以助其实现更好的推荐。


鲍光胜

西湖大学博士生

嘉宾简介: 鲍光胜,西湖大学 张岳 教授实验室的博士二年级学生( 个人主页 https://baoguangsheng.github.io/)。主要的兴趣在可信赖自然语言生成技术,包括模型的可控性、可解释性、安全和推理。在相关领域发表多篇顶会和期刊论文,包括ICLR24、ACL23、ACL21、EMNLP23、AAAI21和TASLP23。在读博之前,鲍光胜曾在微软(中国)和阿里巴巴工作多年,曾参与微软数字助手Cortana的研发工作。

报告题目: Fast-DetectGPT高效零样本机器生成文本检测

报告简介: 大语言模型如 ChatGPT和GPT-4在各个领域对人们的生产和生活带来便利,但其误用也引发了关于虚假新闻、恶意产品评论和剽窃等问题的担忧。 本文提出了一种新的文本检测方法——Fast-DetectGPT, 无需训练 ,直接使用开源小语言模型检测各种大语言模型生成的文本内容。

Fast-DetectGPT将检测速度提高了340倍,将检测准确率相对提升了75%,成为新的SOTA。 在广泛使用的ChatGPT和GPT-4生成文本的检测上,均超过商用系统GPTZero的准确率。

Fast-DetectGPT同时做到了高准确率、高速度、低成本、通用,扫清了实际应用的障碍!


穆尧

香港大学博士生


嘉宾简介: 穆尧,香港大学博士研究生, 共在  NeurIPS, ICML, ICLR, CVPR,RSS等顶会顶刊发表论文20余篇,曾获 ICCAS2020 大会最优学生论文奖,IEEE  IV2021 最优学生论文提名奖等多项学术奖励, 于2021年在清华大学取得硕士学位,荣获香港博士政府奖学金,香港大学校长奖学金,国家奖学金,清华大学优秀硕士毕业生,清华大学优秀硕士论文奖等荣誉称号。研究方向: 具身智能、强化学习、机器人控制和自动驾驶。

报告题目: 多模态大模型驱动的开放世界具身操作

报告简介: 随着多模态大模型和AIGC的迅速发展,通过整合大模型、CV和机器人控制等先进技术,我们正朝着更智能、自主和高效的机器人系统迈进,并在多领域发挥重要作用。本次报告聚焦于面向开放世界,拥有具身认知、规划、执行的能力的具身智能大模型RoboCodeX及RoboScript通用机器人代码生成评测平台。RoboCodeX采用树状结构,将复杂的人类指令细化为多个以对象为中心的操作单元。RoboScript则致力于通过代码生成,实现机器人操作的快速部署;不仅验证了代码及仿真的准确性,还揭示了不同大模型在处理复杂物理交互时的性能差异。


赵飞

南京大学博士生

嘉宾简介: 赵飞,南京大学人工智能学院博士研究生,导师为戴新宇教授。 研究方向主要包括多模态信息抽取和多模态大语言模型。 相关研究成果发表在ACL、EMNLP、AAAI、ACM MM等会议中。

报告题目: 多模态大语言模型的构建方法及其在幻觉检测中的应用探索

报告简介: 多模态大语言模型(MLLMs)是实现通用人工智能(AGI)的关键一步,因为它模仿了人类通过视觉和语言等不同感官与世界互动并理解复杂信息的机制。 当前的MLLMs遵循一个两阶段的训练范式: 预训练阶段和指令微调阶段。 在本次报告中,我们提出了一个新的多模态大语言模型来提升和增强预训练阶段和指令微调阶段的对齐能力。 此外,我们还介绍了一个基于遗忘学习(unlearning)的多模态幻觉检测框架EFUF。 与之前基于对比学习、RLHF、DPO等方法不同的是,EFUF框架无需标注配对的幻觉-非幻觉数据,同时也无需同时加载多个模型,从而显著降低了人力物力和运算资源消耗。


4







请到「今天看啥」查看全文