专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

PaperWeekly · 公众号 · 科研 · 2024-12-18 13:31

正文

AI安全说第11期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

可信大模型的测试与评估：

正确性，无毒性和公平性

直播嘉宾

王文轩

香港中文大学计算机系博士

直播时间

2024年12月21日（周六）

20:00-21:00

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

可信大模型的测试与评估

以 ChatGPT 为首的大模型迅速渗透到了人们的学习，工作和生活中。其表现出强大的通用人工智能能力让它们获得“人类历史上用户增长最快的软“1980年以来最大的技术革命”“第四次工业革命的件”开始”等诸多称号。可以说大语言模型将会成为下一代人工智能的重要基座模型，以及下一代智能软件的智能核心。

然而，大模型的输出并不是完全可靠的，经常会输出带有事实型错误，偏见，毒性的内容。考虑到其巨大的用户数量和广阔的应用场景，这种不可靠的回复将会产生诸多严重负面影响，尤其是将其应用到医疗，金融，法律和智能代码等领域。

本次报告介绍了作者最近两年对大模型可靠性和安全性方向的探索工作，分别从自动化软件测试和自然语言处理两个角度，研究了大语言模型的错误，毒性和偏见内容的检测和修复。

嘉宾介绍

王文轩

香港中文大学计算机系博士

王文轩，于2024年11月在香港中文大学计算机系取得博士学位，导师为吕荣聪教授。研究方向为人工智能大模型可靠性和安全性，研究课题包含大模型的错误，毒性和偏见的检测和修复方法。近五年发表顶会论文二十余篇。发表论文获ACM Distinguished Paper Award，谷歌学术引用一千九百余次。

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

▼

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

推荐文章

实验万事屋 · 课题陷入了瓶颈？想要优化课题设计？课题无人指导很迷茫？夏老师课题指导火热来袭！为你的科研保驾护航。

昨天

募格学术 · 发表SSCI期刊论文的干货技巧，从选题到发表全攻略来了

3 天前

募格学术 · 35岁“博士县长”用四国语言致辞：清华毕业后选择回乡

3 天前

小张聊科研 · 从这篇11.7分CRM期刊研究，看子刊级别的研究要做到什么程度?

4 天前

研之成理 · 上海电力大学曹怀杰课题组：面向清洁新型能源系统中金属表面防护用MXene涂层设计策略及防护机制

6 天前

老虎财富 · 一夜身家暴增至400亿，38岁的她靠爱情成香港最年轻女首富

7 年前

厦门日报 · 【视频】翔安人都爱的这道美味，做起来很简单！一起学~

7 年前

虹膜 · 这是B站整个冬天人气最高的一部动画 | 泥虹映画

7 年前

四川日报 · 找工作的注意！四川招聘4000名特岗教师，今起报名！

7 年前

狼族摄影 · 最强相机宽容度排行榜，你的相机上榜了吗？

7 年前