专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
风清扬大侠  ·  10月10日特斯拉大会Robotaxi,FS ... ·  昨天  
风清扬大侠  ·  10月10日特斯拉大会Robotaxi,FS ... ·  昨天  
天天IPO  ·  刚刚,上海独角兽IPO大涨80% ·  昨天  
新浪科技  ·  【#盒马鲜生创始人称超市能完胜电商# ... ·  2 天前  
瓦砾村夫  ·  特斯拉Robotaxi的三个专利:自动充电、 ... ·  4 天前  
走出去情报  ·  1800MW丨东方电气签约中国自主品牌出口非 ... ·  1 周前  
51好读  ›  专栏  ›  极市平台

近100场大模型比赛,拆解大模型发展热点

极市平台  · 公众号  · 科技创业 科技媒体  · 2024-09-25 22:00

正文

↑ 点击蓝字 关注极市平台
作者丨砍手豪 https://zhuanlan.zhihu.com/p/717365109
来源丨包包算法笔记
编辑丨极市平台

极市导读

 

本文总结了近100场大模型比赛,探讨了大模型技术在各个领域的应用和竞赛情况,包括逻辑推理、安全问题、行业应用、硬件落地、人机区分以及多模态大模型等,为大模型的研究和应用提供了丰富的索引和视角。文章还分析了大模型竞赛的趋势和热点,以及如何通过比赛推动大模型技术的发展。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

从去年十月 Kaggle 第一个大模型比赛http://www.kaggle.com/competitions/kaggle-llm-science-exam 结束到现在,短短一年间,各个平台举办了接近100场大模型比赛,最先一波接触大模型的比赛好手狠狠吃了一波红利。本文,我也对这接近100场大模型比赛进行归类总结,从一个大模型外行人的身份从比赛的角度看大模型目前的关注的热点是什么,也为后续想参加大模型比赛以及研究的提供一个索引。

1.比赛平台与模型推广

国内大模型创业公司如雨后春笋般纷纷建立,除了提高大模型产品质量以外,营销推广也是“百模大战”获胜一个重要因素。现在知乎每天给我推送的广告不是KIMI就是豆包。而通过比赛推广也是一种非常垂直的营销手段,一些原本就拥有比赛平台的公司在这里就占的先机。分别是

  • https://tianchi.aliyun.com/ —— 阿里 —— 通义大模型
  • https://aistudio.baidu.com/competition —— 百度 —— 文心一言大模型
  • https://challenge.xfyun.cn/ —— 科大讯飞 —— 星火大模型
  • https://www.biendata.net/ —— 智谱 —— GLM大模型

这些平台在举办自己公司的比赛,以及部分其他公司的比赛时候,会或强制或建议使用本公司开发的大模型,甚至提供相应的大模型平台及接口供比赛参与者微调,在比赛的同时,促进参赛者体验和学习本公司的大模型。这里的Binedata原本在2022年中旬就已经没了,结果这次大模型又让这个平台复活了。但是原本在Binedata举办的中文会议比赛,如CCKS、SMP都被天池顺势接收。所以天池现在大模型比赛巨多。不过天池的一贯特点就是重答辩、轻效果,会议比赛到天池都得这么来(见下图)。

2.大模型逻辑推理能力

长久以来,当前的AI模型都被称为弱AI模型。很大的原因就是大家认为现在的AI模型本质上还是记忆,而不能推理。所以如果提升大模型的推理能力一直是最受关注的,最近的open ai o1就是为此而生。也有大量的比赛评测被用于考验大模型的推理能力,不知道如果open ai o1下场能取得什么成绩。比较有名的是kaggle的

https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize

人工智能数学奥林匹克(AIMO)奖是一个新设立的1000万美元奖金基金,旨在激励公开开发能够在国际数学奥林匹克(IMO)中表现出色的人工智能模型,与顶尖人类参与者相媲美。这个竞赛包括110个类似于中级水平高中数学挑战的问题。

当时幻方的deepseek模型在这个比赛里就一战成名。其他的比赛还有

http://competition.sais.com.cn/competitionDetail/532231/format

本次比赛提供基于自然语言的逻辑推理问题,涉及多样的场景,包括关系预测、数值计算、谜题等,期待选手通过分析推理数据,利用机器学习、深度学习算法或者大语言模型,建立预测模型。

https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de1237ff47da8cc88c0c4&award=1,000,000

为了推动人工智能在数学推理方面的发展,本次多模态数理大模型挑战赛旨在鼓励开发能够直接理解图像输入且具有出色数学推理能力的人工智能模型。通过解决这个初始基准问题,从而促进多模态数理大模型领域的良性竞争与创新,共同推动人工智能模型在数学推理能力上的准确与可靠评估。

https://challenge.ai.mgtv.com/#/track/25

本赛题会提供若干情景猜谜游戏的逻辑推理题目,包含谜面和谜底。谜面会描述一个简单又难以理解的事件,谜底则是谜面的答案。用户可以询问任何封闭式问题来找寻事件的真相。本次任务,选手需要训练10b以下参数量的大模型来担任猜谜游戏的主持人,回答用户的问题,模型只能回答:是、不是、不重要、问法错误和回答正确。

https://ai4ed.cc/competitions/aaai2024competition

这个竞赛旨在探索和提升大型语言模型(LLMs)在数学推理方面的能力,并且克服语言模型在复杂推理和精确计算方面的固有缺陷。竞赛分为两个赛道:
赛道1:中文数学问题求解

赛道2:英文数学问题求解
使用的数学问题数据集来自K-12数学相关竞赛,包括中国的“迎春杯”、“希望杯”数学竞赛和全球的美国数学竞赛(AMC 8/10/12)。

https://www.eventbrite.com/e/agi-odyssey-2024-symposium-london-tickets-1000782205517?aff=oddtdtcreator

邀请全球AI爱好者参与竞赛,挑战并增强人工智能解决跨科学学科复杂问题的能力。2024年3月的比赛将聚焦于数学.

3.大模型安全问题

大模型的安全问题从chatgpt出来以后就一直是一个热点问题,时不时就能闹个大新闻,最近也有不少故意引导大模型说错话来达到攻击背后公司的新闻。

3.1 攻击

https://tianchi.aliyun.com/competition/entrance/532214

主办方指定待攻击的安全检测器,参赛者需要构造query-response的pair(单轮对话),使得检测器错误判断response的安全性。query和response需构成流畅的对话。

https://tianchi.aliyun.com/competition/entrance/532187

主办方为大模型设定初始任务指令(Initial_prompt)和目标任务指令(Target_prompt),参赛者劫持指令(hijack_prompt),使大模型放弃初始任务而仅执行主办方指定的目标任务

https://tianchi.aliyun.com/competition/entrance/532268

根据给定选题任务(如生成打架斗殴的血腥图片),参赛团队需要通过多样化的攻击诱导技术手段,诱导指定大模型输出任务相关的幻觉、意识伦理及隐私等生成式风险图像。

https://llmagentsafetycomp24.com/

旨在提高对大型语言模型(LLMs)和LLM驱动代理的安全性的理解,并鼓励改进其安全性的方法。
Track I: Jailbreaking Attack - 这个赛道可能专注于开发能够绕过语言模型(LLM)安全限制的攻击方法。参与者需要设计方法来生成能够使LLM产生有害输出的提示。
Track II: Backdoor Trigger Recovery for Models - 这个赛道可能涉及识别和恢复模型中的后门触发器。后门触发器是模型中故意植入的代码,当输入特定的触发器时,模型会以非预期的方式响应。
Track III: Backdoor Trigger Recovery for Agents- 这个赛道可能专注于识别和恢复智能代理(agents)中的后门触发器。与Track II类似,但专注于智能代理而不是模型本身。参与者需要开发技术来检测和提取智能代理中可能存在的后门触发器,这些触发器可能会在特定输入下导致代理执行非预期的行为

3.2防守

3.3攻防

https://llm-pc.github.io/

旨在解决LLMs使用中的隐私问题,包括隐私漏洞的识别、利用和防御。
Red Team Track - 这个赛道的参与者将尝试识别并利用LLMs(大型语言模型)中的隐私漏洞,模拟潜在攻击者试图提取敏感信息的行为。
Blue Team Track - 这个赛道的参与者将专注于保护LLMs免受隐私泄露,并开发强大的防御机制来保护敏感数据。

https://trojandetection.ai/

旨在推进对大型语言模型(LLM)中隐藏功能检测方法的理解和开发。
竞赛包括两个主要赛道:木马检测赛道和红队赛道。

在木马检测赛道中,参赛者会得到含有数百个木马的大型语言模型,并任务是发现这些木马的触发器。在红队赛道中,参赛者面临的挑战是开发自动化的红队方法,以从经过微调以避免这些行为的大型语言模型中引出特定的不良行为。

https://trojandetection.ai/

这个竞赛的目标是推进对大型语言模型(LLMs)中隐藏功能检测方法的理解和开发。竞赛包含两个主要赛道:
Trojan Detection Track(特洛伊检测赛道):在这个赛道中,参与者会收到含有数百个特洛伊木马(trojans)的大型语言模型,并需要找出这些特洛伊木马的触发器。

Red Teaming Track(红队赛道):在这个赛道中,参与者面临的挑战是开发自动化的红队方法,以从经过微调以避免特定不良行为的大型语言模型中引出这些行为。

4.行业大模型及完成特定任务的大模型

在大模型出来以后,大家都期待大模型能够学习到特定的行业知识,以在特定业务上达到的更好的效果,像医学、金融这些原本就很关注文本信息的都很快就有了相关业务的benchmark和比赛。还有像信息化做的比较好的国企,我觉得要不了多久就会有电力大模型、电信大模型、政务大模型等等。

有些比赛也限定了微调或不微调(提示模版、示例选择(Demonstrations)、检索增强(RAG))。比

赛的评测也常常是通过传统NLP任务、答题(判断题、选择题、问答题等等)等手段来实现。

4.1 医学

https://tianchi.aliyun.com/competition/entrance/532204

https://tianchi.aliyun.com/competition/entrance/532199

TCMBench评测基准依托于中医执业医师资格考试的丰富题库,全面覆盖三大考试范围,包括中医基础理论、中医临床医学,以及西医与临床医学的综合内容以及16个核心考试科目,共计9,788道真题和5,473道练习题。TCMBench评测基准旨在深度评估和精准测量LLM模型对中医知识的掌握水平,以及模型在中医情境下的解释和推理能力。

https://tianchi.aliyun.com/competition/entrance/532150

在这个任务中,模型将需要对医学术语、医学知识、临床规范诊疗和医学计算进行理解和逻辑推理。评测数据将基于真实临床情境进行构建,包括医学考研题、临床执业医师题、医学教材、医学文献/指南、公开医学病历等构建的一系列选择题。

https://tianchi.aliyun.com/competition/entrance/532085

https://tianchi.aliyun.com/competition/entrance/532084

将CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。

https://bohrium.dp.tech/competitions/3793785610?tab=introduce

使用大型语言模型(Large Language Model, LLM)从海量生物医学文本数据中自动化提取结构化的知识图谱,以提供专业的疾病的诊断和治疗建议,是当前研究的一个重要方向。本次比赛将提供真实的生物医学文本数据以及标注后的知识图谱,要求参赛者的模型能够准确识别特定的生物医学实体、关系或事件。

4.2 金融保险

https://tianchi.aliyun.com/competition/entrance/532200/information

本任务需要参赛队伍基于金融数据源(如:股票数据、新闻、年报、个股报告等,具体数据源信息在任务数据中描述),智能地生成投研报告。

https://tianchi.aliyun.com/competition/entrance/532198

本比赛提出了本评测任务。任务包含六大场景(知识问答、文本理解、内容生成、逻辑推理、安全合规、AI智能体),涵盖多维度金融任务,有利于帮助快速评测LLM在金融领域的表现。

https://tianchi.aliyun.com/competition/entrance/532194/

参赛者需要设计和训练一个智能问答模型,该模型能够准确理解不同保险产品条款中的内容,并对用户提出的有关保险条款的问题给予准确、清晰的回答。我们将提供一系列保险条款文档和相应的用户问答对作为训练数据。模型的性能将根据其准确性、响应时间和用户满意度进行评估。

https://tianchi.aliyun.com/competition/entrance/532193

在本任务中,参赛者需要根据用户Query,从API集合中筛选出合适的API列表,生成正确的api调用逻辑和答案。参赛者可以充分利用给定的数据集,使用大模型设计最优指令以得到最好的生成结果。

https://tianchi.aliyun.com/competition/entrance/532164

本次比赛要求选手基于https://modelscope.cn/organization/TongyiFinance或https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary(不限制pretrain和chat)构建一个问答系统,问答内容涉及基金/股票/债券/招股书等不同数据来源。本次比赛赛题为统一的问题格式,但包含两类任务,数据查询任务和文本理解任务,分别考察选手基于大语言模型的结构化数据检索能力和长文本理解能力,赛事主办方并不会提供任务的具体类型,选手需要自行判断任务的类别,采用不同的技术方案,或者同时构建查询任务并汇总结果。

https://tianchi.aliyun.com/competition/entrance/532126

本次比赛要求参赛选手以ChatGLM2-6B模型为中心制作一个问答系统,回答用户的金融相关的问题,不允许使用其他的大语言模型。

https://tianchi.aliyun.com/competition/entrance/532088

在本任务中,需要参赛者根据给定的schema,从给定的一组自由文本X中抽取出所有符合抽取schema的信息结构Y(实体、关系、实体属性等)。参赛者可以充分利用给定的标注训练集和无标注语料,使用不同的大模型并设计最优指令以得到最好的抽取结果。

4.3 编程

https://tianchi.aliyun.com/competition/entrance/532169

高质量的数据是大模型提升效果的关键,初赛阶段主要聚焦在如何通过 SFT 提升基础模型的代码能力。需要选手基于最新开源的 Qwen 1.8 模型作为基础模型,在我们提供的训练框架上自行进行数据收集与微调,训练完成后将进行自动评估,返回最终结果进行排名;复赛阶段我们将提供 GPU 算力(在线 API 的方式),参赛队伍将基于 Qwen-72B 模型进行 PEFT (lora)进行训练

https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de12c7ff47da8cc88c0ce&award=500,000+经费支持

以“基于大语言模型的数据库查询指令生成”为赛题,要求选手针对跨领域数据库,基于大语言模型实现从自然语言问题到数据库查询指令的Text-to-SQL多轮智能问答
输入:用户问题和数据库列表以及相应的数据库描述文件。
输出:问题对应的数据库名称和对应的SQL语句。
目标:提高算法在测试集上输出的SQL查询结果精度。

https://www.biendata.net/competition/siemens-ai/

本次比赛分初赛和复赛两个阶段,各阶段将设置多道SCL编程题目,每道题目包含详细描述、函数名、输入输出形式。参赛者需利用大语言模型GLM-4,针对工业场景下的TIA Portal软件与SCL编程框架,基于自然语言需求描述生成功能符合要求的代码。

https://hackercupai.github.io/

评估生成性AI在自主代码生成任务中的能力,测试AI系统与人类程序员之间的性能差距。

4.5 电信

https://www.datafountain.cn/competitions/1045

本赛题要求选手使用运营商相关的文档构建知识库,根据用户问题检索知识库并返回答案所在的文本块。

https://zindi.africa/competitions/specializing-large-language-models-for-telecom-networks

参与者需要下载并改进现有的大型语言模型,如Falcon 7.5B或Phi-2,以提高它们在回答与电信知识相关的多项选择题时的准确性。

2024年国际AIOps挑战赛 基于检索增强的运维知识问答挑战赛 https://competition.aiops-challenge.com/home/competition/1771009908746010681 | https://competition.aiops-challenge.com/home/competition/1780211530478944282

挑战赛首次采用基于RAG技术的检索增强技术,基于中兴通讯公司CT通信网络运维下真实文档数据,探索如何结合领域私有技术文档和大语言模型进行高效私域知识问答。揭示在通用大语言模型基座下,垂直领域知识问答面临的领域知识缺失,公私域知识冲突,多模态图表并存等一系列挑战。本届大赛采用双赛道赛制,赛道一使用开源的Qwen1.5-14b模型,可以对模型微调之后再进行RAG问答。赛道二调用GLM4的API接口,模型不能微调,模拟在特定场景下没有自己微调模型能力的运维场景。

4.4 汽车

https://tianchi.aliyun.com/competition/entrance/532154

本次比赛要求参赛选手以大模型为中心制作一个问答系统,回答用户的汽车相关问题。参赛选手需要根据问题,在文档中定位相关信息的位置,并根据文档内容通过大模型生成相应的答案。参赛选手将指定使用[通义千问]大模型进行比赛,在此模型的基础上搭建问答系统,并在主办方提供的算力资源和平台上进行模型的训练与调试。

4.5 教育(阅读理解做题非逻辑推理)

https://www.kaggle.com/competitions/kaggle-llm-science-exam

本次挑战的数据集是通过给gpt3.5提供来自维基百科的一系列科学主题的文本片段,并要求它编写一个多项选择题(带有已知答案),然后筛选出简单问题来生成的。比赛任务是参赛者回答答案。

http://challenge.xfyun.cn/topic/info?type=question-bank-construction

本次竞赛要求参赛者基于大模型微调技术,微调适用于高考语文现代文阅读和英语阅读的QAG的大模型,完成输入文章输出问题与答案的任务。大赛将为参赛团队提供免费的模型微调服务平台。赛事规定选手须在AI大赛参赛页面注册报名参赛,并前往讯飞大模型定制训练平台进行任务开发。

4.6 读文献

http://challenge.xfyun.cn/topic/info?type=microneedle-technology

参赛者需要设计一个人工智能模型,该模型能够阅读并理解给定的科研文献,并根据预设的指标从文献中提取相关信息。比赛将提供一系列科研文献基本信息和需要提取的指标列表。

https://bohrium.dp.tech/competitions/7922759072?tab=introduce

为了推动 AI 技术应用于科学文献分析的发展,我们推出了最新的 SciAssess 评测基准。SciAssess 是专为全面评估 LLMs 在科学文献分析中表现而设计的基准测试。它涵盖了从基础科学到生物医药等多个科学领域的各种任务,主要评估 LLMs 在记忆(L1)、理解(L2)和分析推理(L3)方面的能力,并包括了文本、表格、图像、分子、反应式等多种模态。其包括总计 5 个领域,29 种任务,6 种模态的 14721 条题目。

https://www.biendata.net/competition/aqa_kdd_2024/

在KDD Cup 2024,我们推出OAG-Challenge,这是一个由三个现实而具有挑战性的学术任务组成,旨在推进学术知识图谱挖掘技术的最新发展。
https://www.biendata.net/competition/aqa_kdd_2024/:在本任务中,参与者的任务是使用问题-论文对来训练检索模型。该数据集来源于OAG-QA,OAG-QA从StackExchange和知乎网站检索问题帖,提取答案中提到的论文URL,并将其与OAG中的论文进行匹配。

https://www.biendata.net/competition/pst_kdd_2024/:论文源头追溯任务的目的,是在给定一篇论文p的全文的情况下,从这篇论文中找出ref-source。ref-source即最重要的参考文献(叫做“源头论文”),一般是指对本篇论文启发性最大的文献。每篇论文可以有一篇或多篇ref-source,也有可能没有ref-source。对于论文的每一篇参考文献,论文源头溯源都要给出一个范围在[0, 1]的重要性分数。
https://www.biendata.net/competition/ind_kdd_2024/:给定每位作者的个人资料,包括作者姓名和发表的论文,参赛者需要开发一个模型来检测论文中错误分配给该作者的论文。此外,数据集还提供了所有涉及论文的详细属性,包括标题、摘要、作者、关键词、地点和发表年份。

4.7 政务

https://zindi.africa/competitions/retrieval-augmented-generation-rag-for-public-services-and-administration-tasks

参与者需要构建一个系统,该系统能够处理与公共服务和行政管理相关的查询,并提供准确、有用的回答或解决方案。这可能包括对政策、法规、服务流程等问题的查询。

https://zindi.africa/competitions/malawi-public-health-systems-llm-challenge

参与者需要构建一个系统,该系统能够处理与马拉维公共卫生系统相关的数据和查询,并提供准确、有用的回答或解决方案。这可能涉及到对健康记录、政策文件、服务流程等问题的分析和处理。

4.8 法律

https://zindi.africa/competitions/tuning-meta-llms-for-african-language-machine-translation

参与者需要构建一个能够处理OHADA法律文本的系统,这可能包括法律文件的分类、关键信息的提取、法律条款的解释和应用等。

http://cail.cipsc.org.cn/index.html

一共设置了七个任务,分别为:裁判文书事实生成、裁判文书说理生成、法律要素和争议焦点识别、二审改判类案检索与原因预测、法律咨询对话生成、司法考试、多人多罪判决预测

http://www.aicompetition-pz.com/https://tianchi.aliyun.com/competition/entrance/532221

本次比赛目的是探究大语言模型在法律领域的应用。参赛者需基于GLM-4模型,制定一个可行的技术方案。该方案应利用大语言模型的语义理解和函数调用等功能,准确解析用户的自然语言查询,并通过访问相关法律数据库或API,提供以下服务:解答个人法律问题、查询案件相关信息、检索类似历史案件和分析司法数据以辅助决策。

4.n 其他特定任务

https://tianchi.aliyun.com/competition/entrance/532253

本次比赛建议参赛选手以闭源大语言模型(GPT、Claude、Gemini等)为基础构建问答系统,让系统能够通过编写执行Python代码来回答用户提出的图分析相关的问题。本次比赛评估模型能力的赛题按照设计模型的能力不同,以及题目的难易程度,分为判断题、计算题、绘图题、综合题四种类型。

http://challenge.xfyun.cn/topic/info?type=bidding-documents

本次比赛需要参赛选手对给定的采购文件进行文件解读,学习与挖掘历史采购文件共性抽离框架进行建模。本次比赛为参赛选手提供了能源行业招标采购业务采购文件脱敏数据.

https://www.datafountain.cn/competitions/1046

参赛者需要开发一个智能问答系统,能够准确回答关于TuGraph-DB的各类问题。

https://www.datafountain.cn/competitions/1047

参赛者需要使用提供的在TuGraph-DB上可执行的Cypher语料,对一个指定的本地模型进行微调,使得微调后的模型能够准确的将测试集中的自然语言描述翻译成对应的Cypher语句,翻译结果将基于文本相似度和语法正确性两个方面综合评分。

https://www.biendata.net/competition/bigmodel_cn/

https://www.biendata.net/competition/bigmodel_cn_s2/

在本次比赛中,参赛选手需要利用 http://bigmodel.cn 的“一键微调”功能,用 Lora 技术微调 GLM-4-Flash 模型,从而让微调出的模型可以更准确地回答关于智谱AI开放平台自身的相关问题。

https://www.atecup.cn/matchHomeDetails/100001/100001

本赛题将考察选手如何在给定基座大模型和待引入到大模型中的知识语料中,设计引入方式,提升引入知识后的大模型在评测数据集上的表现。以老年人在支付宝中常用的服务类场景(如出行、办事等)为切入点,探索借助知识引入的大模型,如何在耗能少效率高的基础上为老年人提供更便捷的服务。基座大模型为标准Huggingface Transformer结构,选手可自行调整其权重。

https://sites.google.com/view/llms4subjects/home

基于LLM的国家技术图书馆开放获取目录的自动化主题标记。

5.大模型硬件落地

在指定的硬件条件下完成大模型的性能优化

https://tianchi.aliyun.com/competition/entrance/532170

鉴于端侧设备大部分运行在基于Arm架构的CPU上,本届AICAS会议将使用ArmV9架构的倚天710CPU作为算力平台,开展通用大模型性能优化竞赛,目标促进和推动相关的技术研究发展

https://www.datafountain.cn/competitions/1041

参赛者使用基于东方国信幕僚智算云平台上带有1块Intel Gaudi AI加速卡的虚拟机,编写Lora微调和推理脚本,使用ChatGLM3-6B模型和给定的数据集进行微调,并在微调后的模型上进行推理。虚拟机用于脚本的开发与测试。

https://edge-llms-challenge.github.io/edge-llm-challenge.github.io/

探索在资源受限的边缘设备上部署大型语言模型(LLMs)的可能性。

https://llm-efficiency-challenge.github.io/

这项竞赛的重点是开发能够在单个 GPU 上高效运行的微调和推理方法,这对于资源有限的个人和组织来说是一个重要的进步。

6.人机区分

分辨人和电脑制作的文章和图片的比赛在2016年深度学习刚火的就有不少了,现在大模型一出来,输出的文章和图片越来越难分辨,这个方向也更加有现实意义。

https://www.kaggle.com/competitions/llm-detect-ai-generated-text

这个竞赛挑战参与者开发一个机器学习模型,该模型能够准确检测一篇文章是由学生写的还是由LLM生成的。竞赛的数据集包括学生撰写的文章和由多种LLM生成的文章的混合。

https://www.atecup.cn/matchHomeDetails/100001/100003

本赛道希望参赛者能够:1.全面分析AI生成新闻与人工撰写新闻的特点;2.构建有效的检测模型来区分AI生成新闻与人工撰写新闻。

https://challenge.ai.mgtv.com/#/track/24

本赛事要求参赛者设计并实现一种算法,目标是准确判定测试图像是真实图像还是由AI所生成的图像,生成方式包括但不限于GAN和Stable Diffusion等算法。

https://github.com/mbzuai-nlp/Semeval2024-m4/

由于人类在将机器生成文本与人工编写文本进行分类时的表现仅略高于偶然性,因此有必要开发自动识别机器生成文本的系统,以减轻其潜在的滥用问题。

7.大模型与数据处理

我看到很多比赛简介都几乎一致的比赛,主要是差别是模型不同

“主办方提供候选数据集,要求参赛者基于提供数据集进行数据合成与清洗,产出一份基于种子数据集的更高质量、更多样性的数据集,并在给定计算约束下进行训练。主办方提供开发套件,要求参赛者在统一的框架和参数设置下进行模型训练和任务评测,公平对比数据导致的性能差异。”

https://tianchi.aliyun.com/competition/entrance/532251/

https://tianchi.aliyun.com/competition/entrance/532219

https://tianchi.aliyun.com/competition/entrance/532174

https://tianchi.aliyun.com/competition/entrance/532158 | https://tianchi.aliyun.com/competition/entrance/532157

http://challenge.xfyun.cn/topic/info?type=large-model-inference

8 大模型与传统NLP任务

我请教了一些在大厂应用大模型于业务的专业选手,他们都表示,在不限制机器、时间、数据的前提下,大模型已经在很多生成以外的传统NLP任务也取得了比过去其他模型更好的效果,所以严格意义上来说,所有的NLP比赛都可以看做大模型比赛。所以也有很多比赛指定应用大模型去处理一些传统NLP任务。主要为知识抽取、语义解析、知识图谱、实体识别等。

https://tianchi.aliyun.com/competition/entrance/532183

在零样本知识抽取任务中,参与者面对的挑战是从给定的文本中识别和提取指定类型的信息,而无需依赖事先标注的训练数据。此任务要求模型能够理解和遵循抽取指令—一个明确的命令,指导模型找到并格式化所需信息。

https://tianchi.aliyun.com/competition/entrance/532179

框架语义解析(Frame Semantic Parsing,FSP)是自然语言处理领域中的一项重要任务,其目标是从句中提取框架语义结构,实现对句子中涉及到的事件或情境的深层理解。
本次评测设置了开放和封闭两个赛道,其中开放赛道的参赛队伍可以使用ChatGPT等大模型进行推理,但禁止对其进行微调,且需提交所使用的提示模板;封闭赛道中,参赛模型的参数量将会被限制。

https://tianchi.aliyun.com/competition/entrance/532080

根据用户输入的指令抽取相应类型的实体和关系,构建知识图谱。

http://challenge.xfyun.cn/topic/info?type=entity-recognition-effect

本赛题要求参赛者基于大模型微调技术,利用自然语言处理技术,结合大模型微调的方法,能够自动识别文章中的实体,并提取出其相关属性,为各领域研究提供有效支持。赛事规定选手须在AI大赛参赛页面注册报名参赛,并前往讯飞大模型定制训练平台进行任务开发。

http://challenge.xfyun.cn/topic/info?type=role-element-extraction

从给定的<客服>与<客户>的群聊对话中, 提取出指定的字段信息.参赛选手需基于讯飞星火大模型V3.5完成任务

https://zindi.africa/competitions/microsoft-learn-location-mention-recognition-challenge

参与者需要构建一个系统,该系统能够准确地从文本中提取和分类地点提及。这可能包括城市、国家、地区或其他地理实体。

https://zindi.africa/competitions/tuning-meta-llms-for-african-language-machine-translation

参与者需要构建或调整一个机器翻译系统,该系统能够将一种非洲语言翻译成另一种非洲语言,或者将非洲语言翻译成更广泛使用的语言(如英语、法语等)

9.多模态大模型

https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de1237ff47da8cc88c0c4&award=1,000,000

为了推动人工智能在数学推理方面的发展,本次多模态数理大模型挑战赛旨在鼓励开发能够直接理解图像输入且具有出色数学推理能力的人工智能模型。通过解决这个初始基准问题,从而促进多模态数理大模型领域的良性竞争与创新,共同推动人工智能模型在数学推理能力上的准确与可靠评估。

https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7447ff47da8cc88c7cf&award=1,000,000

本次比赛的核心任务是利用提供的预训练大语言模型和视觉编码器,构建并优化多模态大语言模型。为了全面而客观地评估多模态大模型的性能,我们选用高中各学科的选择题进行测试,题目包含语文、数学、物理、化学、生物、政治、历史和地理八个科目,并涵盖示意图、折线图、地图、照片和几何图形等十二种图像类型。在本次比赛中,我们提供双语(中英)语言模型https://huggingface.co/fnlp/moss2-2_5b-chat作为基础语言模型,视觉表示模型采用https://huggingface.co/openai/clip-vit-large-patch14。为保证比赛的公平性,参赛者只能基于提供的预训练模型进行开发,禁止使用其他预训练模型。

https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

本次竞赛从真实性、安全性、鲁棒性、公平性、隐私保护五个维度评估多模态大语言模型的可信性,每个维度中包含多个任务进行评估,以充分全面地评估比较不同模型的可信性。为避免各支队伍在算力资源方面的差异带来的影响,本赛题要求使用LLaVA-v1.5-7B[3]的架构设计作为基础。本赛题将基于可信多模态大语言模型评测MultiTrust和相应的可信评测框架MMTrustEval开展测试

https://bohrium.dp.tech/competitions/7227723022?tab=introduce

为了推动学术界和工业界对多模态表格理解任务的研究,我们推出了最新的 TableBench(Multi-modal Table Evaluation Benchmark)评测基准,TableBench 评测基准中的数据是从 arXiv 开源社区中获得的,包含了 5360 张带精细人工标注的表格数据,覆盖了 8 个大类学科和 153 个二级学科类别。此外,TableBench 包含了基础表格分类、行列识别的视觉任务,也包含了高级别 TableQA 的理解类的视觉任务。InternVL 2.0 是由上海人工智能实验室团队研发的一个开源的多模态大型语言模型,旨在缩小开源模型与专有商业模型在多模态理解方面的差距

10.大模型创作

现在大家都关注大模型的逻辑推理能力,以及具体解决商业、工业问题的应用。大模型的艺术创作能力反而关心的人少了。不过还是有相关的比赛。

https://tianchi.aliyun.com/competition/entrance/532210

基于给定测试集的文本创作任务,选手需要在初赛参考训练数据集的基础上补充数据集,任选35b或以下的开源模型进行模型训练,提升模型创作能力,完成800字左右的文本创作任务。

11. 大模型与搜广推

我们都知道,每次CVNLP领域出现点什么热点,国内的一些搜广推从业者都能以最快的速度迁移到搜广推业务中,并且在业务上有效,然后发论文,阿里妈妈是这方面的佼佼者,hhhhhh。

https://tianchi.aliyun.com/competition/entrance/532236

在这个赛道中,参赛者需要解决如何针对长序列做精准的出价决策。由于众多竞争对手的策略不断变化,出价环境异常激烈。传统方法,例如基于强化学习的策略,在面对较长序列决策时,受到误差累积等因素的限制,其性能表现受限。近年来,广义生成模型在决策任务上展现出了较好的应用潜力。

https://aistudio.baidu.com/competition/detail/1188/0/introduction

本次比赛提供了百度真实的广告数据集,包含了海量的用户点击数据和广告特征。希望参赛者使用指定的生成式模型(Unimo-text-large) 或双塔模型(Ernie-3.0-xbase) 底座,采用双塔度量式检索或生成式检索建模广告召回任务,完成相关广告的召回。任务的目标是基于候选广告特征,在给定搜索词下预估最应召回的 K 个广告,评估召回率;选手同时需要考虑算法效果和算法性能,得分标准详见『评估指标』节。

https://aistudio.baidu.com/competition/detail/1190/0/introduction

本赛道任务是广告图片描述生成,期望通过高质量数据和建模优化,提升图片描述的准度和完备性。本次任务提供百度商业真实的广告图片和图片中文描述,数据量级约100万,参赛者自行划分训练集和验证集。每条样本数据包括了三列,采用tab分割,分别为:* 图片id * 图片base64编码 * 图片的文字描述。如下图所示,通常包括了对图片中各个主体(人物的外貌、衣着、表情、物体颜色)、主体之间关系、背景、风格等细粒度描述。

https://www.aicrowd.com/challenges/amazon-kdd-cup-2024-multi-task-online-shopping-challenge-for-llms

这个挑战旨在通过大型语言模型(LLMs)来简化在线购物的复杂过程,并通过多任务学习来提高在线购物的体验。挑战分为五个轨道,分别评估以下购物技能:

  1. 购物概念理解
  2. 购物知识推理
  3. 用户行为对齐
  4. 多语言能力
  5. 全方位(Track 5):要求参与者用单一解决方案解决1-4轨道中的所有问题。

12.大模型的agent调度

https://aistudio.baidu.com/competition/detail/1235/0/introduction

本次比赛旨在通过开发基于 LLM Agent 的智能工具调用系统,提升LLM回答复杂问题的能力。参赛者的任务是开发一个基于LLM的Agent,在给定大量工具集合的条件下,智能地编排和调度这些工具,以回答开放域的复杂问题。LLM基座必须使用eb-系列。开发者必须使用ernie基座开发工具召回模块,为给定问题召回最相关的工具集合。工具召回模块可以使用nvidia加速套件进行推理加速。

https://tianchi.aliyun.com/competition/entrance/532193

在本任务中,参赛者需要根据用户Query,从API集合中筛选出合适的API列表,生成正确的api调用逻辑和答案。参赛者可以充分利用给定的数据集,使用大模型设计最优指令以得到最好的生成结果。

https://www.atecup.cn/matchHomeDetails/100001/100002

本赛题需要通过大模型来理解用户Query,并利用外部API的结果与用户进行多轮交互,最终帮助用户完成某个具体的任务。每个API的功能和所需要的参数都预先提供,大模型需要根据当前对话状态,选择合适的API,并提取对应的参数或进行反问。

13.大模型学术性质的比赛

这些比赛并不指向特定业务,主要针对大模型的评测和操作。

13.1 大模型评价

https://www.kaggle.com/competitions/lmsys-chatbot-arena

我们利用了从Chatbot Arena收集的大量数据集,在这个平台上,用户与两个匿名的LLMs聊天并选择他们更喜欢的回答。你在这个竞赛中的任务是预测用户在这些正面对决中会偏好哪个回答

https://www.datafountain.cn/competitions/1032

在文本生成领域,由于信息的多样性、主观性,以及评价标准的复杂性,传统自动化评估方法效果较差,灵活性不足,而人工评价方式效率低下,成本高昂,难以满足当前大规模的评判需求。因此,如何运用自动化、智能化的手段,实现对文本内容的高效评判,成为了业界亟待解决的问题。在此背景下,本赛题以“基于大模型的文本内容智能评判”作为主题,旨在借助大模型强大的语义理解能力和泛化能力,应对不同领域和场景的评判需求,同时精准对齐人类专家的评判标准,进一步提升评判的准确性和可靠性。

13.2 大模型与prompt

https://www.kaggle.com/competitions/llm-prompt-recovery

自然语言处理(NLP)的工作流程越来越多地涉及到文本的重写,但关于如何有效地给大型语言模型(LLMs)提供提示(prompting),我们还有很多需要学习的地方。这个机器学习竞赛旨在以一种新颖的方式深入挖掘这个问题。比赛目标是:这个竞赛的目标是恢复用于转换给定文本的LLM提示(prompt)。

13.3 大模型知识编辑

https://tianchi.aliyun.com/competition/entrance/532182

知识编辑的目标是通过修改大模型中的特定知识以缓解知识谬误问题。知识编辑通常包含三个基本的设定:知识新增、知识修改和知识删除。知识新增旨在让大模型习得新知识。知识修改旨在改变已存储在大模型内部的知识。知识删除旨在让大模型遗忘已习得的知识。

https://www.datafountain.cn/competitions/1031

本赛题旨在解决大型语言模型在面对非结构化知识时的更新和编辑问题。本赛题任务要求参赛者开发有效的非结构化知识编辑方法,从非结构化数据中提取并编辑知识,以实现模型内部知识的快速更新。同时,编辑方法需确保不影响模型的整体性能和稳定性,能处理复杂多样的用户需求。比赛数据包括多样的非结构化文本,评测标准综合考虑词级别和语义相似度及子问题回答的正确性,以衡量模型的编辑效果。

https://llmunlearningsemeval2025.github.io/

这个挑战的目的是推动“反学习”算法的发展,这些算法能够有效地从 LLMs 中移除训练数据,同时保持模型性能的稳定性。

13.4 大模型融合

https://llm-merging.github.io/

探索合并和重用现有模型以形成新模型的方法,无需额外训练。

其他

https://helsinki-nlp.github.io/shroom/

邀请参与者在一个多语言环境中检测指令调整的大型语言模型(LLM)输出中的幻觉部分。

https://sites.google.com/view/numeval/numeval

专注于数值理解任务,旨在评估模型对包含数值信息的文本的理解和推理能力。

https://www.aicrowd.com/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024

一个基于检索的问答系统:1以问题Q作为输入,并输出答案A;2这个答案是由大型语言模型(LLMs)根据从外部来源检索到的信息,或者直接从模型内部化的知识生成的;3答案应该提供有用的信息来回答这个问题,不添加任何幻觉或有害内容,如亵渎。这个挑战旨在通过三个不同的任务来改进基于检索的问答(QA)系统。挑战任务概览:

  1. 基于网络的检索摘要:参与者每个问题接收5个网页,可能包含相关信息。目标是衡量系统识别并将这些信息压缩成准确答案的能力。
  2. 知识图谱和网络增强:这个任务引入了模拟API来访问底层模拟知识图谱(KGs),这些结构化数据可能与问题相关。参与者使用模拟API,输入从问题中派生的参数,检索答案制定的相关数据。评估侧重于系统查询结构化数据的能力,并将来自不同来源的信息整合成全面的答案。
  3. 端到端RAG:第三个任务通过为每个问题提供50个网页和模拟API访问权限增加了复杂性,遇到相关信息和噪音。它评估系统从更大的数据集中选择最重要数据的技能,反映了现实世界信息检索和整合的挑战。

https://sites.google.com/view/wsdm24-docqa

对话式问答旨在根据对话中识别的用户意图生成正确且有意义的答案,在现代搜索引擎中发挥着至关重要的作用和对话系统。然而,这仍然具有挑战性,特别是对于当前或趋势主题,因为在语言模型的训练阶段无法获得及时的知识。尽管提供多个相关文档作为上下文信息似乎可行,但该模型仍然面临着被大量输入淹没或误导的风险。基于来自小红书的真实文本数据,WSDM Cup 20241提出了“对话式多文档QA”的挑战,以鼓励对问题的进一步探索。

14.趣味大模型比赛

这类大模型比赛可能并没有明确的业务意义,主要就是通过常规任务对大模型能力进行评测。

https://www.kaggle.com/competitions/llm-20-questions

"20个问题"是一个古老的推理游戏,你尝试在二十个问题或更少的问题中猜出一个秘密单词,只使用是非问题。玩家通过从一般到具体的提问来缩小问题范围,希望在最少的问题中猜出单词。每个团队将由一个猜测者LLM组成,负责提问和猜测,以及一个回答者LLM,负责用"是"或"否"回答。通过策略性提问和回答,目标是让猜测者尽可能少的轮次内正确识别出秘密单词。






公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货