专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
目录
相关文章推荐
上海科创汇  ·  申报|青浦区2025年度生物医药产业扶持项目 ·  12 小时前  
老千和他的朋友们  ·  扫描电镜实时图像处理系统(RIP)研制成功 ·  昨天  
老千和他的朋友们  ·  扫描电镜实时图像处理系统(RIP)研制成功 ·  昨天  
创业家  ·  段永平空仓了 ·  3 天前  
51好读  ›  专栏  ›  将门创投

Talk预告|中国科学院大学伍星:构建可扩展的长文本大模型训练数据

将门创投  · 公众号  · 科技创业  · 2025-03-18 08:33

正文

本期为 TechBeat人工智能社区 669 线上Talk。

北京时间 3 月19日 (周三)20:00, 中国科学院大学博士生 伍星 的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是: “构建可扩展的长文本大模型训练数据” ,届时他将 介绍 Quest和 NExtLong这 两种前沿长文本数据合成方法。

Talk·信息
主题:构建可扩展的长文本大模型训练数据
嘉宾:中国科学院大学 · 博士生 - 伍星
时间:北京时间 3 月19日(周三)20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/

长按识别二维码,一键预约TALK!


Talk·介绍
长文本大模型的重要性日益凸显,但高质量长文本数据稀缺且分布不均,成为制约模型训练效果的瓶颈。本次报告将介绍两种前沿长文本数据合成方法: Quest方法以查询为中心,将相关且冗 余度低的文档聚合成长上下文; NExtLong方法通过负例文档扩展,增强模型对长距离依赖的建模能力。
实验结果 表明,两种方法在长文本基准测试中均取得显著成果,为构建更强大的长文本大模型提供了有效途径。
Talk大纲
1. 背景 - 长文本模型因其在复杂任务中的优越表现而备受关注,但高质量的长文本数据仍然稀缺。

2. 动机与问题 - 传统方法在处理长文本时面临数据分布倾斜、缺乏长距离依赖机制以及容易受到无关信息干扰等问题。

3. 解决方案:

(1)Quest通过模拟搜索引擎的方式,以查询为中心聚合相关文档,从而合成长文本数据。

(2)NExtLong则受对比学习启发,通过引入困难负样本来扩展长文本,从而增强模型对长距离依赖关系的建模能力。

4.总结


Talk·预习资料

论文链接:

https://arxiv.org/abs/2405.19846

论文链接:

https://arxiv.org/abs/2501.12766


Talk·提问交流







请到「今天看啥」查看全文