专栏名称: 集智俱乐部
本公众号用于发布与集智俱乐部有关的活动信息、文章以及关于俱乐部的基本介绍。
目录
相关文章推荐
意外艺术  ·  《洛神赋图》是顾恺之狂磕cp后的产粮?! ·  17 小时前  
康石石  ·  保研奖学金高达10w的院校,是: ·  3 天前  
51好读  ›  专栏  ›  集智俱乐部

张俊林:OpenAI o1技术原理探析丨周六直播·大模型2.0读书会

集智俱乐部  · 公众号  ·  · 2024-12-18 17:56

正文


导语


三个月前OpenAI 推出了其最新力作——OpenAI o1,迅速成为了AI界的热点话题。OpenAI o1 最大的亮点在于其具备了类似人类的推理能力,这意味着它能够在处理复杂问题时,不仅仅是简单地匹配已知的数据模式,而是能够在模型内部执行一个类似于“慢思考”的过程。这种能力让 o1 在物理、数学、生物和化学等多个学科领域的表现力都不错。由于OpenAI的技术封闭性,我们并不清楚o1的实现机制,目前很多研究都在探索关于 OpenAI o1 是如何实现这一突破的,本次分享将集中在这一主题,由新浪微博首席科学家张俊林带大家一起探究o1的技术原理和可能的实现机制。

大模型2.0系列读书会 旨在深入探讨大模型推理新范式背后的核心技术和基本原理,而 大模型2.0读书会 的第三期分享将集中在这一主题,由新浪微博首席科学家张俊林带大家一起探究o1的技术原理和可能的实现机制。




分享内容简介



本次分享将深入地对 o1 的技术原理和可能实现机制进行剖析。首先会阐述o1的重大价值及意义,包括从预训练到Post-Training及Inference阶段的Scaling Law的迁移及对小模型研发的影响等方面;其次会逐步推导o1的可能训练过程及模型构成;另外,会重点探讨如何结合LLM以及AlphaZero的强化学习来构造类o1的系统,以此让大模型具备复杂逻辑思考能力。最后展开圆桌讨论。




分享内容大纲




  • 大模型2.0:OpenAI o1技术原理探析(张俊林,45min)

  • o1模型的价值和意义
  • inference time Scaling Law
  • 对小模型的意义
  • 新型的安全模式
  • o1的可能训练过程推导
  • o1的可能训练过程
  • o1可能的模型结构
  • 如何结合LLM和强化学习构造o1
  • 强化学习基础介绍
  • LLM与RL融合构造类o1系统
  • 圆桌论坛(张俊林、张江、岳玉涛、王维埙,30min)
  • llya在NIPS2024中提出“预训练即将结束,接下来是超级智能”,如何看待这个观点?
  • Post-Training和Inference Time Scaling Law是否具有发展的可持续性?
  • COT是否引导大模型进行“慢思考”的最佳方式?是否有其它更好的方法?
  • LLM真的能做Reasoning吗?LLM的reasoning会不会和人不一样?
  • 强行约束llm按照人的方式进行reasoning,可解释提升,但会不会约束性能?
  • .......





主讲人介绍




张俊林 ,中国中文信息学会理事,中科院软件所博士,目前担任新浪微博首席科学家及新技术研发负责人,此前在阿里巴巴担任资深技术专家,负责新技术团队。技术书籍《这就是搜索引擎:核心技术详解》、《大数据日知录:架构与算法》的作者。在ACL、KDD、CIKM、RecSys、COLING等国际会议发表多篇相关学术论文。

研究兴趣为大模型及推荐系统





圆桌嘉宾




张江 ,北京师范大学系统科学学院教授,集智俱乐部、集智学园、集智科学研究中心创始人,曾任腾讯研究院、华为战略研究院等特聘顾问。
研究兴趣为因果涌现、复杂系统分析与建模、规模理论等

岳玉涛 ,香港科技大学(广州)副教授,江苏省产业技术研究院深度感知技术研究所创始人,广东省引进创新科研团队带头人。获已授权中国发明专利300余项,发表论文60余篇。
研究兴趣为多模态感知融合、大模型机理与可解释AI、通用人工智能、机器意识、大模型应用等




主持人介绍




王维埙,阿里巴巴强化学习研究员,关注强化学习前沿技术的探索与应用。当前从事RL for LLM相关的工作。 研究兴趣为多智能体系统、深度强化学习、基于人 类反馈的强化学习
个人主 页:http://wwxfromtju.github.io/





主要涉及到的参考文献




1.o1官网信息:https://openai.com/o1/

2.openai o1 system card:https://cdn.openai.com/o1-system-card-20241205.pdf

3.Alphazero paper:Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

4.对o1的Inference-time Scaling的探索(From Hugh Zhang on X:https://x.com/hughbzhang/status/1838288923656941860)










请到「今天看啥」查看全文