专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
爱可可-爱生活  ·  【Datago:Python友好的高性能数据 ... ·  2 天前  
黄建同学  ·  这个比较有用:Diffusers fast ... ·  3 天前  
爱可可-爱生活  ·  【CUDA Rational ... ·  3 天前  
黄建同学  ·  好像是有点难,老版的ChatGPT-4我记得 ... ·  4 天前  
爱可可-爱生活  ·  通过证明Shampoo与Adafactor的 ... ·  6 天前  
51好读  ›  专栏  ›  宝玉xp

分析专业//@张俊林say:o1是多个模型这是之前受到@宝玉xp-20240925130521

宝玉xp  · 微博  · AI  · 2024-09-25 13:05

正文

2024-09-25 13:05

分析专业[赞]//@张俊林say:o1是多个模型这是之前受到@宝玉xp 老师发的微博的启发,后来从价格分析看还真有可能//@高飞:o1模型大概由三部分构成:一个主模型,一个摘要模型,还有一类可灵活配置个数的跟树搜索相关的模型池子。
Reverse-o1:OpenAI o1原理逆向工程图解
本文以相对容易理解的方式来对o1做些技术原理分析,试图回答下列问题:除了复杂逻辑推理能力获得极大增强,o1还有其它什么重要意义?o1的完整训练过程大致会是怎样的?o1是单个模型,还是多个模型?O1中的RL状态空间如何定义?行为空间如何定义?会用何种Reward Model?可能用何种训练数据?LLM和RM融合后的模型结构可能会是怎样的?

发布了头条文章:《Reverse-o1:OpenAI o1原理逆向工程图解》 Reverse-o1:OpenAI o1原理逆向工程图解