专栏名称: 六合商业研选

六合咨询立足新经济，挖掘明日之星，发现价值，传播价值；国际化视野、多角度观察、深度思考、体系化研究，持续提升研究广度与深度，全面覆盖一级、新三板、二级（A股+美股+港股）；深度剖析优质企业商业模式与投资价值，前瞻性洞察行业本质与发展趋势。

【智能时代】数据资源：数据是AI飞轮效应关键，智能时代极具价值的战略资源

六合商业研选 · 公众号 · · 2024-09-23 06:30

正文

AI 为核心的新一轮科技创新浪潮已至， AI 将与互联网一样，带来新一轮范式革命，人类社会将进一步加速发展。我们精心准备，重磅推出【智能时代专题】，目前已规划 121 篇深度原创研报，将全方位梳理 AI 产业、技术、代表性公司等发展历史、现状、趋势，展望智能时代未来图景，挖掘投资机会。

智能时代专题：数据资源

免费版 2,657 字，预计阅读 6 分钟

完整版 17,949 字，欢迎付费解锁

一、 AI 时代，算法、算力、数据、业务，四位一体，才能形成飞轮效应。

算法： 不能成为长期壁垒，算法类似解题思路，会因论文发表、行业交流、人才流动等形式逐步公开，被同行讨论、借鉴、应用，如 Transformer 、端到端逐渐形成共识；算力与数据才是竞争的关键，算法需要依托算力与数据，才能持续迭代进化。

算力： 短期可以靠大资金投入，阶段性取得算力方面优势，长期需要持续资金实力做支撑。对商业世界来说，长期很难单纯靠盲目烧钱，需要看到良好 ROI ，形成投入与回报良性循环，否则难以持续支持大规模算力投入。

数据： 算法不断学习进步的养分，保证数据优势持续领先，才能充分发挥算力潜力，推动算法持续迭代进化，助力业务持续领先。

业务： 业务持续增长，产生持续稳定、规模化现金流，才能持续投资算力、积累数据、迭代算法，推动业务持续领先，进而形成飞轮效应。

二、智能驾驶是构建 AI 飞轮效应典型杀手级应用，头部智能电动汽车厂商将成为领先的 AI 科技巨头。

特斯拉、理想等不断进行巨额算力投资，加上庞大车队产生海量数据，不断训练与迭代升级智能驾驶算法。随着智能驾驶技术持续进化，用户体验不断提升，推动销量增长，产生持续稳定现金流，反哺更大规模算力建设；更多销量，带来更多场景与数据积累，进一步提升算法，加速技术迭代，形成飞轮效应。

智能驾驶作为 AI 最早落地的杀手级应用，不仅推动相关技术快速发展，还使智能电动汽车估值逻辑，从传统汽车制造向 AI 科技企业转变，将实现显著估值提升。随着智能驾驶技术成熟与商业化深入落地，头部智能电动汽车厂商将在汽车行业与 AI 领域占据领先地位，成为引领未来 AI 在更丰富场景应用落地的核心力量。

围绕智能驾驶的 AI 飞轮效应已经形成，正加速旋转。特斯拉、理想，分别是美国、中国在这方面头部代表。能用、好用、爱用，是分析智能驾驶、 AI+ 机器人等技术，不同发展阶段定性参考标准。

智能驾驶系统，随着特斯拉 FSD V12 、理想端到端 +VLM 等不断迭代，正在从能用到好用，这属于车企在智能驾驶领域供给端变革，还需要继续加大算力投入、积累车企智驾里程数、城区接管里程 MPI 不断突破，使自动驾驶级别从 L2 提升到 L4 ，以及最终实现真正 L5 水平，在这个过程中，使用户习惯高频使用，从好用变成用户真正爱用。

三、数据是 AI 模型可持续竞争优势关键，智能电动汽车与机器人，有望成为未来 AI 模型训练数据最主要来源。

数据是 AI 模型训练基础要素，推动 AI 技术不断进步关键因素之一。 2023 年 3 月， GPT-4 发布以来，全球大模型产品层出不穷，算力、算法快速发展与优化迭代同时，数据壁垒成为重要限制因素。目前可访问互联网数据资源已趋近耗尽，基础模型性能进一步提升，受限数据多样性与数据质量。

面对挑战，除了继续推动算力增长，未来模型性能突破，将更多依赖高质量、不同场景专业化数据获取与应用。数据资源深度挖掘、精准标注、创新性数据处理等技术发展，成为推动 AI 进步关键路径。

AI 模型训练数据，主要分为数字世界数据、现实世界数据两大类，两类数据来源各异，各具特色，类型丰富，涵盖广泛场景。 数字世界数据，以广泛覆盖面与高可获取性，为 AI 提供丰富训练素材；现实世界数据，通过实际应用场景，提供大量真实、动态信息；两类数据结合，能全面提升 AI 模型能力，使其在各种应用中表现更加出色。

数字世界数据，主要分简单数据、高级数据两类，简单数据用于 AI 模型训练已基本使用殆尽，高级数据相比简单数据规模更大、质量更高，开发利用潜力巨大。如果能将高级数据，有效用于 AI 模型训练，将带来性能上压倒性提升。例如 OpenAI 与金融时报、学术期刊商 Springer 合作，获取高质量金融、学术数据。

智能电动汽车与机器人，作为现实世界中持续生成高级数据重要来源，有望成为未来 AI 模型训练数据最主要来源。 现实世界中，实际应用的智能电动汽车与机器人规模不断增长，能在多种复杂环境中持续与现实世界交互，不断产生与收集丰富数据，为 AI 系统提供更多元、高质量数据，帮助 AI 系统不断改进与性能提升。

智能电动汽车与机器人重要优势，是能进行集体学习。集体学习机制，允许各个设备在共享学习成果基础上，加速能力提升，增强整个系统学习能力与适应性，为大规模部署与应用提供强大支持。

智能电动汽车自动驾驶系统与机器人智能系统，是通过研发商的中央系统进行控制与分发，当一辆智能电动汽车在行驶中掌握一项新驾驶技巧，或一台机器人在执行任务时学会一项新技能，这些新能力在上传到中央系统后，可迅速分发到其他所有智能电动汽车或机器人，使所有设备能迅速应用这些改进，提升整体系统性能与效率。

2024 年 9 月 10 日， ALL-IN 峰会上，马斯克进行深入对话访谈，分享对 AI 与机器人未来发展见解，认为未来机器人数量将远超人类，达到至少 2:1 甚至 3:1 。马斯克强调自动驾驶汽车与通用人形机器人，将是 AI 发展关键因素，预计 Optimus 机器人可能成为 AI 训练数据最大来源，能与物理世界大规模互动，产生前所未有有价值数据。

面对高级数据不足挑战，仿真数据、合成数据等是增加数据供给重要方式，帮助 AI 模型训练与升级，加速 AI 技术在不同领域应用与推广。

基于数据重要性， AI 大模型竞争中，科技巨头进一步强化竞争优势。目前只有少数科技巨头，具备这种数据优势。

马斯克 X 宇宙，通过海量特斯拉汽车与人形机器人 Optimus 、 X/Twitter 海量用户与数据、 Neuralink 来自动物实验与人类脑机数据等多场景、多模态的海量实时数据，形成强大数据获取能力。

四、数据资源是支持深度学习发展重要力量，随着 AI 技术进步，数据规模持续指数级增长。

深度学习技术持续创新发展，背后是算法、算力、数据不断突破。数据方面，神经网络模型相比其他 AI 技术，对数据规模要求更高，训练数据集足够大，才能保障神经网络性能优于其他 AI 技术。神经网络模型训练数据，整体从小规模专业数据集，逐步发展到海量多领域混合数据集，以适应 AI 模型发展对训练数据规模不断增长需求。

OpenAI GPT 系列大模型使用数据量，不断指数级增长，展示数据对模型性能重要性。相比 GPT-3 ， GPT-4 训练数据，不仅数据量增加 20 倍以上，数据质量与处理更精细。

OpenAI 正式发布旗下首款具有高级推理能力 AI 大模型 o1 。 o1 使用全新训练方式与专门量身定制的新数据集进行训练，真正具备推理能力。 o1 推理能力大幅提升，在美国数学邀请赛上，可排名进入美国前 500 名；在物理、化学、生物等学科的 Challenging 基准测试中，表现与博士生 / 专家型人才相当。

o1 思考时间越长，推理任务表现越好，有望诞生新的 Scaling law 。 英伟达具身团队领导 Jim Fan ，点评这一事件历史意义，指出 OpenAI 新模型，除在训练时，通过增大参数量与数据量，得到性能提升，同时通过增加推理时间，得到性能提升。这代表 AI 模型不仅拥有训练时的 Scaling law ，还拥有推理层面的 Scaling law ，双曲线共同增长，将突破之前大模型能力提升瓶颈。

六合年度报告全库会员，欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买