专栏名称: 第一财经YiMagazine

这里是《第一财经周刊》读者俱乐部，我们为你发掘精彩的商业价值，也邀请你一起探寻明亮的商业世界。

字节探索基于手机的大模型解决方案，未来可能卖给手机厂商...

第一财经YiMagazine · 公众号 · · 2024-06-16 22:33

正文

撰文：徐弢、徐豫、林诗荷、陆彦君、吴一凡

编辑：王杰夫

Key Points

本周应用与模型

小爱同学接入豆包大模型，小米SU7已搭载；

字节正在探索基于手机的大模型解决方案，未来可能卖给手机厂商；

夸克第六年推出高考产品，首次融入AI搜索；

2024北京智源大会开幕，智源推出大模型全家桶；

极佳科技发布视频生成模型「视界一粟 YiSu」，号称能在个人电脑上运行；

Luma AI发布可免费使用的视频模型Dream Machine；

Stable Diffusion 3 Medium开源；

LinkedIn让AI帮你找工作、改简历。

本周应用与模型

小爱同学接入豆包大模型，小米 SU7 已搭载

6月12日，字节旗下「火山引擎」公众号发文称，小米旗下人工智能助手「小爱同学」已经与火山引擎达成合作，接入字节跳动豆包大模型，未来小爱同学将借助豆包大模型的能力，向用户提供联网搜索能力，尤其是可以实时提供与头条内容同源的搜索结果，为用户呈现全面且时效性强的答复。

公开资料显示，2023年4月小米组建大模型团队，并在8月的发布会上公布了端侧模型MiLM-1.3B。不过此次与字节的合作显示，小米或将放弃自研更大参数规模的模型，而选择与第三方合作，苹果也采取了类似的路线。

目前，通过小爱同学这一入口，豆包大模型进入了小米手机、智能家居、智能穿戴设备以及小米SU7等小米产品中。除小米的「小爱同学」以外，OPPO小布助手、荣耀MagicBook的YOYO助理、华硕笔记本电脑的豆叮AI助手也接入了豆包大模型。

参考链接

https://mp.weixin.qq.com/s/aI1mJ65I26hs-baD2Lq49Q

字节正在探索基于手机的大模型解决方案，未来可能卖给手机厂商

近日，有传闻称字节跳动已于两个月前启动AI手机研发项目。对此，字节跳动向第一财经记者回应称，该信息不实，字节目前并没有做手机并销售的计划，公司在探索基于手机的大模型软件解决方案，以提供给手机厂商使用。

本月初，有报道称，字节内部有两条产品线正在探索AI硬件的新方向，代号为「D线」的团队重点将放在带有AI能力的可穿戴设备上，「O线」的重点则是研究手持类AI硬件设备。字节豆包业务负责人称，目前豆包业务正在探索与智能可穿戴设备相结合，同时也会把豆包能力开放给各种硬件厂商。

参考链接

https://mp.weixin.qq.com/s/OHOpI4Wnc3GMr-0KyFWaWQ

夸克第六年推出高考产品，第一次融入AI搜索

6月13日，2024年高考结束后一周，阿里巴巴旗下夸克推出2024年高考产品，拥有智能选志愿、志愿表生成、高考AI搜索等功能。

夸克表示，这是高考产品推出的第六年，其在2023年辅助3000万用户填报志愿。这背后的主要动力是，随着新高考推行到第十年，越来越多地区采用了更复杂的选科模型和志愿填报方案，不同大学的录取政策也多种多样，这就导致传统依靠参考书选志愿的方式已经越来越无法满足用户需求。

夸克高考主页面（左）高考AI搜索页面（右）。

与往年不同，今年的夸克高考产品首次引入了生成式AI来提供高考相关问题的搜索结果，例如在用户搜索招录政策、院校专业、生活信息、升学就业等热门内容时，夸克AI会整理来自学校官网、招生简章等不同渠道的信息后，生成一段完整回复。

该AI功能可以被看作是夸克「元知」的一部分。自2023年11月正式公布自研大模型以来，夸克正在快速将生成式AI能力结合到各个工具中。

LinkedIn让AI帮你找工作、改简历

当地时间6月14日，LinkedIn宣布上线一系列能够提升求职效率的AI功能，涵盖求职者筛选工作、定制简历、咨询就业等环节，暂时只支持英语。例如，用自然语言提问「帮我在底特律找一份薪水至少11万美元的远程营销工作」，其AI功能可以抓取多个条件后自主筛选，帮助求职者快速锁定目标企业和岗位。此外，求职者还可以「与AI交互编辑」，基于不同岗位的要求修改简历和撰写求职信。在LinkedIn上，求职者还可以向「专家AI分身」咨询就业困惑，专家库包括Alicia Reece、Anil Gupta、Gemma Leigh Roberts博士和Lisa Gates。

目前，新的AI功能将对LinkedIn的全球高级订阅者开放，个人高级会员月费约30美元，企业高级会员月费约60美元。LinkedIn此前已推出包括招聘页面撰写在内的多款AI工具，公司首席产品官Tomer Cohen透露，未来几周内将升级该平台的搜索功能。

参考链接

https://www.theverge.com/2024/6/13/24177986/linkedin-ai-job-hunting-features-premium-subscribers

2024北京智源大会开幕，智源推出大模型全家桶

6月14日，第六届「北京智源大会」在中关村展示中心开幕。智源研究院院长王仲远做2024智源研究院进展报告，汇报智源研究院（以下简称「智源」）在多模态、具身、生物计算大模型方面的研究进展。

北京智源人工智能研究院于2018年正式成立，由北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视科技等北京人工智能领域优势单位共建，主要做人工智能的数理基础/认知神经基础、智能信息检索、智能架构和芯片等前沿方向的探索。

一重一轻两款多模态大模型

原生多模态世界模型Emu3：Emu3采用智源自研的多模态自回归技术路径，在图像、视频、文字上联合训练，使模型具备原生多模态能力，实现了图像、视频、文字的统一输入和输出。Emu3在持续训练中，经过安全评估之后将逐步开源。

轻量级图文多模态模型系列Bunny-3B/4B/8B：该系列适用于智能端侧的应用，采用灵活架构，可支持多种视觉编码器和语言基座模型。目前，Bunny模型参数、训练代码、训练数据已开源。

具身智能大模型与机器人

端到端的多模态具身导航大模型NaVid：该模型可直接将机器人视角视频和用户语言指令作为输入、输出机器人的移动控制信号。与传统导航不同，NaVid不需要建立地图、不依赖深度相机等额外传感器，只使用普通RGB相机拍摄的视频作为输入。具体来说，NaVid是通过使用模拟数据训练，再迁移到真实场景(Sim2Real技术)实现在真实室内外环境导航的。

智能心脏超声机器人：智源与领视智远研发了一款智能心脏超声机器人，能够在人体上自主进行心脏超声扫描。该机器人基于超声影像和机械臂受力信息，可在动态环境下快速计算、提取心脏特征。据智源称，临床验证显示，该机器人的准确性可与资深医生相当，稳定性更高，操作力度控制在4牛顿以内更加舒适，效率与人类医生相当。

生物模型可以预测蛋白质结构，以及模拟人类心脏

全原子生物分子模型OpenComplex 2：据智源称，该模型能有效预测蛋白质、RNA、DNA等大分子复合物的结构。它不仅可预测结构，还初步具备预测分子多构象和折叠过程的能力，有助于探索蛋白质的生物学功能。

实时孪生心脏计算模型：据智源介绍，这是全球首个生物时间/仿真时间比小于1的实时孪生心脏计算模型，也就是说，模型的计算速度快于现实生理过程的速度。该模型将采用物理-数据双驱动方法，从亚细胞到躯干级仿真出「透明心脏」，并根据患者临床数据构建孪生心脏模型，用于药物筛选、治疗、术前规划等临床应用。

参考链接

https://mp.weixin.qq.com/s/VrWL-v4B7BS59ZbWRtt9yg

极佳科技发布视频生成模型「视界一粟 YiSu」，号称能在个人电脑上运行

6月6日奇绩创坛路演日上，极佳科技联合清华大学自动化系发布视频生成大模型「视界一粟YiSu」，该视频模型最大的特点是算力要求低，可以配置在端侧，生成视频时长为16秒。目前，YiSu大模型按照每周一个小版本、每月一个大版本的节奏迭代。

极佳科技成立于2023年，核心团队来自清华、中科院、中科大等院校。创始人兼CEO黄冠是清华大学自动化系博士，曾经在微软、三星、地平线等公司工作。极佳科技于2023年9月发布自动驾驶模型DriveDreamer，当时黄冠表示，公司已经与10多家智能汽车产业链企业达成合作，2023年年底的数量将超过30家。今年1月，极佳科技再次提出视频生成通用世界模型WorldDreamer的概念，结合了Transformer和LLM，把视频生成转换为一个序列预测任务。该模型可以完成文生视频、图生视频、视频编辑、动作序列生视频等多种视频生成任务。

黄冠表示：「随着生成式AI、大语言模型等技术的突破，我们很早就看到数据最好的来源就是世界模型。同时，我们也很快意识到，世界模型的核心是视频生成。」

参考链接

https://mp.weixin.qq.com/s/FtaVZtUT4a0SOlClWqAJ1g

Luma AI发布可免费使用的视频模型Dream Machine

6月13日，3D内容生成公司Luma AI推出新的视频模型Dream Machine，可以在大约2分钟内生成5秒120帧的视频。目前，该模型向所有用户免费开放使用。

不过用户使用需求的剧增导致Luma的服务器超载，Luma不得已引入了排队系统。部分用户已经尝试了用该模型生成视频，但结果并不令人满意。《印度快报》使用提示词「彼得·潘在星系之间的地毯上飞行」生成视频，但视频中漂浮在空中的彼得·潘的手指扭曲，地毯也漏掉了。

Luma AI成立于2021年9月的美国旧金山，由加州大学伯克利分校的人工智能研究员Alex Yu、在苹果公司负责构建Vision Pro多媒体体验的Amit Jain共同创办，早期产品是一款公司同名的智能手机App，帮助用户扫描物体的3D模型，而后转型3D内容生成。

今年1月，Luma AI完成了A16z领投的4300万美元B轮融资，估值大约在2亿至3亿美元之间。同时期，Luma AI发布3D内容生成模型Genie，还计划利用3000块英伟达A100芯片训练新的AI模型。

参考链接

https://stability.ai/news/stable-diffusion-3-medium

Stable Diffusion 3 Medium开源

Stability AI于6月13日宣布推出文本生成图像模型Stable Diffusion 3 Medium，适合在消费级PC、笔记本及企业级GPU上运行。SD3 Medium 同样免费，但如果需要商业性使用需购买授权。

Stable Diffusion 3 Medium是一个20亿参数量的模型，Stability称相比之前的模型有显著改进。包括生成图像质量和逼真度大幅提升；理解长难句文本描述的能力增强；生成文字质量也有很大提升，拼写、字间距等错误大幅减少。

参考链接

https://stability.ai/news/stable-diffusion-3-medium

-END-

硅谷之后，谁是下一个AI之城？

苹果接入GPT-4o，但中国用户可能用不上

布局AI PC，AMD和英特尔也交出了成绩单