专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

LLM、视频生成、AI智能体、具身智能玩家都来了！中国生成式AI大会4月18-19日北京开启

计算机视觉研究院 · 公众号 · · 2024-04-03 11:00

正文

自ChatGPT面世以来，生成式AI已加速狂飙16个月，在学术界、产业界、投资界掀起滔天巨浪，冲击着千行百业。

AI大模型飞速迭代，创新应用层出不穷。我们正处于技术野蛮生长的爆发时刻，见证着AI向通用人工智能全速冲刺的破竹之势。

值此之际，由智一科技旗下智东西联合智猩猩发起主办的2024中国生成式AI大会将于4月18日-19日在北京JW万豪酒店举办。今年大会以“重构世界奔赴未来”为主题，拟邀请50+位重量级嘉宾同台分享，以前瞻性视野全景式解构生成式AI的时与势、危与机、破与立。这是继2023年举办国内首场聚焦AIGC的高规格创新峰会后，智一科技旗下智东西联合智猩猩发起主办的第二届生成式AI行业盛会。

大会由主会场峰会+分会场研讨会/论坛+展览+榜单组成，其中主会场第一日将进行开幕式、大模型专场，第二日将进行AI Infra专场、AIGC应用专场；分会场第一日下午将进行智猩猩具身智能技术研讨会，第二日上下午分别进行智猩猩AI智能体技术研讨会、以及中国智算中心创新论坛。

已经迫不及待报名的朋友，可以先扫描下方二维码添加小助手报名啦！

目前已有近40位嘉宾确认参与主题演讲、高端对话和圆桌讨论，接下来为大家详细介绍部分嘉宾。

01、 主会场部分嘉宾阵容

爱诗科技创始人兼CEO 王长虎

爱诗科技创始人兼CEO王长虎博士，深耕计算机视觉与人工智能领域20年。

曾任字节跳动视觉技术负责人，带领字节跳动视觉技术团队在巨量规模的用户数据下，解决了多个视觉领域的世界级难题，并从0到1支撑了抖音与TikTok等国民级视频产品的建设和发展。任职期间开发的多模态大模型有效覆盖字节跳动内视觉相关产品内容价值链全流程，包括了从内容生产、内容安全、内容分析、内容分发以及内容商业化。

曾任微软亚洲研究院主管研究员，主要研究方向包括计算机视觉、机器学习、多媒体分析等，发表了近百篇国际顶级会议和期刊文章，是 20+国际顶级会议与期刊的编委或审稿人。世界草图搜索与识别的开拓者之一，曾带领团队建成了世界最早的十亿级的草图搜索引擎系统，并因此获得微软公司金星奖、世界多媒体大会最佳演示奖。

中国计算机学会 2018 年科技进步卓越奖获得者，曾任中国计算机学会理事，获中国科技大学学士及博士学位。

启明创投合伙人周志峰

周志峰先生是启明创投的合伙人。周志峰先生是前沿科技领域最活跃的投资人之一，他目前关注的领域包括人工智能、机器人、虚拟/增强现实、半导体、新能源汽车和企业软件等。周志峰先生投资的企业中有10余家成长为上市企业及独角兽企业：石头科技（688169.SH）、星环科技（688031.SH）、优必选（09880.HK）、壁仞科技、洛轲智能、云英谷科技、智谱AI、云知声、梅卡曼德机器人、爱芯元智、海博思创、同盾科技等。他投资的其他高成长公司有：长亭科技（被阿里巴巴收购）、九州云腾（被阿里巴巴收购）、DeepWay、地上铁、云迹科技、后摩智能、衔远科技、TigerGraph、XSKY星辰天合等。

在此之前，周志峰先生在硅谷顶级风险投资机构Kleiner Perkins 凯鹏华盈（KPCB）工作。在开始其投资生涯前，周志峰先生任职于惠普公司，负责中国区的数据存储业务。

周志峰先生获评“福布斯中国创投人100”。周志峰先生在美国哥伦比亚大学商学院获得工商管理硕士学位，在哈尔滨工业大学获得计算机科学与技术学士学位。

周志峰先生目前担任北京证券交易所第一届行业咨询委员会委员。周志峰先生亦是中国乡村振兴创业者支持计划的管理委员会成员，该计划由启明创投和中国乡村发展基金会联合发起，致力于培训、赋能乡村产业创业者和社会事业创业者。

新加坡国立大学校长青年教授、潞晨科技创始人兼董事长尤洋

尤洋，新加坡国立大学校长青年教授、潞晨科技创始人兼董事长。尤洋教授是清华大学硕士，加州伯克利大学博士，新加坡国立大学计算机系的校长青年教授 (Presidential Young Professor)。

他曾创造ImageNet、BERT、AlphaFold、ViT训练速度的世界纪录，并被ScienceDaily，The Next Web，i-programmer等几十家媒体广泛报道，相关技术被广泛应用于谷歌，微软，英特尔，英伟达等科技巨头。他近三年以第一作者身份在NIPS，ICLR，Supercomputing，IPDPS，ICS等国际重要会议或期刊上发表论文十余篇，总计发表论文近百篇。他曾以第一作者获国际并行与分布式处理大会(IPDPS)的最佳论文、国际并行处理大会(ICPP)的最佳论文，AAAI、ACL杰出论文等。他曾获清华大学优秀毕业生，以及当时清华大学计算机系数额最高的西贝尔奖学金。他在2017年获得美国计算机协会(ACM)官网上唯一颁给在读博士生的ACM-IEEE CS George Michael Memorial HPC Fellowship。他获得颁发给伯克利优秀毕业生的Lotfi A. Zadeh Prize。他被UC Berkeley提名为ACM Doctoral Dissertation Award候选人(81名UC Berkeley EECS 2020博士毕业生中选2人)。他曾任职于谷歌、微软、英伟达、英特尔、IBM等公司，2021年入选福布斯30岁以下精英榜 (亚洲)并获得IEEE-CS超算杰出新人奖，2023年入选福布斯最具影响力华人精英TOP100以及胡润U35创业先锋。

演讲主题：《技术共享：类Sora开源架构模型与训练细节》

内容概要： 随着视频内容创作和消费的迅猛增长，OpenAI Sora凭借其出色的视频生成技术成为行业的领跑者。紧随其后，Colossal-AI团队率先推出类Sora架构开源视频生成模型Open-Sora 1.0。

本次演讲将详细介绍Open-Sora 1.0的复现方案，包括其三个关键阶段的训练流程：大规模图像预训练、视频预训练和数据微调，以及这些步骤如何共同作用于提升生成视频的质量和真实感。此外，演讲还将探讨数据预处理、模型训练细节和加速优化策略，以及未来的发展计划。

听众将从本次演讲中获得对Open-Sora 1.0模型的深入理解，包括其在视频生成领域的创新应用和实际效果。演讲将揭示模型的关键技术特点，以及如何通过高效的数据处理和训练流程实现高质量的视频生成。此外，听众将了解到如何将这些技术应用于自己的项目中，从而提升内容创作的质量和效率。演讲还将探讨模型未来的发展方向，为听众提供行业发展的新视角和灵感。通过这次演讲，听众将能够更好地把握视频生成技术的最新趋势，为自己的研究或创作工作带来新的启发和价值。

生数科技联合创始人兼CEO 唐家渝

唐家渝，生数科技联合创始人兼CEO，清华大学计算机系硕士，曾任北京瑞莱智慧科技有限公司副总裁，先后负责公司产品团队、AI安全产研团队及相关业务。在此之前担任腾讯优图实验室高级产品经理、TP-LINK手机事业部用户体验团队及界面研发团队负责人。现任科技部、工信部重大项目骨干，人工智能副高级职称，获得20余项发明专利授权，出版普通高等教育国家级规划教材1本。2021年9月，在瑞莱智慧期间主导研发的“安全可靠可控的新一代人工智能平台”获评世界互联网大会世界互联网领先科技成果。

万兴科技副总裁朱伟

朱伟，万兴科技副总裁，毕业于国防科技大学计算机应用专业，20余年技术研发管理从业经历，长期深耕软件研发领域，精通视频编解码、音视频处理、底层非线编、AI算法等技术，具有丰富的技术规划、软件工程、团队管理、项目管理、质量管理实战经验。

北京大学计算机学院前沿计算研究中心助理教授、北京银河通用机器人创始人&CTO 王鹤

王鹤博士是北京大学计算机学院前沿计算研究中心（CFCS）的助理教授和博士生导师。他创立并领导了北大具身感知与交互实验室(EPIC Lab，主页：https://hughw19.github.io)，研究目标是通过发展具身技能及具身多模态大模型推进通用具身智能。他联合创立了北京银河通用机器人有限公司，同时担任北京智源人工智能研究院具身智能研究中心主任。他已在计算机视觉、机器人学和人工智能的顶级会议和期刊（CVPR/ICCV/ECCV/TRO/RAL/ICRA/NeurIPS/ICLR/AAAI等）上发表五十余篇工作，其论文获得ICCV2023最佳论文候选，ICRA2023最佳操纵论文候选，2022年世界人工智能大会青年优秀论文（WAICYOP）奖，Eurographics 2019最佳论文提名奖。他担任了CVPR2022和WACV2022的领域主席，Image and Vision Computing的副主编和诸多顶会的审稿人、程序委员。在加入北京大学之前，他于2021年从斯坦福大学获得博士学位，师从美国三院院士Leonidas. J Guibas教授，于2014年从清华大学获得学士学位。

前Meta首席工程负责人胡鲁辉

胡鲁辉 Seeking AI CTO & Co-CEO & Co-founder，前 Meta首席工程负责人，荣获10项 Meta AI专利申请；原京东副总裁和华为美研首席架构师兼CTO；早期在美国亚马逊、微软总部工作十多年，带领团队长期从事数据云和AI；拥有30多项美国专利及申请和国际顶级 VLDB论文。

演讲主题：《从多模态大模型到理解物理世界》

内容概要： 近年来，人工智能发展迅猛，以ChatGPT为代表的大型语言模型（LLM）取得了突破性进展，并在自然语言处理、图像生成等领域展现出强大能力。然而，现有的LLM仍然局限于特定模态的信息处理，难以理解和交互物理世界。

“后GPT-4”时代，多模态大模型 (MM) 应运而生。MM能够融合文本、图像、音频等多模态信息，更全面地理解和感知世界。同时，AI2.0时代的基础模型 (foundation models) 和智能体（AI agents）也在快速发展，它们具备更强的泛化能力和鲁棒性，能够加速MM的应用。

理解物理世界是通用人工智能 (AGI) 的关键。物理世界是客观存在的，具有确定性和规律性。理解物理世界需要具备对空间、时间、因果关系等概念的理解，以及对物理规律的建模和预测能力。

分享将重点探讨以下几个方面：

1. 人工智能近几年的发展历程，以及“后GPT-4”时代的发展趋势；

2. LLM和MM的特点和共性，以及AI2.0时代的基础模型特性；

3. 理解物理世界对世界模型和通用人工智能的重要性，以及物理世界的特性；

4. 如何从多模态大模型到理解物理世界，更加接近通用人工智能。

阿里巴巴通义千问大模型技术负责人周畅

周畅，博士毕业于北京大学，阿里巴巴通义千问大模型技术负责人。通义千问为开源社区贡献了多款全尺寸、全模态开源的基础模型，也推出了效果接近GPT4/GPT4v的闭源模型Qwen-Max以及Qwen-VL-Max。通义千问开源模型Qwen1.5-72B在HuggingFace模型表现榜单上（ChatArena）成为开源模型第一，也是开源社区普遍使用的模型系列之一。周畅团队研究成果曾获得中国电子学会科技进步一等奖、杭州市领军型创新创业团队等奖项和荣誉。

阿里云高级技术专家、阿里云异构计算AI推理团队负责人李鹏

李鹏，阿里云异构计算高级技术专家，毕业于北京航空航天大学计算机系，目前是阿里云异构计算AI推理团队负责人，负责生成式AI推理的性能优化工作，构建了AIACC、DeepGPU等阿里云AI加速套件。在GPU领域深耕近10年，其中负责的自研加速框架AIACC帮助阿里云在2020年在斯坦福DAWNBench竞赛的图像识别（Image Classification on ImageNet）榜单中，包揽了训练时间、训练成本、推理延迟以及推理成本四项第一。

演讲主题：《AI基础设施的演进与挑战》

内容概要： 人工智能当前已经迈入了快速发展的阶段，尤其是大语言模型的突飞猛进正给各行各业带来了日新月异的变化。AIGC的场景对云计算AI基础设施与产品也提出了非常鲜明的发展要求。我将从产业一线的角度与大家一起探讨面向AI与大模型计算的场景下，如何构建稳定、安全、和弹性的云基础设施架构，以满足云上动辄千亿规模的参数量及极大的算力需求。

云天励飞“云天天书”大模型技术负责人余晓填

余晓填，香港中文大学博士，云天励飞“云天天书”大模型技术负责人。“云天天书”多模态大模型层在C-Eval、CMMLU等权威测试中获得第一，并已正式通过国家网信办备案。

余晓填博士曾获深圳市海外高层次人才，深圳市南山区十大杰出青年（2023）。已在AI顶级期刊/会议发表论文超20篇，已申请/授权专利超50件。作为大数据和大模型方向的主要完成人之一，其研究成果获2021吴文俊人工智能科学技术奖科技进步奖一等奖。主要研究方向为大模型、序列决策、神经网络和随机优化等。

鸿博股份副总裁、英博数科CEO 周韡韡

周韡韡，现任鸿博股份副总裁、英博数科CE0，澳大利亚阿德莱德大学金融学学士、悉尼大学传播学硕士、罗伊智库国际政治经济关系博士，历任媒体记者、策划人、投资人，10年以上TMT行业从业经验、凤凰卫视驻澳大利亚记者站记者、澳中国际文化交流策划人、澳中传媒执行董事及36氪副总裁；在投资者关系管理、战略市场定位营销、国际化商务谈判等方面具备丰富经验及成功案例。

2022年起负责与英伟达沟通“创新赋能中心"项目落地沟通，自2022年8月起被指定为北京·AI创新赋能中心CEO，后升任鸿博股份副总裁，全面负责AI及创新业务板块发展。

演讲主题：《算力为基，加速中国AGI生态建设》

内容摘要： 2024年注定是AI产业加速落地的一年，Sora的爆火以及GPT5即将发布，都让人们看到AI应用落地更清晰的方向。所有的AI应用发展都离不开以算力基建的支持。英伟达发布B200芯片，推进AI进入新摩尔定律时代。禁售背景下，为对国内算力基建提出更严峻的挑战。

本次演讲将详细对比国内国外的智能算力的产业格局，包括智能算力需求、智算中心建设、工具链层生态、及大模型及AI应用的发展等，以从中探讨国内AGI底层算力生态发展趋势。此外，演讲还会介绍英博数科的战略规划，针对国内现阶段产业矛盾，如何以算力为基础，构筑自主可控AGI全栈生态服务平台。

中科曙光智能计算产品事业部总经理杜夏威

杜夏威，中科曙光总裁助理，智能计算产品事业部总经理，高级工程师，天津市生成式通用智能专家咨询委员会委员。在高端计算与人工智能领域有丰富经验，先后主导及参与了科技部“人工智能2030”多项课题，作为主要人员参与多个国家级计算中心、先进计算中心、智能计算中心设计、实施、运维工作。现主要致力于依托国产加速器构建人工智能计算生态，推动国产芯片与软件技术的持续迭代。

星环科技大模型产品负责人童欣欣

童欣欣，星环科技大模型产品负责人，现负责星环科技人工智能产品线大模型相关产品的架构设计等工作。曾就职于苏宁技术研究院、地平线等企业，具有多年算法研发，AI通用平台和垂直领域业务场景的产品设计经验。

演讲主题：《Sophon LLMOps：企业级大模型和应用开发工具链》

内容概要： 近年，随着大模型相关技术的火热发展，企业开始逐步尝试将大模型能力与自有业务相结合落地智能应用，在某些场景下也看到了提效的可能性。然而，当下要把大模型落到不同业务场景当中，解决具体的业务问题，意味着要做大量的微调优化和定制化开发。即，技术发展和业务需求之间存在着不小的“隔阂”，要缩小这种隔阂或者提升弥补“隔阂”的效率，完善的工具链会非常重要。即，我们认为企业在部署大模型或应用时，需要端到端的、更高效、更安全、方便协作的工具平台作为支撑。

安谋科技（中国）有限公司产品总监杨磊

杨磊先生现任安谋科技产品总监，负责“周易” NPU IP 产品，致力于满足多样化端侧硬件设备的不同AI计算需求。他在芯片设计领域拥有丰富经验，涵盖了从通信基带到AP SoC 架构设计等多个方面。加入安谋科技以来，杨磊先生负责NPU IP产品的定义、推广以及落地应用。

杨磊先生毕业于清华大学电子系，拥有清华大学电子系本科及硕士学位。

演讲主题：《大模型端侧部署提速，NPU赋能终端算力革新》

内容概要： 随着AI大模型持续向边缘侧和端侧渗透，AI计算和推理工作正逐步由云端迁移至手机、PC、汽车等智能终端产品上运行，在这一过程中，NPU（神经网络处理器）能够以其更简单的控制流、更高的效率以及更低的功耗处理AI工作负载，特别是在视觉、语音及自动驾驶等高度依赖实时性的应用场景中表现出色。安谋科技自研NPU处理器，具备高件能、高能效和灵活配置等特点，为AI、物联网、智能汽车等新兴领域不断迭代的计算需求提供更为全面和高效的解决方案。

联汇科技COO 姚一杨

姚一杨博士，联汇科技COO，在计算机视觉、人工智能和物联网安全等领域拥有深厚的专业知识和独到见解，并且长期从事信息安全与信息建设管理研究。多次主持、参与“十三五”国家重点研发计划、工信部工业互联网创新发展工程等课题项目，并取得重大突破。在多模态人工智能研究方面，首创了160亿参数全场景电力设备领域预训练大模型，推动了电力智能巡检应用从感知向认知演进，实现了基础理论-关键技术-设备平台的系统性创新，项目成果达到国际领先水平。

担任中国计算机自动测量与控制技术协会理事，科技核心期刊《计算机测量与控制》编委及ACM（国际计算机学会）中国理事会杭州分会执行委员会委员等学术团体工作。

极佳科技创始人&CEO 黄冠

黄冠，极佳科技创始人&CEO，拥有超过十年的视觉和AI方向技术和应用经验，在国内最早开始视频生成和世界模型方向研发和应用，拥有丰富的经验和成果，发布了DriveDreamer、WorldDreamer、HumanDreamer等相关代表性工作；带领团队多次获得COCO、FRVT等国际权威视觉和AI比赛世界冠军，发表视觉和AI顶级会议期刊论文十余篇，多次发布WebFace260M、BEVDet等具有显著影响力的视觉技术成果。黄冠是清华大学创新领军工程博士，中科院自动化所硕士，曾就职于微软亚洲研究院、三星中国研究院、地平线机器人等知名企业，并有多年的AI方向连续创业经验，在超大规模视觉AI模型和系统方向拥有丰富的算法研发、工程落地和商业化应用经验。

行者AI创始人&CEO 尹学渊

尹学渊，行者AI（成都潜在人工智能科技有限公司）创始人&CEO，博士，连续创业者，机器学习、人工智能领域专家。毕业于四川大学计算机学院，成功申请国家自然科学基金项目，曾负责多个国家级研发项目，申请发明专利50余项，在国内外期刊及会议发表论文20余篇。荣获“成都市新经济百名优秀人才”，“成都市建设具有全国影响力的科技创新中心先进个人”、“国家示范性软件学院优秀研究生”等称号，入选成都市软件产业“蓉贝”计划。

2013年联合创立龙渊网络，推出了多款受到全球玩家欢迎的产品，如“多多自走棋”（Auto Chess）等。2020年创立了行者AI，致力于用人工智能和机器学习技术提高游戏和文娱行业的生产力，提供游戏全生命周期的解决方案。凭借自研算法，先后推出了AI虚拟玩家、AI安全、AI美术、AI音乐等多项产品。

极睿科技创始人兼CEO 武彬

武彬，极睿科技创始人兼CEO，清华大学计算机系本科、人工智能实验室硕士，辅修大数据研究中心优秀毕业生，在校期间多次参与973、863重点项目。北京U30 杰出青年、工信部中小企业领军人才计划、2019福布斯中国U30精英，2020福布斯亚洲U30精英。

演讲主题：《AIGC全链路电商内容生成的前景与挑战》

内容概要： 从目前电商内容制作高成本、低效率的痛点出发，基于极睿科技在AIGC领域领先的技术实力，介绍了AI商拍产品PhotoMagic、图文生成与商品多平台上架产品易尚货、商品短视频智能运营产品iClip易视频、直播切片智能生成产品iCut直剪，帮助品牌通过AI提升内容制作效率、降低内容制作，通过优质内容实现高效种草与成交。

阳光保险集团人工智能首席科学家杜新凯

杜新凯，阳光保险集团人工智能首席科学家，负责阳光保险人工智能工作。国家科技部科技创新2030新一代人工智能重大项目评审专家，中国人工智能产业发展联盟金融人工智能委员会副主任，中国人工智能学会、中国计算机学会、中国中文信息学会人工智能专委会专家，中国企业联合会、中国移动通信联合会智库专家，中国计算机学会(CCF)中文信息技术专委会专委，中国人工智能和大数据百人会首批专家。

演讲主题：《阳光正言大模型的研发及应用探索》

内容概要： 本次演讲将重点介绍阳光正言大模型平台能力和目前的实际生态应用，以及阳光正言大模型在金融保险领域的未来布局。

58同城TEG-AI Lab负责人、技术委员会AI分会主席詹坤林

詹坤林，58同城TEG-AI Lab负责人、技术委员会AI分会主席。硕士毕业于中国科学院大学计算机应用技术专业，在NLP、推荐领域有十年以上技术和管理经验。从0到1搭建58同城AI Lab，旨在建设模型领先、敏捷易用的AI平台，并打造AI标杆应用，助力AI技术在58同城广泛落地。当前主要负责建设58同城垂类大模型、大模型平台、机器学习平台、对话式AI平台、智能营销引擎等产品和能力。加入58同城前，曾任腾讯高级工程师，从事推荐系统研发。

演讲主题：《生活服务领域垂类大语言模型建设和应用》

内容概要： 58同城生活服务平台包括房产、招聘、汽车、本地服务四大业务，平台连接着海量C端用户和B端商家，B端商家可以在平台发布信息，C端用户可以通过平台找房子、找工作、找家政、买二手车。

我们构建了一套大语言模型开发平台，打造了58同城垂类大语言模型"灵犀"，并在B端商家智能助手场景进行了落地应用，本次分享将做详细介绍。

VAST创始⼈、CEO 宋亚宸

宋亚宸，VAST创始⼈、CEO，毕业于约翰霍普⾦斯⼤学，曾在商汤负责业务战略规划及落地，实现 AIGC 技术在动画及游戏⾏业的实际落地，并参与创立了MiniMax。作为一位技术及游戏热爱者，他带领团队发布了3D生成大模型Tripo，能够实现8秒文字/图片生成高精度的3D模型，并和Stability AI共同发布了开源大模型TripoSR。

DeepMusic CEO 刘晓光

刘晓光，DeepMusic CEO，清华大学化学系本硕博，清华企业家协会青创会员，编曲师，音乐制作人，键盘手，吉他手；拥有100+首音乐作品创作及制作经验，作品全网播放量数亿次，有多年音基教育经验。

焱融科技CTO 张文涛

张文涛，焱融科技CTO，华中科技大学计算机专业硕士，信通院分布式存储产业方阵DSIA核心成员。拥有超过15年的大规模公有云存储架构及AI存储架构设计经验。深耕分布式存储领域，主导焱融高性能分布式文件存储系统的设计与研发，在AI/HPC等前沿领域，积累了丰富的存储架构升级及性能优化经验，并实现业界多个创新性技术突破。

演讲主题：《多云环境下大模型训练和推理的高效存储》

内容概要： 从大语言模型到多模态大模型，模型训练和推理需要的算力越来越高，单个数据中心已经无法满足大模型训练所需要的算力要求，采用多数据中心进行训练和推理成为了唯一选择。但是训练数据也在不断增加，在多个数据中心存在多份数据拷贝的成本也越来越大，如何在保证性能的前提下，让数据按需跟随算力进行流转就成为大模型厂商和存储厂商一起要解决的一个难题。

本次演讲将详细介绍焱融针对多数据中心场景下大模型训练和推理的高效存储解决方案，不但能在单个数据中心提供海量小文件场景下的高吞吐高 IOPS 性能，也能够让数据按需跟随算力进行流转。此外演讲还会介绍焱融在大模型训练和推理阶段的IO优化手段。

听众将深入了解大模型训练和推理过程中存储的访问特点，同时也将掌握大模型在多云环境下的数据流转策略，确保数据在多个云平台间流畅、安全地迁移与同步；此外，针对多模态大模型处理海量小文件的场景，演讲还将分享性能优化手段，以提升存储系统在处理这类场景时的效率和稳定性。

百融云创AI创新负责人陈昀彰

陈昀彰，百融云创AI创新负责人，大数据及机器学习专家，SaaS和云计算专家，有超过12年的相关实践经验，参与过多个大数据和人工智能领域创业团队从成立到提交上市的完整过程。在推荐系统、自然语言处理、机器学习、隐私保护计算、大语言模型等方面有实际产业落地经验。深度参与国内最早的商品和资讯推荐引擎的设计开发，参与推动分布式数据处理、机器学习和知识图谱等技术在国内金融风控领域中得到广泛应用。成功实施过传统产业互联网的全面数智化转型。

演讲主题：《基于产业大模型的金融场景应用创新与落地探索》

内容概要： 本次演讲将分为两部分，第一部分讲述对大模型的价值判断，将从模型到应用场景不断渗透；第二部分讲述大模型在百融云的落地实践案例及应用数据

Zenlayer行业拓展总监陈秀忠

陈秀忠（Adam），Zenlayer行业拓展总监，北邮光纤通信博士，拥有13年云计算行业经验。曾在信通院标准所、阿里巴巴和大河云联从事基础网络研究和架构设计。于2018年加入Zenlayer，专注帮助众多出海客户构建全球基础网络，涵盖游戏加速器、跨境电商、公有云、金融、RTC、社交娱乐和智能硬件等领域。在工程师和销售岗位积累了丰富的实践经验和深刻的见解。

演讲主题：《大数据、大算力与大模型驱动下的全球广域网挑战与策略创新》

内容概要： 随着AI技术的迅猛发展，大数据、大算力与大模型成为推动科技前进的三大核心力量。然而，全球广域网在支撑这一技术革新的同时，也面临着前所未有的挑战。

数据的高效流动与安全保障，算力资源的优化配置与协同工作，以及训练与推理节点间的网络性能优化，这些都是当前全球广域网亟待解决的问题。尽管现有的广域网技术能够为我们提供一定的支持，但长远来看，我们或许需要构建一套面向AI的Global WAN 解决方案，以更好地满足AI应用对数据流动、算力组合与网络性能的高标准需求。

Zenlayer将在此次演讲中深入剖析这些挑战，分享我们在全球广域网领域的最新研究成果与实践经验，并提出创新的应对策略。

02、 智猩猩具身智能技术研讨会

部分嘉宾

优必选副总裁、优必选研究院执行院长焦继超

焦继超，优必选副总裁、优必选研究院执行院长；北京理工大学博士，美国亚利桑那州立大学访问学者；承担国家重点研发计划、国家863、国家自然科学基等项目10余项，发表论文50余篇。

报告主题：《具身智能人形机器人关键技术的进展和趋势》

内容概要： 具身智能机器人在国际和国内的发展呈现出显著的技术创新和广泛的应用前景。国际上，情感智能技术的提升使机器人能够更准确地感知和模拟人类的情感表达，进一步提升了人机互动的自然性。在学习与适应性方面，国际研究团队在引入增强学习、迁移学习等技术的同时，推动了机器人在不同环境中更灵活地适应新任务的能力。人形机器人在国际上的发展日益引人注目，各种产品通过具身智能技术模拟人类社交行为，提供更为亲密和有趣的用户体验。

国内方面，人形技术研发和创新在感知技术、运动控制、人机交互等方面都取得了显著进展。在应用领域，国内企业积极拓展具身智能机器人的应用范围，涵盖家庭服务、教育辅助、医疗护理等多个领域。政府对具身智能机器人产业的支持力度逐渐增加，产学研相结合的合作模式推动了相关技术的落地和产业化。

未来发展趋势方面，具身智能人形机器人将更加强调跨学科融合，涉及心理学、神经科学、计算机科学等多个领域，以提高机器人在模拟人类行为和感知方面的真实度和深度。全球范围内的合作与标准制定将成为推动具身智能人形机器人领域可持续发展的关键因素，促使技术的互通与共享，实现全球产业的协同推进。

北京通用人工智能研究院研究科学家、通用视觉实验室负责人黄思远

黄思远博士是北京通用人工智能研究院（BIGAI）的研究科学家，并担任通用视觉实验室负责人。他在加州大学洛杉矶分校（UCLA）统计系获得博士学位。他的研究旨在构建一个能够理解和与三维环境交互的类人通用智能体。为实现这一目标，他在以下方向做出了贡献：（1）开发可泛化的视觉表征以用于三维重建和语义落地，（2）建模并模仿人类与三维世界的复杂交互，（3）构建擅长与三维世界和人类交互的具身智能体。他的研究发表于四十余篇CVPR/ICCV/NeurIPS/ICML等会议及期刊论文，并曾获得ICML Workshop最佳论文。在通院，他致力于开发能理解三维物理世界的具身智能体和视觉机器人。

报告主题：《让具身通用智能体理解三维世界》

内容概要： 创造通用智能体是人工智能研究的终极目标。目前，绝大多数智能体缺乏理解三维世界并构建世界模型的能力。如何让智能体理解三维世界并进行推理和交互是要解决的重要问题，也是通向通用人工智能的一个重大瓶颈。这次的分享将主要介绍近期我们几项研究工作是如何尝试解决这些瓶颈问题。

上海人工智能实验室青年研究员曾嘉

曾嘉，上海人工智能实验室青年研究员，OpenDriveLab团队核心成员，博士毕业于上海交通大学。主要从事计算机视觉、具身智能、自动驾驶等方面的研究，致力于结合扩散模型与视觉语言模型实现泛化的机器人运动控制。在CVPR、IEEE T-PAMI、IEEE JBHI等高水平期刊和会议发表论文30余篇。多次担任CVPR、ICML等顶会审稿人。曾获华为ICT大赛全国总决赛特等奖、上海交通大学“谷歌杯”学生创业大赛银奖等。

报告主题：《面向具身交互的视觉表征预训练方法研究》

内容概要： 近年来，在大语言模型、多模态大模型等新兴技术的加持下，具身智能领域发展迅速。以谷歌发布的PaLM-E、RT-2等为代表的具身多模态大模型，在跨场景、跨任务方面提升了机器人运动控制的泛化性。而对于具身多模态大模型而言，良好的视觉表征能力是其理解实时环境的基础，其效果很大程度上依赖于视觉表征的质量与表现力，因此视觉表征预训练方法尤为重要。且考虑到机器人数据的稀缺性，可利用大规模人类视频数据集来提取可泛化特征，以用于视觉驱动的运动控制策略学习。

本次报告将深入讲解最新提出的视觉表征预训练方法MPI。MPI通过预测交互帧以及定位交互对象，使模型对于“如何交互”和“在哪里交互”有了更好地理解，增强了编码器捕捉操作过程中的行为模式及交互特征的能力。且在多个下游机器人任务上，MPI相比于R3M、MVP、Voltron等表征学习方法取得了显著的提升。

香港大学在读博士、EmbodiedGPT一作穆尧

穆尧，香港大学在读博士，师从罗平教授，共在 NeurIPS, ICML, ICLR, CVPR, IJCAI，IEEE TNNLS等顶会顶刊发表论文14篇, 累计发表文章20余篇, 曾获 ICCAS2020 大会最优学生论文奖，IEEE IV2021 最优学生论文提名奖等多项学术奖励, 于2021年在清华大学取得硕士学位，荣获香港博士政府奖学金，香港大学校长奖学金，国家奖学金，清华大学优秀硕士毕业生，清华大学优秀硕士论文奖等荣誉称号。研究方向: 具身智能、强化学习、机器人控制和自动驾驶。个人主页：yaomarkmu.github.io

报告主题：《具身智能大模型与通用机器人系统》

内容概要： 随着AIGC的迅速发展，具身智能与通用机器人系统已成为研究的前沿领域。通过整合大模型、CV和机器人控制等先进技术，我们正朝着更智能、自主和高效的机器人系统迈进，并在多领域发挥重要作用。

本次报告将聚焦于具身智能大模型EmbodiedGPT，该模型面向开放世界，拥有具身认知、规划、执行的能力。接着将深入探讨RoboCodeX多模态机器人代码生成大模型及RoboScript通用机器人代码生成评测平台。RoboCodeX采用树状结构，将复杂的人类指令细化为多个以对象为中心的操作单元。RoboScript则致力于通过代码生成，实现机器人操作的快速部署；不仅验证了代码及仿真的准确性，还揭示了不同大模型在处理复杂物理交互时的性能差异。

科大讯飞人形机器人首席科学家季超

科大讯飞 - 中国科学技术大学联合培养博士，长期从事机器人与智能装备硬件关键技术及产品开发，涉及具身智能、强化学习运动控制等前沿方向。全国专业标准化技术委员会委员兼人形机器人工作组副组长，全国信标委人工智能分委会委员兼人形机器人工作组成员，AIIA 人工智能产业联盟具身智能工作组成员，安徽省机器人学会常务理事，合肥市“新一代信息技术”产业紧缺人才，美国项目管理协会“PMP”项目管理专业人士资格认证，科大讯飞超脑 2030 计划人形机器人专项负责人。

LLM、视频生成、AI智能体、具身智能玩家都来了！中国生成式AI大会4月18-19日北京开启

正文

请到「今天看啥」查看全文