12月5-6日,2024中国生成式AI大会(上海站)「GenAICon 2024」将在上海中星铂尔曼大酒店盛大举办。中国生成式AI大会已成功举办两届,迅速成长为国内生成式AI领域最具影响力的产业峰会之一。
此次也是中国生成式AI大会首次登陆上海举办,由智一科技旗下智能产业第一媒体智东西、AI与硬科技知识分享社区智猩猩共同发起。本次大会的指导单位是上海市人工智能行业协会。
大会上海站将设置“主会场峰会+分会场研讨会+展览区”。主会场将进行大模型峰会、AI Infra峰会,分会场将组织端侧生成式AI、AI视频生成和具身智能三场技术研讨会。主会场与分会场外则设有展览区。
上海站以“智能跃进 创造无限”为主题,将邀请50+位嘉宾带来致辞、演讲、报告和对话讨论,以前瞻性视角为大家解构和把脉生成式AI的技术产品创新、商业落地解法、未来趋势走向与前沿研究焦点。
已经迫不及待报名的朋友,可以先扫描下方二维码添加小助手报名啦!
目前,已有30+位嘉宾确认参与主题演讲、高端对话和圆桌Panel。接下来为大家一一介绍大会的部分嘉宾。
张直政,银河通用机器人合伙人,大模型负责人。曾任微软亚洲研究院主管研究员,主导多个copilot相关的基础模型和多模态大模型项目的研发,有丰富的AI模型、系统的研究、产品化和管理经验。中科大、哥伦比亚大学CSC联合培养博士生。获中国电子教育学会优博、安徽省优博、中科大优博、安徽省优秀毕业生等多个奖项。近三年在全球计算机视觉、具身智能、人工智能顶级会议和期刊上发表论文30余篇。
北京大学(临港)大模型对齐中心执行主任、北京阿莱门科技有限公司首席执行官 徐骅
徐骅博士,现任北京大学(临港)大模型对齐中心执行主任,北京阿莱门科技有限公司首席执行官。他是哈佛大学、多伦多大学和中欧国际工商学院的校友,拥有计算机、金融学和管理学学位。多年来,徐博士致力于人工智能技术在法律和医疗领域的创新应用,特别是在大模型开发与风险管理方面积累了丰富的经验,取得了卓越的成就。
在法律与医疗领域的交叉应用中,徐骅博士领导并设计了多个具有影响力的大模型项目。他与北京大学法学院合作开发了法律大模型ChatLaw,实现了法律咨询和诉讼流程的智能化升级,提升了法律服务的效率和公正性。同时,他主导了多家医疗机构的大模型应用及风险控制项目,设计并开发了低成本的大模型一体机,成功部署于多家医疗机构,显著提升了这些机构的风险识别、评估和管理能力。
徐博士在推动大模型技术创新的同时,始终秉持“安全可靠”的原则,率先引入大模型对齐技术,确保模型在复杂应用场景中的准确性和可靠性。他提出了全新的安全对齐方案,不仅显著提升了风险识别、评估和管理能力,还通过技术创新,引领了模型技术在金融、教育和工业等关键领域的落地应用。为建设和谐、安全的数字社会做出了重要贡献。
腾讯优图实验室天衍研究中心负责人、专家研究员 吴贤
吴贤,腾讯优图实验室天衍研究中心负责人,专家研究员,上海交通大学计算机博士。吴贤博士的主要研究兴趣包括自然语言理解,深度机器学习,医学大模型等。吴贤博士在Nature子刊,T-PAMI, NeurIPS, ACL, CVPR等国际顶级杂志会议上发表文章一百余篇,被引用超过5000次,有近50项美国和中国专利。吴贤博士获得过华夏医学科技一等奖,在国际MSCOCO评测中获得过第一名,也在ICDM知识图谱评测中获得了第二名的成绩。在加入腾讯之前,吴贤博士先后供职于IBM研究院和微软人工智能和研究部门。
演讲主题:《从深度学习到大模型,医学AI上的一些尝试》
内容概要:
在医学领域,几乎所有的通用 NLP 任务都可以找到相应的实际应用场景,例如医患对话、医学信息提取、疾病诊断、药物推荐以及报告生成等。目前,已有大量的研究将 LLM应用于医学领域,部分大型模型甚至已经高分通过了医师资格考试。然而,仍有许多问题需要进一步研究。本次分享旨在深度探索大模型技术在医学领域的研究和应用问题,包括训练效率问题,包括幻觉问题,包含在临床场景中实际遇到的问题等。
赵天成为联汇科技CEO兼首席科学家,浙江大学滨江研究院特聘研究员、博士生导师。赵天成本科毕业于加州大学洛杉矶分校(UCLA)电子工程学士学位。以全院第一的优秀成绩荣获2014级工程学院杰出毕业生奖,也是当年全校唯一获此荣誉的中国籍学生。随后赵天成博士就读于卡耐基梅隆大学(CMU),取得计算机博士学位,导师为Maxine Eskenazi教授(CMU人机交互中心(DialRC)主任和创始人,全球第一个实用人机交互系统Lets Go的创造者,全球第一个多模态、多领域人机交互平台DialPort的创建者),以及William W Cohen教授和Louis-Philippe Morency教授(William W Cohen教授于2017年时提出了向量知识库理论,目前为谷歌首席科学家;Louis-Philippe Morency教授于2018年提出多模态AI)。
赵天成博士曾多次担任国际顶尖会议和期刊的审稿人和区域主席,在国际顶级会议和期刊上发表论文40余篇,获得最佳论文奖2次,Google Scholar 引用次数超过2200次,高引论文引用次数2022年全球排名32。2016年同导师发表的《Towards end-to-end learning for dialog state tracking and management using deep reinforcement learning》是最早利用深度学习打通自然语言模态与数据库模态的工作之一,当年获得最佳论文奖。2018年开始接触视觉语言预训练大模型方面的研究,提出了包括多模态视觉对话系统、大规模稀疏向量视觉语言匹配算法等一系列成果,2018年获得微软研究院颁发的杰出博士荣誉(Best & Brighest PhD)。
演讲主题:《以多模态智能体为中心的AI原生应用和开源生态》
内容概要:
智能体作为应用前沿,正在重塑技术与场景之间的互动方式。
本次演讲以智能体的开发与应用为核心,重点介绍Om Agent平台在AI原生应用中的实践,包括如何快速构建、部署和管理AI原生应用,让每个智能硬件设备具备人类认知级别的智能体,快速适应、赋能各种场景,以及在不同行业与领域的原生应用案例。同时,强调构建开源生态也是推动智能体应用创新的重要依托,更多开发者的加入与应用的产生将能够服务更广泛的用户,让每个人都能真正地享受到技术创新成果。
梁鼎,VAST CTO,清华大学本硕,师从戴琼海院士,创新领军工程博士在读,师从周杰教授。曾任商汤通用模型负责人,垂类语言大模型负责人。带领数百人团队,负责人工智能算法研发,支撑公司核心业务,创造了多个行业第一。论文50余篇,引用过万,专利100余项。
演讲主题:《大模型加持,3D AIGC的发展与应用》
西湖心辰CEO、西湖大学深度学习实验室成果转化负责人 醒辰
2008年加入阿里巴巴集团,参与了APEC会议、网商大会等重要会议的策划与执行工作。2011年,她加入淘宝大学,致力于提升淘宝头部商家的企业管理及经营能力。2014年,作为创始团队成员之一,共同筹建湖畔大学,负责学员招募、企业家课程体系的筹划以及学员和企业家的运营管理等工作,拥有15年深入研究企业家管理思想及企业发展实战案例的经验,主要的研究方向和成果主要集中在:
1. 基于中国本土实践的管理思想整理。
2. 长期追踪企业增长效率与社会责任平衡的可持续创新案例。
3. 通过行动研究与团体介入,研发并实践企业整体转型的方法论。
2023年作为CEO加入西湖心辰,极致力于推动心理评估和干预技术的创新与实际应用。巧妙地将经济学,社会学,心理学等多个学科的研究成果有机融合,为西湖心辰在大模型领域领域的蓬勃发展注入了源源不断的新活力,具备更强的情感识别及沟通能力,有力地推动了西湖心辰基于模型的长程对话能力在多领域开拓创新,领导团队在AI心理,AI陪伴等领域实现成果转化和商业落地,超长期国债-十四五102项重大工程项目等国家级项目的深入参与,发布国内首个端到端语音大模型等核心技术的突破等。
演讲主题:《让AI懂人心,说人话——多模态情感大模型的应用探索》
内容概要:
语言、文字的发明都是为了沟通和交流,在AI技术高速发展的今天,人机交流的种种矛盾也被放到台前。“AI不明白我的意思”,“AI理解不了我的心情”大众对此很有共鸣,也是一定程度上排斥AI的原因。AI的智商虽然关键,情商更为重要,它是AI与人类和谐共存的基石。
怎么让AI模型懂人心?说人话?西湖心辰自创立以来一直深耕打造“高情商”“超拟人”的AI模型,并且持续探索其应用边界,以期为公众带来福祉并创造社会价值。
在本次演讲中,将重点介绍我们的模型能力在心理领域的落地应用,包括端到端多模态识别与交互、长程对话能力以及情感感知等关键能力。用实际案例证明AI模型不论是基于文字还是语音都能懂人心、说人话,共同探讨AI在个性化心理健康服务领域的未来发展。
贾朔,趣丸科技副总裁,伦敦艺术大学硕士。贾朔带领团队孵化的唱鸭APP首次普及了无弦“弹唱”玩法,降低了“玩音乐”门槛,获得华为最佳应用、小米年度应用。入选文旅部“文化和旅游数字化创新实践十佳案例”。2024年,贾朔带领团队自研的全球首个多模态音乐生成大模型——天谱乐AI,荣获中国人工智能学会主办的第三届琶洲算法大赛全球总冠军。
演讲主题:《让每个人体验音乐创作——音乐生成大模型的创新实践》
内容概要:
随着AIGC技术的成熟和广泛应用,AI和音乐可以碰撞怎样的火花?如何降低门槛让普通用户体验音乐创作的乐趣?趣丸科技推出了自主研发的全球首个多模态音乐生成大模型——天谱乐AI。该模型集成音频处理、深度学习及大数据分析等领先技术,不仅支持文生音乐、音频生音乐,还首创图片/视频生音乐功能,生成的歌曲自带人声唱词,效果达到专业发行水准。
本次演讲聚焦AI音乐,重点分享趣丸科技自研的音乐生成大模型天谱乐AI的初衷、产品研发、应用实践和愿景。AI音乐工具不仅是技术的堆砌,更是用户情感的载体。天谱乐AI通过技术创新降低音乐创作门槛,让用户不再受限于专业的乐理知识,复杂的音乐制作流程和昂贵的版权费用,就可以轻松通过音乐创作记录生活的切片,在创作中提升审美自觉和音乐生产能力。
温永腾先生现负责BV百度风投人工智能应用赛道,关注生成式AI技术及应用的投资机会。他从事科技领域投资多年,曾主导投资了西湖心辰、生数科技、诗云科技、云舶科技、数字力场、粒界科技等科技公司。
温永腾先生拥有复旦大学理学学士。在加入BV百度风投前,他曾是以太资本早期团队成员、科技领域负责人,协助momenta、擎朗科技、彩云科技等科技企业完成融资;蔚来资本高级投资经理,负责出行、车联网及早期技术投资,深度参与嘀嗒出行、四维智联的投资与运营管理工作。被评选为36氪暗涌2024届Under36投资人。
李龙飞,蚂蚁集团资深算法专家,在蚂蚁工作十年,主要研究方向包括:逻辑学习,因果学习,自动学习,大模型等方向,在NeurIPS,ICML,KDD,SIGIR等会议上发表论文70余篇余篇,主导参与了蚂蚁内部的多个核心平台和项目,获得了ccf2020科技进步卓越奖,吴文俊2023科技进步一等奖等。
演讲主题:《生成式大模型在蚂蚁内部的应用和挑战》
演讲概要:
生成式语言大模型在近两年取得了突破性的进展,在蚂蚁内部也有大量的业务在应用llm来进行各种各样的业务改造和创新,并取得了一些结果,例如蚂蚁的支小宝,医疗管家等业务。在业务应用LLM的过程中也遇到了一些挑战,主要集中在可信,以及效率等方面,例如在模型的部署服务过程中,就面临资源利用率,推理速度等效率相关的问题,在用户的应用过程中也遇到一些和大模型幻觉相关的挑战,本次分享会介绍蚂蚁在这两个方面上的一些工作和尝试。
上海交通大学副教授、无问芯穹联合创始人兼首席科学家 戴国浩
戴国浩,上海交通大学副教授,无问芯穹联合创始人兼首席科学家。承担包括国家自然科学基金青年项目在内的多个纵横向项目,个人负责经费超千万元。
戴国浩在电路设计自动化、异构计算、体系架构等领域发表高水平论文60余篇,谷歌学术引用千余次。担任Ph.D. Forum at DAC 2024 联席主席。获ASP-DAC 2019/ DATE 2024最佳论文奖、DATE 2023/ DAC 2022/ DATE 2018最佳论文提名、WAIC 2022优秀青年论文奖。获WAIC 2022云帆奖、NeurIPS21 BIGANN 竞赛全球冠军。
King.Cui,GMI Cloud 亚太区总裁,14+年云计算经验,历经产品研发、解决方案、销售管理。前阿里云资深总监,带领团队完成年销售额数百亿RMB;中国云计算早期开拓者,前百度云创始团队成员。不仅拥有丰富且敏锐的商业洞察力和丰富的行业解决方案经验,还拥有深刻的云计算技术理解力和发展趋势判断力。
演讲主题:《全球化布局:AI 企业如何补齐算力短板,保障GPU集群稳定性?》
内容概要:
随着全球数字化进程的推进,越来越多的企业希望将自己的 AI 应用拓展到海外市场。然而,AI 出海面临诸多挑战,本次演讲重点关注如何突破算力挑战。
稳定的 GPU 集群对突破算力挑战至关重要。GPU 集群能并行处理海量数据,其稳定性确保计算持续高效。通过合理架构设计、优质硬件支持、智能监控和维护系统等,可保障集群稳定,释放强大算力。GMI Cloud作为一个基于高稳定性 GPU 集群的云计算平台,便为 AI 应用出海提供一系列服务和支持。
本次演讲,将介绍AI出海常见的基础设施问题以及高稳定性的重要性,并着重探讨如何利用 GMI Cloud 的优势,帮助企业突破算力挑战。之后,还将通过成功案例,分享 GMI Cloud 在不同行业应用的实践经验。
高雪峰,枫清科技 Fabarta 创始人兼 CEO,拥有近二十年大数据与人工智能领域工程与市场经验,曾担任阿里云大数据& AI 技术产品总经理、IBM 认知计算解决方案研究院院长,负责 IBM Watson 等世界领先 AI 技术在中国的落地。曾带领团队打造出多款具有国际影响力的大数据和 AI 相关产品,服务全球上万家企业级客户,助力企业实现数智化转型。
通过创新资产的孵化与研发(50+)带动全球 IBM GBS (咨询)团队全年完成近$500M 的全球资产营收;创新资产规模化复制,帮助全球客户打造认知型企业,客户覆盖北美、欧洲、大中华区、亚太等核心市场;IBM Watson Health Genomic Analytics 产品创始人之一,带领全球研发团队(日本,北美,中国,以色列团队)实现了 Watson Genomic Analytics 产品 0 到 1 的实现;IBM Master Inventor,拥有 20+个人技术专利,在技术创新及落地应用上有丰富的实践经验;
曾任阿里云副总裁,计算平台产品与解决方案总经理;阿里巴巴大数据& AI 产品解决方案总架构师;阿里巴巴大数据生态联盟&生态投资负责人;负责阿里云大数据& AI 体系的规划和产品技术演进,负责阿里云大数据体系的全球市场拓展沉淀,负责大数据&AI 领域的产品技术生态发展,带领团队为52000+公有云客户和600+专有云客户提供先进可靠的大数据& AI 产品服务和解决方案;成功通过对产品能力和方向的改造将阿里云大数据和 AI 的产品带入了业务高速增长的轨道,实现了 BU 20 亿营收的突破(100%+增速);在大数据和人工智能领域,以及 To B 的行业积累上有非常丰富的技术与商业的经验。
张颖峰,英飞流 InfiniFlow 联合创始人,连续创业者,先后负责多年搜索引擎,数据库内核,云基础架构和大数据架构,以及人工智能核心算法研发,包括广告推荐引擎,计算机视觉和自然语言处理。先后主导并参与多家大型企业数字化转型,支撑日活千万,日均两亿动态搜索请求的互联网电商业务。自InfiniFlow创业一年以来,已孵化了2个开源AI项目,一个是开源半年多就获得2万多github星标的RAG引擎RAGFlow,一个是专用于RAG场景的AI原生数据库Infinity,后者服务前者,共同解决LLM落地的普遍痛点。
演讲主题:《新一代企业级多模态RAG引擎》
内容概要:
LLM正在对企业软件生态进行重构,RAG已经成为企业级LLM应用的标准化架构。然而,RAG并非简单的搜索系统,它需要针对来自企业的各种非结构化数据作出处理,准确识别用户意图,帮助LLM在上下文窗口内定位到足够精准的片段,这就意味着它必须成为AI和Data协同工作的最具代表性的载体和场景。随着LLM多模态能力的增强,RAG也需要步入多模态时代,它并不限于对日常图片,音视频的检索增强,还应该涵盖当下占据大部分的非结构化文档,发掘出这些数据的商业价值。本演讲结合我们在过去的工作,从基础设施角度来给出多模态RAG的工程实践,以及未来如何迭代和演进的趋势。
王楠博士,Jina AI的联合创始人兼首席技术官,博士毕业于德国波鸿大学计算神经科学专业。之后曾在欧洲知名电商Zalando和腾讯公司担任高级算法工程师,负责搜索和推荐业务,并在这些领域积累了丰富的模型设计、实现和部署经验。
自2020年起创立Jina AI,作为联合创始人兼CTO,王楠博士领导团队开发及开源了神经搜索框架jina。作为Linux Foundation AI&Data基金的TAC成员,他推动DocArray从Linux Foundation AI&DATA毕业。王楠博士组织开发和开源了多个文本和多模态向量模型,全球累计下载量超过1000万。王楠博士热衷于AI技术在搜索领域的实际应用,并且积极推动AI技术的开源发展,他在AI技术领域的杰出贡献使他荣获2023年中国开源先锋33人的称号。
演讲主题:《从长窗口到多向量:RAG范式下AI Infra的机遇和挑战》
内容概要:
在本次演讲中,我们将深入探讨RAG(Retrieval-Augmented Generation)范式在大模型的实际应用中遇到的机遇和挑战。RAG不仅能够补足大模型记忆的不准确性,还有效降低了注入新知识的成本,尤其是在私有知识的访问方面表现出色。尽管长窗口大模型技术取得了长足进步,但其并不会取代RAG范式,反而推动了RAG依赖于支持长窗口输入的向量模型的需求。我们将讨论jina-embeddings作为全球首款支持8k窗口的开源向量模型的成功,以及长窗口输入逐渐成为多模态向量模型的新标配。尽管如此,长窗口模型带来了信息丢失和推理成本上升的挑战,这也催生了多向量表示的需求,以弥补单一向量带来的信息缺失。例如,ColBERT和ColPali分别针对文本和图文内容提供了多向量表示方案,然而支持多向量的AI基础设施仍然不足。此外,RAG的PoC阶段面临着GPU推理成本高、资源利用率低的问题,市场缺乏类似Modal lab的GPU共享服务。通过本次演讲,我们将总结RAG范式的长期发展前景,阐明向量模型在长窗口和多模态输入上的进化需求,并探讨AI基础设施如何更好地支持多向量表示和GPU共享,以降低RAG的应用成本。
朱国梁,中昊芯英(杭州)科技有限公司芯片软件栈负责人,国防科技大学博士,主要研究方向为分布式系统、操作系统、编译器。曾参与国家重大项目天河系列超级计算机研制工作、神威太湖系列超级计算机研制工作、一款国产芯片操作系统以及编译器研制工作。加入中昊芯英后,组建芯片软件研发团队实现芯片底层软件全栈,实现主流大语言模型的推理和训练。
演讲主题:《国产 TPU 芯片“No CUDA”软件栈的构建实践》
内容概要:
国产自研高性能芯片面临的诸多挑战中,性能和生态是两个不能避免的话题。英伟达的 CUDA 生态帮助了很多类 CUDA 架构公司解决了可用性和部分性能问题,但也带来了诸多自主可控上的担忧。
本次演讲将从实际的芯片软件栈构建思路出发,结合实际 AI 芯片软硬件架构,介绍在真实的大模型落地实践中,多层次软件栈实现所面临的问题、挑战、以及过程中的选型决策。
郭文,北电数智智算云负责人,主要负责芯片适配和智算云平台的开发工作;硬件开发、软件开发、算法开发、芯片研发和集群研发等专业领域深度研究人员,曾带领团队设计并研发了两款AI芯片,并将其集成至大模型训练和推理系统中,及开发支持多种国产芯片进行高效的推理、训练及混合训练的分布式大模型训练推理框架;历任三星、飞思卡尔等国际化公司的研发管理工作,也曾在歌尔、商汤等公司成立并带领研发团队实践攻关完成前沿领域的重大研发项目。
毛玉杰,从事 WebRTC 技术领域工作超过10年,2011年毕业于华东师范大学,同年任职于英特尔,参与Android,Chromium以及WebRTC在x86平台上的开发与性能优化工作,2014年成为WebRTC 开源社区Committer,2015年加入声网,担任声网WebRTC技术负责人,主导并负责WebRTC在各类Web平台上的架构设计与研发,2024年,担任声网生成式AI产品负责人,主导并负责RTE x AI产品方向的发展与落地
傅正佳,Alluxio首席架构师。本科毕业于上海交通大学电子系,随后取得香港中文大学信息工程博士学位,毕业后加入新加坡高级数字科学中心(美国伊利诺伊大学在新加坡的研究所)从事科研工作,在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前,傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。
演讲主题:《构建大模型时代的高性能AI数据底座》
内容概要:
随着AI技术的发展,尤其是大模型技术的应用,数据量呈现爆炸性增长。AI训练和推理需要处理的数据集规模从几TB增长到PB级别,与此同时,数据往往来自多个数据源,很多数据存放在不同的云服务中。当AI算力集群从这些数据源获取数据时,很容易遭遇带宽低下、延迟较高的困境,使算力资源的宝贵时间白白浪费在等待数据这一环节上。Alluxio 通过帮助企业构建大模型时代的高性能AI数据底座以应对I/O挑战,提升AI算力的效率与性能,被广泛应用于模型训练与推理、自动驾驶、AI制药、金融量化以及视频渲染等场景。
本次演讲,首先会介绍常见的 I/O 挑战及其对 GPU 利用率和整体性能的影响,并着重讲解如何将高性能数据访问层无缝集成到 AI 流水线中,以减少 I/O 开销。最后,将结合实际案例分享提高 AI 工作负载性能的缓存策略。
杨华,RockAI CTO、联合创始人,毕业于上海交通大学,在自然语言和多模态大模型领域拥有深厚的技术积累与应用实践,先后曾担任百度核心算法工程师、复星·杏脉算法VP。目前致力于多模态实时人机交互与自我进化式机器学习体系的研发。
联想集团首席研究员、联想研究院人工智能实验室研发总监 师忠超
师忠超,博士,联想集团首席研究员,联想研究院人工智能实验室研发总监,正高级工程师,中关村高聚工程创新领军人才,目前担任科技部专家,工信部专家,北京邮电大学,天津大学企业导师,中国计算机学会智能交通分会常务委员,计算机视觉专委会委员。已申请专利240余件,在CVPR,AAAI, ACMMM等国际会议上发表论文30余篇。负责人工智能平台和大模型研发,主持开发系统入选中国人工智能Top100案例名单,获评最佳AI产品和技术奖,并获北京市科学技术奖二等奖,CCF科学技术奖科技进步奖等。基于大模型技术在业界发布第一个AIPC产品,助力公司AIPC业界领先。
王欢,浙江大学学士、硕士,美国东北大学博士。2024年6月加入西湖大学工学院任助理教授,创立高效智能计算实验室(Efficient Neural Computing and Design Lab, ENCODE Lab),担任独立PI、博导。研究领域为高效人工智能、神经渲染、计算机视觉;专注于高效人工智能相关的理论、算法、应用研究,致力于让前沿AI算法落地;偶尔关注人工智能与哲学、社会学交叉领域。曾在Google / Snap / MERL / Alibaba等业界研究机构实习。发表顶会顶刊论文30余篇。在西湖大学教授《计算机和程序设计基础》本科生通识课程。
吴炜,爱芯元智智慧IoT事业部产品总监,爱芯元智智能视觉领域的资深专家,同时也是公司视觉智能技术的主要规划和推广者之一。拥有十多年的产品规划经验和十年的硬件设计经验。在大型模型及AI-ISP对终端产品的应用和量产方面积累了深厚的专业知识与实践经验,致力推动智能视觉技术的发展和应用落地。
演讲主题:《多模态大模型在端侧的创新实践与挑战》
内容概要:
随着大模型的发展,AI已从简单的图像分类识别功能,升级为对视频、音频、文字等多模态信息的整合分析,实现对内容更深刻的理解。多模态大模型已成为推动各行各业发展的重要力量。然而,要将大模型应用于端侧设备,面临着算力、带宽、功耗和成本之间的多重平衡挑战。爱芯元智致力于打造世界领先的AI芯片,积极布局多模态大模型,助力大模型在端侧的普及和高效部署。
本次演讲,将通过展示实际应用案例,探讨多模态大模型如何在更广泛的应用场景中发挥更大的价值。同时,还将与行业伙伴共同探索大模型在端侧应用的无限可能,推动“普惠AI,造就美好生活”的使命。
陈巍博士,大模型+AI芯片专家,高级职称,中存算等企业董事长。国际计算机学会(ACM)、中国计算机学会(CCF)专业会员,多个国际人工智能期刊审稿人。主要研究方向为大模型架构、稀疏量化压缩与部署加速,存算一体与3D Chiplet处理器,相关技术成果已被广泛应用于知名IDC和互联网企业。
曾任领域知名人工智能(自然语言处理)企业首席科学家,中国科学院副主任(2012),多个国家科技重大专项课题负责人。中国与美国发明专利软件著作权约70+项(约50+项发明专利已授权)。著有《Sora大模型技术精要—原理、关键技术、模型架构与未来趋势》《GPT-4大模型硬核解读》《ChatGPT大模型技术精要—发展历程、原理、技术架构详解和产业未来》《智能网联汽车:激光与视觉SLAM详解》等。
演讲主题:《视频大模型架构对比及长序列模型加速》
内容概要:
随着大模型技术的快速发展,视频大模型(VLM)正与短视频产业结合并迎来新的爆发机遇,逐渐成为互联网应用的热点。
本次分享从视频大模型与世界模型的角度,对比主流视频生成大模型架构,探讨视频生成的关键技术(包括NaViT、RADM等),分析视频生成类大模型的主要挑战与发展趋势;探讨内存墙(Memory Wall)和通信墙对视频大模型GPGPU/TPU集群训练和部署的挑战,并针对这类视频长序列模型的算力芯片级训练部署,结合具体项目给出软硬结合的解决方案与系统经验。
晏轶超,上海交通大学人工智能研究院助理教授,博士生导师。获上海交通大学电子工程系学士、博士学位,法国里昂中央理工学院硕士学位,曾担任阿联酋起源人工智能研究院研究科学家。主要研究方向为AIGC及三维数字人技术,发表包括TPAMI、CVPR、NeurIPS在内的论文40余篇。先后主持国家自然科学基金青年项目、CCF-阿里巴巴青年科学家基金等项目8项。曾入选上海市海外高层次人才计划,获2020年度中国图象图形学学会优秀博士论文奖。
李璋,拥有中国科学院软件工程硕士学位,是生成式人工智能领域的资深技术专家。在深度学习、算法优化以及大模型研发方面具有深厚的理论基础和丰富的实战经验。在新壹(北京)科技有限公司担任AI算法主任架构师,主导设计并研发了多个具有行业标志性的AI项目。设计与研发了“新壹视频大模型”——国内首个专注于视频生成的生成式AI大模型。该模型在视频内容生成、理解与优化方面取得了突破性成果,为推动国内生成式AI技术在视频领域的实际应用提供了强有力的支撑。
演讲主题:《视频垂直大模型在智能数字人生成中的应用》
内容概要:
在生成式AI技术蓬勃发展的背景下,智能数字人已成为内容创作、虚拟助手和人机交互等领域的重要应用之一。然而,传统生成模型在高精度、多模态的智能数字人生成中仍面临诸多挑战。为此,垂直领域的大模型提供了一条全新路径。
本次演讲,首先会介绍从通用大模型到垂直大模型的演进,之后将着重讲解新壹视频大模型的整体架构设计及其在数字人视频生成与优化中的核心技术突破;此外,还将对智能数字人生成的技术难点,包括数字人生成中实现自然语言驱动动作与表情生成的关键技术等进行深入分析,并分享视频垂直大模型驱动的智能数字人在相关领域的典型应用案例。
李华东,旷视研究院高级研究员,硕士毕业于清华大学计算机系。研究方向为计算机视觉,主要包括视频生成与理解,深度估计等,已在ECCV,AAAI等人工智能顶级会议上发表多篇论文。
演讲主题:《可控人物视频生成》
内容概要:
短视频、影视和游戏动画创作正在迅速发展。然而,传统的视频制作过程耗时耗力,通常需要大量的人工后期编辑。视频生成大模型算法提供了一种低成本、高效的高质量视频内容生成解决方案。但视频生成算法生成的内容可控性不足,限制了其实际应用的有效性。因此,如何实现视频生成内容的可控性仍是一大关键挑战。
在本次报告中,我将介绍 MegActor 系列工作,这是一种支持混合模态控制的人像视频生成算法。该算法支持角色自定义(包括真实人物、二次元人物和游戏人物等),并能够通过视频、音频和文本输入实现单独和混合控制。其功能涵盖了控制角色说话、唱歌和生成表情动画等。MegActor 系列是社区内的首个开源可控人物视频生成大模型,将持续优化以推动技术的不断发展。
上海科技大学信息科学与技术学院助理教授、博士生导师 顾家远
顾家远,上海科技大学信息科学与技术学院助理教授,博士生导师。博士毕业于加州大学圣地亚哥分校,师从苏昊教授。2018年本科毕业于北京大学信息科学技学院智能科学系。研究方向为具身智能,聚焦于服务于具身智能的三维视觉和可泛化的机器人决策模型,在计算机视觉、机器学习、机器人等国际顶级学会会议(CVPR,NeurIPS,ICLR,ICRA等)上均有发表。参与的项目Open X-Embodiment获得了ICRA 2024的Best Paper Award。同时,他也担任相关领域会议的审稿人,并在RSS,ECCV,CVPR等学术会议上组织过相关的研讨会和教程。
演讲主题:《服务于具身智能的仿真评估平台和数字资产》
内容概要:
在具身智能领域,通用机器人决策模型的开发取得了显著进展。然而,收集真实世界的训练数据和对这些模型进行真实环境下的评估仍然成本高昂。仿真技术提供了一种可行的替代方案,但其有效性高度依赖于多样且逼真的数字资产。传统上,这些资产主要由游戏产业创建,但随着具身智能的发展,对高质量数字资产的需求激增,以提高仿真环境的多样性和逼真度。这引发了一系列关键问题:这些资产的真实程度应达到何种水平?我们如何有效地创建这些仿真环境?在此过程中,哪些工具是必不可少的?在这个过程中,哪些工具是必不可少的?
在本次报告中,我将介绍最近的工作SimplerEnv,一个专为评估基于真实世界数据训练的决策模型而开发的仿真环境平台。该平台支持对多种通用机器人操作模型的评估,如RT-1和Octo。此外,我还将讨论另一个研究成果Point-SAM,一个3D原生工具,能够对三维部件和物体进行交互式分
王泰博士毕业于香港中文大学 MMLab,研究方向为具身智能和三维视觉。过往工作有近三十篇论文在顶级会议和期刊上发表,谷歌学术引用 2900 余次,多篇被选中做口头报告或获得满分评审,并多次在国际顶级竞赛中获得冠军。代表工作包括早期 FCOS3D 系列工作和近期 EmbodiedScan, GRUtopia 和 PointLLM 等,相关开源工作如 MMDetection3D 在学界和业界有广泛影响。曾获得 ECCV 最佳论文提名、ICCV 研讨会最佳论文、港府奖学金。
演讲主题:《大规模具身多模态三维感知》
内容概要:
近年来,大模型的成功以及模仿学习、强化学习等方法的突破持续推动着具身智能的快速发展。但这一领域仍然面临着数据匮乏的核心问题,大规模训练和评测仍存在客观瓶颈。生成式 AI 的进展为解决这一问题提供了重要路径。
本报告将聚焦于三维场景中具身多模态感知相关的具体任务,详细介绍团队利用多模态大模型的生成能力设计三维多模态数据的自动化标注管线,从而形成大规模三维物体、场景在不同粒度全方位的语料标注,构建带有显式三维建模和空间感知能力的具身感知基础模型,并最终利用大模型实现更符合人类判断的自动化评测。最后,报告将展望生成式 AI 在机器人交互数据方面的巨大潜力,同时探讨其潜在的局限性。
吕峻博士就读于上海交通大学,师从卢策吾教授,入选上海交通大学吴文俊人工智能荣誉博士班,目前是穹彻智能实习研究员。研究方向为具身智能,曾在IJRR、RSS、CoRL、ICRA、CVPR等具身智能顶级期刊与学术会议发表论文,曾以第一作者身份获得2023年RSS最佳系统论文奖提名。
演讲主题:《Real2Sim2Real:一种基于多信息源的具身操作技能开发系统》
内容概要:
数据是具身智能在今天面临的核心问题之一。如何利用来自不同信息源的数据,例如仿真数据、人类演示数据、静态视觉数据等,构建数据金字塔,共同实现具身操作技巧开发,降低对真实机器人数据的依赖与数据成本成为值得关注的课题。过去几年,我们构建了包含Real2Sim、Learn@Sim、Sim2Real模块的具身智能系统,旨在通过各类感知技术对现实物理世界进行建模,基于建模在人类演示数据、自然语言提示词等的指导下于仿真环境中学习开发特定的机器人操作技巧,并将仿真中学习到技能迁移到真实环境中。相关成果发表在IJRR、RSS、CoRL、ICRA等期刊与会议上,曾获选RSS 2023 Best System Finalist。
国地共建具身智能机器人创新中心数据智能负责人 李广宇
李广宇,国地共建具身智能机器人创新中心数据智能负责人,美国南加州大学电子工程系博士,具身智能和自动驾驶行业从业多年,主导构建了多家企业的数据驱动系统,包括滴滴出行多模态驾驶数据挖掘系统,覆盖滴滴百万量级网约车数据,轻舟智航数据驱动系统,支持超40万台乘用车,日均超百万公里的智能驾驶,以及国地共建具身智能创新中心数据闭环链路,并率先将多头注意力机制引入多智能体学习领域,大幅提升了数据驱动效率。
演讲主题:《数据视角下的具身操作》
内容概要:
数据稀缺是目前困扰具身操作研究的共识。从各种机器人整机、机械臂、灵巧手等本体厂家纷纷推出的遥操作采集系统,到以UMI为代表的低成本采集设备,再到各类人类操作动作捕捉方案,以及各种仿真数据合成方法。如何高效的获取具身操作数据,已经成为学术界和产业界的研究重点。
另一方面,针对不同途径获取的数据,具身数据金字塔的概念已经广为传播:下层是数据量大、获取成本低,但单位价值较低的互联网数据和仿真合成数据;顶层是采集成本昂贵,单位价值高的真机遥操作数据;而中间层是介于真机遥操作和仿真合成之间的,人类动作捕捉数据和仿真遥操作数据。同时当前的机器人数据中,本体构型丰富多样,传感器配置各异。如何有效融合多种来源,多种本体的具身数据,也是研究者和工程师的关注点。
本次报告中,我将梳理具身数据方向的各种技术路线,并介绍具身智能国创中心在数据方面的进展,包括数据采集和训练基地建设情况、数据集开源开放情况,以及一些围绕数据融合方向的探索和尝试。
与今年4月成功举行的北京站相比,2024中国生成式AI大会(上海站)在日程上也有所升级。两天的大会将进行两场主峰会和三场技术研讨会。
主会场将于12月5日举行大模型峰会,AI Infra峰会将在12月6日进行。在分会场,12月5日下午端侧生成式AI技术研讨会将率先开启;12月6日上午将举行AI视频生成技术研讨会,下午将进行具身智能技术研讨会。
2024中国生成式AI大会(上海站)的观众报名正在火热进行中。
上海站设置了三类电子门票,分别是免费票、通票和贵宾票。其中,免费票,申请后需经审核通过方可参会;通票和贵宾票均需购买。
大家可以扫描下方二维码添加小助手“泡泡”进行报名申请及购买电子门票。已添加过“泡泡”的老朋友,可以给“泡泡”私信,发送“GenAI24”即可报名。
有演讲需求、会议赞助的专家或企业也可以私信“泡泡”进行咨询。