摘要
海通证券举办的一次电话会议中,来自计算机行业的分析师对GPT4O的最新发布进行了全面的解析。会议重点关注了GPT4O在交互性、应用成本及推理成本方面所取得的显著进步,以及这些进步是如何推动国内外人工智能技术发展的。分析指出,OpenAI在人工智能领域的领导地位不容小觑,该公司与其他科技公司的合作也备受关注。此外,GPT4O在处理多模态数据、实现端到端处理能力以及改善用户交互体验方面的创新也被特别提及。
端到端的全模态大模型代表着一种新型的人机交互方式,它不仅让智能设备功能更为多样化,比如在支付和智能家居控制方面,还在教育和养老等领域显示出巨大潜力。模型的训练需要大量的数据支持,目前的做法是结合真实数据和合成数据来提升性能,但这也带来了如何有效利用数据以提高模型效率的问题。
讨论着重于多模态大模型的应用潜力及其面临的技术挑战。多模态模型能实现更丰富功能,如自动添加字幕或生成特定需求的音乐和内容,但实时性和准确性仍然是技术上的难点。个性化选项和模型与个人信息的结合被认为是未来发展的一个重要方向。此外,与教育、营销等领域的结合展示了多模态大模型的广泛应用前景,并对模型性能和效率提出了更高要求。
总体而言,会议深入探讨了GPT及其他大模型技术的最新进展、应用潜力及面临的挑战,强调了模型训练和优化的重要性,以及未来技术发展可能带来的积极影响。
问答
问:中科院
AI
专家向总将分享哪些关于
GPT4O
的最新进展和行业情况?
答:中科院AI专家向总将分享他们在2021年发布的关于多模态统一学习的研究成果,该成果与OpenAI的GPT-4O版本在方法上存在关联,尽管并非首个提出这一框架,但他们的工作验证了端到端全模态模型在资源充足情况下具有可行性,并预计国内在半年至一年内将有4到5家企业能够成功实现类似形式的全模态模型应用。
问:为什么端到端全模态模型对于机器理解人类交流具有重要意义?
答:端到端全模态模型对于机器理解人类交流具有重要意义,因为它解决了以往大模型处理人类日常对话时面临的诸多挑战,例如对停顿、语气词的理解和生成。传统的语音模型需要经过语音到文本、文本到文本、文本到语音等多个阶段处理,不仅耗时且会丢失信息。而全模态模型则能直接在推理过程中处理这些细节,显著提升了机器在人类对话中的理解和生成能力。
问:视频流处理的独特之处体现在哪里?
答:视频流处理的独特之处在于以往的大模型输入时只能一个模态一个模态地处理,而不能同时输入多个模态信息。而最新技术实现了并行式处理,即使在输入多个模态时,也能灵活地进行推理和测试。
问:模型架构和
ME
架构在视频流处理中的作用是什么?
答:模型架构的调整对实现视频流处理至关重要。若模型架构不变,仅通过增加输入接口以具备变形能力是无法做到这一点的。ME架构(模态专家网络架构)的掌控能力更强,它具备灵活的调度机制,能够更快地将不同模态的数据分配给不同的专家网络,避免等待现象,进而实现接近实时的处理效果。
问:对于
ME
架构,业界对其掌握程度如何,以及其在视频流处理中的具体应用情况是怎样的?
答:目前国内国外能做好ME架构的团队不超过5家。ME架构的应用需要对业务场景进行精细理解,尤其在模型和算法方面。以GPT5为例,内部可能有多个版本,其中128个专家网络版本可能面临负载均衡和灵活调度机制的挑战,若处理不当,可能导致数据偏向某些专家网络,整体利用率降低。
问:端到端全模态大模型是什么?它与以往模型有何不同?模型本身的能力体现在哪些方面?
答:端到端全模态大模型是一种将文本、声音、视频等多种模态信息融合处理的技术。国内在2021年率先提出这一概念,而Google则相对较早。相比于传统模型,端到端全模态大模型能够带来更舒适的用户体验,特别是在人机交互方面,它提供了全新的交互方式,有望在智能家居、教育、养老等领域引发业务层面的新增量。模型本身的能力不仅体现在对外展示的辅助面试、盲人环境识别、视频会议等应用场景,还体现在一系列未对外展示的项目中,这些项目涵盖了不同领域的需求,如辅助面试、盲人环境识别、视频会议等。此外,模型还实现了桌面版的GPT和AI UI界面的改写,使得AI技术能够更直接地与C端应用结合,且能够无缝切换至已接入OpenAI的应用程序,提供免费联网、数据分析等功能。
问:为何这次推出免费服务,其背后的意义是什么?
答:此次推出免费服务旨在快速收集用户端数据,帮助优化模型。相较于早期的海量数据,当前接近GP5阶段的数据已接近极限,单纯靠数据增量提升效果有限。因此,通过免费服务吸引更多用户使用,能够快速获取用户端的实时数据,以便更有效地训练模型,提升其性能和适应性。
问:在应用端,您认为未来哪些领域将受益于多模态大模型的应用?
答:我认为影视领域将受益颇多,比如结合影像册,可以利用全模态大模型在生成视频基础上添加字幕功能,直接将语音转为文本嵌入到视频中,极大地简化了字幕制作的过程。此外,音乐生成领域也将得到提升,不再受限于速度等限制,可以直接输出带声音和文本的音乐。对于教育领域,多模态大模型可以帮助快速出题和构建复杂题库,提高出题效率和准确性。另外,在营销、游戏和数据相关领域,多模态模型也有广泛应用空间。此外,随着交互方式的发展,个性化选项和与个人信息结合将成为未来的一个重要趋势,如ChatGPT计划增加个性化选项,结合用户信息提供更精准的服务。
问:多模态大模型如何改进了题库出题和考试系统的效率?
答:以前的题库导出AI自动出题时可能存在难度,特别是对于不同难度级别的题目,如小学、初中等。而多模态大模型的出现改变了这一现状,它可以更准确地感知不同模态之间的关联,在教育领域中,可以用于快速出题、复杂题库导入等方面,从而提高题库出题和考试系统的效率。
问:多模态大模型如何实现与个人信息的结合?
答:随着技术的发展,多模态大模型将更多地倾向于agent角色,这意味着用户与模型之间的交互将越来越个性化,模型会根据用户的个人信息提供定制化的服务。例如,在使用聊天机器人时,用户不再需要重新设定窗口,而是模型会基于用户习惯和熟悉程度提供更加贴合需求的服务。此外,模型在执行任务时将不再需要明确的目标引导,而是能够自行寻找执行目标的思维链路径,从而实现更高效的操作。
问:
GPTO
多模态能力背后的技术难度有多大?能否实现真正的大一统?
答:技术难度方面,从想法上来讲,不算很难。大约在2012年左右,就有构建文本到视觉等多个模态之间统一语义映射的想法。其基本思路是通过构造跨模态的编码器和解码器,将各个模态的信息进行统一处理。虽然这种想法很自然,但在实际操作中,尤其是涉及跨模态训练和样本级别学习时,需要做到token级别的训练,并处理不同模态之间的关系。同时,受限于数据量级和算力,像谷歌等公司无法实现与国内大模型公司相似的效果。
问:国内大模型公司何时能够实现低时延的云交互?需要改进的是模型性能还是工程处理?
答:国内大模型公司预计在3到4个月内,部分厂家会研发出低时延的云交互技术并发布。这部分厂家具备一定的算力和数据积累,在快速追赶国外模型能力方面表现优异,且有创新想法。追赶的关键在于改变模型学习方式,实现模态之间的端到端连接,如将视频模态离散化并插入到文本token中。此外,工程层面需要解决实时交互能力,特别是视频测流式编码技术,这是当前难点所在。
问:在实现语音和视觉的实时交互方面,
OpenAI
和苹果
Siri
在速度上有何差异?
答:语音和视觉的实时交互方面,OpenAI的语音交互表现更快,而视觉交互速度相对较慢。这主要是由于OpenAI在视觉交互方面的技术能力暂时无法达到语音交互的水平,这需要在工程层面上进一步完善。
问:
GPT-4.0
是否会取代苹果
Siri
?
答:尽管GPT-4.0在软硬件生态构建上有很大优势,但作为交互窗口,Siri的存在仍会持续。底层模型可能会被替换,但这种变化更多涉及商业模式和商业合作,目前OpenAI已与苹果合作推进这一项目。只要合作顺利推进,Siri的底层模型能力被取代的可能性不大。
问:
GPT-4.0
和谷歌的
SOTA
在主要方面有哪些区别?
答:整体而言,GPT-4.0在大模型方面更具优势。而在原创创新层面,谷歌一直走在前沿,拥有先进的理念和技术,特别是在大模型架构、长文本无损压缩框架等方面。另外,Google Brain的模型更多偏向于物理世界的智能体打造,而OpenAI的模型则更倾向于数字世界的智能体构建。目前,两者在抗衡上不太能直接在同一个维度上进行比较,因为它们在出发点和实际展示的性能点上有所不同。
问:
GPT-5
相较于
GPT-4
在功能和数据大模型技术发展上有哪些新特点?