专栏名称: 赛博禅心

拜AI古佛，修赛博禅心

从百度 iRAG，看 AI 分野

赛博禅心 · 公众号 · 科技创业科技自媒体 · 2024-11-13 17:26

主要观点总结

本文介绍了AI绘图技术的发展历程及现状，重点介绍了百度发布的iRAG技术。文章指出，iRAG技术通过知识图谱分析获取必要信息，再进行创作，能够精准输出图像。相比其他AI生图软件，iRAG更可靠、可控。文章还回顾了AI技术的演进历程，包括专家系统、知识库和深度学习等，并指出未来的技术发展方向可能是结合各种方法的优势。

关键观点总结

关键观点1: iRAG技术特点

iRAG通过知识图谱分析获取必要信息，再进行创作，可精准输出图像。相比其他AI生图软件，iRAG更可靠、可控。

关键观点2: AI技术演进历程

文章回顾了从专家系统、知识库到深度学习的AI技术演进历程，并指出每种方法的优势和局限。

关键观点3: 企业用户需求

企业更关注AI产品的准确性、可控性、稳定性和可解释性。iRAG着力解决这些方向，可能是最务实的路径。

正文

请到「今天看啥」查看全文

绘图：82 版西游记里的唐僧，和 87 版红楼梦里的林黛玉，在亭子里，青梅煮酒论英雄，16:9

这张精准生成的图，来自昨天百度发布的 iRAG：先检索，再生图。

技术分野

我是各类 AI 的深度用户，Midjourney 年费会员，OpenAI V5 等级调用，单单自己办公，每天就要消耗几百块的 token。

各类 AI 生图软件都在重度使用，无论 Midjourney、Flux 还是其他，都在打造一个能将文字转化为图像的“端到端”生成系统。它们投入海量算力和数据，进行大规模的图文对训练，就像在培养一个 “人工艺术家”：只要数据和算力管够，它就能提笔作画。

从效果上看，这些方法，时常带来令人惊艳的作品，但也存在明显局限：很多时候，会对事实信息理解出现严重的幻觉，比如我让他给我画一个“日历”，但返回给了我一堆美女图（虽然也挺好...

相比之下，百度选择的 iRAG 走了另一条路：培养一个 “研究型画家”：先对生成目标进行知识图谱分析，获取必要的参考信息，然后才进行创作。这带来一个好处：无论我要画什么，都可以进行精准输出。

比如，我是三国粉，时叹「时来天地皆同力运去英雄不自由」。“先主一统天下，孔明辅政其旁」”的场景，除了在游戏里，或许也只存于 AI：

从技术原理看， iRAG 更像一个「靠得住的人」：干活不靠猜测（依赖经验），而是先理解，再查资料，最后开始干活。通过提升系统复杂度，生成更可靠的内容。

毕竟，在实际应用中：一个能够稳定输出、行为可控的方案，也许比一个偶有佳作，但不够稳定的方案更有价值。

历史迭进

说起来，AI 的这种转向，上演过几轮了。

70s：专家系统

在半个世纪前，第一批“AI”诞生，当时叫“专家系统”。

起源来自一个大胆的想法：既然人类专家靠经验和规则来解决问题，那我们就把这些经验和规则都写进电脑里，不就等于复制了一个专家吗？

具体怎么做呢？比如找来一位资深医生，找他去收集一系列的问题和回答，如

“看到什么症状会判断是感冒啊？”
“病人发烧超过 38 度，还一直咳嗽，那就得考虑是不是感冒了。”

工程师就把这些经验编成规则：IF（发烧>38 度 AND 持续咳嗽） THEN（检查感冒）。

基于这种思路，斯坦福在 1970 年代初开发了一套专家系统：MYCIN，用来协助医生寻找传染病治疗方案。在测试过程中，MYCIN 在推荐治疗方案时表现出了与斯坦福感染科专家相当的水平。然而，尽管性能良好，但它最终未能在医院落地：现实世界根本不是靠几条规则就能搞定的：有时候，资深老大夫也说不清自己是怎么诊断的，可能就是直觉。

“人有多聪明，我就写多少规则”的思路，最终被证明过于简单。

90s：知识库

在专家系统失败后，人们开始了新的尝试：如果单纯规则行不通，那给 AI 配一个包罗万象的知识库呢？

美国 Cycorp 公司的 CYC 项目就在尝试解决这个问题。从 1984 年启动，他们雄心勃勃地要把所有”常识”都输入计算机。为此投入了数百名研究员，花了十多年时间，手工录入了超过 100 万条知识。

但问题是，人类知识远比想象中复杂，比如：

“苹果是一种水果”—— 乔老爷子：“你说的对”
“即便偶不变，符号看象限”—— 理解这个，需要经历高中教育

在日常交流里，需要“意会”的东西就更多了，比如女朋友说的：

“随便”（≠随便）
“都可以”（≠都可以）
“马上”（≠马上）
“快好了”（≠快好了）
“没事”（≠没事）
“你开心就好”（≠你开心就好）
“我没生气”（≠我没生气）

于是这个项目折戟了：海量信息的关联性，让 AI 无法依仗于人工整理的资料

2010 之后

2012 年，深度学习横空出世。

说是“横空出世”，但其核心理念“神经网络”，早在 1943 年就被提出来了： AI 可以像大脑的神经元一样：逐层接受信息，处理结果，然后传递给下一层，最终获得答案。

这是一个非常性感的想法，但在之后很长时间里，都只存在于想象。

转机出现在 2012 年，多伦多大学的 AlexNet 用神经网络的方法，在 ImageNet 图像识别竞赛中取得压倒性胜利：错误率降至 15.3%，比第二名（26.2%）足足领先了 11 个百分点。这个突破证明了两点：一是神经网络确实可行，二是只要数据够多，AI 就能自己学习。

图：Embedding Methods for Image Search

从此，难办的事也能用“堆数据”来解决，比如：

要识别猫，就给它刷几百万张猫的图片
要下围棋，就让它自己对弈几百万盘
要写代码，就让它学习全网的开源项目

这种“大力出奇迹”的方法很快成为了 AI 界的主流。更有意思的是，人们发现了一个规律：只要持续增加模型规模、扩大数据量，AI 的能力就会稳步提升。这个现象被称为“Scaling Laws”（缩放定律）。

但随之而来的是新的挑战：模型能力惊人，但完全是黑盒，谁也不知道为什么

过去的半个百年，其实还发生了更多的趣事，有机会我再单独讲讲（Flag：挖坑）。也发现，AI 的技术演变，就是在不断试错和平衡中摸索。方法各有优劣，未来的方向或许就是将各方强项优势结合：既有深度学习强大的学习能力，也要有知识支撑带来的可靠性。

想想看，OpenAI 的 o1，不就是融合了多种东西吗？作为另一种纬度的探索，应该对 iRAG 保持关注。

回归用户

在梳理 AI 技术演进时，总无法规避其核心问题： AI 产品，总满足不了业务需求

自 ChatGPT 以来，大多数 AI 产品，都在专注于各种吸引眼球的 fancy 功能：比如画一幅梵高风格的星空、生成一段意识流小说、制作一段奇幻视频。效果确实很好，但也很难用于工作，也无法让用户长期买单。

相比之下，一些看似平实但真正困扰企业的场景反而被忽视了：

建筑设计公司每天要出具大量效果图
电商平台需要持续处理海量产品图片
广告公司面临大规模创意素材产出压力
工业设计院要快速输出多套方案可视化
房地产公司需要批量生成样板间效果图

这些需求，有一个共同特点：内容生产必须标准化、规模化，且要确保品质稳定。企业更关注输出的准确性而非创意性，更看重流程的可控性而非自由度。这些都是直接影响业务效率的关键因素。

从这个角度看，像 iRAG 这样的技术方向切中要害：它不追求最新最炫，而是专注于提供可靠的解决方案。当大多数技术还在探索“能做什么”时，这种思路已经在思考“该做什么”。企业用户真正需要的是：准确性、可控性、稳定性、可解释性。这恰恰是 iRAG 着力解决的方向。

这或许不是最引人注目的选择，但却可能是最务实的路径。

毕竟，技术的价值，取决于它解决了多少问题。