正当AlphaGo 与柯洁等一众中国顶尖围棋高手在乌镇激战正酣之际,计算机体系结构专家王逵在新智元专栏的文章(
点击
阅读
《CPU和GPU双低效,摩尔定律之后一万倍 ——写于TPU版AlphaGo重出江湖之际》
)
在专家社群和文章评论区内中引发了热烈的讨论。
-
杨静:
关于TPU,这篇阅读最高,没有之一。
-
包云岗:
这是我看过的TPU相关文章中写得最好的一篇了,目前没有“之一”
-
方昊:
在一堆抄来抄去alphago文章中难得一见的一股清流。
-
Kuhasu:
小伙子写的非常清晰!我们对冲基金从8年前就开始使用ASIC进行高频交易,而ASIC在交易领域的实际应用,可以追溯到上世纪九十年代后期。
-
艾娅轩:
体系结构和AI领域的玩家们,不能错过的原创,非AI硬件技术细节稿却深入剖析技术内涵。
-
ljf:
一篇文章看懂一个领域
但对于文章认为TPU代表了未来发展方向这一观点,很多读者提出了自己的看法。为此,新智元也采访了原作者王逵博士。
唐杉:
我们在一个芯片项目中各个任务需要的投入(cost),其中最大的部分是Software,Verification和Validation。而Architecture设计只占其中的很小一部分。这个比例和目前大多数芯片厂商的人员配置也是基本相符的。形成这种趋势,是因为现在的芯片往往只是一个复杂系统中的一部分。芯片设计厂商(或者方案商)提供给客户的已经远远不止芯片本身,而是一套完整的软硬件解决方案。Nvidia在Deep learning上的巨大成功,是归功于它的芯片底层硬件架构,还是它完善的软硬件生态呢?当然是后者。Google之所以敢于和能够自己设计TPU芯片,是和Tensorflow布局和以及data center方面的经验分不开的。绝大多数deep learning用户看到的是Tensorflow(或者其它训练框架)和CUDA,而不是底层硬件(只要硬件别太昂贵)。
孙治平:
对于一个AI芯片项目来说,考虑整个软硬件生态,要比底层硬件架构的设计重要得多,最终给用户提供一个好用的解决方案,才是王道。
朱晶:
做AI ASIC 拿架构说是竞争力的可能还是有不小风险,这玩意儿还得看完整生态。
王逵:
我非常同意唐杉博士的观点,生态才是王道。任何一次芯片架构的革命,都和软件分不开。当年各种RISC架构如同雨后春笋般涌现,很重要的推动力就是Unix操作系统和C语言编译器的成熟,有了它们,操作系统和应用程序才能非常低成本地移植到新CPU上。如今各种深度学习的框架就如同Unix,XLA这样的中间层表示就如同C语言。它们有了开源的成熟方案之后,专用芯片的生态问题会得到极大的缓解。
陈怡然:
(这篇文章)观点还是很独特的。不过我觉得TPU本质上其实就是ASIC,和以前的DSP专用芯片刚开始的出发点类似。如果说不同,可能面临的商业应用更广阔。但最后一定会在通用性和性能之间再次平衡。问题的关键不在技术本身,在于找到最佳平衡点。
蒋纯 :
这个ASIC更准确应该叫DSA吧
周枫:
写得浅显易懂,对技术介绍得不错。但是ASIC最靠谱的结论不同意,更有可能是ASIC是跑车,满足特殊需求,GPU才是支持产业的乘用小车,量最大,通用性最好。规模Volume这个东西是决定性的,而优势都在GPU这边。看今明年Intel出招吧。
Yubo :
ASIC快于通用处理器是自然的,代价就是应用太过于局限,就通用和性能之间的平衡还是GPU做得比较到位。
Qianlong :
大家一致叫好,我来说点不一样的。ASIC不是谁想玩就能玩的,Google敢玩是受够了公司后又挖包括Patterson等牛人,有大量资金做支撑。另一个原因是投入产出比,对他们来讲可以保证自己做完自己用。但是如果给第三方企业用,迭代成本是企业的命脉。买gpu和买asic做AI投入产出比到底谁更好?AI发展这么快,鬼知道算法会不会半年后就淘汰?专用的一定比通用的快是一定的,但发展前景不好说,体系结构领域很多款抛弃历史包袱的CPU都失败了已经说明了这一点。有企业有勇气做拓路人值得肯定,真心希望能成功!
AHE :
神经网络的进化速度非常快,除了TensorFlow还有其它的框架都在进化。相信TensorFlow不久就会有新的算法升级。专用的ASIC TPU能兼容吗?
王逵:
专用芯片到底能出多大的量?这个量能不能摊平流片的巨大成本?这是最核心的两个问题。
首先,我内心里不认为TPU是ASIC,更合适的词是DSA(Domain-Specific-Architecture),前者加速某一
项
功能,后者加速某一
类
功能。上篇文章篇幅所限,没有引入DSA的概念。为了能上到足够大的量,设计DSA必须要避免“半年后就淘汰”,这就是考验设计功力的地方。
其次,TPU的确只能在DeepLearning这个市场抢GPU的饭碗,但未来这个市场会非常庞大,甚至超过Graphic。当年Google用MapReduce引爆大数据,并没有为此做芯片,后来学术圈也出了不少加速大数据分析的DSA,Google完全无视;这次AI火爆,它火速做了DSA,为什么?就是看到了量。
最后, 做芯片的成本没有大家想的那么大,芯片设计的方法学始终在进步。