专栏名称: 互联网思想

传播互联网及科技思潮，分享互联网观点，学习互联网思维，提升互联网精神，升华互联网思想！

颤抖吧！全球首只机器人选股的基金诞生，目前为止人类都不是对手

互联网思想 · 公众号 · 科技媒体 · 2017-11-01 20:52

正文

对于人工智能阿法狗，金融圈恐慌不是一两天了。如果用阿法狗来炒股，新一代的“股神”非其莫属！

本文最后有一篇分析文章，从阿尔法狗元(AlphaGo Zero)的诞生看终极算法的可能性，值得一读。

来源：第一财经资讯（ID：yicainews）综合自一财网、牛熊交易室中国基金报

最新一代的AlphaGo Zero（阿尔法元）已经根本不用学习几千几万盘人类的棋局，而是摸清掌握了围棋规则，它用升级版的自己和原来的自己对垒，并以100:0的成绩击败了阿尔法狗。

在人工智能的快速发展引发世界一片惊叹之时，近日美国新出了一支交易所交易基金，由机器人挑选股票，而且到目前为止人类都不是它的对手。

全球首只机器人选股ETF诞生

10月18日，EquBot LLC、ETF Managers Group共同推出了全球第一只应用人工智能、机器学习进行投资的ETF：AI Powered Equity ETF(AIEQ.US)。

虽然10月18日才开始交易，这支代码为AIEQ的人工智能选股ETF却已经发掘出了一些大热的股票。该基金在IBM的Watson平台上运行自营的量化模型。

数据显示，自10月18日启动以来，该ETF已经提供了0.83%的回报率，而同期标普500指数上涨0.48%，纳斯达克综合指数涨幅为-0.42%。

数据来源：东方财富网

据悉，AIEQ的根本技术就是持续不断的分析美国挂牌股票，并且每天处理大约100万则的企业公告、季度财报以及新闻等。EquBot LLC执行长Chida Khatua指出，EquBot AI科技与Watson的携手合作等同打造出一支全天24小时、365天全年无休的股票研究分析团队。

这一基金推出之际，先进技术和大数据组成的汹涌大潮正以一浪高过一浪的势头冲向华尔街。

一些大型对冲基金都纷纷开始用人工智能取代基金经理，让它们来协助分析师研究业绩报告和推荐股票。

摩根大通利用AI开发了一款金融合同解析软件。原先律师和贷款人员每年需要360000小时才能完成的工作，这款软件只需几秒就能完成。而且错误率大大降低，还可以24小时工作。

高盛的交易大厅更是缩影。2000年高盛在纽约总部的美国现金股票交易柜台雇佣了600名交易员，今天只剩下两名交易员。减少交易员的数量能帮助公司节省大量成本。截止去年9月，高盛已裁员超400人，主要是证券部门的交易员及销售人员。

德国商业银行，到 2020年他们将会将银行中 80％的工作都数码化、自动化，最终将会裁掉9600名员工。

荷兰的ING银行，宣布一个可以让他们在未来省下近9亿欧元的“数码转换”计划：先砍掉5800名员工，占员工总数13％；未来再视情况让另外1200名员工转职或是裁掉。

瑞银集团8年前的交易大厅何其壮观，但现在交易大厅成了空荡荡的。

人工智能技术在金融交易领域最显而易见的体现就是量化投资。目前，AI在全球对冲基金行业的运用已相对成熟，在中国，从业绩透明的公募量化产品来看，量化产品的业绩已普遍跑赢指数收益。

据调研公司LCH在今年初出具的调研报告，美国业绩排前20的对冲基金，包括桥水基金、索罗斯基金，全部采用计算机根据算法自动交易。

或许最终会有这一天，股市在几十只或几百只“炒股阿尔法狗”之间进行，而交易员成为历史。

金融数据服务商Kensho创始人预计，到2026年，有33%-50%的金融业工作人员会失去工作。Kensho开发的程序分析工作只需一分钟，而拿着高达35万美元年薪的分析师们，需要40小时才能完成，而且质量还不一定比机器高。

不过，也有金融从业人员在雪球上撰文指出，假设机器人炒股比例将大规模增加，人工智能是否会让市场更理性也是一个问号。

尽管人有情绪，可能放大市场危机，但是人工智能是否会因为比如技术分析判断的趋同，导致某个时间节点，所有智能炒股策略都理性的往一个方向交易，让市场更动荡呢？
有一天，人工智能不但交易起来得心应手，而且自我学习能力已经很强，可以自己调整些投资策略。那么很可能就是大量基金公司都是玩人工智能，但是问题来了，大家都人工智能化了，都赚钱吗？
显然不是，市场又将是各类人工智能技术和投资策略的竞争，说白了，很可能有回到如今主动性管理基金的状态，人工智能也分三六九等，很可能今年这款人工智能技术大赚，明年又大亏，投资者还是感觉没谱。

助手还是取代者？

人工智能在金融领域到底是助手还是取代者？

对此，渣打银行中国财富管理部董事总经理梁大伟近期对第一财经记者表示，在深度学习方面，通过大数据、人工智能去做信息整合和分析的时候，这些人工智能和大数据在我们做出投资决定和资产配置方面，确实省去很多的时间，而且更精准。

但人工智能只是帮助投资顾问投资的技术助手，并不能完全取代他们的工作。

渣打银行梁大伟：

智能投顾并不会完全取代投资顾问，例如，去年8月渣打推出了国内外资行首个手机交易平台，在手机平台上就可以直接给投资者提出建议，并且附上详细的介绍。

但是，依然有超过90%的客户在做出投资决定之前，与自己的客户经理或者投资顾问进行沟通，投资顾问都会根据实际情况给予相应理财建议以及调整资产配置。而智能投顾技术则实现投顾业务流畅化、财富管理数字化、跟踪资产组合表现等功能，以辅助投顾更好服务于客户。

至于中国是否会出现人工智能机器人选股的情况，梁大伟认为，机构在发展智能投顾的时候，很容易把海外的经验搬到境内作为参考，但问题是，在海外，在美国，他们智能投顾大部分都是通过公募基金或者ETF进行资产配置，他们的ETF几乎可以覆盖所有的大类资产。但是在中国境内，不管是市场的广度还是深度，都跟美国市场有很大差异。

目前，中国的人工智能发展已经进入了世界前列，拥有的三大优势主要体现在，人才、技术和基础设施方面，但相比于美国等发达国家和经济体仍然存在差距。

博时基金基金经理桂征辉也提出，目前，中国的人工智能大数据在金融投资领域的确有了初步的成果，但这些成果还需要时间的检验，尤其是在商业模式、与传统企业机构合作方式以及监管方式等方面，还处于摸索阶段。

砸了40%的行业的饭碗却让这些人身价跳涨！

虽然这一切还只是开始，但由于科技的进步，我们身边的业态已经发生变化。

以下这些是正在发生的事情：

阿里巴巴推出无人超市，刷脸进店结算，拿了商品就可以出门，智能化的操作已经在抢超市收银员的饭碗；
京东全球首个全流程无人仓建成，效率是人工的4-5倍，未来还要推出无人快递，未来快递员、司机又将失业；
富士康生产线已部署4万台机器人，稳步推进“百万机器人”计划，机器人正逐步替代流水线工人；
今年8月九寨沟地震发生的18分钟后，中国地震台网的机器，写了篇新闻稿，用时25秒；今日头条上，一个名叫小明的机器人截至今年5月已完成5139篇体育类报道，总阅读超1800万；
摩根大通开发了一款金融合同解析软件COIN。原先律师和贷款人员每年需要360000小时才能完成的工作，COIN只需几秒就能完成。

你没看错，让流水线工人、收银员、仓库管理员、快递员、司机、新闻记者、交易员、会计师……让这些职业者丢掉饭碗的正是人工智能AI。

人工智能正以睥睨世界的心态，几乎渗入肌理地威胁着传统行业，但同时，却使这些行业的身价水涨船高。

近日，一份2018届互联网校招高薪清单在网络流传，其中互联网企业技术类岗位的年薪水平令人咋舌！人工智能带火了研究深度学习、机器学习、人工智能等岗位，其应届毕业生薪资，据说年薪25万只是白菜价，30万的年薪已是常态。

由于人工智能、深度学习等领域存在较大的人才缺口，包括谷歌中国、微软、google、腾讯、大疆、百度等互联网科技企业，为应届毕业生开出了许多人奋斗四五年都达不到的年薪。

在国内，谷歌中国智能岗位招收的毕业生年薪最高，达56万元人民；其次是微软的算法工程师岗位，年薪51万；第三是谷歌的算法工程师岗位，年薪50万。其实，这还不算什么。更可怕的是在美国硅谷，据李开复透露，做深度学习的人工智能博士生，现在一毕业就能拿到年薪200万到300万美元，合计1300万到1950万人民币的录用通知！

由此可见，人工智能人才需求在世界范围内，有多么的供需不平衡。

此前国务院近期印发的《新一代人工智能发展规划》指出：高等院校在加强专业建设之外，还可通过校企联合办学的方式来培养人工智能人才，丰富人工智能教育的形式，并推动人工智能教育加速发展。此外，人工智能还被写入政府工作报告。

毫无疑问，人工智能正在改变我们的生活，甚至有国外学者预测，十年之内，AI将变得足够聪明，并消灭40%以上的职业。

对此，人工智能所带来的启示是：要么变，要么被改变。无论业内人士，还是一般投资者，保持个人提高和调整总是应该主动去做的。

从阿尔法狗元(AlphaGo Zero)的诞生看终极算法的可能性

作者：杜圣东

1923年,爱因斯坦在他的诺贝尔得奖感言中说到：“我欲探索一个统整理论的理智思维,是无法满足于存在有两个本质彼此完全独立的领域之假设”。这句话有点拗口，主要意思是，爱因斯坦认为自然科学中“统一”的概念或许是一个最基本的法则。后来直到去世，爱因斯坦都在致力于寻求一种能将引力场与电磁场，相对论与量子论统一起来的统一场理论。后来霍金在《时间简史》中也指出了大统一理论的可能性，他认为也许会发现大统一理论。虽然迄今为止统一场论都尚未得到发现验证，但对常人的理解来讲，通过一个简单美妙的公式就能预测和描述宇宙万事万物，不异于天方夜谭。

同样，在人工智能领域，要真正实现专家们口中的超人工智能（SuperAI），也还有极漫长的路要走。有没有一种终极算法，能让人类一步到位设计出超人类的AI系统？这跟爱因斯坦提出的统一场论一样，还面临着理论与设计实现的巨大挑战。

今年LeCun（FaceBook AI实验室负责人）曾说到：“绝大多数人类和动物的学习方式是非监督学习。如果智能是个蛋糕，非监督学习才是蛋糕主体，监督学习只能说是蛋糕上的糖霜奶油，而强化学习只是蛋糕上点缀的樱桃。

现在我们知道如何制作“糖霜奶油”和上面的“樱桃”，但并不知道如何制作蛋糕主体。我们必须先解决关于非监督学习的问题，才能开始考虑如何做出一个真正的AI。这还仅仅是我们所知的难题之一。更何况那些我们未知的难题呢？”正如LeCun所说，未来解码人类学习方式的关键突破性技术，很可能会由无监督学习来完成，因为无监督才是人类和动物学习的关键模式，婴幼儿通过少量有监督学习训练之后，在后续几十年的成长过程中，能够观察并发现世界的内在结构和获得经验知识，都是一种无监督的自发主动的学习模式，而不是像小时候被父母告知每项事物的名称和意义。

要攻破无监督学习这座AI堡垒，貌似在短期内不可能。但就在昨天，Nature发布了Deepmind关于阿尔法狗元（AlphaGoZero）的文章，在科技圈引起了不小轰动，貌似LeCun口中的“樱桃”（强化学习）大放异彩，使得AI向无监督自我学习进化又迈出了一大步。本文就来谈谈，要实现SuperAI和终极算法的可能性，兼论阿尔法狗元从0到1的重大意义，貌似开了一个好头。

阿尔法狗元(AlphaGo Zero)的横空出世

最近几年，人工智能的研究和应用，从语音识别、图像分类到基因组学和药物发现等多个领域取得了快速进展。这得益于大数据和深度学习的有力支持。可以这么讲，这波AI大跃进多是数据驱动的AI，没有大数据的喂养，没有GPU算力的普及化，就没有深度学习的成功。数据驱动的AI离不开大数据，大数据与AI形成一种共生关系：

一方面，AI基础理论技术的发展为大数据机器学习和数据挖掘提供了更丰富的模型和算法，如深度网络衍生出的一系列相关技术（深度学习、强化学习、迁移学习、对抗学习等）和方法；

另一方面，大数据为AI的发展提供了新的动力和燃料，数据规模大了之后，传统机器学习算法面临巨大挑战，要做并行化、要加速、要改进。当前的弱AI应用都遵从这一技术路线，大数据、深度学习和GPU计算居功至伟。

然而，这些利用了大量人力、物力资源和海量数据的AI系统。却很难扩展到通用AI的程度，更不必说超AI了，比如ImageNet的上千万张图片训练出的AI系统，却无法对医疗和自动驾驶领域产生同样重大的作用。需要另起炉灶，重新花大量人力物力进行针对性的数据标注和AI系统建设。

类似这些问题，对人类历史经验数据太过依赖，而这种大数据知识成本昂贵，或不可靠，或根本无法使用。因此，Super AI的研究必须要能绕过大数据，通过解码人脑智能学习机理，才能创造出一种终极算法。而阿尔狗元的横空出世，向我们展现了迈向这一目标的可能性。不需要上百万盘历史棋谱数据，仅训练3天（自己左右互搏490万棋局），只需要4片TPU就战胜了旧版AlphaGo 系统，而比分是100：0；旧版阿尔法狗采用了48片TPU，需要花几个月学习几千万盘棋局才完全战胜人类。以致于柯洁面对新版的阿尔法狗元，发表了如下无力吐槽。

阿尔法狗元的智能解码

阿尔狗元为什么能在如此短的时间，有如此惊人的进步？下面我们来分析下新版阿尔法狗元的智能“级数”。关于智能，古今中外许多哲学家、脑科学家都一直在努力探索和研究，但至今仍然没有完全了解，可以说理解甚少。所以有，智能的发生与物质的本质、宇宙的起源、生命的本质一起被列为自然界四大奥秘。随着脑科学、神经心理学等研究的进展，我们对人脑的结构和功能有了初步认识，但对整个神经系统的内部结构和作用机制，特别是大脑的功能原理却知之甚少。在这样一个大背景下，深度学习的阶段性成功，可谓是误打误撞。深度学习也被很多专家称为类脑学习，其实不够严谨，最多算是类人脑视觉皮层学习，简单的神经元连接结构离完全模拟人脑还差十万八千里。但换个角度看，才入门就有了奇效？解码人脑的学习记忆机制才能设计出终极算法么？这个答案仁者见仁智者见智，且看后文分解。

旧版AlphaGo采用的核心技术是基于深度学习+强化学习+蒙特卡洛树决策的组合式学习方法，也可以说是学习框架，其已经摸到了类脑学习的大门，其学习下棋分为三个阶段：

（１）通过对历史棋谱的深度学习完成策略网络的构建，采用深度学习技术训练一种有监督学习型走棋策略网络，类似于我们的观察学习获得的第一反应。
（２）通过自我对战强化学习来提高博弈水平，采用强化学习技术来优化先前的走棋策略网络，通过自我博弈的强化学习迭代结果，来提升前面的策略网络。即与之前的“自己”不间断训练以提高下棋的水平，这个过程有点类似于人类的巩固学习和理解贯通阶段。
（３）通过深度回归学习构建估值网络，用来预测自我博弈强化学习数据集里局面的预期结果，即预测那个策略网络的局面会成为赢家。结合蒙特卡洛树（MCTS）搜索压缩搜索空间，降低了搜索时间复杂度， MCTS决策有效结合了策略网络和估值网络，类似于人类的判断决策过程。

而新版的AlphaGo Zero做了较大改进，一是跳过了第一个阶段，完全抛弃了历史棋谱的学习，训练学习从无到有；二是改进了原强化学习的形式，只使用一个神经网络而不是两个神经网络，通过将这个神经网络与MCTS搜索算法相结合，通过左右互搏自娱自乐，按设定的走棋规则随机开始围棋小白式的学习，靠激励、惩罚的强化学习机制来纠正学习过程中的错误，调整提升学习能力。这种机制已经很接近完全无监督学习，摆脱了对人类标注数据的依赖（历史棋谱）。这也是为什么阿尔法狗元能以100:0战胜旧版阿尔法狗的原因，只靠模仿和师傅教是很难在较短时间内超越师傅的，而周伯通能成为武林顶尖高手，就是因为他的武功只靠原创从不模仿。

DeepMind AlphaGo项目首席研究员大卫.西尔弗（David Silver，左）与CEO德米斯.哈比斯（Demis Hassabis）

有点扯远了。回到正题，对于阿尔法狗元，我们先提两个问题：

（1）阿尔法狗元既然能有如此进步，为什么创始人在原来没有想到？
（2）阿尔法狗元还有一个梗，使其还有较大的智能瓶颈，这个瓶颈是什么？

第一个问题很好理解，阿尔法狗的创始人哈比斯（如上图）从小就是围棋迷，围棋迷是很难说跳出围棋看围棋的，所以他设计的系统首先是对历史棋谱进行有监督训练学习，通过吸收人类棋谱数据中的经验学习下棋，观看数千场比赛，并被告知人类专家在某些位置上的特定动作，这也是一般人成为武林高手的必经之路。而David Silver提出的改进版AlphaGo Zero使用了一种新的强化学习形式，跳出围棋历史经验来下棋，在这一过程中，全靠自学。采用一个对围棋一无所知的神经网络，它会与自己进行数千场对弈。它所走的每一步棋就是把这个神经网络与强大的搜索算法结合起来，然后用它来选择下一个动作。在每场对弈结束后，AlphaGo Zero实际上都训练了一个新的神经网络，这种无师自通的学习方式能加速学习能力的迭代，所以才有如此成绩。

针对第二个问题，显然AlphaGo Zero这种不参考专业数据和历史经验的学习方式，消除了人类学习依靠历史经验和知识的局限性，未来即使是弱AI，形势一定比人强，理论上讲，任何可以明确定义规则和设定目标的问题或工作都能被AI取代，唯一的瓶颈就是这个规则，如何有效地定义规则和目标？围棋的走法貌似随意但却有通用规则，棋盘格局对于残差卷积模块来讲也很友好，其实这个改进思想跟采用GAN自我对战打游戏是类似的（OpenAI已经开发出了一款AI，可以在没有任何人工输入的情况下，自学如何玩电脑游戏）。我们看不管是下棋还是玩游戏，都有容易形式化的规则，而人类的大部分工作，特别是在数字化、信息化的大背景下，未来被AI替代很可能是分分钟的事情，如翻译、交易、驾驶、会计、审计等等。但对需要多方博弈决策方面的事务来讲，这种级别的AI还是无能为力的，当然也还谈不上类脑智能。

终极算法：统一场论的AI版

要实现真正的AI，是否需要一种终极算法？在笔者看来，爱因斯坦的统一场论是为了解码宇宙客观事物运行的本质规律；而终极算法就是为了解码人类智能的本体、本源和统一机理。靠一系列面向特定任务的算法和庞大子系统进行组合形成的智能体，当然可以在一定程度上具有智能，但要达到通用AI、超AI的水平，个人认为这条路不可行。首先我们看下传统算法、机器学习算法和终极算法三者的区别：

（1）传统算法：将数据输入到计算机，计算机利用设计好的算法来进行计算处理，最终输出需要的结果，比如金融自动交易，需要设计算法实现交易公式、规则的计算，输入数据按照设计好的规则进行计算处理和结果输出；
（2）机器学习：机器学习算法不需要通过编程设定计算规则，而是把数据直接输入到模型中（包括输入数据和标签输出数据），模型经过训练获得预测优化的参数，最终构建好具有一定预测能力和稳定性的机器学习模型；
（3）终极算法：终极算法的一个前提假设是，所有知识，无论是过去、现在还是未来的，都有可能通过单个通用学习算法来从数据或环境中获得，这种算法称为终极算法。机器学习算法的首要任务是区别可以预测的事与不可预测的事。终极算法的目标则是学习一切能够认知的东西，在机器学习中，复杂性存在于数据中，而终极算法要做的就是通过拟合数据或抛开数据和环境交互来消化理解这种复杂性。

几十年来，机器学习算法研究的五大门派（如上图）一直以来都在彼此争夺主导权。

(1)符号派：使用符号、规则和逻辑来表征知识和进行逻辑推理，最喜欢的算法是：规则和决策树。
(2)贝叶斯派：获取发生的可能性来进行概率推理，最喜欢的算法是：朴素贝叶斯或马尔可夫。
(3)进化派：生成变化，然后为特定目标获取其中最优的，最喜欢的算法是：遗传算法。
(4)类推派：根据约束条件来优化函数（尽可能走到更高，但同时不要离开道路），最喜欢的算法是：支持向量机。
(5)联结派：使用概率矩阵和加权神经元来动态地识别和归纳模式，最喜欢的算法是：神经网络。

上述传统算法和各大门派的机器学习算法需要人类知识、规则、经验和数据的支持，是一种归纳和演绎学习的范畴，这种学习受限于数据本身，即使是大数据也不能全样本覆盖，而且包含各种噪音、错误或有偏见的数据，这样使得学习出来的模型也很难是最优的。而终极算法要能进行自我创造和学习，根据学习目标去自我创造样本、自我学习来加深对事物的理解从而获得学习能力，这才是真正的智能。能否实现终极算法，怎么实现终极算法，下面从阿尔狗元的强化学习、人类大脑新皮层的学习机理和深度学习网络三个方面的融合来进行探讨分析。

终极算法的可能性?类脑学习的启示

人脑由一千多亿个神经细胞（神经元）交织在一起的网状结构组成，其中大脑皮层约140亿个神经元，小脑皮层约1000亿个神经元。神经元约有1000种类型，每个神经元大约与100个其他神经元相连接，形成极为错综复杂而又灵活多变的神经网络。人的智能行为就是由如此高度复杂的组织产生的。浩瀚的宇宙中，也许只有包含数千忆颗星球的银河系的复杂性能够与大脑相比。很多学科的研究人员试着从不同角度解码人脑的智能，人工智能从一开始就试图模拟、延伸和扩展人类智能，但迄今为止大部分AI研究成果还仅仅只能从行为上模拟部分智能。如何从更深入的机制上探索智能的本质及其计算实现的机理，是神经计算与类脑学习面临的主要挑战。对未来终极算法的设计实现，笔者认为有三种重要的类脑学习方法，也许能给我们一些启示。

（1）大脑新皮层

Jeff Hawkins在其2004年出版的著作《On Intelligence》中,提出了一种大脑皮层运作的记忆-预测框架。阐述了大脑皮层框架运作的核心原理,提出了一种新皮层的理论，用以建立一种基于空间-时间记忆流模式的智能预测架构,而且设计实现了分层皮质学习算法（HTM）。Jeff Hawkins的大脑皮层理论框架与算法，目标很宏大，直指人类学习的终极算法。其中有几个主要理论值得与大家分享：

a.“大脑新皮层是一个分层的架构。在分层中的每一层或者区域，又是由密集包裹着的细胞组成的多个层。当感知信息到达大脑新皮层时，它穿过了分层架构中的各个层。在这些区域的细胞变得活跃，逐步对输入进行抽象，得到不变的特征。然而，在架构的最底层的细胞对输入的简单的特征做出了最优的反应，离架构顶层最近的细胞则对高层次的概念做出反映，比如对外表、语言、动作等。”——这跟当前深度网络的逐层学习思想是一致的。

b.“令人吃惊的是，在大脑新皮层中的区域，无论它们驻扎在什么地方，无论它们处理什么类型的感知信息，它们几乎都相同的结构。视觉区域类似于听觉区域，也类似于语言区域。大脑新皮层完全使用了通用的机制。通过了解这些机制，我们能够模拟它们，并将它们应用运用到学习、推理、预测等多种问题中。尽管基于HTM理论还无法捕捉到大脑新皮层完整的复杂结构及学习机制，但是它已经足够强大到来解决一些困难且有商业价值的问题了。”——这点也许能解释为什么深度学习能如此有效？

c.“HTM是一个记忆系统，随着时间变化，它通过给它的感知数据来学习它的世界，并从数据中抽象出高层的概念。抽象允许HTM网络来进行一般化(generalize)，并对于传统计算机编程处理的严格规则提供灵活性和效率。例如，在不完整或是模糊不清的数据呈现中，模式能够被学习并识别出来。通过组合模式学列的记忆与当前的输入，HTM网络能够预测下一步可能发生什么。反过来，这种预测能够使用在从猜测可能的结果到检测欺诈等一系列的认知活动中。”——这点出了深度学习未来的潜力，特别是跟记忆的融合。

可以看出Jeff Hawkins在13年前就提出的大脑新皮层理论框架，与当今大火的深度学习有着异曲同工之妙。不过在具体算法实现上与深度网络有较大差异，不过整套理论的核心思想就是要实现解码智能的终极算法，潜力如何还有待观察。

（2）深度学习与强化学习

深度学习专家们讲得比较多，我就不赘述了。值得一提的是，深度学习的类脑模拟研究还很初级，神经计算和深度学习的交叉融合其实还远没有开始。深度学习的加层机制来源于对人类大脑视觉分层处理的理解，而原人工神经网络也只是很初级的模拟了人脑神经元的连接和激活。人脑实现学习、记忆、推理、情感等能力的生化神经网络运行原理我们根本都还知之甚少，但是，深度学习加减层、加减神经元、加减链接、跨层跨连接等这些简单的网络构建方法却是跟人脑的运行机制有类似的地方，幼儿到成人神经元数量在增加、学习和记忆能力提升是神经元之间链接的建立和加强，而能力衰退也对应于神经元链接的断裂等等…

可以说，深度学习在借鉴大脑神经网络原理和人类认知过程方面，也许还没入门，还有很多问题需要深入挖掘和拓展。比如让Deepmind情有独钟的强化学习，与深度学习强强联合之后，在很多智能研究中大放异彩。强化学习的主要目的是帮助模型形成从环境到行为映射的学习，这种学习方法不是告诉系统如何产生正确的动作，而是通过评价产生动作的好坏来不断迭代改进学习能力，从而找到问题的最优解。而且强化学习在一定程度上能解决深度学习严重依赖大数据的问题。

总之，未来终极算法的诞生，可能是多种学习方式的深度交叉融合，机器的情感、记忆推理等高级智能，将会由基于深度特征学习和加装存储记忆、推理模块的迁移学习、强化学习、对抗学习等各种学习方式的交叉融合而实现，未来的机器学习方式可能远不只这几种，其本质都是在模仿人类的学习方式。迁移学习代表了我们的进化过程，学习的举一反三、触类旁通，强化学习、对抗学习类似周伯通左右互搏、无师自通等，以深度学习思想为主线的算法和框架技术栈将极大地拓展五大机器学习门派的功力。

展望

严格来讲，传统规则式AI系统还称不上智能，而现在的深度学习也只是大数据驱动的初级智能。以前我提过一个问题，未来有没有非数据驱动的终极智能？换句话说，如果没有大数据，除了专家系统和规则式AI，人工智能要通用化，要达到SuperAI的水平，能否有所突破？这取决于终极算法的能力。

规则式AI更多靠人工内置的经验和知识驱动，它最大的问题也是要人工介入，而且很难具有学习能力，靠的知识、记忆和经验建立的规则体系，这种不能自学习的符号AI系统随着明斯基的去世，在逐步退出历史舞台。而强AI的目标是机器智能化、拟人化，机器要具有和人一样的能力，那就离不开记忆和经验，也离不开通过知识、经验和记忆建立起来的认知体系（经验规则、知识本体）。

从这个角度讲，强AI要实现只靠深度学习、强化学习还不够，通过深度学习、强化学习进行环境基础知识的初步监督式指导学习或非监督自我体验学习，学习掌握的知识、经验必须要能存储和记忆，再结合大脑新皮层理论的时间-记忆流预测框架，在遇到新的问题之后，就能像人一样快速智能响应。这也许就是未来终极算法的融合诞生之路吧？

每天一杯咖啡吸收宇宙能量！
重构思维方式，
AI+时代，读互联网思想（wanging0123)

联系方式：投稿及内容合作｜[email protected]