公众号主要介绍关于量化投资和机器学习的知识和应用。通过研报,论坛,博客,程序等途径全面的为大家带来知识食粮。版块语言分为:Python、Matlab、R,涉及领域有:量化投资、机器学习、深度学习、综合应用、干货分享等。 |
![]() |
黄建同学 · 我也遇到了,换张照片就好了。老外对AI审查也 ... · 21 小时前 |
![]() |
宝玉xp · BusinessInsider:为什么Sam ... · 昨天 |
![]() |
爱可可-爱生活 · 今日推介(第1709期):面向检索增强生成系 ... · 2 天前 |
|
量子位 · DeepSeek玩家能提前拿苹果新品!只要1 ... · 3 天前 |
|
机器之心 · 超越DeepSeek-R1关键RL算法GRP ... · 3 天前 |
作者 | Edwin Chen
编译 | AI100
第一次接触长短期记忆神经网络(LSTM)时,我惊呆了。
原来,LSTM是神经网络的扩展,非常简单。 深度学习在过去的几年里取得了许多惊人的成果,均与LSTM息息相关。因此,在本篇文章中我会用尽可能直观的方式为大家介绍LSTM ——方便大家日后自己进行相关的探索。
首先,请看下图:
神经网络
我们的算法首先可能需要学习检测低级图形,如形状和棱边等。
在数据变多的情况下,算法可能会学习将这些图形与更为复杂的形式结合在一起,如人脸(一个椭圆形的东西的上方是一个三角形,三角形上有两个圆形)或猫。
如果数据量进一步增多的话,算法可能会学习将这些高级图样映射至活动本身(包含嘴、肉排和餐叉的场景可能就是在用餐)
算法通过一组学习后的权重将每个输入神经元连接至神经元的一个隐含层。
第j个隐层神经元输出为
,
其中ϕϕ是激活函数。
,
为了使符号更加简洁些,我假设x和h各包含一个额外的偏差神经元,偏差设置为1固定不变,方便学习偏差权重。
利用RNN记忆信息
在时间t处计算得出的隐状态(ht为我们的内部知识)在下个时间步长内会被反馈给神经网络。(另外,我会在本文中交替使用隐状态、知识、记忆和认识等概念来描述ht)
利用LSTM实现更长久的记忆
我们的工作记忆为:
换言之,我们注意关注向量为1的元素,忽视关注向量为0的元素。
而 LSTM 则会利用数个方程式:
想象一个可以使你在手机上进行编码的自动填充编码插件(code autocompleter)。LSTM(理论上)可以跟踪你当前使用的方法的返回类型,并能对应当返回的变量做出更好的建议;它还能在不进行编译的情况下通过返回错误类型得知你是否犯有错误。
它还能跟踪子程序和嵌套层数 :语句的缩进始终正确,并且Loop循环结构始终关闭。
http://karpathy.github.io/2015/05/21/rnn-effectiveness/
探究LSTM内部结构
(N个"a"后跟着一个分隔符X,X后跟着N个"b"字符,其中1 <= N <= 10),并且训练了一个带有10个隐层神经元的单层LSTM。
研究模型的内部,我们期望找到一个能够计算a's数量的隐层神经元。我们也确实找到了一个:
(N个a's 中随机夹杂几个X's,然后加一个分隔符Y,Y后再跟N个b's)。LSTM仍需计算a's的数量,但是这次它需要忽视X's。
![]() |
黄建同学 · 我也遇到了,换张照片就好了。老外对AI审查也挺严格的//@张帆:-20250315154501 21 小时前 |
![]() |
爱可可-爱生活 · 今日推介(第1709期):面向检索增强生成系统的文本分块学习器混-20250314061037 2 天前 |
|
量子位 · DeepSeek玩家能提前拿苹果新品!只要15万元,在家跑满血版R1 3 天前 |
|
机器之心 · 超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场 3 天前 |
|
美食家常菜谱做法 · 美滋滋的素食小炒,晚上吃再多也不怕发胖! 8 年前 |
|
禅茶一味 · 半生花开,半世花落(深度好文) 8 年前 |
|
食尚知味 · 缺它比钙严重万倍:中风、痴呆、非死即残!现在知道还不晚~ 7 年前 |
|
狼族摄影 · 商业大片中的超酷光斑,原来实现这么简单(零成本) 7 年前 |
|
战略前沿技术 · 中国最值得关注的全球十大顶尖人工智能研究实验室 7 年前 |