深度学习与智能故障诊断学习笔记（三）——RNN与LSTM推导详解_深度学习故障诊断-程序员宅基地

1.RNN

1.1网络结构

标准神经网络的输入输出在不同例子中可能有不同的长度，在学习中并不共享从不同位置上学到的特征。因为标准神经网络的训练集是稳定的，即所有的特征域表达的内容是同一性质的，一旦交换位置，就需要重新学习。故障诊断和健康管理属于带有时间序列的任务场景，在进行学习时参数量巨大，标准神经网络无法体现出时序上的前因后果，所以引入循环神经网络。如图所示为RNN循环神经网络的单元。

其中 $x^{<t>}$ 为当前输入， $a^{<t-1>}$ 为前一个状态，b为偏置项，tanh为激活函数，用于学习非线性部分。当前输入和前一个状态分别乘以对应权重并相加，在加上偏置项，乘激活函数得到当前状态 $a^{<t>}$ ，此状态在下一个神经元学习时又作为 $a^{<t-1>}$ 进行运算，由此实现时序关联。输出 $\widehat{y}^{t}$ 的激活函数根据任务类型来选择，若是多分类可以选择softmax，若二分类则可直接选择sigmod。

（注：输出并非每个神经元都必须有，RNN可以是多输入多输出，也可以是多输入单输出，仅在学习完成后输出）

1.2RNN网络特点

RNN网络为串联结构，可以体现出“前因后果”，后面结果的生成要参考前面的信息，且所有特征共享一套参数。这使得RNN在面对不同的输入（两个方面），可以学习到不同的相应结果，并极大的减少了训练参数量。

（RNN输入和输出数据在不同场景中可以有不同的长度）

1.3损失函数

单个时间步的损失函数可根据多分类和二分类进行自定义

整个序列的损失函数是将所有单步损失函数相加，如式。

1.4传播过程

前向传播如图一所示。

反向传播

（图源自吴恩达老师课件）

求解梯度即复合函数求导，按照链式法则进行求导。

反向传播具体过程需要按照损失函数来具体求解，但上式对所有RNN模型都适用。

1.5缺点

当序列太长时，容易产生梯度消失，参数更新只能捕捉到局部以来关系，没法再捕捉序列之间长期的关联或依赖关系。

如图为RNN连接，输入x，输出o（简单线性输出），权重w，s为生成状态。

根据前向传播可得：

假设使用平方误差作为损失函数，对单个时间点进行求梯度，假设再t=3时刻，损失函数为L3 = $\frac{1}{2}\left ( {Y}_3 - {O}_3 \right )^{2}$ 。然后根据网络参数Wx，Ws，Wo，b1，b2等求梯度。

Wo:

Wx（具体求解过程在下边）:

经整理可得：

具体求解过程：

首先，所求目标为L3对Wx的偏导，通过链式法则进行展开。对比前向传播公式图可知，O3中并不能直接对Wx求偏导，而是包含在S3中，所以要展开成如下形式。

但在S3中又包含S2，S2中包含Wx和S1，S1中又包含Wx，嵌套了很多层，为了方便表示，我们用 $\theta$ 3来表示S3括号中的内容。进一步简化可得：

由S3演变为S2，同理可递推求出 $\frac{\partial S_{2}}{\partial W_{x}}$ 和 $\frac{\partial S_{1}}{\partial W_{x}}$

再将所求出结果回代到公式中，可以得出 $\frac{\partial S_{3}}{\partial W_{x}}$

再回带至 $\frac{\partial L_{3}}{\partial W_{x}}$

由该式可以看出，梯度的更新同时依赖于x3，x2,x1包括其梯度值。将该式处理为

此为t=3时刻的梯度公式，推广至任意时刻的梯度公式为：

此式括号中的项为求导的连乘，此处求出的导数是介于0-1之间的，有一定的机率导致梯度消失（但非主要原因）。造成梯度消失和梯度爆炸的主要原因是最后一项：当Ws很小的时候，它的k-1的次方会无限接近于0，而当Ws大于1时，它的k-1次方会很大。

如下为t=20时梯度更新计算的结果：

从式中可以看出，t=3的节点由于连乘过多导致梯度消失，无法将信息传给t=20，因此t=20的更新无法引入t=3时的信息，认为t=20节点跟t=3的节点无关联。

对于梯度爆炸和梯度消失，可以通过梯度修剪来解决。相对于梯度爆炸，梯度消失更难解决。而LSTM很好的解决了这些问题。

2.LSTM

2.1设计思路

RNN是想把所有信息都记住，不管是有用的信息还是没用的信息。而LSTM设计了一个记忆细胞，具备选择性记忆功能，可以选择记忆重要信息，过滤掉噪声信息，减轻记忆负担。

2.2整体结构

如图为LSTM与RNN结构对比

LSTM

RNN

2.3单元结构

在LSTM每个时间步中，都有一个记忆细胞，这个东西给予了LSTM选择记忆功能，使得LSTM有能力自由选择每个时间步里面记忆的内容。

下图中Ct-1为上一个记忆细胞，ht-1为上一个时间点的状态，经过该单元，输出一个新的记忆细胞和一个新的状态。在单元中有三个 $\sigma$ ， $\sigma$ 被称为门单元，它的输出值介于0-1之间。ft为遗忘门，it为更新门，Ot为输出门。

门是一种选择性地让信息通过的方法。它们由sigmoid神经网络层和逐点乘法运算组成。Sigmoid层输出0到1之间的数字，描述每个组件应允许通过多少。值为零表示“不让任何内容通过”，而值为 1 表示“允许所有信息通过”

公式所示为前向传播，Ct与Ct-1，ht-1，xt等参数都有关，其中Wxf，Whf，Wxi分别代表相应权重。在单元结构图中可以看出ft与Ct-1进行×运算（对应元素相乘），gt与it进行×运算，两者相加为新生成的ct。

2.4 缓解梯度爆炸和梯度消失

此过程为公式推导（以求Wxf为例）。

通过调节Whf，Whi，Whg的值，可以灵活控制Ct对Ct-1的偏导值，当要从n时刻长期记忆某个东西到m时刻时，该路径上的

从而大大缓解了梯度消失和梯度爆炸。

（B站搜索老弓的学习日记，本篇博客为RNN与LSTM的学习笔记）

本文链接：https://blog.csdn.net/Vanderbiol/article/details/124256099

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

计算机毕业设计Java疫情防控医用品管理(系统+源码+mysql数据库+Lw文档）_疫情防护用品销售管理系统论文-程序员宅基地

文章浏览阅读467次。计算机毕业设计Java疫情防控医用品管理(系统+源码+mysql数据库+Lw文档）springboot基于SpringBoot的婚庆策划系统的设计与实现。JSP健身俱乐部网站设计与实现sqlserver和mysql。JSP网上测试系统的研究与设计sqlserver。ssm基于SpringMvC的流浪狗领养系统。ssm基于Vue.js的音乐播放器设计与实现。ssm校园流浪猫图鉴管理系统的设计与实现。_疫情防护用品销售管理系统论文

android插件化开发打包，Android项目开发如何设计整体架构-程序员宅基地

文章浏览阅读988次，点赞28次，收藏28次。最后小编想说：不论以后选择什么方向发展，目前重要的是把Android方面的技术学好，毕竟其实对于程序员来说，要学习的知识内容、技术有太多太多，要想不被环境淘汰就只有不断提升自己，从来都是我们去适应环境，而不是环境来适应我们！这里附上我整理的几十套腾讯、字节跳动，京东，小米，头条、阿里、美团等公司19年的Android面试题。把技术点整理成了视频和PDF（实际上比预期多花了不少精力），包含知识脉络 + 诸多细节。由于篇幅有限，这里以图片的形式给大家展示一小部分。

基于单片机数码管秒表控制系统设计-程序员宅基地

文章浏览阅读600次，点赞11次，收藏6次。*单片机设计介绍，基于单片机数码管秒表控制系统设计。

Python小程序之验证码图片生成_小程序图片验证码后端生成-程序员宅基地

文章浏览阅读235次。python小程序之验证码图片的生成定义随机字母的生成函数定义随机颜色生成函数，采用RGB格式，生成一个元组调用Image，生成画布，填充底色为白色调用画笔函数Draw，传入画布对象填充画布的每一个色块，作为背景在画布上控制间距，填上每一个字在最后的图上进行模糊操作代码# 生成一个随机的二维码小程序from PIL import Image,ImageDraw,ImageF..._小程序图片验证码后端生成

思科自防御网络安全方案典型配置_思科设备怎么ranga)服务器区域独立防护;-程序员宅基地

文章浏览阅读2.2k次。 1. 用户需求分析客户规模：客户有一个总部，具有一定规模的园区网络；一个分支机构，约有20－50名员工；用户有很多移动办公用户客户需求：组建安全可靠的总部和分支LAN和WAN；总部和分支的终端需要提供安全防护，并实现网络准入控制，未来实现对VPN用户的网络准入检查；需要提供IPSEC/SSLVPN接入；在内部各主要部门间，及内外网络间进_思科设备怎么ranga)服务器区域独立防护;

苹果账号迁移流程_apple 账号迁移-程序员宅基地

文章浏览阅读445次。4、转移账号生成的 p8 文件（证书文件）1、转移苹果账号的 teamID。2、接受苹果账号的 teamID。5、接受账号生成的 p8 文件。3、转移应用的 AppID。_apple 账号迁移

随便推点

深度学习中优化方法之动量——momentum、Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam_momentum seg-程序员宅基地

文章浏览阅读1k次。https://blog.csdn.net/u012328159/article/details/80311892_momentum seg

动态数据生成静态html页_监听数据变更自动生成静态html-程序员宅基地

文章浏览阅读816次。主要的原理就是替换模板里的特殊字符。 1、静态模板页面 template.html，主要是定义了一些特殊字符，用来被替换。 HTML code DOCTYPE HT_监听数据变更自动生成静态html

预防按钮的多次点击恶意刷新-程序员宅基地

文章浏览阅读494次。今日在做一个新闻系统的评论时. 想到了预防"提交"按钮的多次点击的问提 (prevent multiple clicks of a submit button in ASP.NET). 以前碰到此类问提总是用重定位页面来解决. 这次我想找到一个一劳永逸的办法. 通过查讯Google,找到了一些代码,挑选一些较好的修改了一下。public void pa

sokcs5软件dante配置指南_dante 代理配置pam用户名密码模式-程序员宅基地

文章浏览阅读4.7k次。近来公司业务有需要做socks5代理的需求，研究了一下，主要的开源实现有2个:dante http://www.inet.no/dante/ss5 http://ss5.sourceforge.net/比较了一下，还是比较倾向于dante,因为看到有人这样评价ss5：Project has an incredibly poor source code quality. Th_dante 代理配置pam用户名密码模式

Excel vba 求助。_vba countifs 源码-程序员宅基地

文章浏览阅读809次。在excel vba 中用到countifs 函数，但用来统计带有特殊符号* 时总是统计chu_vba countifs 源码

web前端基础——实现动画效果_web前端实现图片动画效果-程序员宅基地

文章浏览阅读2.6k次。当两个效果之间变换时，可以使用transition过渡属性，但是有多个效果来回变换时，就需要使用动画效果,且动画过程可控（重复播放，画面暂停，最终画面等）文章目录1、简介2、实现步骤3、复合属性animation4、动画属性1、简介动画的本质是快速切换大量图片在人脑中形成的具有连续性的画面构成动画的最小单元：帧或者动画帧2、实现步骤定义动画@keyframes 动画名称{ from{} to{}}@keyframes 动画名称{ 0%{} 10%{} 20%{} 50._web前端实现图片动画效果