论文阅读:(FNN和SNN)Deep Learning over Multi-field Categorical Data-程序员宅基地

技术标签: # CTR  

一、摘要

前置说明:这是一篇在2016年发表的论文,提出了基于FM预训练获取离散特征embedding表示,结合DNN来进行CTR的预估。因为思想并不复杂,所以本文就只选择重要内容进行记录。

在进行用户点击率预测的时候,常用的用户反馈模型就两种——要么使用线性模型,要么手工组合高阶的特征。
但是这两种都有弊端——前者缺乏特征间的组合信息,后者会导致组合出庞大的特征空间。
所以该论文提出了FNN和SNN这两个使用DNN的新模型。
为了让DNN能有效工作,还使用了FM、RBM和DAE这3种特征变换的方法。

二、介绍

1、Introduction的第一环节——批判前者
CTR预测的线性模型,如逻辑回归,朴素贝叶斯,FTRL逻辑回归和贝叶斯逻辑回归等。所有的这些都是基于使用one-hot编码的大量稀疏特征。线性模型简单,有效,但是性能偏差,无法学习到特征之间的相互关系。
CTR预测的非线性模型可以通过特征间的组合提高模型的能力。如FMs,将二值化的特征映射成连续的低维空间,通过内积获取特征间的相互关系;如梯度提升树,通过树的构建过程,自动的学习特征的组合。然而,这些方法并不能利用所有可能的组合。另外,许多模型手工的进行特征工程,自己决定如何进行特征的组合。并且因为已有的CTR模型在对复杂数据间的潜在的模式上的表达能力是非常有限的,所以其泛化能力表现一般。

2、Introduction的第二环节——介绍自己
​该论文介绍了两种深度学习模型,FNN和SNN。
FNN使用FM进行监督学习,得到嵌入层,可以有效的减少稀疏特征的维度,得到连续的稠密的特征。
SNN是通过一个使用负样本采样方法的基于采样的玻尔兹曼机或者是一个基于采样的自动编码去噪机。在嵌入层之上,构建多层的神经网络来探索潜在的数据的模式。

三、相关工作

将大型的输入向量嵌入到低维的向量空间是预测任务的一个很有效的方法,可以减少数据和模型的复杂度,提高模型的能力。FM就是类似模型。
如果使用深度学习模型,通常有两个步骤:
第一步,通过非监督学习(如限制玻尔兹曼机或者层叠的自编码去噪机)得到输入数据的分布。
第二步,使用监督学习对模型进行finetune。
该论文模型的新颖之处在于第一层的初始化,而不是使用原始的特征,维度高,稀疏度高,难以训练。

四、FNN模型介绍

1、下图便是FNN的结构图
在这里插入图片描述
从这张结构图可以看出,FNN的思想非常简单——直接在FM上接入若干全连接层。
利用DNN对特征进行隐式交叉,可以减轻特征工程的工作,同时也能够将计算时间复杂度控制在一个合理的范围内。

原文章中对该结构的输入输出介绍得很详细,我这里就找了个中文版直接截图了(这部分看原论文其实也很清晰)
在这里插入图片描述
这里面要注意的是这个向量z
在这里插入图片描述
是由FM训练出来的。

这是FNN模型的一大亮点
为了加速模型的收敛,充分利用FM的特征表达能力,FNN采用了两阶段训练方式。首先,针对任务构建FM模型,完成模型参数的学习。然后,将FM的参数作为FNN底层参数的初始值。这种两阶段方式的应用,是为了将FM作为先验知识加入到模型中,防止因为数据稀疏带来的歧义造成模型参数偏差。

2、更进一步,隐含层的权重(除了FM层)可以通过预训练的RBM来进行初始化。FM的权重可以通过SGD来进行更新,我们只需要更新那些不为0的单元,这样可以减少大量的计算。通过预训练对FM层和其他的层进行初始化之后,再通过监督学习的方法进行finetune,使用交叉熵的损失函数:
在这里插入图片描述
然后通过反向传播的方法来更新权值。由于输入x中的大量的元素都是0,我们可以只更新相关的权值来加速finetune。

五、SNN模型介绍

SNN结构如下图所示
在这里插入图片描述
和FNN的区别在于底层的训练方式(表现在z的不同)。SNN的底层是个全连接层,激活函数为sigmoid。
在这里插入图片描述
初始化的时候,预训练了RBM和DAE,为了解决训练时的one-hot编码带来的稀疏问题,使用了基于采样的RBM和基于采样的DAE,高效的计算初始化的权值。

​在训练时,不使用每个领域的全部的特征,例如city这个领域,只有一个元素是1,其他都是0,所以随机采样m个为0的元素,图2中(b)和(c)中的黑点表示的没有被采样到的为0的元素。然后使用在RBM上用对比散度,在DAE上用SGD来进行预训练,得到的稠密的特征表示作为后一层的输入。

六、实验

开源代码链接:
https://github.com/wnzhang/deep-ctr

1、数据集

使用的是iPinYou的数据集,这是一个公开的数据集。
该数据集有19.5M条数据,14.79k条的正样本,所有的特征都是类别特征。在进行one-hot编码之后,二值化特征的数量是937.67K。将这些二值化的特征输入到不同的模型中来进行对比。在实验中,分别使用了1458,22259,2261,3386号的广告以及整个数据集。

2、性能对比

在这里插入图片描述
选用的衡量指标是AUC,关于推荐系统的常用评价指标的含义可以参考
https://blog.csdn.net/weixin_45459911/article/details/105206954

3、超参数的调试

使用深度学习需要用到一些超参数,该论文展示了调试超参数的一些细节。
使用SGD进行训练,尝试了不同的学习率,1,0.1,0.01,0.001,0.0001,选择了一个最佳的在验证集上进行验证。
使用采样的SNN-RBM和SNN-DAE的时候,尝试了采样数量为m=1,2,4的情况,发现m=2是最好的。对于激活函数,尝试了线性函数,sigmoid,tanh,然后发现tanh是最好的。
(当然现在激活函数有更多的选择)

4、结构选择和正则化比较

在模型中,研究了具有3,4,5个隐层的结构,发现具有3个隐层的结构效果最好。除了增减层数外,还对比了不同的结构,在总的隐含节点相同的情况下,发现钻石型的是最好的。最后使用结构是(200,300,100)。
在这里插入图片描述
神经网络非常容易过拟合。对比了L2正则化和dropout。如下图。很显然,dropout的效果要比L2要好。
在这里插入图片描述

5、参数分析

模型中有两个非常重要的因素(i)层的大小的参数,决定了模型的结构(ii)dropout的比例参数,对泛化能力有较大的影响。
从图中可以看出,dropout的比例的变化,对AUC的影响是比较大的。随着dropout比例的变大,模型的能力先变好,然后显著的下降。
对于FNN来说,dropout的最佳值为0.8,对SNN来说,dropout的最佳值为0.99。

参考:
《Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction ECIR 2016》
https://blog.csdn.net/huayimeng/article/details/102498719
https://blog.csdn.net/u013019431/article/details/99241124
https://zhuanlan.zhihu.com/p/65112570
https://www.jiqizhixin.com/articles/2019-08-05-13

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_45459911/article/details/105269508

智能推荐

cordova打开文件_cordova 下载并打开.apk文件-程序员宅基地

文章浏览阅读362次。1.安装cordova plugin add cordova-plugin-file-transfercordova plugin add cordova-plugin-file-opener22.下载.apkvar fileTransfer = new window.FileTransfer()var uri = encodeURI('http://192.168.2.105:8888/apk/..._window.filetransfer cordove

【论文阅读】 智能合约安全漏洞检测技术研究综述_智能合约漏洞检测-程序员宅基地

文章浏览阅读919次。Solidity 智能合约函数和变量的访问限制有 4 种, 即 public, private, external, internal.如果函数未使用这些标识符, 那么默认情况下, 智能合约函数的访问权限为 public, 亦即该函数允许被本合约或其他合约的任何函数调用, 这种情况可能导致该函数被攻击者恶意调用;当一个智能合约调用另一个合约中的函数时, 若函数和参数类型无法匹配到被调用合约中的函数, 此时将会默认调用该合约中的Fallback函数. 攻击者可以Fallback函数中隐藏恶意操作。_智能合约漏洞检测

mac远程链接SVN服务器要踩的坑_macsvn关联远程地址-程序员宅基地

文章浏览阅读5.4k次。从mac远程链接SVN的服务器 之前在台式机上配置好的centos系统,装了SVN版本控制器。今天通过mac电脑来进行远程的配置。1、 客户端我采用的是Cornerstone客户端,这个虽然是收费的,需要破解的,但是咱们中国人那需要去花钱来买。我在网上找到了别人破解版的。而且直接点击安装即可。Cornerstone的配置界面如下: Serv_macsvn关联远程地址

Windows10 打开jupyter notebook出错 ModuleNotFoundError: No module named ‘pysqlite2‘_win10 python3.6 modulenotfounderror: no module nam-程序员宅基地

文章浏览阅读244次。报错提示Traceback (most recent call last): File "C:\Users\ghost\anaconda3\lib\runpy.py", line 193, in _run_module_as_main "__main__", mod_spec) File "C:\Users\ghost\anaconda3\lib\runpy.py", line 85, in _run_code exec(code, run_globals) File "C:\_win10 python3.6 modulenotfounderror: no module named 'pysqlite2

@DepnedsOn解决一个spring启动问题_@dependson("applicationcontextutil")-程序员宅基地

文章浏览阅读678次,点赞2次,收藏2次。前言最近遇到了一个启动失败的问题,原因是在bean初始化完成之后的钩子方法中使用获取容器中bean的工具类,(对应工具类之前的一篇博客 获取springbean)。分析这里具体的场景是我想实现一个bean在钩子方法中往一个策略map中注册自己作为一个策略使用,但是在启动的时候报错:第33行代码如下: public static <T> T getBean(@NotNull ..._@dependson("applicationcontextutil")

mybatis 实现批量更新_mybatis 批量更新-程序员宅基地

文章浏览阅读7.9k次,点赞12次,收藏15次。注:Mybatis实现批量更新有三种方式,分别是使用foreach标签、使用SQL的case when语句和使用动态SQL的choose语句。2:使用SQL的case when语句。3:使用动态SQL的choose语句。1:使用foreach标签。_mybatis 批量更新

随便推点

ajax和h5文件上传,h5 input file ajax实现文件上传-程序员宅基地

文章浏览阅读431次。文件域遇到的几个BUG 已经解决1 多选文件域,如果没有上传成功或已上传成功,再次点击文件域名选择图片时,会累积上次的文件。例如 第一次上传1.jpg 第二次点击上传 2.jpg 第二次的上传结果为1.jpg 2.jpg 上传了两张。解决此问题思路:1 在网上查了很多关于清除file文件域的办法,都不起作用/2 最终用了删除直接的file文件域 重新创建一个file文件域 重新绑定事件,重复..._input type=file change事件 ajax上传

如何安装Gradle-程序员宅基地

文章浏览阅读589次。Gradle是一个依赖管理/构建工具,结合了Maven和Ant的优点,使其成为功能强大且可自定义的工具。 它还使用了光滑的Groovy DSL而不是Maven和Ant的XML方法,并且当我开始一个新项目时,它是我个人的选择工具。 安装方法如下。 我将在以后的文章中介绍一些Gradle项目。 1.安装Java 首先,您需要安装Java JDK(Java开发工具包)。 仅拥有JRE(Java..._如何安装gradel

opencv图像处理基本操作_形态学操作_图像处理mop是什么-程序员宅基地

文章浏览阅读244次。核元素:Mat element = getStructuringElement(MORPH_RECT, Size(15, 15));其中形状参数:MORPH_RECT MORPH_CROSS MORPH_ELLIPSE膨胀操作: dilate(img, out, element);腐蚀操作: erode(img, out, element);形态学操作:morpho..._图像处理mop是什么

在Windows PowerShell和Linux Bash上可视化您的实时血糖值和Git提示-程序员宅基地

文章浏览阅读285次。My buddy Nate become a Type 1 Diabetic a few weeks back. It sucks...I've been one for 25 years. Nate is like me - an engineer - and the one constant with all engineers that become diabetic, we try to ..._windows nightscout

js正则大小驼峰转换_js小驼峰转大驼峰算法-程序员宅基地

文章浏览阅读5.5k次。小驼峰转换大驼峰var str = 'ab_cd_ef', reg = /_(-w)/g;var str1 = str.replace(reg, function (a, b) { return b.toUpperCase();})大驼峰转换小驼峰var str = 'abCdEf', reg = /([A-Z])/g;var str1 = s..._js小驼峰转大驼峰算法

选择一种微服务部署策略_微服务构架需要几台服务器-程序员宅基地

文章浏览阅读775次。原文链接:Choosing a Microservices Deployment Strategy 这是使用微服务架构构建应用系列的第六篇文章,第一篇文章介绍的微服务架构模式以及使用该模式的优势和劣势,接下来的文章讨论了微服务架构的不同方面:使用APi网关、进程间通信、服务发现以及事件驱动的数据管理。本篇文章我们将看一下有关微服务部署的策略。 动机部署一个单体应用意味着对一个一..._微服务构架需要几台服务器