FuxiCTR 介绍 -- CTR 预估任务中的 Open Benchmark-程序员宅基地

技术标签: CTR  机器学习  深度学习  Benchmark  

FuxiCTR 介绍 – CTR 预估任务中的 Open Benchmark

前言 (与主题无关, 可忽略~)

上班太用功了, 眼睛有点不舒服 … 今早终于 7 点醒了, 正常了一点, 平时 4 ~ 5 点醒简直可怕

推荐一个 Chrome 插件: Find Code for Research Papers - CatalyzeX, 可以主动搜索论文中的源代码; 相关介绍可以查看 Chrome 科研神器!去谷歌学术搜到文章,代码链接就能自动展示

广而告之

可以在微信中搜索 “珍妮的算法之路” 或者 “world4458” 关注我的微信公众号;另外可以看看知乎专栏 PoorMemory-机器学习, 以后文章也会发在知乎专栏中;

FuxiCTR

文章信息

  • 论文标题: FuxiCTR: An Open Benchmark for Click-Through Rate Prediction
  • 论文地址: https://arxiv.org/abs/2009.05794
  • 代码地址: 作者在论文中说后面会公布, 坐等…
  • 发表时间: 2020
  • 论文作者: Jieming Zhu, Jinyang Liu, Shuai Yang, Qi Zhang, Xiuqiang He
  • 作者单位: 华为

核心观点

目前针对 CTR 的研究众多, 但是没有统一的评估标准, 导致有的研究可能没有办法复现, 或者实验结果与原文披露的结果有偏差等情况. 于是本文建立了一个公开的 Benchmark, 名为 FuxiCTR, 注意它不是一个模型, 而是对目前已有的 24 个 CTR 模型进行重新评估, 用大量的实验来验证这些模型的效果, 并给出了这些模型在 Criteo, Avazu 两个数据集上的表现, 方便后续研究人员的使用;
另外本文还分享了很多训练模型时有用的实践. 比如提高性能的方法:

  1. 数据处理方面, 过滤掉出现次数太少的特征;
  2. 较大的 Batch size
  3. 较大的 embedding size
  4. 使用正则化和 Dropout, 可以减小模型的过拟合;
  5. 使用 BN

另外给我的一些启示是:

  • 从 FuxiCTR 的实验结果来看, 后续可以尝试的模型有 FiBiNet, FGCNN, xDeepFM;
  • 还可以从 Attention, GNN, Convolution 等角度考虑问题;

核心观点介绍

一切尽在下面两张表格中:

另外论文给出的图示更为直观些, 所以也贴上:

上图展示了 FuxiCTR 跑出来的结果和 SOTA 披露的结果的对比, 可以发现, 从 SOTA 披露的结果根本发现不了啥规律, 不知道这些模型到底有没有提升, 因为结果容易受:

  • Data Partition (比如如何将原始数据集划分为训练集, 验证集和测试集)
  • Data Preprocessing
  • Model Code and training code: 有的研究没有开源
  • Model hyper-parameters
  • Baseline hyper-parameters and baseline code

这些因素影响. 但是从 FuxiCTR 的结果来看, 可以发现明显的规律.

FuxiCTR 的工作真的功德无量~ 4600+个实验, 简直牛掰啊!

结论

好吧, 我承认我又水了一篇 Blog~, 十月的指标完成啦. 后面再写新的博客就是超额完成.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Eric_1993/article/details/109038340

智能推荐

玩手机打电话识别监测算法 yolov8_yolov8课堂玩手机行为识别-程序员宅基地

文章浏览阅读1.3k次。玩手机打电话识别监测系统通过YOLOv8网络模型技术,玩手机打电话识别监测算法对现场有人玩手机抽烟打电话时可以立即自动进行抓拍存档。YOLOv8 算法的核心特性和改动可以归结为如下:提供了一个全新的 SOTA 模型,包括 P5 640 和 P6 1280 分辨率的目标检测网络和基于 YOLACT 的实例分割模型。和 YOLOv5 一样,基于缩放系数也提供了 N/S/M/L/X 尺度的不同大小模型,用于满足不同场景需求。Backbone:骨干网络和 Neck 部分可能参考了 YOLOv7 ELAN 设计思想,_yolov8课堂玩手机行为识别

书生浦语第二期第三节课笔记(茴香豆:搭建你的 RAG 智能助理)_rag回香豆-程序员宅基地

文章浏览阅读1.1k次,点赞24次,收藏26次。RAG(Retrieval Augmented Generation)技术,通过检索与用户输入相关的信息片段,并结合外部知识库来生成更准确、更丰富的回答。解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。 LLM会产生误导性的 “幻觉”,依赖的信息可能过时,处理特定知识时效率不高,缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。 RAG 通过在语言模型生成答案之前,先从广泛的文_rag回香豆

STL函数对象、谓词、内建函数、适配器_stl less函数-程序员宅基地

文章浏览阅读112次。函数对象(仿函数)重载函数调用操作符()的类,其对象常称为函数对象(function object),即它们是行为类似函数的对象,也叫仿函数(functor),其实就是重载“()”操作符,使得类对象可以像函数那样调用。注意:1.函数对象(仿函数)是一个类,不是一个函数。2.函数对象(仿函数)重载了”() ”操作符使得它可以像函数一样调用。函数对象特点//函数对象是重载了函数调用符号的类class MyPrint{public: MyPrint() { m_Num = 0; } _stl less函数

免费二级域名分发企业备案域名 阿里云备案域名_二级备案域名分发平台-程序员宅基地

文章浏览阅读7.3k次。幻影解析网(dns.52hyjs.com)专为新手站长提供的免费二级域名解析,域名均免费提供使用专门提供二级域名解析的平台,域名均免费提供使用,不收取任何费用,提供的域名当中有已备案域名和未备案域名,域名后缀多可自主选择解析全站提供免费阿里云企业备案域名 供大家使用https://dns.52hyjs.com/..._二级备案域名分发平台

nginx探索(7)nginx搭建负载均衡(centos7环境下)_两台centos7 做nginx负载均衡-程序员宅基地

文章浏览阅读235次。1.开三台服务器,第一台作为nginx负载均衡转发器,ip地址:192.168.241.198第二台作为web页面服务器(nginx)_两台centos7 做nginx负载均衡

saas平台架构分为哪几部分_saas架构介绍-程序员宅基地

文章浏览阅读3.1w次,点赞6次,收藏29次。saas平台架构需要完成从用户申请链接saas到用户对自己购买的功能模块的应用整个过程,用户用起saas看似简单快捷,但这个过程却需要saas平台架构默默完成的非常复杂的处理过程。通过对saas平台架构的了解,可以清晰的分化数据的处理过程,让用户也可以明白saas平台架构处理数据的优势。下面介绍:saas平台架构分为哪几部分。saas平台架构之呈现层saas平台架构的呈现层可以使用的客户端可能都浏..._saas架构介绍

随便推点

dnsmasq详解以及在openstack和容器中的使用_dnsmasq no-negcache-程序员宅基地

文章浏览阅读7.3k次,点赞2次,收藏9次。dnsmasq简介了解Dnsmasq,还是从研究openstack neutron网络开始的,在openstack的网络中,dnsmasq为指定网络提供dhcp和dns功能,后台起的进程如下:dnsmasq --no-hosts --no-resolv --strict-order --except-interface=lo --pid-file=/var/lib/neutron/dhc..._dnsmasq no-negcache

Java多线程-生产者消费者模式_多线程生产者生产一个汉堡-程序员宅基地

文章浏览阅读395次。简单的生产者消费者模式_多线程生产者生产一个汉堡

ES6 关于var,let, const的作用域考题-程序员宅基地

文章浏览阅读203次。ES6 关于var,let, const的作用域考题

关于C++中用静态成员统计实例化对象个数问题_CVTE技术面问题_static成员自动统计-程序员宅基地

文章浏览阅读2.2k次,点赞3次,收藏4次。17年3月25号去了广州的CVTE技术面.面试官问到如何去统计一个类的实例化对象个数,这里想了一下可以用一个static数据成员去统计,但是这里注意必须在类的外部定义和初始化每个静态成。 不过我们可以为静态成员提供const整数类型的类内初始值,这样子的话要求静态成员必须是字面值常量类型的 constexpr。 下面给出自己的实现。#include using names_static成员自动统计

如何在浏览器中添加Metamask_meta mask添加网页-程序员宅基地

文章浏览阅读3.5k次。Chrome应用商店https://chrome.google.com/webstore/category/extensions?hl=zh-CN一般需要FQ和谐上网一下。搜索Metamask,那只小狐狸就是Metamask咯。点击小狐狸之后,再点击“添加至Chrome”即可。_meta mask添加网页

python3.7怎么安装jupyter_anaconda3安装及jupyter环境配置全教程-程序员宅基地

文章浏览阅读513次。anaconda3安装及jupyter环境配置全教程,环境,用户组,用户,可以使用,配置文件anaconda3安装及jupyter环境配置全教程易采站长站,站长之家为您整理了anaconda3安装及jupyter环境配置全教程的相关内容。1. 下载可以去清华源下载最新版的anaconda包,这比在官方网站下载快得多,地址如下:https://mirrors.tuna.tsinghua.edu.cn..._python安装jupyter anconda 3.7.0

推荐文章

热门文章

相关标签