null - 程序员宅基地

啥？！BM25 比语义向量检索效果好？-程序员宅基地

NewBeeNLP公众号原创出品

公众号专栏作者 @Maple小七

北京邮电大学·模式识别与智能系统

TL;DR

虽然以SentenceBERT为代表的语义向量检索展现出了超越传统的以BM25为代表的稀疏向量检索的性能，但是还没有人研究过索引量和向量维数对稠密向量检索性能的影响。

本文作者通过理论和实验来证明了随着索引量的增大，稠密向量检索的表现比起稀疏向量检索下降得更快，在极端情况下，稀疏向量检索反而优于稠密向量检索。

论文：The Curse of Dense Low-Dimensional Information Retrieval for Large Index Sizes

链接：https://arxiv.org/abs/2012.14210

开篇

传统的信息检索技术通常使用TF-IDF、BM25这类稀疏表示来检索文档，然而这些方法都建立在用户查询与相关文档存在词汇重叠的基础之上。然而现实世界并不会这么理想，稀疏向量查询通常会存在棘手的词汇空缺或语义鸿沟问题(lexical/semantic gap)。

「语义鸿沟」可以理解为是自然语言词汇的稀疏性和语法的多样性，这些现象可以通过同义词典、句式变换等方式来改善。

「词汇空缺」是源自翻译语言学的现象，我们可以将其简单地理解为用户查询与文档的不对称性，比如FAQ语料库通常存储的都是比较标准，正式的问句，然而真实场景下用户的提问通常非常口语化，标准问句和真实查询的字面匹配分数常常很低，这就不仅仅是单纯的词汇或句法差异了，而是更高层次的风格上的差异，甚至可以理解为两种不同的语言，这实际上也是当前的搜索引擎在正式检索文档前必须对用户查询进行复杂的修正、解析、理解，而不是直接计算TF-IDF的原因。

将用户查询浓缩为关键词的过程是非常复杂的，有没有直接将用户查询与文档进行匹配的方式呢？这正是稠密向量查询想要达到的效果，也就是将查询和文档映射到同一个低维向量空间，通过计算余弦相似度来检索相关文档，关于稠密向量表示的探索可以追溯到经典的潜在语义分析(LSA)，2013年的DSSM首次将深度学习方法引入了稠密向量检索，目前，以SentenceBERT为代表的语义检索模型在很多数据集上超越了基于稀疏向量的检索方法。

然而，这些模型的实验数据集的索引量大多都比较小，其中最大的MS Macro数据集也只有八百万个文档，然而在实际的应用场景中，索引量常常能够达到上亿的量级。当索引量非常大的时候，稠密向量表示还优于稀疏向量表示吗？接下来，我们分别从理论和实践的角度来分析这个问题。

Theory

给定一个查询向量和文档向量，分别计算查询和文档的余弦相似度：

直观上来看，查询结果的假阳性率(false positives)会随着索引量的增大而增大，不妨假设文档向量相互独立，如果要保证没有检索到假阳性文档，则需要满足

其中是与相关的文档向量，如果该条件不满足，则出现假阳性的概率为

可以发现随着索引量的增大，出现假阳性的概率的确也是增大的。

但假阳性率和向量维数的关系就没这么直观了，对于随机的，我们希望求出具体的假阳性率:

首先，不妨将维文档向量标准化为单位向量，当满足的时候，则为假阳性，因此我们考虑用维超平面从单位球面上切出会出现假阳性的区域，一个随机生成的向量被判定为假阳性的概率为

其中是切出来的区域的表面积，则是单位球面的面积。以二维空间为例，如下图所示，当落入红色区域时，则为假阳性文档。

高维空间就很难直观地理解了，维空间中的计算公式为

其中为和形成的极角，为正则不完全贝塔函数：

针对相同的夹角，是随着维数的递增而单调递减的，也就是说，向量维数越大，出现假阳性文档的概率就越小。

因此，虽然稠密向量索引的优势之一在于向量维数远小于稀疏向量索引，非常节省内存，但过小的维数会导致假阳性率的提升，同时当索引量越来越大时，低维稠密表示比起高维稠密表示会有更高的假阳性率。

Empirical Investigation

上面的理论证明均假设了向量是独立均匀分布的，这实际上只为我们提供了一个假阳性率的下界。实际上，正如BERT-flow^[1]里面提到的一样，模型学习到的稠密向量分布通常是各向异性的，这些向量在整个向量空间中只占据了一个狭窄的锥形空间，这样的性质将大幅度提升检索结果的假阳性率，因此作者希望通过实验来观察这种现象到底有多严重。

Dataset

作者的实验数据集为MS MACRO，该数据集包括了一百万个来自Bing的真实用户查询和八百万个候选文档，绝大部分查询只对应着一个相关文档，检索评价指标为MRR@10。为了更好地对比稠密向量检索和稀疏向量检索的相对性能差异，作者还定义了一个rank-aware error rate指标：

并在该指标的基础上进一步定义了相对误差率：，举个例子，50%的相对错误率就表示稠密向量表示的bad case只有BM25向量表示的一半。

Model

作者采用基于BM25的ElasticSearch实现了稀疏向量检索，针对稠密向量检索，作者训练了基于DistilRoBERTa-base的孪生网络，损失函数采用的是对比学习常用的InfoNCE loss:

其中负样本的采样方式为批内负采样，并为每个加入了一个BM25检索出的困难负样本(hard-negative)，为了对比输出向量维数对模型性能的影响，作者在模型的平均池化层后面额外接了一个线性变换层。

Experiments

Increasing Index Size

如下表实验结果所示，当我们将索引量从一万增加到八百万的时候，所有检索模型的性能均出现了明显的下降，稠密向量表示和稀疏向量表示的性能差距也逐渐缩小。

当向量维数过小时(128 dim)，模型性能会出现小幅下降，虽然增大向量维数可以一定程度上缓解索引量增大的影响，但在巨大的索引量面前，增大维数带来的性能提升是微乎其微的。

下表展示了稠密向量与BM25向量比较的相对错误率，随着索引量的增大，稠密向量检索和BM25向量检索的差距逐渐减小。

Index with Random Noise

如果我们将大量随机字符串加入文档库，模型性能会受到影响吗？由于MS MACRO数据集的标注是不充分的，也就是说每个查询只标注了一个相关文档，但实际上可能有多个文档都是相关的。

为了防止相关但未被标注的文档对实验结果的影响，作者假定检索的时候只存在一个相关索引向量和一堆随机生成的向量，这些随机向量是通过将长度为20~150的随机字符串输入模型后得到的，在实验中，作者统计有多少随机字符串与查询的相似度高于相关文档与查询的相似度。

实验结果如下表所示，随着加入的随机字符串数量的增多，稠密向量表示的性能出现了明显的下降。具体来说，当我们加入了一亿个随机字符串的时候，每十个查询中就有一个查询会返回随机字符串，这样高的错误率在实际应用中是难以容忍的。

值得注意的是，BM25却完全没有受到随机字符串的影响，这是因为生成和查询词汇匹配的字符串的概率是非常低的。另外作者还认为实验结果表明错误率比理论估计增长的速度更快，这说明稠密向量的分布非常集中，只占据了整个向量空间的一小部分，不过该结论仅仅是一个直观感受。

为了直观地感受稠密向量的分布情况，我们可以将稠密表示的查询向量，文档向量和随机字符串向量通过UMAP可视化出来，如下图所示，可以发现随机字符串向量(红色)和查询、文档向量有较大部分的重合。

Discussion

这篇论文从理论和实验的角度证明了稠密向量检索的假阳性率会随着索引量的增大和向量维数的减小而增大。虽然稠密向量检索具有很好的发展前景，但需要知道目前的稠密检索通常更适用于量级较小且干净的索引，当前的模型通常都是在小索引量的数据集上进行的实验，得出的结论可能不适合大数据集。

因此并不是在任何场景下稠密检索都要优于稀疏检索，SentenceBERT也并不能完全替代BM25。当索引量过大时，如何有效结合稀疏向量索引高精度和稠密向量索引高召回的优势，移除噪声的干扰，其实是一个值得关注的方向。

一起交流

想和你一起学习进步！『NewBeeNLP』目前已经建立了多个不同方向交流群（机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等），名额有限，赶紧添加下方微信加入一起讨论交流吧！（注意一定要备注信息才能通过）

本文参考资料

[1]

BERT-flow: https://zhuanlan.zhihu.com/p/331807184

- END -

FLOATER：更加灵活的Transformer位置编码！

2021-05-07

关于BERT，面试官们都怎么问

2021-03-21

硬核！深度学习中的Normalization必知必会

2021-03-19

如何利用多任务学习提升模型性能？

2021-03-17

本文链接：https://blog.csdn.net/Kaiyuan_sjtu/article/details/118125206

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下：http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态：[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

文章浏览阅读1.3w次，点赞45次，收藏99次。我个人用的是anaconda3的一个python集成环境，自带jupyter notebook，但在我打开jupyter notebook界面后，却找不到对应的虚拟环境，原来是jupyter notebook只是通用于下载anaconda时自带的环境，其他环境要想使用必须手动下载一些库：1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

文章浏览阅读5.2k次，点赞19次，收藏28次。选择scoop纯属意外，也是无奈，因为电脑用户被锁了管理员权限，所有exe安装程序都无法安装，只可以用绿色软件，最后被我发现scoop，省去了到处下载XXX绿色版的烦恼，当然scoop里需要管理员权限的软件也跟我无缘了（譬如everything）。推荐添加dorado这个bucket镜像，里面很多中文软件，但是部分国外的软件下载地址在github，可能无法下载。以上两个是官方bucket的国内镜像，所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

文章浏览阅读4.5k次，点赞2次，收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了，例如：这里的:sty..._vue el-color-picker

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

文章浏览阅读640次。基于芯片日益增长的问题，所以内核开发者们引入了新的方法，就是在内核中只保留函数，而数据则不包含，由用户（应用程序员）自己把数据按照规定的格式编写，并放在约定的地方，为了不占用过多的内存，还要求数据以根精简的方式编写。boot启动时，传参给内核，告诉内核设备树文件和kernel的位置，内核启动时根据地址去找到设备树文件，再利用专用的编译器去反编译dtb文件，将dtb还原成数据结构，以供驱动的函数去调用。firmware是三星的一个固件的设备信息，因为找不到固件，所以内核启动不成功。_exynos 4412 刷机

Linux系统配置jdk_linux配置jdk-程序员宅基地

文章浏览阅读2w次，点赞24次，收藏42次。Linux系统配置jdkLinux学习教程，Linux入门教程（超详细）_linux配置jdk

随便推点

matlab(4)：特殊符号的输入_matlab微米怎么输入-程序员宅基地

文章浏览阅读3.3k次，点赞5次，收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图：_matlab微米怎么输入

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件，可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中，对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数，而关闭则使用fclose函数。在C语言中，可以使用fread和fwrite函数进行二进制读写。‍ Biaoge 于2024-03-09 23:51发布阅读量：7 ️文章类型：【 C语言程序设计】在C语言中，用于打开文件的函数是____，用于关闭文件的函数是____。

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

文章浏览阅读3.4k次，点赞2次，收藏13次。跟随鼠标移动的粒子以grid（SOP）为partical（SOP）的资源模板，调整后连接【Geo组合+point spirit（MAT)】，在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in（CHOP)鼠标位置到metaball的坐标，实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

文章浏览阅读178次。项目运行环境配置：Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成，B/S模式 + Maven管理等等。环境需要1.运行环境：最好是java jdk 1.8，我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析时序图-程序员宅基地

文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多，会从Java-&amp;gt;Jni-&amp;gt;C/C++慢慢分析，后面会慢慢更新。另外，博客只作为自己学习记录的一种方式，对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析时序图

java 数据结构与算法 ——快速排序法-程序员宅基地

文章浏览阅读2.4k次，点赞41次，收藏13次。java 数据结构与算法 ——快速排序法_快速排序法