终于搞清楚"相似度"和"距离度量"是什么啦！-程序员宅基地

（给机器学习算法与Python学习加星标，提升AI技能）

选自 Medium

作者：Gonzalo Ferreiro Volpi

本文由机器之心（nearhuman2014）整理

原文：https://medium.com/dataseries/similarity-and-distance-metrics-for-data-science-and-machine-learning-e5121b3956f8

相似度度量和距离度量在整个机器学习领域都是非常基础的概念，数据科学家 Gonzalo Ferreiro Volpi 近日通过浅显易懂的推荐系统示例介绍了这些概念以及它们的计算方式。

在推荐系统中，我们经常谈到「相似度度量」这一概念。为什么？因为在推荐系统中，基于内容的过滤算法和协同过滤算法都使用了某种特定的相似度度量来确定两个用户或商品的向量之间的相等程度。所以总的来说，相似度度量不仅仅是向量之间的距离。

注：我的所有工作都可在我的 GitHub 页面查看：https://github.com/gonzaferreiro，其中当然也包括本文内容的代码库以及有关推荐系统的更多内容。

在任意类型的算法中，最常见的相似度度量是向量之间夹角的余弦，即余弦相似度。设 A 为用户的电影评分 A 列表，B 为用户的电影评分 B 列表，那么它们之间的相似度可以这样计算：

从数学上看，余弦相似度衡量的是投射到一个多维空间中的两个向量之间的夹角的余弦。当在多维空间中绘制余弦相似度时，余弦相似度体现的是每个向量的方向关系（角度），而非幅度。如果你想要幅度，则应计算欧几里德距离。

余弦相似度很有优势，因为即使两个相似的文件由于大小而在欧几里德距离上相距甚远（比如文档中出现很多次的某个词或多次观看过同一部电影的某用户），它们之间也可能具有更小的夹角。夹角越小，则相似度越高。

如下例所示，来自 www.machinelearningplus.com

上图统计了 sachin、dhoni、cricket 这三个词在所示的三个文档中的出现次数。据此，我们可以绘出这三个向量的图，从而轻松地看出衡量这些文档的余弦和欧几里德距离的差异：

按照定义，常规余弦相似度反映了方向的差异，而不是位置的差异。因此，使用余弦相似度指标无法考虑到用户评分这样的差异。调整后余弦相似度可以缓解这一问题，具体做法是从每对共同评分的配对减去各自用户的平均评分，其定义如下：

我们看看下面这个来自 Stack Overflow 的例子，这能更好地解释余弦相似度和调整过的余弦相似度之间的差异：

假设一位用户为两部电影分别给出了 0～5 的评分。

直观而言，我们可以看到用户 b 和 c 的品味相近，而 a 则颇为不同。但常规的余弦相似度却给出了不一样的结果。在这样的案例中，计算调整后余弦相似度能让我们更好地理解用户之间的相近程度。

顺便一提，在上一篇有关推荐系统的文章中，我们给出了以下用于计算调整后余弦相似度的函数：

from scipy import spatial
def adjusted_cos_distance_matrix(size, matrix, row_column):
    distances = np.zeros((size,size))
    if row_column == 0:
        M_u = matrix.mean(axis=1)
        m_sub = matrix - M_u[:,None]
    if row_column == 1:
        M_u = matrix.T.mean(axis=1)
        m_sub = matrix.T - M_u[:,None]
    for first in range(0,size):
        for sec in range(0,size):
            distance = spatial.distance.cosine(m_sub[first],m_sub[sec])
            distances[first,sec] = distance
    return distances

使用这个函数的方式非常简单，只需输入：

matrix：这就是用户之间的评分或观点等你衡量的东西或你的业务商品的原始矩阵。
row_columns：如果你衡量的是列之间的距离，则设为 1；如果你衡量的是行之间的距离，则设为 0；
size：所得矩阵的所需大小。也就是说，当寻找用户或商品相似度时，这就是用户或商品的数量。所以如果有 500 个不同用户，则距离矩阵的大小就为 500×500。

下面给出了一个参考示例：

user_similarity = adjusted_cos_distance_matrix(n_users,data_matrix,0)
item_similarity = adjusted_cos_distance_matrix(n_items,data_matrix,1)

最后，我们简要回顾一些可用在推荐系统中计算相似度的其它方法，但也可用于机器学习中其它任何基于距离的算法：

1. 欧几里德距离：如果绘制在 n 维空间中，相似的项取决于彼此之间的相近程度。

2. 皮尔森相关性或相关相似度：告诉了我们两个项之间的相关程度。相关性越高，则相似度越高。

3. 均方差：在于计算用户评分之间的平均平方差。MSE 更侧重于惩罚更大的错误。

然后：

其中 |????????????| 是用户 ???? 和 ???? 都评价过的商品的数量。

用户-用户以及商品-商品相似度示例

我们借助之前介绍推荐系统的文章来简要回顾一下协同过滤的工作方式：假设我喜欢《盲刺客》和《莫斯科绅士》这两本书；我的朋友 Matias 也喜欢《盲刺客》和《莫斯科绅士》，但也还喜欢《Where the crawdads sing》。看起来我与 Matias 有一样的兴趣。所以你可能会想我也会喜欢《Where the crawdads sing》，即使我还没读过它。协同过滤也正是基于这一逻辑，只是你不仅可以比较用户，也可以比较商品。

我们可视化地比较看看推荐系统的用户-用户相似度与商品-商品相似度之间的差异：

用户-用户相似度

商品-商品相似度

现在，理解了这一点，我们用下面的示例解释说明一些度量，我认为这清楚辨明了用户-用户以及商品-商品相似度：

用户-用户相似度详解

这里给出了一个用户电影评分矩阵。为了以更加实用的方式理解这一点，我们先根据上表计算一下用户 (A, C) 和 (B, C) 的相似度。用户 A 和 C 共同评分的电影是 x2 和 x4，B 和 C 共同评分的电影是 x2、x4、x5。知道了这些信息后，我们计算皮尔森相关性或相关相似度：

A 和 C 之间的相关性比 B 和 C 之间的相关性大。因此，A 和 C 更相似，A 喜欢的电影会被推荐给 C，C 喜欢的也会被推荐给 A。

商品-商品相似度详解

这里的平均商品评分（mean item rating）是给定商品的所有评分的平均（比较看看我们在用户-用户过滤中看到的表格）。这里要计算的不是用户-用户相似度，而是商品-商品相似度。要做到这一点，我们首先需要找到给这些商品评分过的用户，然后再基于这些评分来计算这些商品之间的相似度。我们计算一下电影 (x1, x4) 和 (x1, x5) 之间的相似度。给电影 x1 和 x4 评过分的用户是 A 和 B，而给电影 x1 和 x5 评过分的用户也是 A 和 B。

x1 和 x4 的相似度大于 x1 和 x5 的相似度。基于这些相似度值，如果有任何用户搜索电影 x1，他们将被推荐 x4；反之亦然。

关于推荐系统的内容就到此为止了。但是，请记住相似度度量和距离度量在整个机器学习领域都是非常基础的概念，理解它们对进一步的学习至关重要。

本文为机器之心编译，转载请联系本公众号获得授权。

推荐阅读
兵贵神速！掌握这10个python技巧，让你代码工作如鱼得水！

清华姚班/智班2020级新生来了！中国奥数新晋“一姐”在列，湖南、湖北人数最多

提升工作效率，这些Jupyter Notebook插件你值得拥有！

PyTorch常用代码段整理合集，建议收藏！

详尽实用的 PyCharm 教程，这篇文章值得一看

本文链接：https://blog.csdn.net/qq_28168421/article/details/107328447

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

【手写】数据库关系代数练习题_数据库关系代数例题-程序员宅基地

文章浏览阅读2.3w次，点赞455次，收藏1.5k次。数据库关系代数练习题因为数据库关系代数的特殊符号在电脑上很难输入……所以采用了手写，字不太好看????第一部分第二部分数据库如下：题目如下：第三部分_数据库关系代数例题

Json的JsonValueProcessor方法-程序员宅基地

文章浏览阅读345次。将对象转换成字符串，是非常常用的功能，尤其在WEB应用中，使用JSON lib能够便捷地完成这项工作。JSON lib能够将Java对象转成json格式的字符串，也可以将Java对象转换成xml格式的文档，同样可以将json字符串转换成Java对象或是将xml字符串转换成Java对象。无论出于何种原因，某些时候，我们需要对对象转为字符串的过程加以控制，最常见需求如数值格式化和..._jsonvalueprocessormatcher

【miscellaneous】海康威视监控摄像头实现web端无插件监控实拍效果-程序员宅基地

文章浏览阅读525次。[rtsp]海康威视监控摄像头实现web端无插件监控实拍效果详细介绍参见：http://live.cuplayer.com/RtspCameraLive.htmlweb端无须装插件(支持PC,安卓,IOS苹果系统)效果1 web端无须装插件(支持PC,安卓,IOS苹果系..._海康视频无插件版

运行uniapp跳转微信开发工具后一直卡在微信开发工具首页的解决方法_uni调试工具启动后一直卡在启动页面-程序员宅基地

文章浏览阅读6.4k次。启动uni-app项目后我的微信开发者工具一直卡着不动了在这了_uni调试工具启动后一直卡在启动页面

python输入输出-python输入与输出-程序员宅基地

文章浏览阅读389次。python输出python3中的输出python3中的输出使用函数print()，示例如下：>>> print('hello kitty')print()也可接受多个参数，使用逗号隔开：>>> print('hello','kitty')hello kitty可以看到字符串合并输出后，中间会模式使用逗号隔开~print函数除了可以接收字符串外，也可以接收其他的数据类型>>> print(1) ..._"python输入\"237846278\"和\"4\",输出\"237846278的第4位是6"

HDU 2051 Bitset_hdu 2051 bitset-程序员宅基地

文章浏览阅读502次。/*中文题意：中文翻译：题目大意：解题思路：难点详解：关键点：解题人：解题时间：解题感受：*/_hdu 2051 bitset

随便推点

YOLO算法-程序员宅基地

文章浏览阅读3.6k次，点赞39次，收藏38次。YOLO，全称为You Only Look Once: Unified, Real-Time Object Detection，是一种实时目标检测算法。目标检测是计算机视觉领域的一个重要任务，它不仅需要识别图像中的物体类别，还需要确定它们的位置。与分类任务只关注对象是什么不同，目标检测需要同时处理离散的类别数据和连续的位置数据。YOLO算法基于深度学习的回归方法，它将目标检测问题转化为一个回归问题，使用单个卷积神经网络（CNN）直接从输入图像预测边界框（bounding box）和类别概率。_yolo算法

http post请求方式-程序员宅基地

文章浏览阅读3.9k次，点赞2次，收藏8次。1、HTML < form > 标签的 enctype 属性定义和用法enctype 属性规定在发送到服务器之前应该如何对表单数据进行编码。默认地，表单数据会编码为 "application/x-www-form-urlencoded"。就是说，在发送到服务器之前，所有字符都会进行编码(空格转换为 "+" 加号，特殊符号转换为 ASCII HEX 值)。2、form..._http_post submit

波士顿房价预测的TensorFlow实现(多元线性回归)_x_train=tf.cast(scale(x_train),dtype=tf.float32)-程序员宅基地

文章浏览阅读2.6k次。import tensorflow as tfimport numpy as npimport pandas as pdfrom sklearn.utils import shuffle from sklearn.preprocessing import scale import matplotlib.pyplot as plt%matplotlib inline获取数据和查看数..._x_train=tf.cast(scale(x_train),dtype=tf.float32)

欠拟合与过拟合及其解决方法-程序员宅基地

文章浏览阅读7.1k次，点赞5次，收藏33次。一、欠拟合（Underfitting）模型在训练数据上不能获得很好的拟合，并且在测试数据集上也不能很好的拟合数据，这种现象称为欠拟合，即高偏差（high bias）。(模型过于简单)原因：模型不够复杂、拟合函数的能力不足，学习到的有用特征太少，导致拟合的函数无法满足训练集。二、过拟合（Overfitting）模型在训练数据上能够获得很好的拟合，但是在测试数据集上却不能很好的拟合数据..._欠拟合

VC++获取CPU时钟频率_c++获取cpu频率-程序员宅基地

文章浏览阅读2.4k次。先通过执行两条汇编语句得到执行两条汇编语句所使用的相对时间刻度，然后继续执行这两条汇编语句获取一个时间刻度减去先前的相对时间刻度就是CPU时钟频率。inline UINT64 CGetCPUTimeDlg::GetCount(){ _asm _emit 0x0f; _asm _emit 0x31;} // 获取CPU时钟频率CString CGetCPUTimeDlg::..._c++获取cpu频率

c++中 #include 用法解析_c++include-程序员宅基地

文章浏览阅读8.7k次，点赞9次，收藏55次。这里需要注意include的两种不同写法，#include<***.h> 和 #include"***.h"采用"< >"方式进行包含的头bai文件表示让编译器在编译器的预设标准路径下去搜索相应的头文件，如果找不到则报错。例如：VS2008的安装目录\Microsoft Visual Studio 9.0\VC\include下面就包含了标准库的头文件。第二种方式表示先在工程所在路径下搜索，如果失败，再到系统标准路径下搜索。所以，特别要注意的是，如果是标准库头文件，那么既_c++include