推土机距离到Wassertein距离-程序员宅基地

推土机距离（Earth Mover’s Distance）

对于离散概率分布，推土机距离又称为 $\mathrm{Wasserstein}$ 距离。如果将不同的概率分布看成不同的沙土堆，则推土机距离就是将一个沙土堆转换成另一个沙土堆所需的最小总工作量。假定有两个离散的概率分布 $x\sim P_r$ 和 $y\sim P_\theta$ ，其中每个概率分布都有 $l$ 种可能结果，如下图所示给出的两个概率分布特例

计算推土机距离是一个优化问题，从一个沙土堆到另一个沙土堆无数种方案进沙土传输迁移，所以需要找到一个最佳的传输方案 $\gamma(x,y)$ 。根据上图实例，则需要如下约束条件 $\left\{\begin{aligned}\sum\limits_{x}\gamma(x,y)=P_\theta (y)\\\sum\limits_{y}\gamma(x,y)=P_r(x)\end{aligned}\right.$ $\gamma(x,y)\in \Pi(P_r,P_\theta)$ 为联合概率分布，并且 $\Pi(P_r,P_\theta)$ 的边缘分布为 $P_r,P_\theta$ 。此时推土机距离为每一个 $\gamma(x,y)$ 乘以 $x$ 到 $y$ 的欧式距离之和的最小值，具体公式为 $\mathrm{EMD}(P_r,P_\theta)=\inf\limits_{\gamma\in \Pi}\sum\limits_{x,y}\|x-y\|\gamma(x,y)=\inf\limits_{\gamma\in \Pi}\mathbb{E}_{(x,y)\sim\gamma}\|x-y\|$ 进一步令 $\Gamma=\gamma(x,y)$ ， $D=\|x,y\|$ ，其中 $\Gamma,D\in \mathbb{R}^{l\times l}$ ，则上式可以化简为 $\mathrm{EMD}(P_r,P_\theta)=\inf\limits_{\gamma\in \Pi}\langle D,\gamma \rangle_{F}$ 其中 $\langle , \rangle$ 表示斐波那契内积，即对应元素相乘再相加，矩阵 $\Gamma$ 和 $D$ 的热力示意图如下所示

线性规划求解

求解推土机距离中的最优传输方案可以利用线性规划标准型来求解。给定一个向量 $x\in \mathbb{R}^n$ ，线性目标标准型的优化形式如下所示 $\begin{array}{rl}\min\limits_{x}&z=c^{\top}x\\\mathrm{s.t.}&\left\{\begin{aligned}Ax&=b\\x&\ge 0\end{aligned}\right.\end{array}$ 其中 $c\in\mathbb{R}^n$ ， $A=\in \mathbb{R}^{m\times n}$ ， $b\in \mathbb{R}^m$ 。根据以上实例将推土机距离转化为线性规划标准型，首先将矩阵 $\Gamma$ 和 $D$ 进行向量化，则有 $\begin{aligned}x&=\mathrm{vec}(\Gamma)\in\mathbb{R}^{n}\\c&=\mathrm{vec}(D)\in\mathbb{R}^{n}\end{aligned}$ 并且有 $n=l^2$ ，将目标分布进行拼接则有 $b=\left[\begin{array}{c}P_r\\P_\theta\end{array}\right]$ 其中 $m = 2 l$ ，方程组 $A x = b$ 的具体形式如下所示 $\left\{\begin{aligned}\gamma(x_1,y_1)+\gamma(x_1,y_2)+\gamma(x_1,y_3)+\gamma(x_1,y_4)+\gamma(x_1,y_5)+\gamma(x_1,y_6)+\gamma(x_1,y_7)+\gamma(x_1,y_8)+\gamma(x_1,y_9)+\gamma(x_1,y_{10})&=P_r(x_1)\\\gamma(x_2,y_1)+\gamma(x_2,y_2)+\gamma(x_2,y_3)+\gamma(x_2,y_4)+\gamma(x_2,y_5)+\gamma(x_2,y_6)+\gamma(x_2,y_7)+\gamma(x_2,y_8)+\gamma(x_2,y_9)+\gamma(x_2,y_{10})&=P_r(x_2)\\ \gamma(x_3,y_1)+\gamma(x_3,y_2)+\gamma(x_3,y_3)+\gamma(x_3,y_4)+\gamma(x_3,y_5)+\gamma(x_3,y_6)+\gamma(x_3,y_7)+\gamma(x_3,y_8)+\gamma(x_3,y_9)+\gamma(x_3,y_{10})&=P_r(x_3)\\\gamma(x_4,y_1)+\gamma(x_4,y_2)+\gamma(x_4,y_3)+\gamma(x_4,y_4)+\gamma(x_4,y_5)+\gamma(x_4,y_6)+\gamma(x_4,y_7)+\gamma(x_4,y_8)+\gamma(x_4,y_9)+\gamma(x_4,y_{10})&=P_r(x_4)\\\gamma(x_5,y_1)+\gamma(x_5,y_2)+\gamma(x_5,y_3)+\gamma(x_5,y_4)+\gamma(x_5,y_5)+\gamma(x_5,y_6)+\gamma(x_5,y_7)+\gamma(x_5,y_8)+\gamma(x_5,y_9)+\gamma(x_5,y_{10})&=P_r(x_5)\\\gamma(x_6,y_1)+\gamma(x_6,y_2)+\gamma(x_6,y_3)+\gamma(x_6,y_4)+\gamma(x_6,y_5)+\gamma(x_6,y_6)+\gamma(x_6,y_7)+\gamma(x_6,y_8)+\gamma(x_6,y_9)+\gamma(x_6,y_{10})&=P_r(x_6)\\ \gamma(x_7,y_1)+\gamma(x_7,y_2)+\gamma(x_7,y_3)+\gamma(x_7,y_4)+\gamma(x_7,y_5)+\gamma(x_7,y_6)+\gamma(x_7,y_7)+\gamma(x_7,y_8)+\gamma(x_7,y_9)+\gamma(x_7,y_{10})&=P_r(x_7)\\\gamma(x_8,y_1)+\gamma(x_8,y_2)+\gamma(x_8,y_3)+\gamma(x_8,y_4)+\gamma(x_8,y_5)+\gamma(x_8,y_6)+\gamma(x_8,y_7)+\gamma(x_8,y_8)+\gamma(x_8,y_9)+\gamma(x_8,y_{10})&=P_r(x_8)\\\gamma(x_{9},y_1)+\gamma(x_{9},y_2)+\gamma(x_{9},y_3)+\gamma(x_{9},y_4)+\gamma(x_{9},y_5)+\gamma(x_{9},y_6)+\gamma(x_{9},y_7)+\gamma(x_{9},y_8)+\gamma(x_{9},y_9)+\gamma(x_{9},y_{10})&=P_r(x_{9})\\\gamma(x_{10},y_1)+\gamma(x_{10},y_2)+\gamma(x_{10},y_3)+\gamma(x_{10},y_4)+\gamma(x_{10},y_5)+\gamma(x_{10},y_6)+\gamma(x_{10},y_7)+\gamma(x_{10},y_8)+\cdots+\gamma(x_{10},y_{10})&=P_r(x_{10})\\\gamma(x_1,y_1)+\gamma(x_2,y_1)+\gamma(x_3,y_1)+\gamma(x_4,y_1)+\gamma(x_5,y_1)+\gamma(x_6,y_1)+\gamma(x_7,y_1)+\gamma(x_8,y_1)+\gamma(x_9,y_1)+\gamma(x_{10},y_{1})&=P_\theta(y_1)\\\gamma(x_1,y_2)+\gamma(x_2,y_2)+\gamma(x_3,y_2)+\gamma(x_4,y_2)+\gamma(x_5,y_2)+\gamma(x_6,y_2)+\gamma(x_7,y_2)+\gamma(x_8,y_2)+\gamma(x_9,y_2)+\gamma(x_{10},y_{2})&=P_\theta(y_2)\\\gamma(x_1,y_3)+\gamma(x_2,y_3)+\gamma(x_3,y_3)+\gamma(x_4,y_3)+\gamma(x_5,y_3)+\gamma(x_6,y_3)+\gamma(x_7,y_3)+\gamma(x_8,y_3)+\gamma(x_9,y_3)+\gamma(x_{10},y_{3})&=P_\theta(y_3)\\\gamma(x_1,y_4)+\gamma(x_2,y_4)+\gamma(x_3,y_4)+\gamma(x_4,y_4)+\gamma(x_5,y_4)+\gamma(x_6,y_4)+\gamma(x_7,y_4)+\gamma(x_8,y_4)+\gamma(x_9,y_4)+\gamma(x_{10},y_{4})&=P_\theta(y_4)\\\gamma(x_1,y_5)+\gamma(x_2,y_5)+\gamma(x_3,y_5)+\gamma(x_4,y_5)+\gamma(x_5,y_5)+\gamma(x_6,y_5)+\gamma(x_7,y_5)+\gamma(x_8,y_5)+\gamma(x_9,y_5)+\gamma(x_{10},y_{5})&=P_\theta(y_5)\\\gamma(x_1,y_6)+\gamma(x_2,y_6)+\gamma(x_3,y_6)+\gamma(x_4,y_6)+\gamma(x_5,y_6)+\gamma(x_6,y_6)+\gamma(x_7,y_6)+\gamma(x_8,y_6)+\gamma(x_9,y_6)+\gamma(x_{10},y_{6})&=P_\theta(y_6)\\\gamma(x_1,y_7)+\gamma(x_2,y_7)+\gamma(x_3,y_7)+\gamma(x_4,y_7)+\gamma(x_5,y_7)+\gamma(x_6,y_7)+\gamma(x_7,y_7)+\gamma(x_8,y_7)+\gamma(x_9,y_7)+\gamma(x_{10},y_{7})&=P_\theta(y_7)\\\gamma(x_1,y_8)+\gamma(x_2,y_8)+\gamma(x_3,y_8)+\gamma(x_4,y_8)+\gamma(x_5,y_8)+\gamma(x_6,y_8)+\gamma(x_7,y_8)+\gamma(x_8,y_8)+\gamma(x_9,y_8)+\gamma(x_{10},y_{8})&=P_\theta(y_8)\\\gamma(x_1,y_9)+\gamma(x_2,y_9)+\gamma(x_3,y_9)+\gamma(x_4,y_9)+\gamma(x_5,y_9)+\gamma(x_6,y_9)+\gamma(x_7,y_9)+\gamma(x_8,y_9)+\gamma(x_9,y_9)+\gamma(x_{10},y_{9})&=P_\theta(y_9)\\\gamma(x_1,y_{10})+\gamma(x_2,y_{10})+\gamma(x_3,y_{10})+\gamma(x_4,y_{10})+\gamma(x_5,y_{10})+\gamma(x_6,y_{10})+\gamma(x_7,y_{10})+\gamma(x_8,y_{10})+\cdots+\gamma(x_{10},y_{10})&=P_\theta(y_{10})\end{aligned}\right.$ 其中矩阵 $A$ 是一个大的 $0$ 和 $1$ 的二值稀疏矩阵为 $A=\left[\begin{array}{cccccccccc}\bf{1}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}\\\bf{0}&\bf{1}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}\\\bf{0}&\bf{0}&\bf{1}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}\\\bf{0}&\bf{0}&\bf{0}&\bf{1}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}\\\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{1}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}\\\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{1}&\bf{0}&\bf{0}&\bf{0}&\bf{0}\\\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{1}&\bf{0}&\bf{0}&\bf{0}\\\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{1}&\bf{0}&\bf{0}\\\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{1}&\bf{0}\\\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{0}&\bf{1}\\{\bf{e}}_1&{\bf{e}}_1&{\bf{e}}_1&{\bf{e}}_1&{\bf{e}}_1&{\bf{e}}_1&{\bf{e}}_1&{\bf{e}}_1&{\bf{e}}_1&{\bf{e}}_1\\{\bf{e}}_2&{\bf{e}}_2&{\bf{e}}_2&{\bf{e}}_2&{\bf{e}}_2&{\bf{e}}_2&{\bf{e}}_2&{\bf{e}}_2&{\bf{e}}_2&{\bf{e}}_2\\{\bf{e}}_3&{\bf{e}}_3&{\bf{e}}_3&{\bf{e}}_3&{\bf{e}}_3&{\bf{e}}_3&{\bf{e}}_3&{\bf{e}}_3&{\bf{e}}_3&{\bf{e}}_3\\{\bf{e}}_4&{\bf{e}}_4&{\bf{e}}_4&{\bf{e}}_4&{\bf{e}}_4&{\bf{e}}_4&{\bf{e}}_4&{\bf{e}}_4&{\bf{e}}_4&{\bf{e}}_4\\{\bf{e}}_5&{\bf{e}}_5&{\bf{e}}_5&{\bf{e}}_5&{\bf{e}}_5&{\bf{e}}_5&{\bf{e}}_5&{\bf{e}}_5&{\bf{e}}_5&{\bf{e}}_5\\{\bf{e}}_6&{\bf{e}}_6&{\bf{e}}_6&{\bf{e}}_6&{\bf{e}}_6&{\bf{e}}_6&{\bf{e}}_6&{\bf{e}}_6&{\bf{e}}_6&{\bf{e}}_6\\{\bf{e}}_7&{\bf{e}}_7&{\bf{e}}_7&{\bf{e}}_7&{\bf{e}}_7&{\bf{e}}_7&{\bf{e}}_7&{\bf{e}}_7&{\bf{e}}_7&{\bf{e}}_7\\{\bf{e}}_8&{\bf{e}}_8&{\bf{e}}_8&{\bf{e}}_8&{\bf{e}}_8&{\bf{e}}_8&{\bf{e}}_8&{\bf{e}}_8&{\bf{e}}_8&{\bf{e}}_8\\{\bf{e}}_9&{\bf{e}}_9&{\bf{e}}_9&{\bf{e}}_9&{\bf{e}}_9&{\bf{e}}_9&{\bf{e}}_9&{\bf{e}}_9&{\bf{e}}_9&{\bf{e}}_9\\{\bf{e}}_{10}&{\bf{e}}_{10}&{\bf{e}}_{10}&{\bf{e}}_{10}&{\bf{e}}_{10}&{\bf{e}}_{10}&{\bf{e}}_{10}&{\bf{e}}_{10}&{\bf{e}}_{10}&{\bf{e}}_{10}\end{array}\right]$ 其中向量 $\bf{1}$ ， $\bf{0}$ 和 ${\bf{e}}_i$ 具体取值如下所示 ${\bf{1}}=[1,1,1,1,1,1,1,1,1,1]\in \mathbb{R}^{1\times 10}$ ${\bf{0}}=[0,0,0,0,0,0,0,0,0,0]\in \mathbb{R}^{1\times 10}$ ${\bf{e}}_i[l]=\left\{\begin{array}{ll}1,&l=i\\0,&l\ne i\end{array},\quad {\bf{e}}_i\in \mathbb{R}^{1\times 10}, \quad i\in\{1,\cdots,10\}\right.$ 通过求解线性规划问题得到的最优传输方案的示意图如下所示

对偶线性规划求解

当随机变量的离散状态数量与输入变量的维数呈指数关系时，线性规划标准型求解在这些情况下就很不实用，例如在深度学习图像领域中，用 $\mathrm{GAN}$ 生成图片其输入的维度可以很容易达到数千维，此时就不会用线性规划标准型进行求解矩阵 $\Gamma$ 。 $\mathrm{GAN}$ 的核心目的利用分布 $P_r$ 生成一个与真实分布尽可能相同的分布 $P_\theta$ ，所以并不需要关注联合概率分布 $\gamma$ ，而是关注生成分布 $P_r$ 和真实分布 $P_\theta$ 的 $\mathrm{EMD}$ 数值（推土机距离），然后将该距离看做成损失函数进而求解梯度 $\nabla_{P_\theta}\mathrm{EMD}$ 并对网络进行训练。任何线性规划的初始形式都有其对偶形式如下所示 $\left. {\bf{primal\text{ } form:\quad}}\begin{array}{rc}\mathrm{minimize}&z=c^{\top}x\\\mathrm{s.t.}&\left\{\begin{aligned}Ax&=b\\x &\ge 0\end{aligned}\right.\end{array}\right|{\bf{dual \text{ }form:}}\quad\begin{array}{rc}\mathrm{maximize}&\hat{z}=b^{\top}y\\\mathrm{s.t.}&A^{\top}.y \le c\\&\end{array}$ 将求解初始问题的最小值转化为求解其对偶问题的最大值，目标 $\hat{z}$ 直接依赖于 $b$ ，其中 $b$ 包含概率分布 $P_r$ 和 $P_\theta$ 。初始线性规划 $z$ 的最小值是对偶线性规划 $\hat{z}$ 最大值的上界，具体则有 $z=c^{\top}x\ge y^{\top}Ax=y^{\top}b=\hat{z}$ 以上不等式称为弱对偶定理。强对偶定理则是初始线性规划 $z$ 的最小值等于对偶线性规划 $\hat{z}$ 最大值即 $z=\hat{z}$ 。利用对偶形式计算推土机距离 $\mathrm{EMD}$ ，假定 $y^{*}=\left[\begin{array}{c}{\bf{f}}\\{\bf{g}}\end{array}\right]$ 其中 ${\bf{f,g}}\in\mathbb{R}^{l\times 1}$ ，进一步根据上公式则有 $\mathrm{EMD}(P_r,P_\theta)={\bf{f}}^{\top}P_r+{\bf{g}}^{\top}P_\theta$ 其中向量 ${\bf{f}}$ 和 ${\bf{g}}$ 的值分别由函数 $f(\cdot)$ 和 $g(\cdot)$ 可得 $\left\{\begin{aligned}{\bf{f}}_i&=f(x_i)\\{\bf{g}}_i&=g(x_i)\end{aligned}\right.,\quad i\in\{1,\cdots,n\}$ 对偶形式的约束为 $A^{\top}y\le c$ ，以上约束条件展开则有 $f(x_i)+g(x_j)\le D_{ij}=\|x_i-x_j\|,\quad i,j\in\{1,\cdots,n\}$ 此时对偶形式可以整理为如下形式 $\mathrm{EMD}^{1}(P_r,P_\theta)=\max\limits_{f,g}\left\{\left.\sum\limits_{i=1}^n[f(x_i)P_r(x_i)+g(x_i)P_{\theta}(x_i)]\right|\forall i,j, \quad f(x_i)+g(x_j)\le D_{ij} \right\}$ 又因为当 $i = j$ 时，则有 $f(x_i)+g(x_i)\le D_{ii}=0$ 进而可知 $\begin{aligned}\sum\limits_{i=1}^n[f(x_i)P_r(x_i)+g(x_i)P_{\theta}(x_i)]& \le \sum\limits_{i=1}^n[f(x_i)P_r(x_i)-f(x_i)P_{\theta}(x_i)]\end{aligned}$ 所以当函数 $g = - f$ 时，则有 $\mathrm{EMD}^1(P_r,P_{\theta})\le\mathrm{EMD}^{2}(P_r,P_\theta)=\max\limits_{f,-f}\left.\left\{\sum\limits_{i=1}^n[f(x_i)P_r(x_i)-f(x_i)P_{\theta}(x_i)]\right|\forall i,j,\quad f(x_i)-f(x_j)\le D_{ij}\right\}$ 又因为 $\mathrm{EMD}^2(P_r,P_\theta)$ 中的函数取值范围 $f, - f$ 是 $\mathrm{EMD}^1(P_r,P_\theta)$ 中函数取值范围 $f, g$ 的一个特例，则有 $\mathrm{EMD}^1(P_r,P_\theta)\ge \mathrm{EMD}^2(P_r,P_\theta)$ ，综上所述则有 $\mathrm{EMD}(P_r,P_\theta)=\mathrm{EMD}^1(P_r,P_\theta)= \mathrm{EMD}^2(P_r,P_\theta)$ 又因为 $|f(x_i)-f(x_j)\le ||x_i-x_j||$ 所以 $f$ 是 $1$ - $\mathrm{Lipschiz}$ 连续，所以可以将推土机距离 $\mathrm{EMD}(P_r,P_\theta)$ 对偶形式表示为 $\begin{aligned}\mathrm{EMD}(P_r,P_\theta)&=\max\limits_{\|f\|\le 1}\sum\limits_{i=1}^n[f(x_i)P_r(x_i)-f(x_i)P_{\theta}(x_i)]\\&=\max\limits_{\|f\|\le 1}\mathbb{E}_{x\sim P_{r}(x)}[f(x)]-\mathbb{E}_{x\sim P_{\theta}(x)}[f(x)]\end{aligned}$

$\mathrm{Wasserstein}$ 距离

当 $\mathrm{Wasserstein}$ 距离取 $1$ 范数的时候则为推土机距离，以上考虑的概率分布是离散的情况。考虑随机变量是连续的情况，给定连续随机变量的分布 $p_r$ 和 $p_\theta$ ，并且它们是联合分布 $\pi(p_r,p_\theta)$ 的边缘分布，则 $\mathrm{Wasserstein}$ 距离表示为 $W(p_r,p_\theta)=\inf_{\gamma \in \pi}\int\limits_x\int\limits_{y}\|x-y\|\gamma(x,y)dxdy=\inf\limits_{\gamma \in \pi}\mathbb{E}_{x,y\sim\gamma}[\|x-y\|]$ 通过引入一个额外的函数 $f:x\longmapsto k\in \mathbb{R}$ ，可以消除掉关于联合分布 $\gamma$ 所有的约束条件 $\begin{aligned}W(p_r,p_\theta)&=\inf\limits_{\gamma \in \pi}\mathbb{E}_{x,y\sim \gamma}[\|x-y\|]\\&=\inf\limits_{\gamma \in \pi}\mathbb{E}_{x,y\sim \gamma}[\|x-y\|+\sup\limits_{f} \mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t\sim p_\theta}[f(t)]-(f(x)-f(y))]\\&=\inf\limits_{\gamma}\sup\limits_{f}\mathbb{E}_{x,y\sim \gamma}[\|x-y\|+\mathbb{E}_{s\sim p_r}[f(s)]-\mathbb{E}_{t\sim p_{\theta}}[f(t)]-(f(x)-f(y))]\end{aligned}$ 其中有 $\sup\limits_{f} \mathbb{E}_{s \sim p_r}[f(s)]-\mathbb{E}_{t\sim p_\theta}[f(t)]-(f(x)-f(y))]=\left\{\begin{array}{rl}0,& \gamma \in \pi \\ +\infty,& \mathrm{otherwise}\end{array}\right.$ 以上问题是一个极大极小值双层优化问题，求解以上问题需要用到极小极大原理，在不改变解的前提下颠倒求解顺序，则有对偶形式如下所示 $\begin{aligned}W(p_r,p_\theta)=&\sup\limits_{f}\inf\limits_{\gamma} \mathbb{E}_{x,y\sim \gamma}[\|x-y\|+\mathbb{E}_{s\sim p_r}[f(s)]-\mathbb{E}_{t \sim p_{\theta}}[f(t)]-(f(x)-f(y))]\\=&\sup\limits_{f}\mathbb{E}_{s\sim p_r}[f(s)]-\mathbb{E}_{t\sim p_{\theta}}[f(t)]+\inf\limits_{\gamma}\mathbb{E}_{x,y \sim \gamma}[\|x-y\|-(f(x)-f(y))]\end{aligned}$ 又因为 $\inf\limits_{\gamma}\mathbb{E}_{x,y \sim \gamma}[\|x-y\|-(f(x)-f(y))]=\left\{\begin{array}{rl}0,& \|f\|_L \le 1\\-\infty,& \mathrm{otherwise}\end{array}\right.$ 则可得最后对偶形式如下所示 $W(p_r,p_\theta)=\sup\limits_{\|f\|_L \le 1}\mathbb{E}_{s\sim p_r}[f(s)]-\mathbb{E}_{t\sim p_\theta}[f(t)]$ 该函数 $f$ 适合用神经网络来逼近，而且这种方法的优点是，只需夹紧权值即可实现 $\mathrm{Lipschitz}$ 连续性。

智能推荐

freenas php5.56,FreeNAS中文网-程序员宅基地

文章浏览阅读296次。我们很高兴地宣布FreeNAS 11.3-BETA1全面上市。11.3系列代表了长达一年的开发和测试工作。与先前的测试版发布周期不同，此测试版已由iXsystems QA团队内部全面审核，用户应注意其稳定性和可用性方面的显着改进。在进行更新之前，请仔细阅读这些发行说明，以熟悉此更新所带来的许多新功能的潜在影响。请向https://jira.ixsystems.com/projects/NAS报告任..._freenas中文官网

Java设计模式（十）装饰器模式_装饰'模式java代码-程序员宅基地

文章浏览阅读868次。装饰器模式_装饰'模式java代码

Java学习手册：（数据结构与算法-字符串）如何输出字符串的所有组合？_输出a bbb ccccc的java语句源代码-程序员宅基地

文章浏览阅读533次。问题描述：假设字符串中所有的字符串都不重复，如何输出字符串的所有组合？例如，输入字符串“abc”，则输出a、b、c、ab、ac、bc、abc，共7种组合。方法一：递归法方法二：构造一个长度为n的01字符串(或二进制数)表示输出结果中是否包含某个字符。原题要求则变为输出“000”到“111”这2^n-1个组合对应的字符串。方法一代码如下：package com.haobi;/*..._输出a bbb ccccc的java语句源代码

oracle的in集合,oracle中in与not in集合中有空值问题-程序员宅基地

文章浏览阅读638次。IN和NOT IN本质上都是OR运算，因而计算逻辑OR时处理NULL的方式不同，产生的结果也不同。下面我们分析一下前面的三条语句SQL> select deptno2 from dept3 where deptno in (10,50,null);这里可以等价于where deptno=10 or deptno=50 or deptno=null，由于是or相连接，那么只要有一个条件为T..._oracle in 有空值

cdma特有效应_CDMA九问九答-程序员宅基地

文章浏览阅读198次。CDMA技术九问九答一、什么是CDMA技术CDMA直译为码分多址，是在数字通信技术的分支扩频通信的基础上发展起来的一种技术。所谓扩频，简单地说就是把频谱扩展。CDMA技术采用的是直接序列扩频方式，就是用具有噪声特性的载波以及比简单点到几点通信所需带宽宽得多的频带去传输相同的数据。同调频、调幅技术一样，直接序列扩频是一种调制技术，它采用一个码序列(高速)去调制原始数据信息(低速)，这样调制后的信息就..._cdma有阴影效应吗

场景文本检测与识别：最新进展及未来趋势_icdar 2003介绍-程序员宅基地

文章浏览阅读5k次，点赞10次，收藏42次。Scene text detection and recognition: recent advances and future trends文章目录摘要1、介绍2.场景文本检测与识别的最新进展2.1 场景文本检测相关工作2.2 场景文本识别相关工作2.3 端到端文本识别相关工作2.4 场景文本检测与识别的相关应用及产品3 基准数据集和评估协议3.1基准数据集3.2评估协议3.2.1文本检测算法的评估协议3.2.2 文本识别算法的评估协议4讨论5 结论摘要文本作为人类最具影响力的发明之一，在人类生_icdar 2003介绍

随便推点

网编SEO进阶:JavaScript对SEO的影响及解决之道-程序员宅基地

文章浏览阅读73次。JavaScript在SEO中是一个很头疼的问题,一方面我们在网页制作中需要使用JavaScript来实现绚丽的特效,而一方面JavaScript又会对搜索引擎的抓取分析造成不好的影响。...yahoo在官方文档中也有类似的强调:尽量使用搜索引擎能够识别的文本信息,避免过多的JavaScript、Cookie、框架、DHTML或Flash等复杂技术。...更多内容，请访问SEO助手博客转载于:h..._javasrciptseo代码

Python爬虫：Scrapy中间件Middleware和Pipeline_scrapy middleware pipeline-程序员宅基地

文章浏览阅读2.9k次，点赞2次，收藏3次。Scrapy提供了可自定义2种中间件，1个数据处理器名称作用用户设置数据收集器（Item-Pipeline)处理item覆盖下载中间件（Downloader-Middleware）处理request/response合并爬虫中间件（Spider-Middleware）处理item/response/request合并解释：用户设置：是指cu..._scrapy middleware pipeline

菜鸟小万的每天一道ccf题Day22（202104-01灰度直方图）_问题描述一幅长宽分别为个像素和个像素的灰度图像可以表示为一个大小的矩阵-程序员宅基地

文章浏览阅读347次。欢迎大家留言一起探讨更好的解法，有什么错误也欢迎指正呀。呜呜呜呜，dbq，连上21天课我要废了，时间只能让我完成第一题了。忙完这周必然开始第二题（flag）。标题已经加了题号了，方便查找。202104-01灰度直方图问题描述一幅长宽分别为 n 个像素和 m 个像素的灰度图像可以表示为一个 n×m 大小的矩阵 A。其中每个元素 Aij（0≤i<n、0≤j<m）是一个 [0,L) 范围内的整数，表示对应位置像素的灰度值。具体来说，一个 8 比特的灰度图像中每个像素的灰度范围是 [0,12_问题描述一幅长宽分别为个像素和个像素的灰度图像可以表示为一个大小的矩阵