信息熵_波段信息熵一般多大-程序员宅基地

1.简介

熵的概念最早起源于，热力学中表征物质状态的参量之一，其物理意义是体系混乱程度的度量，即用于度量一个热力学系统的无序程度。

在信息论里面，熵是对信息不确定性的测量。香农（C. E. Shannon）信息论应用概率来描述不确定性。信息是用不确定性的量度定义的。一个消息的可能性愈小，其信息愈多；而消息的可能性愈大，则其信息愈少。事件出现的概率小，不确定性越多，信息量就大，反之则少。

信息量是指信息多少的量度。1928年，R.V.L.哈特莱首先提出信息定量化的初步设想，他将消息数的对数定义为信息量。若信源有m种消息，且每个消息是以相等可能产生的，则该信源的信息量可表示为I=logm

信息量与概率呈单调递减关系，概率越小，信息量越大。

信息量的数学定义如下式所示，可用随机变量的概率来表示，U表示发送的信息，则 $u_{i}$ 表示发送信息U中的一种类型：

信息熵表示信息量的数学期望，是信源发出信息前的平均不确定性，也称为先验熵。

熵越高，信息的不确定性越大，预测的难度越大，则能传输越多的信息；

熵越低，信息的不确定性越小，即信息很容易预测到，则意味着传输的信息越少。

如：文件压缩，压缩掉冗余内容

如果压缩是无损的，即通过解压缩可以百分之百地恢复初始的消息内容，那么压缩后的消息携带的信息和未压缩的原始消息是一样的多。而压缩后的消息可以通过较少的比特传递，因此压缩消息的每个比特能携带更多的信息，也就是说压缩信息的熵更加高。

未压缩信息：包含很多很容易预测到的对信息的传递无关紧要的内容
压缩信息：压缩信息的熵更高，意味着比较难于预测压缩消息携带的信息，原因在于压缩消息里面没有冗余，即每个比特的消息携带了一个比特的信息。香农的信源编码定理揭示了，任何无损压缩技术不可能让一比特的消息携带超过一比特的信息。消息的熵乘以消息的长度决定了消息可以携带多少信息。

2.定义

2.1 熵/边缘熵/先验熵

在信息论与概率统计中，熵是表示随机变量不确定性的度量，不确定性越高，熵值越大。

设 X 是离散型随机变量（有限个），其概率分布为：

则随机变量 X 的熵的定义为：

注意：

熵与X变量的取值无关，只依赖于X的分布， $H$ 可以看作 $p_{1},p_{2},...,p_{n}$ 的函数；
熵可以看作 $-logp_{i}$ 的数学期望，负号的作用是确保结果为正；
log 一般以2为底，单位是比特(bit)，或者以 $e$ 为底，单位奈特(nat)；

信息熵的取值范围：

n：X的取值类别数

当 $p=0/1，$ 时， $H(p)=0$ ：随机变量取值很确定，即完全没有发送信息的不确定性

当 $p=\frac{1}{n}$ 时， $H(p)=logn$ ：此时模棱两可，熵取值最大。也就是，当随机变量 X 为均匀分布时，信息熵取值最大。

拿二分类来说，当 $p=0.1\approx 0$ ， $p=0.85\approx 1$ ： $H(0)<H(0.9)<H(0.5)$

2.2 条件熵

（1）后验熵

信息熵H(Y) 表示在发出信息 $x$ 之前Y存在的不确定性，在接收到信息 $x$ 之后，信息Y的不确定性会发生改变，即后验熵 $H(Y|x)$ ，它是接收到一定的信息后，对信息Y进行的后验判断，定义如下：

（2）条件熵：后验熵的期望

考虑所有信息X时，得到后验熵的期望，即条件熵。条件熵 H(Y|X) 表示在已知随机变量X的条件下，随机变量Y的不确定性，定义为X给定条件下Y的条件概率分布的熵对X的数学期望。

H(Y|X) 表示在接收到X后对信息Y仍存在的平均不确定性，通常由随机干扰引起。

2.3 联合熵

对于多维随机变量（X,Y），其联合分布为

联合熵的定义为：

基于边缘熵的定义，很容易得到两个随机变量的联合熵。

最后，将边缘熵、条件熵、联合熵联系起来：

由此可见，H(X,Y) 的不确定性最大，当它减去了 H(X)，得到在X确定的情况下Y的不确定性。

2.4 互信息

互信息 $I(X;Y)$ 的含义：给定条件Y后，X的信息的不确定性减少的程度。

如果X和Y相互独立，则 $H(X)=H(X|Y)$ ，即它们的互信息为0。

3.信息增益

当熵和条件熵的概率是根据训练集数据估计得到时，成为“经验熵”和“经验条件熵”。

信息增益：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度，熵 $H(Y)$ 与条件熵 $H(Y|X)$ 的差，即互信息。

对于机器学习分类，熵是对不确定性的测量，也可以说是度量样本集合纯度的一种指标，也就是说样本类数越少（不确定性越小），样本纯度越高，信息熵就越小。

决策树中，最重要的一步就是划分属性，信息增益是划分属性的一种方式。直观上讲：

$Gain(D,A)$ = 划分之前数据集的信息熵 - 特征A划分之后的信息熵

信息增益等价于训练数据集中类与特征的互信息，表示由于特征A而使得对数据集D进行分类的不确定性减少的程度。

对于数据集D而言，信息增益依赖于特征，不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力。

因此，根据信息增益准则的特征选择方法是：对训练集D，计算其每个特征的信息增益，比较其大小，选择信息增益最大的特征。

参考：

https://zhuanlan.zhihu.com/p/112272582

本文链接：https://blog.csdn.net/qq_27586341/article/details/107684165

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下：http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态：[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

文章浏览阅读1.3w次，点赞45次，收藏99次。我个人用的是anaconda3的一个python集成环境，自带jupyter notebook，但在我打开jupyter notebook界面后，却找不到对应的虚拟环境，原来是jupyter notebook只是通用于下载anaconda时自带的环境，其他环境要想使用必须手动下载一些库：1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

文章浏览阅读5.2k次，点赞19次，收藏28次。选择scoop纯属意外，也是无奈，因为电脑用户被锁了管理员权限，所有exe安装程序都无法安装，只可以用绿色软件，最后被我发现scoop，省去了到处下载XXX绿色版的烦恼，当然scoop里需要管理员权限的软件也跟我无缘了（譬如everything）。推荐添加dorado这个bucket镜像，里面很多中文软件，但是部分国外的软件下载地址在github，可能无法下载。以上两个是官方bucket的国内镜像，所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

文章浏览阅读4.5k次，点赞2次，收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了，例如：这里的:sty..._vue el-color-picker

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

文章浏览阅读640次。基于芯片日益增长的问题，所以内核开发者们引入了新的方法，就是在内核中只保留函数，而数据则不包含，由用户（应用程序员）自己把数据按照规定的格式编写，并放在约定的地方，为了不占用过多的内存，还要求数据以根精简的方式编写。boot启动时，传参给内核，告诉内核设备树文件和kernel的位置，内核启动时根据地址去找到设备树文件，再利用专用的编译器去反编译dtb文件，将dtb还原成数据结构，以供驱动的函数去调用。firmware是三星的一个固件的设备信息，因为找不到固件，所以内核启动不成功。_exynos 4412 刷机

Linux系统配置jdk_linux配置jdk-程序员宅基地

文章浏览阅读2w次，点赞24次，收藏42次。Linux系统配置jdkLinux学习教程，Linux入门教程（超详细）_linux配置jdk

随便推点

matlab(4)：特殊符号的输入_matlab微米怎么输入-程序员宅基地

文章浏览阅读3.3k次，点赞5次，收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图：_matlab微米怎么输入

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件，可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中，对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数，而关闭则使用fclose函数。在C语言中，可以使用fread和fwrite函数进行二进制读写。‍ Biaoge 于2024-03-09 23:51发布阅读量：7 ️文章类型：【 C语言程序设计】在C语言中，用于打开文件的函数是____，用于关闭文件的函数是____。

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

文章浏览阅读3.4k次，点赞2次，收藏13次。跟随鼠标移动的粒子以grid（SOP）为partical（SOP）的资源模板，调整后连接【Geo组合+point spirit（MAT)】，在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in（CHOP)鼠标位置到metaball的坐标，实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

文章浏览阅读178次。项目运行环境配置：Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成，B/S模式 + Maven管理等等。环境需要1.运行环境：最好是java jdk 1.8，我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析时序图-程序员宅基地

文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多，会从Java-&amp;gt;Jni-&amp;gt;C/C++慢慢分析，后面会慢慢更新。另外，博客只作为自己学习记录的一种方式，对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析时序图

java 数据结构与算法 ——快速排序法-程序员宅基地

文章浏览阅读2.4k次，点赞41次，收藏13次。java 数据结构与算法 ——快速排序法_快速排序法