一种多分类的Logistic Regression-Soft Max Regression_多分类的logistic regression的损失函数对θ的偏导数-程序员宅基地

技术标签: Logistic Regression  机器学习  机器学习算法  

我们知道logistic regression很适合做一些非线性方面的分类问题,不过它只适合处理二分类的问题,且在给出分类结果时还会给出结果的概率。那么如果需要用类似的方法(这里类似的方法指的是输出分类结果并且给出概率值)来处理多分类问题的话该怎么扩展呢?本次要讲的就是对logstic regression扩展的一种多分类器,softmax regression。参考的内容为网页: http://deeplearning.stanford.edu/wiki/index.php/Softmax_Regression

  在Logistic regression中,所学习的系统的程为:

  

  其对应的损失函数为:

  

  可以看出,给定一个样本,就输出一个概率值,该概率值表示的含义是这个样本属于类别’1’的概率,因为总共才有2个类别,所以另一个类别的概率直接用1减掉刚刚的结果即可。如果现在的假设是多分类问题,比如说总共有k个类别。在softmax regression中这时候的系统的方程为:

  

  其中的参数sidta不再是列向量,而是一个矩阵,矩阵的每一行可以看做是一个类别所对应分类器的参数,总共有k行。所以矩阵sidta可以写成下面的形式:

  

  此时,系统损失函数的方程为:

  

  其中的1{.}是一个指示性函数,即当大括号中的值为真时,该函数的结果就为1,否则其结果就为0。

  当然了,如果要用梯度下降法,牛顿法,或者L-BFGS法求得系统的参数的话,就必须求出损失函数的偏导函数,softmax regression中损失函数的偏导函数如下所示:

  

  注意公式中的是一个向量,表示的是针对第i个类别而求得的。所以上面的公式还只是一个类别的偏导公式,我们需要求出所有类别的偏导公式。表示的是损失函数对第j个类别的第l个参数的偏导。

  比较有趣的时,softmax regression中对参数的最优化求解不只一个,每当求得一个优化参数时,如果将这个参数的每一项都减掉同一个数,其得到的损失函数值也是一样的。这说明这个参数不是唯一解。用数学公式证明过程如下所示:

  

  那这个到底是什么原因呢?从宏观上可以这么理解,因为此时的损失函数不是严格非凸的,也就是说在局部最小值点附近是一个”平坦”的,所以在这个参数附近的值都是一样的了。那么怎样避免这个问题呢?其实加入规则项就可以解决(比如说,用牛顿法求解时,hession矩阵如果没有加入规则项,就有可能不是可逆的从而导致了刚才的情况,如果加入了规则项后该hession矩阵就不会不可逆了),加入规则项后的损失函数表达式如下:

  

  这个时候的偏导函数表达式如下所示:

  

  接下来剩下的问题就是用数学优化的方法来求解了,另外还可以从数学公式的角度去理解softmax regression是logistic regression的扩展。

  网页教程中还介绍了softmax regression和k binary classifiers之间的区别和使用条件。总结就这么一个要点:如果所需的分类类别之间是严格相互排斥的,也就是两种类别不能同时被一个样本占有,这时候应该使用softmax regression。反正,如果所需分类的类别之间允许某些重叠,这时候就应该使用binary classifiers了。

  参考资料:

Deep learning:四(logistic regression练习)

http://deeplearning.stanford.edu/wiki/index.php/Softmax_Regression

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/UPON_THE_YUN/article/details/8915233

智能推荐

自动化与智能化并行:数字化运维体系助力企业腾飞-程序员宅基地

文章浏览阅读5.4k次,点赞154次,收藏120次。*《数字化运维:IT运维架构的数字化转型》**以传统运维管理体系(PPTR)为基座,在融合数字化转型、ITIL4、DevOps、SRE以及敏捷精益思想的基础上,首先提出了数字化运维管理体系 OPDM(Operation Process Data Measurement,平台化工具、高速化流程、数据化驱动、体系化度量),然后详细讲解了数字化运维一体化平台的建设路径和方法。在数字化转型的过程中,构建数字化运维体系显得尤为重要,它不仅是企业信息化建设的基石,更是推动企业数字化转型走向深入的关键环节。

转载:十款主流科研绘图软件-程序员宅基地

文章浏览阅读6.4k次,点赞2次,收藏15次。2_科研绘图软件

关于rk3588s使用facenet-pytorch-main进行onnx的转换以及RKNN生成操作_reducel2-程序员宅基地

文章浏览阅读2k次,点赞2次,收藏13次。关于rk3588s使用facenet-pytorch-main进行onnx的转换以及RKNN生成操作_reducel2

aar打包依赖 android_android中怎么把module打包成aar文件,以及怎么使用?-程序员宅基地

文章浏览阅读467次。何为aar包?jar与aar的简单区别:*.jar:只包含了class文件与清单文件 ,不包含资源文件,如图片等所有res中的文件。*.aar:包含所有资源 ,class 以及 res 资源文件全部包含一、在android studio中新建moudle1、新建module或者导入:file->new->import->new module/import module新..._android 模块化开发打包成aar再调用

django 查询条件 正则查找regex 200316_django正则查询-程序员宅基地

文章浏览阅读393次。正则查找查找正则以某开头的_django正则查询

SSD cache命中率跟IOPS_硬盘命中率-程序员宅基地

文章浏览阅读1.3k次。对于ssd-cache来说,一个非常重要的指标是命中率,而客户真正关心的实际上是IOPS性能,那么命中率跟IOPS的关系怎样呢?且看下面的分析。如果一个虚拟机的命中率是80%,另外一个虚拟机命中率是90%,那么他们的性能(IOPS)相差多少呢?凭直觉,他们的IOPS应该是相差10%,那么实际上是不是这样呢?假如SSD磁盘单线程读的IOPS是5000,7200转的机械磁盘的IOPS是80,那么SSD每次读需要 1000ms/5000=0.2ms,机械磁盘每次读需要1000ms/80=12.5ms1_硬盘命中率

随便推点

【QT+QGIS跨平台编译】018:【OpenSSL+Qt跨平台编译】(基于QT进行配置)_qgis ssl模式-程序员宅基地

文章浏览阅读598次,点赞14次,收藏4次。通过一套OpenSSL代码和框架,实现OpenSSL跨平台编译。在Qt环境下,集成OpenSSL库的头文件、库文件,构建跨平台编译的pro文件。通过构建的一套配置工程,基于Qt Creator IDE,完成跨平台编译实践。在Windows、Linux、MacOS等操作系统上进行测试,成功编译,形成的成果(头文件、库文件等)可在不同系统下调用或使用,从而更好地构建跨平台解决方案。采用的是OpenSSL 1.1版本。读者可参考博客中的集成原理和pro文件,构建不同版本的OpenSSL跨平台包。_qgis ssl模式

Oracle 官方Java Jdk1.8_API帮助文档+Android 开发帮助文档(中英文版)_oracle官网下载的jdkapi没中文的吗-程序员宅基地

文章浏览阅读1.6k次。Oracle 官方 Java JDK1.8_API 帮助文档(英文)JDK 1.8 API 谷歌翻译版 密码:yupnAndroid API 开发文档 (中文版)密码:nhc4Windows系统下阅读CHM:参考 百度经验Mac 阅读CHM格式的文档推荐:CHM Read App Store有下载出现乱码:解决方案:显示-文档编码-Unicode(UTF-8) ..._oracle官网下载的jdkapi没中文的吗

[一天一项目]统计元音字母_用switch语句编写程序,统计输入的一串字母中元音字母(a,e,i,o,u)的总个数和每个元-程序员宅基地

文章浏览阅读1.2k次。统计元音字母——输入一个字符串,统计处其中元音字母的数量。更复杂点的话统计出每个元音字母的数量。统计元音字母,其实和拉丁猪文字游戏有异曲同工之妙,算法其实差不多,但是统计元音字母有两种理解方式:计算总的元音字母出现次数计算每个元音字母出现的次数下面列出两种解决方法。//如果不需要具体区分每个元音字母出现的次数 private static void count(String conte_用switch语句编写程序,统计输入的一串字母中元音字母(a,e,i,o,u)的总个数和每个元

实验7-1-7 查找整数 (10分)_【id:412】【11分】g. 实验7-1-7 查找整数 (10 分) 题目描述 本题要求从输入的n-程序员宅基地

文章浏览阅读2.7k次,点赞3次,收藏2次。本题要求从输入的N个整数中查找给定的X。如果找到,输出X的位置(从0开始数);如果没有找到,输出“Not Found”。输入格式:输入在第一行中给出两个正整数N(≤20)和X,第二行给出N个整数。数字均不超过长整型,其间以空格分隔。输出格式:在一行中输出X的位置,或者“Not Found”。输入样例1:5 73 5 7 1 9输出样例1:2输入样例2:5 73 5 8 1 9输出样例2:Not Found#include<stdio.h>int main(){_【id:412】【11分】g. 实验7-1-7 查找整数 (10 分) 题目描述 本题要求从输入的n个

Jetpack Compose中的副作用_disposableeffect-程序员宅基地

文章浏览阅读2.3k次,点赞4次,收藏7次。从本质上讲,副作用是任何超出函数控制和作用域的东西。副作用会使函数变得不确定,因此它们使开发人员难以推理代码。这对于React、Compose这类的声明式UI框架至关重要,因为它们都是通过函数(组件)的反复执行来渲染UI的,函数执行的时机和次数都不可控,但是函数的执行结果必须可控,因此,我们要求这些函数组件必须用纯函数实现。_disposableeffect

大数据毕业设计Hadoop+Spark+Hive景区游客满意度预测与优化 旅游推荐系统 Apriori算法 景区客流量预测 旅游大数据 旅游景点推荐 景点规划 计算机毕业设计 机器学习 深度学习-程序员宅基地

文章浏览阅读715次,点赞8次,收藏10次。大数据毕业设计Hadoop+Spark+Hive景区游客满意度预测与优化 旅游推荐系统 Apriori算法 景区客流量预测 旅游大数据 旅游景点推荐 景点规划 计算机毕业设计 机器学习 深度学习

推荐文章

热门文章

相关标签