『迷你教程』绝对能看懂的分类问题和回归问题白话版_明生活中有哪些问题可以建模成为分类问题或回归问题-程序员宅基地

技术标签: 未分类  机器学习  回归  分类  

内容介绍

老生常谈的话题分类问题和回归问题之间有一个重要的区别。从根本上说,分类是关于预测标签,回归是关于预测数量。

我经常看到这样的问题:

如何计算回归问题的准确度?

像这样的问题表明没有真正理解分类和回归之间的区别以及试图衡量的准确性。
在这里插入图片描述

函数近似

预测建模 是使用历史数据开发模型以对我们没有答案的新数据进行预测的问题。

预测建模可以描述为从输入变量 (X) 到输出变量 (y) 逼近映射函数 (f) 的数学问题。这称为函数逼近问题。建模算法的工作是在给定可用时间和资源的情况下找到最佳映射函数。

一般来说,我们可以将所有的函数逼近任务分为分类任务和回归任务。

分类预测建模

分类预测建模是从输入变量 (X) 到离散输出变量 (y) 逼近映射函数 (f) 的任务。
在这里插入图片描述

输出变量通常称为标签或类别。映射函数预测给定观察的类别或类别。

例如,一封文本电子邮件可以归类为属于以下两类之一:“垃圾邮件”和“非垃圾邮件”。

  • 分类问题要求将示例分类为两个或多个类别之一。
  • 分类可以具有实值或离散输入变量。
  • 具有两个类别的问题通常称为二分类或二元分类问题。
  • 具有两个以上类的问题通常称为多类分类问题。
  • 一个例子被分配多个类的问题称为多标签分类问题。

分类模型通常将连续值预测为给定示例属于每个输出类的概率。概率可以解释为属于每个类的给定示例的可能性或置信度。通过选择具有最高概率的类标签,可以将预测概率转换为类值。

例如,特定的文本电子邮件可能被指定为 0.1 为“垃圾邮件”的概率和 0.9 为“非垃圾邮件”的概率。我们可以通过选择“非垃圾邮件”标签将这些概率转换为类别标签,因为它具有最高的预测可能性。

有很多方法可以估计分类预测模型的技能,但最常见的方法可能是计算分类准确度。

分类准确率是所有预测中正确分类的示例的百分比。

例如,如果一个分类预测模型做出了 5 个预测,其中 3 个是正确的,2 个是错误的,那么仅基于这些预测的模型的分类精度将是:

accuracy = correct predictions / total predictions * 100
accuracy = 3 / 5 * 100
accuracy = 60%

能够学习分类预测模型的算法称为分类算法。

回归预测建模

回归预测建模是将映射函数 (f) 从输入变量 (X) 逼近到连续输出变量 (y) 的任务。
在这里插入图片描述

连续输出变量是实数值,例如整数或浮点值。这些通常是数量,例如数量和大小。

例如,可以预测一所房子以特定的美元价值出售,可能在 200,000。

  • 回归问题需要对数量进行预测。
  • 回归可以具有实值或离散输入变量。
  • 具有多个输入变量的问题通常称为多元回归问题。
  • 输入变量按时间排序的回归问题称为时间序列预测问题。

因为回归预测模型预测一个数量,所以模型的技能必须在这些预测中报告为错误。

有很多方法可以估计回归预测模型的技能,但最常见的方法可能是计算均方根误差,缩写为 RMSE。

例如,如果回归预测模型进行了 2 个预测,其中一个是 1.5,其中预期值为 1.0,另一个是 3.3,预期值为 3.0,则 RMSE 将为:

RMSE = sqrt(average(error^2))
RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2)
RMSE = sqrt((0.25 + 0.09) / 2)
RMSE = sqrt(0.17)
RMSE = 0.412

RMSE 的一个好处是误差分数的单位与预测值的单位相同。

能够学习回归预测模型的算法称为回归算法。

一些算法的名称中带有“回归”一词,例如线性回归和逻辑回归,这可能会使事情变得混乱,因为线性回归是一种回归算法,而逻辑回归是一种分类算法。

分类与回归

分类预测建模问题不同于回归预测建模问题。

分类是预测离散类标签的任务。
回归是预测连续数量的任务。
分类和回归算法之间存在一些重叠;例如:

  • 分类算法可以预测一个连续值,但连续值的形式是类别标签的概率。
  • 回归算法可以预测一个离散值,但离散值以整数形式存在。

一些算法经过小的修改即可用于分类和回归,例如决策树和人工神经网络。某些算法不能或不能轻松用于这两种问题类型,例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。

重要的是,我们评估分类和回归预测的方式各不相同并且不会重叠,例如:

  • 分类预测可以使用准确性进行评估,而回归预测则不能。
  • 回归预测可以使用均方根误差进行评估,而分类预测则不能。

在分类和回归问题之间转换

在某些情况下,可以将回归问题转换为分类问题。例如,要预测的数量可以转换为离散的桶。
在这里插入图片描述

例如,金额在以下连续范围内 100 可以转换为 2 个类别:

class_type_1: 0-49
class_type_2: 50-100

这通常称为离散化,结果输出变量是一个分类,其中标签具有有序关系(称为序数)。

在某些情况下,分类问题可以转换为回归问题。例如,可以将标签转换为连续范围。

一些算法已经通过预测每个类别的概率来做到这一点,而这些概率又可以缩放到特定范围:

quantity = min + probability * range

或者,类值可以排序并映射到连续范围:

class_type_1: 0-49
class_type_2: 50-100

如果分类问题中的类标签没有自然的序数关系,从分类到回归的转换可能会导致令人惊讶或糟糕的性能,因为模型可能会学习到从输入到连续输出范围的错误或不存在的映射。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_20288327/article/details/122741214

智能推荐

874计算机科学基础综合,2018年四川大学874计算机科学专业基础综合之计算机操作系统考研仿真模拟五套题...-程序员宅基地

文章浏览阅读1.1k次。一、选择题1. 串行接口是指( )。A. 接口与系统总线之间串行传送,接口与I/0设备之间串行传送B. 接口与系统总线之间串行传送,接口与1/0设备之间并行传送C. 接口与系统总线之间并行传送,接口与I/0设备之间串行传送D. 接口与系统总线之间并行传送,接口与I/0设备之间并行传送【答案】C2. 最容易造成很多小碎片的可变分区分配算法是( )。A. 首次适应算法B. 最佳适应算法..._874 计算机科学专业基础综合题型

XShell连接失败:Could not connect to '192.168.191.128' (port 22): Connection failed._could not connect to '192.168.17.128' (port 22): c-程序员宅基地

文章浏览阅读9.7k次,点赞5次,收藏15次。连接xshell失败,报错如下图,怎么解决呢。1、通过ps -e|grep ssh命令判断是否安装ssh服务2、如果只有客户端安装了,服务器没有安装,则需要安装ssh服务器,命令:apt-get install openssh-server3、安装成功之后,启动ssh服务,命令:/etc/init.d/ssh start4、通过ps -e|grep ssh命令再次判断是否正确启动..._could not connect to '192.168.17.128' (port 22): connection failed.

杰理之KeyPage【篇】_杰理 空白芯片 烧入key文件-程序员宅基地

文章浏览阅读209次。00000000_杰理 空白芯片 烧入key文件

一文读懂ChatGPT,满足你对chatGPT的好奇心_引发对chatgpt兴趣的表述-程序员宅基地

文章浏览阅读475次。2023年初,“ChatGPT”一词在社交媒体上引起了热议,人们纷纷探讨它的本质和对社会的影响。就连央视新闻也对此进行了报道。作为新传专业的前沿人士,我们当然不能忽视这一热点。本文将全面解析ChatGPT,打开“技术黑箱”,探讨它对新闻与传播领域的影响。_引发对chatgpt兴趣的表述

中文字符频率统计python_用Python数据分析方法进行汉字声调频率统计分析-程序员宅基地

文章浏览阅读259次。用Python数据分析方法进行汉字声调频率统计分析木合塔尔·沙地克;布合力齐姑丽·瓦斯力【期刊名称】《电脑知识与技术》【年(卷),期】2017(013)035【摘要】该文首先用Python程序,自动获取基本汉字字符集中的所有汉字,然后用汉字拼音转换工具pypinyin把所有汉字转换成拼音,最后根据所有汉字的拼音声调,统计并可视化拼音声调的占比.【总页数】2页(13-14)【关键词】数据分析;数据可..._汉字声调频率统计

linux输出信息调试信息重定向-程序员宅基地

文章浏览阅读64次。最近在做一个android系统移植的项目,所使用的开发板com1是调试串口,就是说会有uboot和kernel的调试信息打印在com1上(ttySAC0)。因为后期要使用ttySAC0作为上层应用通信串口,所以要把所有的调试信息都给去掉。参考网上的几篇文章,自己做了如下修改,终于把调试信息重定向到ttySAC1上了,在这做下记录。参考文章有:http://blog.csdn.net/longt..._嵌入式rootfs 输出重定向到/dev/console

随便推点

uniapp 引入iconfont图标库彩色symbol教程_uniapp symbol图标-程序员宅基地

文章浏览阅读1.2k次,点赞4次,收藏12次。1,先去iconfont登录,然后选择图标加入购物车 2,点击又上角车车添加进入项目我的项目中就会出现选择的图标 3,点击下载至本地,然后解压文件夹,然后切换到uniapp打开终端运行注:要保证自己电脑有安装node(没有安装node可以去官网下载Node.js 中文网)npm i -g iconfont-tools(mac用户失败的话在前面加个sudo,password就是自己的开机密码吧)4,终端切换到上面解压的文件夹里面,运行iconfont-tools 这些可以默认也可以自己命名(我是自己命名的_uniapp symbol图标

C、C++ 对于char*和char[]的理解_c++ char*-程序员宅基地

文章浏览阅读1.2w次,点赞25次,收藏192次。char*和char[]都是指针,指向第一个字符所在的地址,但char*是常量的指针,char[]是指针的常量_c++ char*

Sublime Text2 使用教程-程序员宅基地

文章浏览阅读930次。代码编辑器或者文本编辑器,对于程序员来说,就像剑与战士一样,谁都想拥有一把可以随心驾驭且锋利无比的宝剑,而每一位程序员,同样会去追求最适合自己的强大、灵活的编辑器,相信你和我一样,都不会例外。我用过的编辑器不少,真不少~ 但却没有哪款让我特别心仪的,直到我遇到了 Sublime Text 2 !如果说“神器”是我能给予一款软件最高的评价,那么我很乐意为它封上这么一个称号。它小巧绿色且速度非

对10个整数进行按照从小到大的顺序排序用选择法和冒泡排序_对十个数进行大小排序java-程序员宅基地

文章浏览阅读4.1k次。一、选择法这是每一个数出来跟后面所有的进行比较。2.冒泡排序法,是两个相邻的进行对比。_对十个数进行大小排序java

物联网开发笔记——使用网络调试助手连接阿里云物联网平台(基于MQTT协议)_网络调试助手连接阿里云连不上-程序员宅基地

文章浏览阅读2.9k次。物联网开发笔记——使用网络调试助手连接阿里云物联网平台(基于MQTT协议)其实作者本意是使用4G模块来实现与阿里云物联网平台的连接过程,但是由于自己用的4G模块自身的限制,使得阿里云连接总是无法建立,已经联系客服返厂检修了,于是我在此使用网络调试助手来演示如何与阿里云物联网平台建立连接。一.准备工作1.MQTT协议说明文档(3.1.1版本)2.网络调试助手(可使用域名与服务器建立连接)PS:与阿里云建立连解释,最好使用域名来完成连接过程,而不是使用IP号。这里我跟阿里云的售后工程师咨询过,表示对应_网络调试助手连接阿里云连不上

<<<零基础C++速成>>>_无c语言基础c++期末速成-程序员宅基地

文章浏览阅读544次,点赞5次,收藏6次。运算符与表达式任何高级程序设计语言中,表达式都是最基本的组成部分,可以说C++中的大部分语句都是由表达式构成的。_无c语言基础c++期末速成