监督式机器学习与无监督式机器学习-程序员宅基地

技术标签: 深度学习  人工智能  

监督式机器学习

监督式机器学习是指数据集中的每条记录都包含标签或标志的问题类型。

data_label.png

请考虑下表,其中包含有关最高温度、最低温度和最大振动的信息。

table.png

最后一列 asperity 是标签。给定温度和振动数据,我们想要预测粗糙度。这是一个带标签的数据集。

使用这个包含标签的数据集,我们可以训练一种算法来预测未标记数据的未来。你把它拟合到你的算法中,算法现在会预测这个数据的标签。这称为监督学习。回归分类是监督学习的两种类型。

回归

必须预测连续值的用例类型称为回归。例如,如果我们向算法传递值 35、35 和 12,则预测粗糙度的值为 0.32。

regression.png

分类

输出为二进制值或至少是离散值而不是连续值的用例类型称为分类。换句话说,该算法不预测数字,而是预测类变量。

table2.png

例如,如果我们将值 35、35 和 12 传递给算法,则预测值 0 表示损坏。

classification.png

如果只有两个类,则称为二元分类。如果有两个以上的类,则具有多类分类。

无监督学习

无监督机器学习是指数据集中没有记录包含任何标签或标志的问题类型。聚类是一种无监督机器学习。

data2.png

聚类

在前面显示的 3 维图中,请注意 3 个数据簇或云。仅通过绘制表格,我们就可以看到数据以三个聚类为中心。此过程称为聚类分析。

clustering.png

构建模型

机器学习模型是指使用以前看到的数据构建的数学配置,并设置为以先前计算的一定程度的精度预测新数据。

以下是从头开始构建模型时迭代执行的步骤序列。

  • 数据探索

  • 数据预处理

  • 拆分数据以进行训练和测试

  • 准备分类模型

  • 使用管道组装所有这些步骤

  • 训练模型

  • 对模型运行预测

  • 评估和可视化模型性能

使用 Python 和 scikit-learn 生成和测试第一个机器学习模型中介绍了生成模型的更详细的实践方法。

管道

管道是在机器学习流中设计数据处理的一个非常方便的过程。数据预处理是一个繁琐的步骤,每次训练开始之前都必须对数据应用,无论将应用哪种算法。下图显示了每次在数据建模开始之前应用的典型预处理步骤序列。

pipelines-1.png

这个想法是,在使用管道时,您可以保留预处理,只需切换不同的建模算法或建模算法的不同参数集即可。总体思路是,您可以将整个数据处理流程融合到一个管道中,并且该管道可以在下游使用。

pipelines-2.png

与机器学习算法类似,管道具有称为拟合、评估和评分的方法。基本上,fit 开始训练,score 返回预测值。

pipelines-3.png

交叉验证是使用管道的最大优势之一。它是指使用同一管道更改或调整多个超参数的过程,从而加速算法的优化。有几个超参数可以调整为性能更好的模型。与这些主题相关的详细信息将在以后的文章中介绍。

总结

本教程提供了机器学习的一些基本概念。它提供了一种实用的方法来理解必要的概念,以帮助您入门。

   在线教程

有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取

请添加图片描述

人工智能书籍

第一阶段:零基础入门(3-6个月)

新手应首先通过少而精的学习,看到全景图,建立大局观。 通过完成小实验,建立信心,才能避免“从入门到放弃”的尴尬。因此,第一阶段只推荐4本最必要的书(而且这些书到了第二、三阶段也能继续用),入门以后,在后续学习中再“哪里不会补哪里”即可。

第二阶段:基础进阶(3-6个月)

熟读《机器学习算法的数学解析与Python实现》并动手实践后,你已经对机器学习有了基本的了解,不再是小白了。这时可以开始触类旁通,学习热门技术,加强实践水平。在深入学习的同时,也可以探索自己感兴趣的方向,为求职面试打好基础。

第三阶段:工作应用

这一阶段你已经不再需要引导,只需要一些推荐书目。如果你从入门时就确认了未来的工作方向,可以在第二阶段就提前阅读相关入门书籍(对应“商业落地五大方向”中的前两本),然后再“哪里不会补哪里”。

 有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取

在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/2301_81887304/article/details/135025924

智能推荐

FLink聚合性能优化--MiniBatch分析_flink mini-batch-程序员宅基地

文章浏览阅读5.4k次,点赞4次,收藏15次。[@ TOC]一、MiniBatch的演进思路1、MiniBatch版本Flink 1.9.0 SQL(Blink Planner) 性能优化中一项重要的改进就是升级了微批模型,即 MiniBatch(也称作MicroBatch或MiniBatch2.0),在支持高吞吐场景发挥了重要作用。MiniBatch与早期的MiniBatch1.0在微批的触发机制略有不同。原理同样是缓存一定的数据后..._flink mini-batch

EasyExcel导入_easyexcel 对接multipartfile-程序员宅基地

文章浏览阅读808次,点赞6次,收藏6次。导入依赖<dependency> <groupId>com.alibaba</groupId> <artifactId>easyexcel</artifactId> <version>2.1.6</version></dependency>Controllerimport java.text.ParseException;import org.springframework._easyexcel 对接multipartfile

英飞凌TC3xx之一起认识DSADC系列(一)架构介绍-程序员宅基地

文章浏览阅读2.7k次,点赞27次,收藏42次。一文清晰了解英飞凌TC3xx系列的架构和组成部分,适用于正在使用EDSADC功能的人们。_dsadc

JavaDemo——读取硬盘物理序列号_java 硬盘物理序列号-程序员宅基地

文章浏览阅读1.2k次。通过调用wmic命令获取硬盘序列号,wmic命令很强大。Demo:/** * 2019年3月13日下午3:48:22 */package testReadDiskInfo;import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;..._java 硬盘物理序列号

CentOS 编译Hadoop 2.6 32位_32位linux系统 编译hadoop-程序员宅基地

文章浏览阅读2.2k次。本文采用CenOS 6 32位,JDK1.7进行编译 (1)安装编译库yum install cmake lzo-devel zlib-devel gcc gcc-c++ autoconf automake libtool ncurses-devel openssl-devel libXtst(2)安装mavenwget http://repos.fedorapeople.org/repos/dc_32位linux系统 编译hadoop

bind mysql web_基于的django的bind dns管理平台-程序员宅基地

文章浏览阅读422次。BIND(Berkeley internet Name Daemon)也叫做NAMED,是现今互联网上使用最为广泛的DNS 服务器程序,本项目旨在更简单的维护我们内部的dns系统。环境:数据库: mysql5.6应用: bind-9.11.2环境: python3.8 , django30x01 安装数据库bash sql 建库语句use mysqlcreate database bind9; -..._使用web管理bind

随便推点

Quartz定时任务调度cron 表达式时间格式(☆)_cron表达式 下午5点30-程序员宅基地

文章浏览阅读890次。cron 表达式的格式 Quartz Cron 表达式支持到七个域 名称 是否必须 允许值 特殊字符 秒 是 0-59 ..._cron表达式 下午5点30

SQL Server 疑难杂症--转换科学计数法的数值字符串为decimal类型_mssql 字符串转decimal 精度问题-程序员宅基地

文章浏览阅读1.8k次。今天在操作数据库时,需要将字符串转换成Decimal类型。代码如下:selectcast('0.12'asdecimal(18,2));selectconvert(decimal(18,2),'0.12');当需要将科学计数法的数字字符串转换成Decimal时,这2种写法都报错:Msg 8114, Level 16, State 5, Line 1Erro..._mssql 字符串转decimal 精度问题

soul源码解读(十八)-- resilience4j插件原理分析_resilience4j timeoutduration含义-程序员宅基地

文章浏览阅读553次。soul源码解读(十八)resilience4j插件使用resilience4jresilience4j插件是网关用来对流量进行限流与熔断的可选选择之一。resilience4j为网关熔断限流提供能力。插件使用1.启动 admin,打开 resilience4j 插件开关2.在 bootstrap 项目的 pom 文件引入 resilience4j 插件的相关依赖,启动 bootstrap <!-- soul resilience4j plugin start--> <_resilience4j timeoutduration含义

Splunk安装配置和基础运维_splunk中文手册,2024阿里+头条+腾讯等大厂Linux运维笔试题分享_splunk部署、配置、优化-程序员宅基地

文章浏览阅读367次,点赞5次,收藏3次。16、mysql的innodb如何定位锁问题,mysql如何减少主从复制延迟?2、在工作中,运维人员经常需要跟运营人员打交道,请问运营人员是做什么工作的?6、Squid、Varinsh和Nginx有什么区别,工作中你怎么选择?5、LVS、Nginx、HAproxy有什么区别?9、讲述一下Tomcat8005、8009、8080三个端口的含义?索引默认位置:/opt/splunk/var/lib/splunk。7、Tomcat和Resin有什么区别,工作中你怎么选择?15、讲述一下LVS三种模式的工作过程?_splunk部署、配置、优化

PreScan 学习问题总结_prescan2021与matlab版本-程序员宅基地

文章浏览阅读1.5k次。学习自动驾驶,入手PreScan 仿真软件。 从此开启学习_prescan2021与matlab版本

一文看懂Linux内核!Linux内核架构和工作原理详解_linux内核基本原理-程序员宅基地

文章浏览阅读1.9w次,点赞43次,收藏421次。linux内核相关视频解析:5个方面分析linux内核架构,让你对内核不再陌生90分钟了解Linux内存架构,numa的优势,slab的实现,vmalloc的原理手把手带你实现一个Linux内核文件系统简介作用是将应用层序的请求传递给硬件,并充当底层驱动程序,对系统中的各种设备和组件进行寻址。目前支持模块的动态装卸(裁剪)。Linux内核就是基于这个策略实现的。Linux进程1.采用层次结构,每个进程都依赖于一个父进程。内核启动init程序作为第一个进程。该进程负责进一步的系统初始化操作。init_linux内核基本原理

推荐文章

热门文章

相关标签