概念学习—机器学习_考虑一个概念学习问题,其中每个实例为一实数,而每个假设为实数中的某个区间。-程序员宅基地

技术标签: 读书笔记  算法  机器学习  人工智能  

介绍

  1. 定义:
    概念学习是指从有关某个布尔函数的输入输出训练样例中,推断出该布尔函数。其结果是布尔函数,即true or false。
    每个概念可被看作一个对象或事件集合,它是从更大的集合中选取的子集(如从动物的集合中选取鸟类)

  2. 每个属性值可使用的符号:

    • 由“?”表示任意值
    • 明确指定的属性值(如 AirTemp=Warm
    • 由“∅”表示不接受任何值
      如果某些实例x满足假设h的所有约束,就将x分类为正例。
      比如,为判定 Aldo 只在寒冷和潮湿的日子里进行水上运动(并与其他属性无关),这样的假设可表示为下面的表达式:
      < ? , C o l d , H i g h , ? , ? , ? > <?, Cold, High, ?, ?, ?> <?,Cold,High,?,?,?>
      最一般的假设是每一天都是正例,可表示为:
      < ? , ? , ? , ? , ? , ? > <?, ?, ?, ?, ?, ?> <?,?,?,?,?,?>
      而最特殊的假设即每一天都是反例,表示为:
      < ∅ , ∅ , ∅ , ∅ , ∅ , ∅ > <∅, ∅, ∅, ∅, ∅, ∅ > <,,,,,>
  3. 术语
    目标概念:待学习的概念或函数,记作c。
    在学习目标概念时,必须提供一套训练样例(training examples),每个样例为 X 中的一个实例 x 以及它的目标概念值 c(x)(如表 2-1 中的训练样例)。对于 c(x)=1 的实例被称为正例(positive example),或称为目标概念的成员。对于 c(x)=0 的实例为反例(negative example),
    或称为非目标概念成员。
    归纳学习:从特殊的训练样例(关于概念的正/反样例)中归纳出一般的概念描述(函数),它的一般操作是泛化和特化。这也是机器学习的中心问题。
    归纳学习算法最多只能保证输出的假设能与训练样例相拟合。如果没有更多的信息,我们只能假定,对于未见实例最好的假设就是与训练数据最佳拟合的假设。这是归纳学习的一个基本假定

概念学习

概念学习可以看作是一个搜索的过程,范围是假设的表示所隐含定义的整个空间。搜索的目标是为了寻找能最好地拟合训练样例的假设。

如果属性 Sky有 3 种可能的值,而 AirTemp、 Humidity、 Wind、 Water 和 Forecast 都只有两种可能值,则:
不同实例: 3×2×2×2×2×2=96
语法不同:5×4×4×4×4×4=5120
语义不同:1+4×3×3×3×3×3=973
语法不同和语义不同对于每个属性包括?和∅,而在语义不同条件下,但凡每个属性出现∅的假设都只视为一种,这就是1的来源。

假设的一般到特殊序

为说明一般到特殊序,考虑以下两个假设:
h 1 = < S u n n y , ? , ? , S t r o n g , ? , ? > h 2 = < S u n n y , ? , ? , ? , ? , ? > h_1=<Sunny, ?, ?, Strong, ?, ?>\\ h_2=<Sunny, ?, ?, ?, ?, ?> h1=<Sunny,?,?,Strong,?,?>h2=<Sunny,?,?,?,?,?>
由于 h 2 h_2 h2的包含的实例约束条件更少,他划分出正例也较多,所以,我们说 h 2 h_2 h2 h 1 h_1 h1更一般。
也就是说含括更多样本的集合,就更一般,因为一般人会比特殊的人更多。
首先,对 X X X中任意实例 x x x H H H中任意假设 h h h,我们说 x x x 满足 h h h 当且仅当 h ( x ) = 1 h(x)=1 h(x)=1。现在以实例集合的形式定义一个more-general-than-or-equal-to 的关系:
给定假设 h j h_j hj h k h_k hk h j h_j hj more-general-than-or-equal-to h k h_k hk,当且仅当任意一个满足 h k h_k hk的实例同时也满足 h j h_j hj
数学定义
定义逆向关系:“比…更特殊 ” more_specific_than

Find-S 寻找极大特殊假设

算法:
FindS算法
为说明这一算法,假定给予学习器的一系列训练样例如表 2-1 所示。 Find-S 的第一步是将 h 初始化为 H 中最特殊假设:
在这里插入图片描述
在扫描到表 2-1 中第一个训练样例时,它刚好是个正例。很清楚,这时的 h 太特殊了。h 中的每一个∅约束都不被该样例满足,因此,每个属性都被替换成能拟合该例的紧邻的更一般的值约束,也就是这一样例的属性值本身:
Step1
这个 h 仍旧太特殊了,它把除了第一个样例以外的所有实例都划分为反例。下一步,第2个训练样例(仍然为正例)迫使该算法进一步将 h 泛化。这次使用“?”代替 h 中不能满足新样例的属性值。之后的假设变为:
Step2
然后处理第三个训练样例,这里是一个反例, h 不变。实际上, Find-S 算法简单地忽略每一个反例!
大致流程就是如上

变型空间和候选消除算法

候选消除算法优势:它能解决 Find-S 中的若干不足之处。 Find-S 输出的假设只是 H 中能够拟合训练样例的多个假设中的一个。 而在候选消除算法中, 输出的是与训练样例一致的所有假设的集合。

表示

一致的定义:
在这里插入图片描述
h是训练样例,c是假设结果。
变型空间:候选消除算法能够表示与训练样例一致的所有假设。 在假设空间中的这一子集被称为关于假设空间 H 和训练样例 D 的变型空间(version space)。
算法:
候选消除算法

更简明的表示

再一次考虑表 2-2 中描述的 EnjoySport 概念学习问题。对于表 2-1 中给定的 4 个训练样例, Find-S 输出假设:
h = < S u n n y , W a r m , ? , S t r o n g , ? , ? > h=<Sunny, Warm, ?, Strong, ?, ?> h<Sunny,Warm,?,Strong,?,?>
实际上,这只是 H 中与训练样例一致的所有 6个假设之一。
6个假设
可以直观地看出,使用最一般和最特殊集合表示变型空间的作法是合理的。下面我们精确地定义 S 和 G 这两个边界集合,并且证明它们确实代表了变型空间。
定义

一般边界就是确定条件比较少,“?”比较多的假设,从全“?”开始,慢慢消去“?”。特殊边界就是条件比较多,从全空开始。

算法过程:
候选消除算法过程
候选消除算法过程

样例:
例子Step1
例子Step2
可以发现:

  1. G和S都是要把样例划分为正的假设,只不过不满足G的样例一定是负,而S不一定。
  2. 如何理解G和S,G=general代表了这个假设更一般,S=special代表这个假设更特别,所以满足S假设的样例一定要满足G假设,所以S假设是G假设的上界。
  3. 遇到第一个反例时要去找样例中与S假设中不同的属性,这些属性就是G的改变属性。为什么?因为只能做一步的小调整,所以只能改变一个属性,而且G要满足正样例,所以只能改变负样例中与当前S不同的属性,将该属性置为负样例属性的相反值。
    说明
    结果
    图中的红X是第4个样例改变的。

关于变型空间和候选消除的说明

候选消除算法是否会收敛到正确的假设

由候选消除算法得到的变型空间能够收敛到描述目标概念的假设的条件是:
(1)在训练样例中没有错误
(2)在 H 中确实包含描述目标概念的正确假设。
如果训练数据中包含错误会怎样?
这种情况下,很不幸,算法肯定会从变型空间中删除正确的目标概念。
当然,如果给定足够的训练数据,最终,我们会发现 S 和 G 边界收敛得到一个空的变型空间,从而得知训练数据有误。空的变型空间表示 H 中没有假设能够与样例一致。

归纳偏置

无偏的学习器
思路:提供一个假设空间H, 能表达所有的可教授概念, 换言之, 它能够表达实例集X的所有可能的子集, 称之为X的幂集P(X)。
无偏形式
假设的并。
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/worldvagrant/article/details/122196914

智能推荐

Android实现部分文字可点击及变色_spannablestring clickspan 变色-程序员宅基地

文章浏览阅读1.4k次。可以使用SpannableString和ClickableSpan: TextView userAgreement = findViewById(R.id.user_agreement); SpannableString agreement = new SpannableString("Agree to the User Agreement and Privac..._spannablestring clickspan 变色

ollvm的ida trace操作笔记_ida trace 脚本-程序员宅基地

文章浏览阅读1.6k次。1.启动顺序操作记录1.把android_server push到手机里2.chmod 777 android_server3.adbforward tcp:11678 tcp:116784.ida->debugger->attach->arm-androddebugger5.再按f9把程序跑起来6.file->script_file->选择script.py加载ida脚本,成功后会有日志7.然后点击Debugger->breaklist里可以看到我们的断_ida trace 脚本

Mac M1 搭建 React Native 环境_mac 配置 react native 的打包环境-程序员宅基地

文章浏览阅读3.4k次。Mac M1 搭建 React Native 环境环境安装可以参考对照官方文档,本文针对M1芯片目前未完全适配情况下的方案,算是临时解决方案,不具有时效性。你需要自行准备的依赖:Xcode >10、Node >v12、Npm、Yarn、ruby、git更改编译环境首先要做的是进入 访达>应用程序>实用工具>右键 终端.app 显示简介>使用Rosetta打开勾选这一点极其重要,如果你使用的为其他终端工具,请勾选此选项,有关ffi的兼容问题,这只是临时解决方案_mac 配置 react native 的打包环境

SE壳C#程序-CrackMe-爆破 By:凉游浅笔深画眉 / Net7Cracker-程序员宅基地

文章浏览阅读644次。【文章标题】: 【SE壳C#程序-CrackMe-爆破】文字视频记录!【文章作者】: 凉游浅笔深画眉【软件名称】: CM区好冷清,我来发一个吧!小小草莓【下载地址】: http://www.52pojie.cn/thread-243089-1-1.html【加壳方式】: SE壳【使用工具】: OD+WinHex+CFF Explorer【作者声明】: 只是感兴趣,没有其他目的。失误之处敬请诸位大..._凉游浅笔画深眉是啥

安卓ttf格式的字体包_锤子科技定制字体 | Smartisan T黑-程序员宅基地

文章浏览阅读2k次。Smartisan·T黑2019年10月31日19:30分在北京工业大学奥林匹克体育馆举行的坚果手机2019新品发布会上,Smartisan OS产品经理朱海舟正式发布了Smartisan OS 7.0。随着全新的Smartisan OS 7.0一同亮相的还有锤子科技向方正字库订制的系统UI字体:Smartisan T黑(锤子T黑)。锤子T黑有着几乎完美的特质:灰度均衡、重心统一、中宫内..._smartisan t黑

Java中extends与implements使用方法_implements在java中的格式-程序员宅基地

文章浏览阅读4.8k次,点赞4次,收藏6次。一.extends关键字 extends是实现(单)继承(一个类)的关键字,通过使用extends 来显式地指明当前类继承的父类。只要那个类不是声明为final或者那个类定义为abstract的就能继承。其基本声明格式如下: [修饰符] class 子类名 extends 父类名{ 类体 }_implements在java中的格式

随便推点

r语言c1,R语言之主成分分析-程序员宅基地

文章浏览阅读568次。主成分分析R软件实现程序(一):>d=read.table("clipboard",header=T)#从剪贴板读取数据>sd=scale(d)#对数据进行标准化处理>sd#输出标准化后的数据和属性信息,把标准化的数据拷贝到剪贴板备用>d=read.table("clipboard",header=T)#从剪贴板读取标准化数据>pca=princomp(d,co..._r语言dcor什么意思

webGl学习-程序员宅基地

文章浏览阅读127次。开个新坑,不知道能不能做完学习地址:mdn地址浏览器支持范围:支持范围首先是创建一个容器,与canvas的canvas.getContext('2d')相似let canvas = document.getElementById('myCanvas');let gl = canvas.getContext('webgl');_webgl学习

基于大数据的音乐推荐系统的设计与实现-程序员宅基地

文章浏览阅读1.7w次,点赞20次,收藏328次。系统提供的功能有,音乐管理:管理员可以添加删除音乐,音乐查找:用户可以在系统中自行查找想要听的歌曲,音乐推荐:系统在收集了用户的行为数据之后为用户个性化推荐音乐,用户管理:管理员可以对用户进行删除,评论管理:管理员可以对评论进行删除,音乐下载:用户可以自行下载个人喜欢分歌曲。选择数据源要确定数据源数据是否可靠真实,要避免爬取音乐平台发布的虚伪的音乐数据,如不存在的歌唱家、专辑、音乐等。通过分析基于大数据的音乐推荐系统,即音乐推荐需要哪些数据,详细了解推荐机制,搞清楚这些数据需要被处理为什么格式。_基于大数据的音乐推荐系统的设计与实现

Nginx反向代理缓存服务器搭建-程序员宅基地

文章浏览阅读672次。Nginx反向代理代理服务可简单的分为正向代理和反向代理:正向代理: 用于代理内部网络对Internet的连接请求(如×××/NAT),客户端指定代理服务器,并将本来要直接发送给目标Web服务器的HTTP请求先发送到代理服务器上, 然后由代理服务器去访问Web服务器,并将Web服务器的Response回传给客户端:反向代理: 与正向代理相反,如果局域网向Internet提供..._o /usr/local/server/ngx_cache_purge-2.3/config was found error: failed to ru

layui用table.render加载数据 用table.reload重载里面的数据---解决table.render重新加载闪动的问题_layui table.reload 闪退-程序员宅基地

文章浏览阅读2.7w次,点赞4次,收藏30次。今天在用layui 展示数据的时候,首先想到了table.render这个插件进行数据的展示,因为数据要实时刷新,说到实时刷新,你最低要三秒刷新一次表格的数据吧!!!一开始写了个定时把table.render放到定时函数里面,三秒执行一次函数,那么问题来了,虽然效果是实现了,但这是重新加载表格啊,三秒闪一次,别说是用户了,我都看不下去了,闪的眼疼,就想有没有只让数据重新加载,表格不动。终于功夫不负..._layui table.reload 闪退

Ubuntu系统突然进不去了_ubuntu开机无法进入系统-程序员宅基地

文章浏览阅读8.7k次,点赞5次,收藏37次。ubuntu系统突然进不去了!怎么办?_ubuntu开机无法进入系统