机器学习-Anomaly Detection_根据f1值或者查准率与查全率的比例来选择ε-程序员宅基地

技术标签: 机器学习  

Problem Motivation

异常检测(Anomaly detection)是机器学习算法的一个常见应用。这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。

假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行 QA
(质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等。
在这里插入图片描述
在这里插入图片描述
这里的每个点、 每个叉, 都是你的无标签数据。这样,异常检测问题可以定义如下:我
们假设后来有一天,你有一个新的飞机引擎从生产线上流出,而你的新飞机引擎有特征变量xtest。
给定数据集 x(1),x(2),…,x(m),我们假使数据集是正常的,我们希望知道新的数据 xtest 是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p(x)。
这种方法称为密度估计,表达如下:
在这里插入图片描述
模型 p(x) =我们其属于一组数据的可能性
通过 p(x)<ε 检测非正常用户。
异常检测主要用来识别欺骗。例如在线采集而来的有关用户的数据,一个特征向量中可
能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。
再一个例子是检测一个数据中心,特征可能包含:内存使用情况,被访问的磁盘数量,
CPU 的负载,网络的通信量等。根据这些特征可以构建一个模型,用来判断某些计算机是不是有可能出错了。


Gaussian Distribution

高斯分布,也称为正态分布。
通常如果我们认为变量 x 符合高斯分布 x~N(μ,σ2)则其概率密度函数为:
在这里插入图片描述

利用已有的数据来预测总体中的 μ 和 σ2 的计算方法如下:
在这里插入图片描述
在这里插入图片描述
高斯分布样例:

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/u010092862/article/details/88787594

智能推荐

射频MOS管和三极管优缺点对比_mos管比起三极管有什么优势-程序员宅基地

文章浏览阅读5.1k次。MOS管优点:1.具有良好的温度特性。2.具有良好的噪声特性。3.输入阻抗高。4.MOS管的漏极电流具有二次函数特性,三极管的集电极电流是指数形式。5.MOS管的上限频率远远超过三极管的上限工作频率。6.MOS管功耗较小。MOS管缺点:1.增益通常较低。2.输入阻抗高,导致匹配网络难设计。3.相对于三极管,MOS管的功率容量偏低..._mos管比起三极管有什么优势

华为云云耀云服务器L实例评测使用_华为云耀云服务器l实例跟腾讯云什么服务器类似-程序员宅基地

文章浏览阅读172次。其次就是会发送一条开通后的短信到手机上,这点还可以吧,不过也没太大必要,感觉要是第一次进这个服务器管理界面的话,有个服务器信息弹窗选择是新手还是老手,新手提示教程,老手提示服务器基础信息会更好一点,一般人买服务器都是在电脑上,感觉手机短信的不那么有必要。以下是进入后的界面,感觉还行吧,就是都是统一的黑色,没感觉到重点,熟悉后,应该会好一些,但是什么重置密码,设置网关什么的不好找到,需要详细的找一下,这点不太好。还有一次创建失败的信息,也不知道因为什么,在后边价格联系客服之类的应该会更好一点。_华为云耀云服务器l实例跟腾讯云什么服务器类似

在安装win7系统时如何不产生100M的系统保留分区_做系统的保留分区只有50mb-程序员宅基地

文章浏览阅读855次。在安装win7系统时如何不产生100M的系统保留分区 如果你是从xp系统升级安装,或者重新安装win7系统,应该不会出现所谓的100M系统保留分区情况。 这里说的安装指的的对新的磁盘或者删除了老的所有分区后的安装win7系统。 第一种方法:利用第三方分区工具先对磁盘进行分区。没有第三方工具,利用xp安装盘,进行磁盘分区也行。只要分区格式化就可以了,没有必要安装xp系统_做系统的保留分区只有50mb

大厂程序员都爱用的六款IDE工具,你都知道吗?_ide软件-程序员宅基地

文章浏览阅读2k次。给大家推荐六款好用的IDE工具,快来看看吧!_ide软件

若依项目框架解析_若依框架-程序员宅基地

文章浏览阅读6.7k次。若依_若依框架

ElementUI 自定义表头 el-table_elementui 表头自定义-程序员宅基地

文章浏览阅读1.6k次。ElementUI 自定义表头 el-table昨晚睡不着的时候,突然想到了前段时间做的一个需求,但是只记得大概了,所以早起复习一下在ElementUI 中,都知道 el-table 定义表格,但是很多时候,官方的并满足不了需求,这时候就需要用到官方提供的自定义表头首先,我们需要在 el-table-column 里面添加 render-header 属性<el-table-column v-for="(item, index) in columnList" :key="index" :_elementui 表头自定义

随便推点

问题:( )存量经营派单中,实现一个派单聚合多种业务的活动是哪类?( ) #微信#微信-程序员宅基地

文章浏览阅读307次,点赞9次,收藏6次。问题:( )存量经营派单中,实现一个派单聚合多种业务的活动是哪类?

《嵌入式系统原理与接口技术》第2章 嵌入式系统工程设计概述_嵌入式系统设计中有哪些矛盾需要设计者和开发者共同解决?-程序员宅基地

文章浏览阅读3.8k次。由于Live writer排版差异,文中编号始终从1开始,对于文章内容欢迎通过评论或者邮件[email protected]与我交流。1.1 嵌入式系统设计的基本流程不知各位读者是否记得在小学学过的一篇课文,说的是统筹方法,课文中举了泡茶喝这个例子。比方,想泡壶茶喝。当_嵌入式系统设计中有哪些矛盾需要设计者和开发者共同解决?

链表--有序链表的合并C语言实现-程序员宅基地

文章浏览阅读167次。合并 k 个升序的链表并将结果作为一个升序的链表返回其头节点。

显卡驱动 1080Ti Linux,Ubuntu18.04 Nvidia1080ti环境安装显卡驱动-程序员宅基地

文章浏览阅读483次。安装了1080ti显卡的电脑安装Ubuntu16.04和17.04都有烦人的黑屏问题,应该是内置显卡驱动不稳定导致的问题。安装刚新出的Ubuntu18.04尝试一下,很好很顺畅,没什么问题,系统直接安装成功,接着安装官方的显卡驱动。1、重启进入BIOS,将secure boot取消(设为disabled),再重启2、用命令lsmod | grep nouveau如果有东西输出,就要去关闭自带的No..._ubuntu18.04 1080ti 驱动

Nginx详解 五:反向代理-程序员宅基地

文章浏览阅读1.1w次,点赞7次,收藏55次。正向代理代理的是客户端正向代理是一个位于客户端和目标服务器之间的代理服务器(中间服务器)。为了从目标服务器取得内容,客户端向代理服务器发送一个请求,并且指定目标服务器,之后代理向目标服务器转发请求,将获得的内容返回给客户端反向代理代理的是服务端反向代理:(reverse proxy),指的是代理外网用户的请求到内部的指定的服务器,并将数据返回给用户的一种方式客户端不直接与后端服务器进行通信,而是与反向代理服务器进行通信,隐藏了后端服务器的 IP 地址。_反向代理

IE浏览器进行跳转时卡死/调用打印控件时卡死解决_ie浏览器打印文书时跳转过去就卡住怎么-程序员宅基地

文章浏览阅读197次。【代码】IE浏览器进行跳转时卡死/调用打印控件时卡死解决。_ie浏览器打印文书时跳转过去就卡住怎么