机器学习-异常检测(高斯分布模型)-Python代码_写出基于高斯分布的异常检测模型创建及训练的基本代码-程序员宅基地

技术标签: 机器学习程序  

知识点

机器学习-【8】异常检测(高斯分布模型)【手抄笔记】

运行效果

程序代码+数据下载

异常检测(高斯分布模型)+测试数据

程序

from tools import TXTtoNumpy
import numpy as np
import random
import matplotlib.pyplot as plt


def GaussianParamEstimation(npArr, GaussianType = 'Normal'):

    '''

    :param npArr: shape=(n_examples, n_features)
    :param GaussianType: 'Normal' or 'Multi'
    :return:
    '''

    n_features = npArr.shape[1]

    # mean = np.zeros(n_features)
    mean = np.average(npArr, axis=0)

    if GaussianType == 'Normal':
        # std = np.zeros(n_features)
        std = np.std(npArr, axis=0)

        return mean, std

    elif GaussianType == 'Multi':
        sigma = np.cov(npArr - mean, rowvar=0)

        return mean, sigma

def NormalGaussion(X, mean, std):

    '''

    :param X: shape=(1, n_features)
    :param mean: shape=(1, n_features)
    :param std: shape=(1, n_features)
    :return:
    '''

    n_feature = X.shape[1]

    P = 1;

    for i in range(0,n_feature):
        temp1 = ( 1 / (np.sqrt(2*np.pi) * std[i]))
        temp2 = np.exp( -pow(X[:,i] - mean[i], 2) / (2 * pow(std[i],2)))
        P = P * (temp1 * temp2)

    return P

def MultiGaussion(X, mean, sigma):

    '''
    :param X: shape=(1, n_features)
    :param mean:  shape=(1, n_features)
    :param sigma: shape=(n_features, n_features)
    :return:
    '''

    temp1 = ( 1 / (pow(2*np.pi, np.pi/2) * np.sqrt(np.linalg.det(sigma))))
    temp2 = np.dot((X-mean), np.linalg.inv(sigma))
    temp3 = np.exp( (-1/2) * np.dot(temp2, (X-mean).T))
    P = temp1 * temp3

    return P

def AnomalyDetection(npArr, labels, iterations, lamda_step=0.001, lamda=0.001):

    '''

    :param npArr: shape=(n_examples, n_features)
    :param labels:  shape=(n_examples, 1)
    :param iterations:
    :param lamda_step:
    :param lamda:
    :return:
    '''

    n_examples = npArr.shape[0]
    n_features = npArr.shape[1]

    # 将labels的列表类型转为numpy类型
    labels = np.array(labels).reshape(n_examples, 1)

    # 找出标记为非0(异常样本)的索引
    anomalyIndex = []
    for i in range(0, n_examples):
        if(labels[i:i+1,:] != 0):
            anomalyIndex.append(i)

    # 根据异常样本索引得到异常数据和异常标记
    anomalyArr = npArr[anomalyIndex, :]
    anomalyLabels = labels[anomalyIndex, :]

    # 获得异常样本的测试数据
    n_anomaly = anomalyArr.shape[0]
    n_anomalyTest = int(n_anomaly/2)
    anomalyTestArr = anomalyArr[0:n_anomalyTest, :]
    anomalyTestLabels = anomalyLabels[0:n_anomalyTest, :]

    # 获得异常样本的验证数据
    anomalyDevArr = anomalyArr[n_anomalyTest:, :]
    anomalyDevLabels = anomalyLabels[n_anomalyTest:, :]

    # 去掉异常数据得到正常数据
    NormalArr = np.delete(npArr, anomalyIndex, axis=0)
    NormalLabels = np.delete(labels, anomalyIndex ,axis=0)

    # 样本数更新为正常样本数量
    n_examples = NormalArr.shape[0]

    # 正常样本中测试数据和验证数据集的大小
    n_test = int(n_examples * 0.2)
    n_dev = int(n_examples * 0.2)

    # 划分训练数据,验证数据,测试数据
    testIndex = random.sample(range(0, n_examples), n_test) # 获得测试数据索引
    NormalTestArr = NormalArr[testIndex, :] # 获得正常样本的测试数据
    NormalTestLabels = NormalLabels[testIndex, :] # 获得正常样本的测试数据标签

    # 训练数据+验证数据,用于交叉验证
    delNormalTestArr = np.delete(NormalArr, testIndex, axis=0)
    delNormalTestLabels = np.delete(NormalLabels, testIndex, axis=0)

    # 在正常样本中,去掉测试数据,得到其余数据的大小
    n_delNormalTest = delNormalTestArr.shape[0]

    # 存储各lamda值,和其对应的F1值
    lamdaToF1 = np.zeros((iterations, 2))

    # 不断更新lamda值
    for iter in range(0, iterations):

        # 交叉验证10次
        F1Arr = np.zeros(10)

        for cross_i in range(0,10):
            # 获得正常样本的验证数据
            devNormalIndex = random.sample(range(0, n_delNormalTest), n_dev) # 获得正常样本的验证数据索引
            devNormalArr = delNormalTestArr[devNormalIndex, :] # 获得正常样本的验证数据
            devNormalLabels = delNormalTestLabels[devNormalIndex, :] # 获得验证数据标签

            # 获得正常样本的训练数据
            trainArr = np.delete(delNormalTestArr, devNormalIndex, axis=0) # 获得训练数据
            mean, std = GaussianParamEstimation(trainArr, GaussianType='Multi')

            # 正常样本为负样本,异常样本为正样本
            # 检查正常样本验证数据的效果
            F1Arr[cross_i] = computeF1(anomalyDevArr, devNormalArr, mean, std, lamda, GaussionType=MultiGaussion)

        # 计算交叉验证的平均F1值
        F1 = np.average(F1Arr)
        lamdaToF1[iter, 0] = lamda
        lamdaToF1[iter, 1] = F1

        # 更新lamda
        lamda = lamda + lamda_step

    MaxF1Index = np.argmax(lamdaToF1[:, 1])
    lamda = lamdaToF1[MaxF1Index, 0]

    # 检测测试数据效果
    F1_test = computeF1(anomalyTestArr, NormalTestArr, mean, std, lamda, GaussionType=MultiGaussion)

    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(trainArr[:,0], trainArr[:,1], marker='^', c='red')
    ax.scatter(anomalyTestArr[:,0], anomalyTestArr[:,1], marker='o', c='blue')
    plt.show()

    return mean, std, lamda

def computeF1(PData, NData, mean, std, lamda, GaussionType = NormalGaussion):

    '''

    :param PData: Positive category
    :param NData: Negative category
    :param mean:
    :param std: std(NormalGaussion) or sigma(MultiGaussion)
    :param lamda: Min probability
    :param GaussionType: NormalGaussion or MultiGaussion
    :return: F1 combine Precision and Recall
    '''

    n_PData = PData.shape[0]
    n_NData = NData.shape[0]

    TP = FP = FN = TN = 0.0
    for i in range(0, n_PData):
        P = GaussionType(PData[i:i+1, :], mean, std)
        if P < lamda:  # True Positive
            TP += 1.0
        elif P >= lamda:  # False Negative
            FN += 1.0

    for i in range(0, n_NData):
        P = GaussionType(NData[i:i+1, :], mean, std)
        if P >= lamda:  # True Negative
            TN += 1.0
        elif P < lamda:  # False Positive
            FP += 1.0

    Precision = TP / (TP + FP)
    Recall = TP / (TP + FN)
    F1 = 2 * Precision * Recall / (Precision + Recall)

    return F1


if __name__ == '__main__':

    filename = './testSet3.txt'
    npArr, labels = TXTtoNumpy(filename, lableState=True, Print=True)
    mean, std, lamda = AnomalyDetection(npArr, labels, iterations=10)

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Brianone/article/details/89528737

智能推荐

python服务器端开发面试_【网易游戏Python面试】python 服务端开发-看准网-程序员宅基地

文章浏览阅读145次。10.21终面已参加,希望能顺利通过终面拿到offer~一共三轮,电话面试+笔试+视频面试,视频面试3V110月19日投的新媒体运营的简历,HR说因为是周末,等工作日再联系我,在周一下午三点我接到了电话成功通过简历筛选和电话面试,整个电话面试的过程长,大概10分钟左右,因为前期稍微做了一些准备,所以还算对答如流,整个过程顺利,HR现场告诉我通过面试,并随即给我发了笔试题,让我准备一下,最晚三天之..._网易 python游戏服务器

MVC层次划分简述_mvc分层-程序员宅基地

文章浏览阅读6.5k次,点赞12次,收藏38次。MVC层次划分简述写在前面的一段话:首先要知道MVC和三层架构之间有什么关系:MVC:【 Model(数据模型) - View(视图) - Controller(控制器) 】三层架构:【 Presentation tier(展现层) - Application tier(应用层)+Date tier(数据访问层) 】很多人都有一个误解,认为Spring MVC的M、V、C对..._mvc分层

Flink的sink实战之三:cassandra3_flink cassandra-程序员宅基地

文章浏览阅读2.9k次。实践flink数据集sink到cassandra3_flink cassandra

使用docker安装codimd,搭建你自己的在线协作markdown编辑器_群晖 docker 搭建 codimd-程序员宅基地

文章浏览阅读7.1k次,点赞4次,收藏12次。文章目录一、前言二、codimd是什么?2.1 源于hackmd的超好用markdown编辑器2.2 codimd的作用三、安装和使用3.1 安装前需要知道的3.2 安装步骤3.2.1 创建数据库3.2.2 安装git3.2.3 安装docker3.2.4 安装docker compose3.2.5 安装codimd3.2.6 检查是否安装成功3.2.7 放行端口3.2.8 测试使用3.3 开始写..._群晖 docker 搭建 codimd

Json和ajax-程序员宅基地

文章浏览阅读335次。Json json 可以定义多种类型 var jsonObj = { "key1":123, "key2":"name", "key3":[12,"age",true], //数组 "key4":false, "key5":{ //存一个json对象 "key6":456, "key7":"number" }} json其实就是一个Object对象, 他的key值 可以看成对象的一个属性, 获取他的value值...

ssm超市账单管理系统a2e96【独家源码】 应对计算机毕业设计困难的解决方案-程序员宅基地

文章浏览阅读87次。选题背景:超市账单管理系统是一种针对超市行业的管理工具,旨在提供高效、准确、便捷的账单管理服务。随着城市化进程的加快和人们生活水平的提高,超市作为日常生活必需品的主要供应渠道之一,扮演着重要的角色。然而,传统的超市账单管理方式存在一些问题,如手工记录容易出错、数据整理繁琐、信息不透明等。因此,开发一个科技化的超市账单管理系统成为了必要之举。选题意义:首先,超市账单管理系统的开发可以提高账单管理的效率。传统的超市账单管理方式通常需要员工手动记录商品销售信息,并进行数据整理和汇总。这种方式容易出现人为错

随便推点

bookmarks_2021_9_28_拾度智能科技 att7022eu-程序员宅基地

文章浏览阅读1.7k次。书签栏通讯 s7-1200与s7-200smart通讯-工业支持中心-西门子中国IO_deviceS7-1200PROFINET通信ET 200SP 安装视频 - ID: 95886218 - Industry Support Siemens云平台接入在线文档 - 低代码开发嵌入式设备 | 物一世 WareExpress在linux下使用c语言实现MQTT通信(一.MQTT原理介绍及流程图)_qq_44041062的博客-程序员宅基地C mqtt_百度搜索开发快M_拾度智能科技 att7022eu

国家取消职称英语与计算机,全国职称英语考试取消-程序员宅基地

文章浏览阅读1.6k次。职称英语全称为全国专业技术人员职称英语等级考试,是由国家人事部组织实施的一项国家级外语考试。1.概述全国专业技术人员职称英语等级考试是由人力资源和社会保障部组织实施的一项外语考试,它根据英语在不同专业领域活动中的应用特点,结合专业技术人员掌握和应用英语的实际情况,对申报不同级别职称的专业技术人员的英语水平提出了不同的要求。该考试根据专业技术人员使用英语的实际情况,把考试的重点放在了阅读理解上面。全..._全国专业技术人员职称英语等级考试 北京 取消

where里能用max吗_网络里能找到真爱吗?-程序员宅基地

文章浏览阅读42次。恋爱指导篇 知心的小爱“真爱”是一个永不过时的话题,古代的人找对象,靠的是媒妁之言,父母定婚姻。现代的人靠的是相亲,自由恋爱,按理找一个喜欢的人结婚会很幸福,近几年反而离率更高了。古代人认识的人少,交流工具少,最多信鸽传书,信物传情。现代要认识一个人很容易了,最初是电话信息联系。前几年是qq,微信摇一摇,近两年是抖音,快手随便找一找。虽然找对象,寻伴侣更方便了,为何大部分人还是感觉更迷茫,不快乐...

刷题记录第八十天-修剪二叉搜索树-程序员宅基地

文章浏览阅读109次。【代码】刷题记录第八十天-修剪二叉搜索树。

dcm4che,WADO相关-程序员宅基地

文章浏览阅读248次。关于 dcm4che WADO WADO:Web Access to DICOM Objects dcm4che 是一个为医疗保健企业的开源应用程序和工具集合。这些应用程序已经开发了Java编程语言的性能和便携性,在JDK 1.6及更高版本支持部署。在dcm4che项目的核心是一个强大的执行DICOM标准的。该dcm4che-1.x和dcm4che-2.X DICOM Tool..._dcm4che实现wado服务

linux查看zk日志,14.1 zookeeper日志查看-程序员宅基地

文章浏览阅读2.2k次。zookeeper服务器会产生三类日志:事务日志、快照日志和log4j日志。在zookeeper默认配置文件zoo.cfg(可以修改文件名)中有一个配置项dataDir,该配置项用于配置zookeeper快照日志和事务日志的存储地址。在官方提供的默认参考配置文件zoo_sample.cfg中,只有dataDir配置项。其实在实际应用中,还可以为事务日志专门配置存储地址,配置项名称为dataLogD..._linux查看zookeeper日志

推荐文章

热门文章

相关标签