数据挖掘——数据预处理_在数据挖掘过程中如何进行数据预处理-程序员宅基地

技术标签: 数据挖掘  

《数据挖掘》国防科技大学
《数据挖掘》青岛大学
《数据挖掘与python实践》

数据挖掘之数据预处理

1. 数据清洗 Data Cleaning

数据清洗:缺失值、噪声数据、离群点、不一致数据
(1)对于丢失数据:

  • 忽略元组(对象),特别是缺少类标签时
  • 删除缺失值比例较大的属性
  • 手动补全:麻烦
  • 自动插值:均值、众数等
    (2)对于噪声数据和离群点:
  • 识别噪声数据并去除:聚类、回归
  • 使用箱线图检测离群点并删除
  • 平滑噪音以降低噪声数据的影响:分箱法binning、概念分层
    分箱法:
     按箱平均值平滑
     按箱中值平滑
     按箱边界平滑
    在这里插入图片描述
    (3)对于不一致数据
    计算推理、替换、全局替换

2. 数据集成

数据集成:整合多个数据库、多维数据集或文件
(1)模式集成:统一同一含义的字段名
(2)实体识别:统一同一对象的不同称呼
(3)数据冲突和解决:统一单位
(4)冗余信息处理:相同对象或属性的不同名称、表征同一特征的多个属性

  • 相关性分析
    ① 卡方检验——离散变量——越大越相关
    在这里插入图片描述
    在这里插入图片描述
    观测值(期望值),期望值=行合计×列合计/总数
    ② 相关系数(皮尔逊相关系数)——连续变量——越大越相关
    在这里插入图片描述
  • 协方差分析
    在这里插入图片描述

3. 数据缩减

数据缩减/规约/压缩:降维、降数据
➢用于数据归约的时间不应当超过或“抵消”在归约后的数据集上挖掘节省的时间。
➢归约得到的数据比原数据小得多,但可以产生相同或几乎相同的分析结果。
(1)降维/维归约(检测并删除不想管、弱相关或冗余的属性维)

  • 主成分分析PCA(将多个相同的属性合并成一个)
    计算花费低,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。
  • 属性子集选择
    属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。通常使用压缩搜索空间的启发式算法,策略是做局部最优选择,期望由此导致全局最优解。
    ① 逐步向前选择
    该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中。在其后的每一次迭代,将原属性集剩下的最好的属性添加到该集合中。
    ② 逐步向后删除
    该过程由整个属性集开始。在每一步,删除掉尚在属性集中的最坏属性。如:粗糙集理论
    ③ 向前选择和向后删除的结合
    将向前选择和向后删除方法结合在一起;
    每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
    ④ 判定树归纳
    判定树归纳构造一个类似于流程图的结构,其每个内部(非树叶)节点表示一个属性上的测试,每个分枝对应于测试的一个输出;每个外部(树 叶)节点表示一个判定类。在每个节点,算法选择“最好”的属性,将数据划分成类。
  • 数据立方体聚集
    在这里插入图片描述
    (2)降数据:数据规模太大时
  • 简单抽样:放回/不放回随机抽样
  • 分层抽样:先分层后取样
  • 聚类抽样:先聚类后取样
    (3)数据压缩
  • 无损压缩
  • 有损压缩
    小波变换:
    可用于多维数据;对于稀疏或倾斜数据和具有有序属性的数据,小波变换可以给出很好的结果。
    主成分分析

4. 数据转换和数据离散化

规范化、离散化、生成概念层次结构
(1)规范化

  • 最小最大规范化
    在这里插入图片描述
  • Z得分规范化:书用于分布不变的流式数据
    在这里插入图片描述
  • 小数定标规范化
    在这里插入图片描述
    移动位数依赖于最大绝对数
    (2)离散化
  • 非监督离散
    • 等宽法:根据属性的值域划分,每个区间的宽度相等
    • 等频法:根据取值出现的频数划分,并要求落在每个区间的样本数目相等
    • 聚类:利用聚类将数据划分到不同的离散类别
  • 有监督离散
    • 基于熵的离散化
      在这里插入图片描述
      在这里插入图片描述
    • ChiMerge方法:合并相邻小区间为大区间,基于统计量卡方检验实现
      在这里插入图片描述
      在这里插入图片描述
      (3)数据概化:使用概念分层用更抽样的概念取代低层次或数据层的数据对象。
      如数值型的年龄属性映射到年轻、中年和老年。
      如街道属性繁华到更高层次的城市、国家等。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Lilo_/article/details/124063444

智能推荐

斗地主——找出顺子的算法-程序员宅基地

文章浏览阅读2k次。1 static List<crads> shuen(List<crads> list) 2 { 3 List<crads> cList = new List<crads>(); 4 for (int i = 0; i < list.Count;++i) ...

Thinkpad T460P安装win7_t460p支持win7吗-程序员宅基地

文章浏览阅读2.1w次。Thinkpad T460P安装win7 Skylake平台装Windows7_t460p支持win7吗

百事可乐⋅顺风车⋅迷路⋅出租车_百事顺风车-程序员宅基地

文章浏览阅读1.4k次。亲身经历的四段小事,早想写出来,一直拖到现在。今日做个小记,待日后慢慢品味。百事可乐 09年年初初来京时,居住在一个偏僻的村子里,村子虽小,日常生活都可以在这里解决。当时收入不多,为了省钱,每天早晨都会去一家简陋的小馆子里吃“炸油饼”。去的多了,渐渐的就与馆子的老板_百事顺风车

Android请求网络数据,json解析-FastJson遇到的问题 首字母大写问题_android网络请求大小写问题-程序员宅基地

文章浏览阅读842次。在Android app开发过程中,用fastjson获取后台数据,后台返回的数据:[{"doseFrequencyList":[{"FrequencyCode":"ed","name":"每天","ordinal":"1"},{"FrequencyCode":"iod","name":"隔天","ordinal":"2"},{"FrequencyCode":"iow","name":"隔周","_android网络请求大小写问题

cheerio制作markDown索引目录_toc-wrapper-程序员宅基地

文章浏览阅读235次。原文链接:Bougie的博客 制作目录索引这种东西当然是放在前端方便。选择放在后端一是为了了解Node后端生态,掌握更多后端技术;二是因为公司实行前后端分离的方式开发,睾贵的JAVA后端经常啥也不做处理就返回一个row数据(甚至有时时间戳都不处理),对此有些无语。最终目标 1. 点击索引单项跳转到相应标题 2. 大号标题包含小号标题,小号标题向右缩进 3. 滚动页面时自..._toc-wrapper

RESTEasy:@FormParam、@PathParam、@QueryParam、@HeaderParam、@CookieParam、@MatrixPara-程序员宅基地

文章浏览阅读151次。介绍:In the first RESTEasy tutorial we have learnt the basics about REST Web services and we have tested a simple RESTful Web service. In this tutorial we willshow how to inject web application eleme..._@headerparam@queryparam

随便推点

山东春考计算机本科学校分数线,2016年山东春季高考各校计算机专业录取分数线分别是多少?...-程序员宅基地

文章浏览阅读1.4k次。2016年山东春季高考各校计算机专业录取分数线分别是多少?以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!2016年山东春季高考各校计算机专业录取分数线分别是多少?2016年山东春季高考各校计算机专业录取分数线分别是多少?1、2016年全国各省份高考成绩及各批次控制分数线公布时间都集中在6月23-26日之间,预测的分数线..._山东滨州学院计算机专业春考本科分数线

Asp.net 2.0自定义控件(点击HyperLink后执行事件)[网友问题: DataList里HyperLink控件激发事件,在哪定义?]...-程序员宅基地

文章浏览阅读151次。(一). 概述HyperLink默认没有Click事件, 重写了一个HyperLink自定义控件. 实现原理: 默认Hyperlink是跳到点击请求的页面, 本HyperLink自定义控件最终也是跳转到请求的页面, 但期间执行了自己的一个方法, 我们可以在此方法中添写自己所需的功能. 本示例演示统计此超链接点击次数功能. [参考Asp.net 2.0高级编程](二). 代..._hyperlink控件后台点击方法

HBASE 启动报错 Can't get connection to ZooKeeper: KeeperErrorCode = ConnectionLoss for /hbase-程序员宅基地

文章浏览阅读9k次,点赞3次,收藏6次。查看防火墙状态$ service iptables status关闭防火墙$ service iptables stop查看防火墙状态$ service iptables status停止hbase$ stop-hbase.sh启动hbase$ start-hbase.sh_can't get connection to zookeeper: keepererrorcode = connectionloss for /hba

华为智慧屏鸿蒙系统手工升级,华为的“中场战事”:升级智能家居、推鸿蒙智慧屏,重构IoT赛道?...-程序员宅基地

文章浏览阅读324次。进一步切入全屋智能、大屏、车机等全场景。2020年,华为消费者业务的产品线纵深正进一步拓展。12月21日,华为面向家庭、出行场景正式发布了三大系列产品。其一是华为智能家居战略及全屋智能解决方案,顾名思义,是提升家居生活智能化的软硬件体系;其二是华为智慧屏S系列,搭载了鸿蒙OS最新版本,该系列是华为智慧屏家族的新成员,产品定位中低端市场,拥有55、65、75寸三种屏幕尺寸共6款机型;其三是车载智慧屏...

CMenu类中禁用/变灰某一项-程序员宅基地

文章浏览阅读322次。CMenu::EnableMenuItem启用、 禁用,或变暗的菜单项。UINT EnableMenuItem(UINT nIDEnableItem, UINT nEnable);参数nIDEnableItem根据所指定的菜单项,若要启用,nEnable。 弹出菜单项,以及标准菜单项,可以指定此参数。nEnable指定要执行的操作。 它可以是组合的M..._cmenu 菜单项置灰

php扩展memcached、memcache、redis的安装配置方法-程序员宅基地

文章浏览阅读167次。php连接memcached缓存服务器的客户端有两个,一个是memcache是比较底层的开发库,memcached是比较新的开发库,php安装这两个扩展中的任意一个后就可以在编写php代码时使用的memcached缓存数据,达到缓存php执行的结果1、安装memcachetar -zxvfmemcache-2.2.7.tgzcdmemcache-2.2.7/usr/loc..._群晖添加phpredis扩展

推荐文章

热门文章

相关标签