weka up-sampling & down-sampling-程序员宅基地

技术标签: 取样  machine learning  

[b]up-sampling:[/b]

SMOTE algorithm,over-sampled by creating ``synthetic'' examples rather than by over-sampling with replacement.

[b]Weka supervised SMOTE filter [/b]
两个参数:
[list]
[*]nearestNeighbors:how many nearest neighbor instances (surrounding the currently considered instance) are used to build an inbetween synthetic instance. 默认取值5.
[*]percentage.how many synthetic instances are created based on the number of the class with less instances. 默认值100,假设minority class有25个样本,则25个新样本将会根据nearest Neighbors来合成,此时minority class的样本数变成了50.
[/list]

[b]down-sampling[/b]
The majority class is under-sampled by randomly removing samples from the majority class population until the minority class becomes some specified percentage of the majority class.

[b]Weka supervised SpreadSubsample filter[/b]
maxCount:可以取minority class的样本数量 n。
如果 maxCount < n: 则正负例的样本数量都减少到maxCount
如果 maxCount > n: 则minority class的样本数量 n不变,majority class的样本数量减少到maxCount



Instances train = DataSource
.read(path);
train.setClassIndex(rawins.numAttributes() - 1);
weka.filters.supervised.instance.SpreadSubsample sps = new SpreadSubsample();
sps.setMaxCount(n); //minority class的样本数量 n
sps.setInputFormat(train);
Instances ins = sps.useFilter(train, sps);
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zygzdf/article/details/84725794

智能推荐

python爬取网易云音乐飙升榜音乐_Python爬虫实战,30行代码轻松爬取网易云音乐热歌榜...-程序员宅基地

文章浏览阅读1.3k次。在开始讲解思路之前,我们首先了解下网络状态码,为什么要看这个呢?以后你会回来感谢我的,嘻嘻!一般网络状态有以下几种:200(成功)服务器成功处理了请求。一般来说,这意味着服务器提供所请求的页面,如果您看到此状态,您的robots.txt文件,这意味着Googlebot的检索成功。301(永久移动)请求的网页已永久移动到新的位置,当服务器返回此响应(作为一个GET或HEAD请求的响应),它会自动转发..._抓取网易云音乐,飙升榜中的第一首歌曲把他给我抓取到本地

腾讯云COS - 前端上传文件到 COS 跨域问题_腾讯云 cos 连接提示跨域-程序员宅基地

文章浏览阅读682次,点赞14次,收藏2次。腾讯云COS - 前端上传文件到 COS 跨域问题_腾讯云 cos 连接提示跨域

在使用pyrcc5编译二进制文件出现错误Cannot find file:和pyrcc5: "No resources in resource description."-程序员宅基地

文章浏览阅读8.7k次。1、文件的路径为英文路径,中文路径不可以2、确定正确配置pyrcc3、就是资源文件的位置要放在当前项目下,不然会出现错误经过以上步骤,正确编译二进制文件apprcc.qrc文件的格式为<rcc version='1.0'> <qresource> </qresource></rcc>导入文件路径后..._no resources in resource description.

mysql --batch_mysql executeBatch批量提交数据,varchar字段内容带(")双引号-程序员宅基地

文章浏览阅读118次。java利用PreparedStatement批量提交数据后,表中所有的varchar类型字段内容均被加上了双引号,如图:处理代码:sql = "INSERT INTO tbvoscdr VALUES (?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?)";PreparedStatement psts = conn.prepareS..._两个双引号+varchar

基于JAVA实现的WEB端UI自动化 - WebDriver高级篇 - 第三方控件类操作_java webdevice-程序员宅基地

文章浏览阅读623次。关于WebDriver - 第三方控件类操作_java webdevice

Qt6.6.0-Android开发-程序员宅基地

文章浏览阅读271次。Android Studio 菜单栏中【View】【Tool Windows】【Device Explorer】

随便推点

前序遍历、中序遍历、后序遍历、层序遍历-程序员宅基地

文章浏览阅读1.7w次,点赞11次,收藏30次。根据遍历画图先根据中序和前序找到每一级的所有根========最近也是在准备笔试,由于没有系统的学过数据结构,所以每次在考到二叉树的遍历的时候都是直接跪,次数多了也就怒了,前些天也是准备论文没时间整这些,现在提交了,算是稍微轻松点了,所以花了半天的时间来学了下二叉树。现在记下来,以便后序查阅。一、二叉树的遍历概念 1. 二叉树的遍历是指从根结点触发,按照某种次序依次访问二叉树中所有结点,使..._前序遍历

java awt swing控件,下拉内容,自适应宽度_swing 菜单自动大小-程序员宅基地

文章浏览阅读1k次。1.使用集成复写父类方法的方式进行下拉宽度修改DefaultComboBox 继承JComboBox。3.计算下拉框内容宽度,并获取最大宽度。2.修改下拉画布宽度。_swing 菜单自动大小

Unity 五子棋游戏设计和简单AI(2)_mctsnode 五子棋 unity-程序员宅基地

文章浏览阅读1.6k次。Unity 五子棋胜负条件判断_mctsnode 五子棋 unity

解决Flask使用flask-sqlalchemy链接Mysql数据库创建表的坑_flask-sqlalchemy 创建数据库-程序员宅基地

文章浏览阅读400次,点赞3次,收藏3次。Flask使用flask-sqlalchemy链接Mysql数据库创建表得坑第一步: pip install flask-sqlalchemy -i https://pypi.douban.com/simple第二部:直接上代码。_flask-sqlalchemy 创建数据库

基于腾讯云的多人视频会议的在线语音转写功能的实现_腾讯音视频转写-程序员宅基地

文章浏览阅读973次。1.创建腾讯云平台账号,在其中下载使用多人音视频demo,官网上有详细的跑通过程,这里不再赘述2.在微信公众平台中设置3.打开微信开发者工具,打开之前腾讯云的多人音视频通话demo,在全局app.json中引入该插件4.在tricroom页面的js文件中,在component组件外声明插件5.在method方法中添加按下按钮与松开按钮的方法7.松开按钮后进行的语音识别操作,也是写在method中8.网上大多数使用的微信同声传译插件的方法都是基于page的onshow页面监听,而在该项目_腾讯音视频转写

Chrome源码剖析、上--多线程模型、进程通信、进程模型_chrome多进程架构 源码-程序员宅基地

文章浏览阅读5.1w次,点赞3次,收藏226次。Chrome源码剖析、上原著:Venus。整理:July。时间:二零一一年四月二日。说明:此Chrome源码剖析系列编辑整理自此博客:http://flyvenus.net/。我对写原创文章的作者向来是以最大的尊重的。近期想好好研究和学习下Chrome源码,正巧看到了此Venus_chrome多进程架构 源码

推荐文章

热门文章

相关标签