数据挖掘Data Set收集_请完成data目录下的数据集的数据挖掘_discxuwei的博客-程序员秘密

技术标签: 算法  visualization  测试  classification  microsoft  数据挖掘  ML  

UCI数据集是一个常用的标准测试数据集,下载地址在

http://www.ics.uci.edu/~mlearn/MLRepository.html

我的主页上也有整理好的一些UCI数据集(arff格式):

http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip

在看别人的论文时,别人使用的数据集会给出数据集的出处或下载地址(除非是很机密的数据,例如与国家安全有关)。如果你看的论文没有给出数据集的出处,请立即停止看这篇论文,并且停止看刊发这篇论文的期刊上的所有文章。因为可以断定这些文章质量很差。

关于源代码,网上有很多公开源码的算法包,例如最为著名的Weka,MLC++等。Weka还在不断的更新其算法,下载地址:

http://www.cs.waikato.ac.nz/ml/weka/

很多的机器学习的经典算法都在里面。而且公布源程序,易于修改。

如果作者没有公布源程序,可以到作者主页找找,也可以写信给作者要,一般论文开头都会有作者的email地址。写信的时候要注意要很有礼貌,否则作者,尤其是著名学者,很有可能不会理睬。如果算法简单,可以自己实现。

关于论文的下载,如果能够访问电子图书馆是最好的,很多学校都买了IEEE, Elsevier, Kluwer等,上面的期刊都不错。有一些很好的期刊是免费的,像JAIR和JMLR,分别在:

http://www.cs.washington.edu/research/jair/home.html

http://www.jmlr.org/

如果能访问的免费期刊太少,可以到CiteSeer上搜索(http://citeseer.ist.psu.edu/),上面搜集了很多免费论文(但是要注意,论文的质量参差不齐),或者用Googlewww.google.com)搜索。

再嘱咐两点,要做研究,首先要打好基础,例如数学基础和程序设计能力,要学会熟练使用google等搜索引擎,还有一定要看高质量的论文。

《数据挖掘的数据集资源》

大家做数据挖掘研究时,常常为找不到合适的数据而发愁。在KDNuggets上有Datasets栏目,提供一些数据集,网址为:http://www.kdnuggets.com/datasets/

还有另外一个很好的资源网址为:http://kdd.ics.uci.edu/,里面包含的数据资源如下(按应用领域划分):

Direct Marketing

  KDD CUP 1998 Data

GIS

  Forest CoverType

Indexing

  Corel Image Features

  Pseudo Periodic Synthetic Time Series

Intrusion Detection

  KDD CUP 1999 Data

Process Control

  Synthetic Control Chart Time Series

Recommendation Systems

  Entree Chicago Recommendation Data

Robots

  Pioneer-1 Mobile Robot Data

  Robot Execution Failures

Sign Language Recognition

  Australian Sign Language Data

  High-quality Australian Sign Language Data

Text Categorization

  20 Newsgroups Data

  Reuters-21578 Text Categorization Collection

  NSF Research Awards Abstracts 199 0-2003

World Wide Web

  Microsoft Anonymous Web Data

  MSNBC Anonymous Web Data

  Syskill Webert Web Data

 转:http://blogger.org.cn/blog/more.asp?name=DMman&id=24043

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站

http://www.cs.toronto.edu/~roweis/data.html

http://www.cs.toronto.edu/~roweis/data.html

http://kdd.ics.uci.edu/summary.task.type.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.phys.uni.torun.pl/~duch/software.html

在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:

http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果

可能有一些不能访问,但是总有能访问的吧:

UCI收集的机器学习数据集

ftp://pami.sjtu.edu.cn/

http://www.ics.uci.edu/~mlearn//MLRepository.htm

statlib

http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm

http://lib.stat.cmu.edu/

样本数据库

http://kdd.ics.uci.edu/

http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站

http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集

http://www.research.att.com/~lewis/reuters21578.html

各种数据集:

http://kdd.ics.uci.edu/summary.data.type.html

http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html

http://lib.stat.cmu.edu/datasets/

http://dctc.sjtu.edu.cn/adaptive/datasets/

http://fimi.cs.helsinki.fi/data/

http://www.almaden.ibm.com/software/quest/Resources/index.shtml

http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html

http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog

http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.web-caching.com/traces-logs.html

http://www-2.cs.cmu.edu/webkb

http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf

http://www.cs.cornell.edu/projects/kddcup/index.html

时间序列数据的网址

http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据

http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接

http://www.cse.cuhk.edu.hk/~kdd/data_collection.html

http://www.almaden.ibm.com/cs/quest/syndata.html

关联:

http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar

http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA:

http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar

1。A jarfile containing 37 classification problems, originally obtained from the UCI repository

http://prdownloads.sourceforge.net/weka/datasets-UCI.jar

2。A jarfile containing 37 regression problems, obtained from various sources

http://prdownloads.sourceforge.net/weka/datasets-numeric.jar

3。A jarfile containing 30 regression datasets collected by Luis Torgo

http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因:

http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据:

http://lisp.vse.cz/pkdd99/Challenge/chall.htm

 

另一个人提供的

http://www.cs.toronto.edu/~roweis/data.html

http://kdd.ics.uci.edu/summary.task.type.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.phys.uni.torun.pl/~duch/software.html

在下面的网址可以找到reuters数据集

http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:

http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

Download the Financial Data (~17.5M zipped file, ~67M unzipped data)

Download the Medical Data (~2M zipped file, ~6M unzipped data)

http://lisp.vse.cz/pkdd99/Challenge/chall.htm

kdnuggets 相关链接数据集(借花献佛了):

http://www.kdnuggets.com/datasets/index.html

你也可以到http://blogger.org.cn/blog/more.asp?name=idmer&id=24017

察看kdnuggets 数据集资源的详细介绍。

数据挖掘相关比赛以及数据集

2005 University of California data mining contest, predicting bad accounts and their churn date using real-world CRM data, deadline June 30, 2005.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/discxuwei/article/details/5769480

智能推荐

动态的获取和设置ImageView的宽度和高度_imageview获取宽度_Loong.xu的博客-程序员秘密

package com.pic;import android.app.Activity;import android.os.Bundle;import android.util.Log;import android.view.ViewGroup.LayoutParams;import android.widget.ImageView;public class PicTest ext

阿里云EMR3.2 hbase/phoenix客户端BUG_weixin_34323858的博客-程序员秘密

错误现象:1. 今早在EMR3.2的生产新集群上执行导出操作,hbaseorg.apache.hadoop.hbase.mapreduce.Export safeclound.tb_ammeter /backup/tb_ammeter 1 1531843200000 15320160000002. 错误...

Python 人脸表情识别_python批量对表情识别与分类_Baker_Streets的博客-程序员秘密

人脸表情识别一、图片预处理二、数据集划分三、识别笑脸四、Dlib提取人脸特征识别笑脸和非笑脸参考环境搭建可查看Python人脸识别微笑检测数据集可在https://inc.ucsd.edu/mplab/wordpress/index.html%3Fp=398.html获取数据如下:一、图片预处理import dlib # 人脸识别的库dlibimport numpy as np # 数据处理的库numpyimport cv2 # 图像处理

Vue插值文本换行问题_插值表达式里面的内容换行_初来乍到到的博客-程序员秘密

问题背景:后端返回的字符串带有\n换行符,但Vue将其插值渲染成div内部文本后,文本并不换行,换行符显示为一个空格目标:让文本在换行符处换行。解决方法:思路:实现文本换行有两种方法,一是HTML方法,即<br>标签;二是CSS方法,即white-space属性。方法1.使用v-html 首先,将字符串里的\n替换为<br>,然后用v-ht...

2021秋季《数据结构》_EOJ 1063.树的双亲存储法(parent+child / parent)_双亲存储结构_rd142857的博客-程序员秘密

题目前面介绍了树的链式存储结构,那么如何用顺序存储来存储一棵树呢?在顺序存储时,我们除了存储每个结点值外,还要存储树中结点与结点之间的逻辑关系(即双亲与孩子结点之间的关系)。下面介绍树的双亲存储法。编号,从根结点(它的编号为 0)开始,按从上到下的层次顺序,每一层按从左到右的顺序,递增地依次给每一个结点一个编号,图1上标出了各个结点的编号。存储,如果用一维数组 tree[n] 来存储图1中的这棵树,则树中每个结点存储在 tree[n] 中的下标等于它的编号值,而且在数组 tree[n] 中, 每个元素

Web特效_hzp666的博客-程序员秘密

前端Web特效: 生成活泼的动态气泡背景效果#精选JAVASCRIPT如果大家需要生成web页面活泼的气泡式背景的话, 今天姥爷我介绍的这个mini JavaScript肯定能帮你大忙。开发者是一个叫戴维的GitHub程序猿, 大家可以免费使用, 压缩后大概696字节,小脚本绝对不会拖累你的网站速度 , 你值得拥有哈!!体验一下咱们先预览一下

随便推点

Android开发:实时处理摄像头预览帧视频------浅析PreviewCallback_嗨摔得漂亮的博客-程序员秘密

很多时候,android摄像头模块不仅预览,拍照这么简单,而是需要在预览视频的时候,能够做出一些检测,比如最常见的人脸检测。在未按下拍照按钮前,就检测出人脸然后矩形框标示出来,再按拍照。那么如何获得预览帧视频么?  只需要在Activity里继承PreviewCallback这个接口就行了。示例如下:  public class RectPhoto extends Activity imp

git上传本地代码到远程仓库_上传本地代码并连接远程仓库___LiYuan的博客-程序员秘密

第一次上传到远程仓库git initgit add readme.md(文件路径或“.”表示所有文件)git commit -m "上传描述"git remote add origin 上传路径(http://git........)git push -u origin master(分支)后续上传可直接git add 文件git commit -m "文件

用c#来写个木马程序吧_weixin_30549657的博客-程序员秘密

这可能是菜鸟程序员最喜欢搞的事了哈,并且乐此不彼O(∩_∩)O哈!最开始本来只是想写段远程传文件的代码 写着写着我就突发奇想 想把别人电脑的截屏传过来,是不是很邪恶 嘿嘿倒腾了一阵原来还是挺简单的 并且速度好像还挺快。 在这里我就不谈socket编程的基本了哈 直奔主题我们要实现的功能是:在我有需要的时候就把受害人电脑的截屏数据传到我电脑上简单分析一下 参见灰鸽子 啊那啥的常见木马程序我...

微信小程序之侧栏分类-——-微信小程序实战商城系列,从草根到百万年薪程序员的十年风雨之路_小程序为什么点击左侧分类不变白色_m0_66265031的博客-程序员秘密

布局分析:<主盒子><左盒子></左盒子><右盒子></右盒子></主盒子>左盒子使用标准流右盒子使用绝对定位(top、right)wxml:{{item.tree.desc}}wxss:page{background: #f5f5f5;}/总体主盒子/.container {position: relative;width: 100%;height: 100%;bac.

字符串处理函数用法:strnlen_s,strcpy_s,strcat_s,strcmp,scanf_s_靖伊的博客-程序员秘密

字符串处理函数,必须对头文件string,h执行include处理1,计算字符串长度函数,不包括\0,注意它和sizeof()的不同,sizeof()计算数组长度,不但包括\0,而且是数组总长度,strnlen_s计算数组中字符的个数,不包括\0.strnlen_s(计算字符数组的首地址,计算字符数组的长度),返回值:一,若地址是NULL,返回值是0,二地址是其他,返回值是字符串中的字符数,...

关于通道_BRPROUD的博客-程序员秘密

理解起来有些麻烦,可能多用用理解的更深一些。通道中加滤镜通道中输入文字通道中用钢笔/套索工具画选区,填充将通道作为选区将选区作为通道

推荐文章

热门文章

相关标签