”K-Means算法;大数据;Hadoop;并行;“ 的搜索结果

     主要研究了Hadoop平台下的MapReduce编程模型及传统K-means算法,提出了一种基于MapReduce的并行化K-means算法的设计方案,包括Map函数和Reduce函数的设计。通过实验,验证了并行化K-means算法适用于较大规模数据集的...

     对于有n个对象的数据集,如果要聚成k类,Kmeans的基本思路是: 1、首先从这n个对象中随机选择k个对象作为初始的k个簇的中心(就叫做“簇心”吧); 2、然后将其余的对象分到最近的簇心,如此k个簇就出来了; 3、之后...

     通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:a)聚类的平均准确率在实验所采用的四种UCI标准数据集上,相比原始K-means聚类算法和基于粒子群优化算法改进的K-means聚类...

     针对K-means算法对初值选取的依赖,收敛速度慢,聚类精度低,以及对海量数据的处理存在内存瓶颈的问题,提出一种基于MapReduce的高效K-means并行算法.该算法在MapReduce框架基础上,结合K选择排序算法进行并行采样,提高...

     K-means算法的MapReduce并行化实现 1.K-means聚类算法的基本思路  假设把样本集分为K类,算法描述如下: (1).首先在数据集合中随机选取k个点作为k个星团的质心 (2)然后计算每个点到k个质心的距离,将其归类为...

     摘要:在许多应用上,数据聚类...在这篇文章中,我们提出一种基于MapReduce的并行k-means聚类算法,这是一种简单又强大的并行编程技术。实验结果表明所提出的算法可以大规模而且高效地在廉价的硬件上处理大型数据集。

     4、hadoop集群,K-means算法是很容易进行并行计算的。二、K-means距离的定义:目前各种机器学习开源库,对于k-means的实现,都是基于欧式距离。如果想自定义距离,比如说用余弦相似度,那么k-means就必须要重新推导...

     K均值算法(K-means)聚类 关键词:K个种子,均值 聚类的概念:一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中 聚类的应用: Market segmentation(市场分割) Socail network analysis ...

     1. MPI并行:使用MPI(Message Passing Interface)进行并行计算,将大数据集分割成多个小数据集,并在多个计算节点上并行执行k-means算法。 2. Hadoop并行:使用Hadoop分布式计算框架进行并行计算,将大数据集分成...

       机器学习和数据挖掘算法是大数据分析处理领域的重要内容,随着数据规模的不断扩大,设计面向大数据处理的并行化机器学习和数据挖掘算法越来越有必要。 通过对并行化数据挖掘...K-Means算法是最常用的一种聚类...

     K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。 虽然已经发展到了hadoop2.4,但是对于一些算法只要...

10  
9  
8  
7  
6  
5  
4  
3  
2  
1