K-Means算法;大数据;Hadoop;并行;

基于云环境K-means聚类的并行算法 (2015年)

针对上述问题及结合海量数据的特性，本文提出了一种基于云环境的并行聚类算法，该算法利用Canopy聚类算法思想并结合二分查找思想对K-means算法进行优化，同时采用“极限点”原则使之避免了聚类过程中的局部最优，...

论文研究-基于Hadoop的K-Means聚类算法优化与实现 .pdf

基于Hadoop的K-Means聚类算法优化与实现，陈萍，何健伟，本文针对传统K-Means聚类算法不适合海量大数据挖掘，并且对异常离群点数据非常敏感，结合Hadoop云计算平台以及MapReduce并行编程框架，��

云环境下K-means算法的并行化

主要研究了Hadoop平台下的MapReduce编程模型及传统K-means算法，提出了一种基于MapReduce的并行化K-means算法的设计方案，包括Map函数和Reduce函数的设计。通过实验，验证了并行化K-means算法适用于较大规模数据集的...

并行作业6：hadoop实现K-Means算法（鸢尾花数据集）

K-Means算法系统采用vm下ubuntu16.04 一、实验内容与要求在Eclipse环境下编写实现K-means算法。二、实验数据与目标 1、实验数据来源于...

论文研究-自适应布谷鸟搜索的并行K-means聚类算法.pdf

标签：聚类 K-均值算法布谷鸟搜索算法

通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验，结果表明：a）聚类的平均准确率在实验所采用的四种UCI标准数据集上，相比原始K-means聚类算法和基于粒子群优化算法改进的K-means...

Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解

Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下：输入：参数0--存储样本数据的文本文件i...

如何用MapReduce的思路实现K-means算法

标签： Hadoop k-means

对于有n个对象的数据集，如果要聚成k类，Kmeans的基本思路是： 1、首先从这n个对象中随机选择k个对象作为初始的k个簇的中心（就叫做“簇心”吧）； 2、然后将其余的对象分到最近的簇心，如此k个簇就出来了； 3、之后...

Hadoop课程实验和报告——K-Means算法并行实现

标签： K-Means算法

Hadoop课程实验和报告——K-Means算法并行实现

【机器学习之K-means聚类算法】

标签：聚类算法 kmeans

最简单得去理解机器学习中的K-means聚类算法！

自适应布谷鸟搜索的并行K-means聚类算法

标签： hadoop

通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:a)聚类的平均准确率在实验所采用的四种UCI标准数据集上,相比原始K-means聚类算法和基于粒子群优化算法改进的K-means聚类...

基于MapReduce框架的K-means算法实现

标签： JAVA Hadoop mapreduce

基于mapreduce并行处理的K-means算法实现

一种基于MapReduce高效K-means并行算法

标签： hadoop

针对K-means算法对初值选取的依赖,收敛速度慢,聚类精度低,以及对海量数据的处理存在内存瓶颈的问题,提出一种基于MapReduce的高效K-means并行算法.该算法在MapReduce框架基础上,结合K选择排序算法进行并行采样,提高...

基于Hadoop的K－means聚类算法的实现

K-means算法的MapReduce并行化实现 1.K-means聚类算法的基本思路假设把样本集分为K类，算法描述如下：（1）.首先在数据集合中随机选取k个点作为k个星团的质心（2）然后计算每个点到k个质心的距离，将其归类为...

基于云计算平台Hadoop的并行k_means聚类算法设计研究_赵卫中.pdf

标签：云计算; Hadoop平台; 并行k-means; MapReduce;

深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和...

K-Means(K均值)、GMM(高斯混合模型)，通俗易懂，先收藏了！

标签： K-Means GMM K均值

2. k-means(k均值)算法2.1 算法过程2.2 损失函数2.3 k值的选择2.4 KNN与K-means区别？2.5 K-Means优缺点及改进3. 高斯混合模型(GMM)3.1 GMM的思想3.2 GMM与K-Means相比4. 聚类算法如何评估5. 代码实现 1. 聚类算法都...

基于MapReduce的并行k-means聚类

标签：数据挖掘并行编程 mapreduce

摘要：在许多应用上，数据聚类...在这篇文章中，我们提出一种基于MapReduce的并行k-means聚类算法，这是一种简单又强大的并行编程技术。实验结果表明所提出的算法可以大规模而且高效地在廉价的硬件上处理大型数据集。

k-means优化 & k-means距离的选择 &k-medoids对比

4、hadoop集群，K-means算法是很容易进行并行计算的。二、K-means距离的定义：目前各种机器学习开源库，对于k-means的实现，都是基于欧式距离。如果想自定义距离，比如说用余弦相似度，那么k-means就必须要重新推导...

k_means聚类算法的MapReduce并行化实现

标签： kmeans mapreduce

利用k_means聚类算法的MapReduce并行化实现，为学习hadoop的同学提供参考

python实现聚类算法之k-medoids_使用Python复现SIGKDD2017的PAMAE算法(并行k-medoids算法)...

标签： python实现聚类算法之k-medoids

作者：坚新研究方向：自然语言处理项目地址，点击文末阅读原文直达：https://github.com/yangjianxin1/PAMAE编者按：AINLP技术群的坚新同学发布了一个新项目：PAMAE (PAMAE: Parallel k-Medoids Clustering with ...

基于Flink的K-Means聚类算法的实现（Scala版）

标签： flink 机器学习 scala

基于Flink的K-Means聚类算法实现（Scala版）聚类分析是机器学习的入门级算法，属于无监督学习类算法。在传统IT技术手段下，算法只能在单个计算节点运行，由于时间成本的约束太大，因此只能采用对源数据抽样方式...

【性能优化窍门】：并行计算与加速方法优化K-means聚类算法

标签：开发技术

在本章中，我们将深入探讨并行计算与性能优化的关系，为后续K-means算法性能优化实践提供基础支持。 # 2. K-means聚类算法基础介绍 ### 2.1 什么是K-means聚类算法 #### 2.1.1 算法原理概述 K-means聚类算法是一...

K-Means

标签：机器学习深度学习 kmeans算法

K均值算法（K-means）聚类关键词：K个种子，均值聚类的概念：一种无监督的学习，事先不知道类别，自动将相似的对象归到同一个簇中聚类的应用： Market segmentation（市场分割） Socail network analysis ...

k-means并行技术路线

1. MPI并行：使用MPI（Message Passing Interface）进行并行计算，将大数据集分割成多个小数据集，并在多个计算节点上并行执行k-means算法。 2. Hadoop并行：使用Hadoop分布式计算框架进行并行计算，将大数据集分成...

Hadoop编程学习6--Kmeans算法实现

机器学习和数据挖掘算法是大数据分析处理领域的重要内容，随着数据规模的不断扩大，设计面向大数据处理的并行化机器学习和数据挖掘算法越来越有必要。通过对并行化数据挖掘...K-Means算法是最常用的一种聚类...

云计算期末报告无图 kmeans和最短路径算法hadoop实现详解

标签：云计算

《云计算应用开发实验》ubuntu 16.04真机 + hadoop2.6 + 本地伪分布　Hadoop kmeans和最短路径算法

用Hadoop实现KMeans算法

K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。虽然已经发展到了hadoop2.4，但是对于一些算法只要...

基于云计算平台Hadoop的并行k_means聚类算法设计研究_赵卫中1

摘要随着数据库技术的发展和Ｉｎｔｅｒｎｅｔ的迅速普及，实际应用中需要处理的数据量急剧地增长，致聚类研究面临许多新的问题和挑战，如海量数据和新的计算环境等。深入研