经典聚类算法——K-means_类间距离和类内距离_好多鱼哦的博客-程序员秘密

技术标签: 数据分析  数据挖掘  

分类:有标签算法(监督学习)

聚类:无标签算法(无监督学习)

聚类主要思想:类内距离最小,类间距离最大。

K-means:将数据集算法将输入数据集D聚成K个簇,然后输出聚簇代表集合C(k个,即中心点),聚簇成员向量M。

步骤:确定k,选择k个聚类中心,将数据集的元素就近分配到k个簇中,更新k个簇的聚类中心,再重复分配元素,直聚类中心不再改变为止。

局限性:K-均值算法依赖于初始值的选取,仅能取得局部最优解,未必能得到全局最优解。

困难:参数k的取值困难,对于噪声点敏感。

空聚类解决办法:m从最大的聚簇中随机选取一个点作为新的簇的代表。

数据要求:数值型。

缺失值:替换。

效率低。


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/shuke1991/article/details/51980536

智能推荐

Error(12) 解决javax.net.ssl.SSLHandshakeException: Received fatal alert: handshake_failure_郑清的博客-程序员秘密

温馨小提示:本文基于jdk8环境错误日志如下:网上说:这是由于jdk安全性机制而导致访问https会报错javax.net.ssl.SSLHandshakeException: Received fatal alert: handshake_failure at sun.security.ssl.Alerts.getSSLException(Alerts.java:192) at sun.security.ssl.Alerts.getSSLException(Alerts.java:154.

win7+python3.6+word_cloud 安装出现Microsoft Visual C++ 14.0 is required_weixin_30505225的博客-程序员秘密

说明环境:已安装Anaconda3 (64-bit) 4.4.0(Python 3.6.1)。其中,代码调试在Spyder 3.1.4中进行,安装包则直接打开Anaconda Prompt调用cmd.exe后进行。系统为Windows 7 和 Windows 10。安装包的坑安装文件的获取首先,安装包时,直接用pip install wordcloud是会报错...

一台电脑如何同时玩转GitHub和公司Git服务器?_jspython的博客-程序员秘密

最近有个小学妹刚入职新公司,公司用的是Git版本管理工具,然后她其实自己也经常玩Github,Git用起来基本操作也不大。但是现在她遇到一个小问题,相信这个问题很多程序员(媛)也经常遇到。什么问题呢?来跟大家唠一唠。大家都知道,在多人协作开发中,我们需要把代码提交到Git服务器的。但是并不是所有人都可以往服务器上推送代码,只有有相应权限的人才能推送,所以就涉及到如何对服务器进行授权的问题。现在授权方式有两种,一种是HTTP/HTTPS协议,另外一种是SSH Key协议。HTTP/HTTPS协议好处是方便

MATLAB求解方程与方程组_weixin_30640291的博客-程序员秘密

1.solve函数①求解单个一元方程的数值解syms x;x0 = double(solve(x +2 - exp(x),x));求x+2 = exp(x)的解,结果用double显示.使用过程中,也可以写作x+2 == exp(x),注意是‘==’.另外,若有多个解,该函数只返回一个的解.②求解含有符号变量方程的解syms x a b c;...

Android 百度地图API-----气泡显示_百度地图api 小气球样式怎么设置_huluhong的博客-程序员秘密

一个小例子,在地图中显示一个浮标,显示出我们的标记点,点击这个浮标会出现一个文本显示的气泡先来看看效果: public class MainActivity extends MapActivity { BMapManager mBMapMan;  MapController mMapController;  MKOfflineMap mOffline = null;

ENVI学习总结——基于改进的 CASA 模型反演NPP_中国科学数据网的博客-程序员秘密

基于改进的 CASA 模型反演 NPP数据为地理空间数据云提供的 TM 影像,其具体信息如图 1 所示。该实验中所使用的 TM 数据已进行过 QUAC 快速大气校正,来消除大气和光照等因素对地物反射的影响。Landsat 主题成像仪(TM)是 Landsat4 和 Landsat5 携带的传感器,每 16 天扫描同一地区,即 16 天覆盖全球一次。 TM 影像包含 7 个波段,波段 1-5 和波段 7 的空间分辨率为 30 米,波段 6(热红外波段)的空间分辨率为 120 米一、数据准备在软件运

随便推点

python读取txt文件某一列_python读取txt文件并取其某一列数据的示例_weixin_39697096的博客-程序员秘密

python怎么从txt文件中读取特定列的数据,新手,分享获取第二列和最后一列with open('a.txt','r') as f0: for i in f0: tmp=i.split() print tmp[1],tmp[-1]用Python读取指定txt文件中的部分内容python如何读取txt文件中指定内容?每个人都要成长,这是一条必经的路,也是一条逃避不了的路。不愿成长的人,只能被现实拉...

错误: expected specifier-qualifier-list before ‘GTypeInstance’_jlnhyd的博客-程序员秘密

错误: expected specifier-qualifier-list before ‘GTypeInstance’错误: expected specifier-qualifier-list before ‘GTypeClass’ 我的错误原因是没有包含‘GTypeInstance’和‘GTypeClass’的头文件#include

redhat7 linux修改语言,RedHatLinux7.1中语言化完全攻略(二)_荔枝保的博客-程序员秘密

RedHatLinux7.1中语言化完全攻略(二)更新时间:2006年10月24日 00:00:00 作者:1、设置中文localeRedHat的locale切换很简单:进入Linux窗口界面,执行locale_config会弹出一个选择本地语言窗口,选择“Chinese(CN.GB2312) zh_CN.GB2312”来设置locale为“简体中文”,如果你想试用一下“繁体中文”,也可以选择...

配对碱基链 (Coursera 程序设计与算法 专项课程2 C程序设计进阶 李戈;OpenJudge)_2395: 配对碱基链_happy会飞的青蛙的博客-程序员秘密

编程题#2: 配对碱基链来源: POJ (http://pkuic.openjudge.cn/ziyoulianxi/09)注意: 总时间限制: 1000ms 内存限制: 65536kB描述脱氧核糖核酸(DNA)由两条互补的碱基链以双螺旋的方式结合而成。而构成DNA的碱基共有4种,分别为腺瞟呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)。我们知道,在两条互补碱基链的对应位置上,腺瞟呤总是和胸腺

解决1px边框 -- border.css_1px边框less_叶子_o的博客-程序员秘密

@charset "utf-8"; .border,.border-top,.border-right,.border-bottom,.border-left,.border-topbottom,.border-rightleft,.border-topleft,.border-rightbottom,.border-topright,.border-bottomleft ...

推荐文章

热门文章

相关标签