在进行系统聚类分析时,不同的类间距离计算方法有何区别
来源:学生作业帮 编辑:大师作文网作业帮 分类:数学作业 时间:2024/11/12 15:25:02
在进行系统聚类分析时,不同的类间距离计算方法有何区别
聚类分析有两种主要计算方法,分别是凝聚层次聚类(Agglomerative hierarchical method)和K均值聚类(K-Means).
一、层次聚类
层次聚类又称为系统聚类,首先要定义样本之间的距离关系,距离较近的归为一类,较远的则属于不同的类.可用于定义“距离”的统计量包括了欧氏距离 (euclidean)、马氏距离(manhattan)、 两项距离(binary)、明氏距离(minkowski).还包括相关系数和夹角余弦.
层次聚类首先将每个样本单独作为一类,然后将不同类之间距离最近的进行合并,合并后重新计算类间距离.这个过程一直持续到将所有样本归为一类为止.在计算类间距离时则有六种不同的方法,分别是最短距离法、最长距离法、类平均法、重心法、中间距离法、离差平方和法.
下面我们用iris数据集来进行聚类分析,在R语言中所用到的函数为hclust.首先提取iris数据中的4个数值变量,然后计算其欧氏距离矩阵.然后将矩阵绘制热图,从图中可以看到颜色越深表示样本间距离越近,大致上可以区分出三到四个区块,其样本之间比较接近.
data=iris[,-5]
dist.e=dist(data,method='euclidean')
heatmap(as.matrix(dist.e),labRow = F, labCol = F)
X
然后使用hclust函数建立聚类模型,结果存在model1变量中,其中ward参数是将类间距离计算方法设置为离差平方和法.使用plot(model1)可以绘制出聚类树图.如果我们希望将类别设为3类,可以使用cutree函数提取每个样本所属的类别.
model1=hclust(dist.e,method='ward')
result=cutree(model1,k=3) 为了显示聚类的效果,我们可以结合多维标度和聚类的结果.先将数据用MDS进行降维,然后以不同的的形状表示原本的分类,用不同的颜色来表示聚类的结果.可以看到setose品种聚类很成功,但有一些virginica品种的花被错误和virginica品种聚类到一起.
一、层次聚类
层次聚类又称为系统聚类,首先要定义样本之间的距离关系,距离较近的归为一类,较远的则属于不同的类.可用于定义“距离”的统计量包括了欧氏距离 (euclidean)、马氏距离(manhattan)、 两项距离(binary)、明氏距离(minkowski).还包括相关系数和夹角余弦.
层次聚类首先将每个样本单独作为一类,然后将不同类之间距离最近的进行合并,合并后重新计算类间距离.这个过程一直持续到将所有样本归为一类为止.在计算类间距离时则有六种不同的方法,分别是最短距离法、最长距离法、类平均法、重心法、中间距离法、离差平方和法.
下面我们用iris数据集来进行聚类分析,在R语言中所用到的函数为hclust.首先提取iris数据中的4个数值变量,然后计算其欧氏距离矩阵.然后将矩阵绘制热图,从图中可以看到颜色越深表示样本间距离越近,大致上可以区分出三到四个区块,其样本之间比较接近.
data=iris[,-5]
dist.e=dist(data,method='euclidean')
heatmap(as.matrix(dist.e),labRow = F, labCol = F)
X
然后使用hclust函数建立聚类模型,结果存在model1变量中,其中ward参数是将类间距离计算方法设置为离差平方和法.使用plot(model1)可以绘制出聚类树图.如果我们希望将类别设为3类,可以使用cutree函数提取每个样本所属的类别.
model1=hclust(dist.e,method='ward')
result=cutree(model1,k=3) 为了显示聚类的效果,我们可以结合多维标度和聚类的结果.先将数据用MDS进行降维,然后以不同的的形状表示原本的分类,用不同的颜色来表示聚类的结果.可以看到setose品种聚类很成功,但有一些virginica品种的花被错误和virginica品种聚类到一起.
在进行系统聚类分析时,不同的类间距离计算方法有何区别
SAS聚类分析中的类平均法是如何定义类间距离的?
汽车的ESP系统与ABS系统有何区别
装不同的系统有什么区别
导师要求毕设用SPSS做聚类分析分别用K均值聚类和系统聚类挖掘数据,发现两种方法分类的区别在哪里怎么做
对数据进行系统聚类分析,说出每个统计量的现实意义,并根据所得分析结果做出自己的评价.
WEAR的进行时wear什么时候用进行时态,什么时用一般现在时?有何区别
用SPSS19进行聚类分析时,怎么生成R型聚类分析谱系图,和Q型聚类分析谱系图,
细胞、器官、组织、系统有何区别
1,无阻尼系统的自由振动与有阻尼自由振动有何区别(从动力学模型和响应等方面进行分析)?
银河电气的变频功率测试系统与宽带功率测试系统有何区别?
OA系统与ERP系统有何联系与区别?