你好,游客 登录 注册
背景:
阅读正文

聚类分析

[日期:2011-11-17] 来源:  作者:辽宁省科学技术厅科技统计中心 [字体: ]

 

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。

在社会经济领域中存在着大量分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好的做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。

将聚类分析和其他方法联合起来使用,如判别分析法、主成分分析、回归分析等往往效果更好。

为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作p维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。

正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。常用的八种聚类分析方法有:最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法。

1 最短距离法

以下用表示样品之间距离,用表示类之间的距离。

聚类的步骤如下:

1)定义样品之间距离,计算样品两两距离,得一距离阵记为,开始每个样品自成一类,显然这时

2)找出的非对角线最小元素,设为,则将合并成一个新类,记为,即=

3)给出计算新类与其它类的距离公式:

中第行及列用上面公式并成一个新行新列,新行新列对应,所得到的矩阵记为

4)对重复上述对的(2)、(3)两步得;如此下去,直到所有的元素并成一类为止。

如果某一步中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。

2 最长距离法

最长距离法与最短距离法的并类步骤完全一样,也是将各样品先自成一类,然后将非对角线上最小元素对应的两类合并。设某一步将类合并为,则任一类的距离用最长距离公式为,再找非对角线最小元素的两类并类,直至所有的样品全归为一类为止。

易见最长距离法与最短距离法只有两点不同:一是类与类之间的距离定义不同;另一是计算新类与其它类的距离所用的公式不同。

其它系统聚类法之间的不同点也表现在这两个方面,而并类步骤完全一样。

3 中间距离法

如果在某一步将类与类合并为,任一类的距离公式为: 

4 重心法

定义类与类之间的距离时,为了体现出每类包含的样品个数给出重心法。

重心法定义两类之间的距离就是两类重心之间的距离。设的重心(即该类样品的均值)分别是(注意一般它们是维向量),则之间的距离是

5 类平均法

重心法虽有很好的代表性,但并未充分利用各样品的信息,因此给出类平均法,它定义两类之间的距离平方为这两类元素两两之间距离平方的平均,设聚类到某一步将合并为,则任一类的距离为 =

6 可变类平均法

由于类平均法公式中没有反应之间距离的影响,所以给出可变类平均法,此法定义两类之间的距离同上,只是将任一类与新类的距离改为如下形式:其中是可变的,且

7 可变类

此法定义两类之间的距离仍同上,而新类与任一类的的距离公式为:其中是可变的,且

可变类平均法与可变法的分类效果与的选择关系极大,如果接近1,一般分类效果不好,在实际应用中常取负值。

8 离差平方和法

这个方法是Ward提出来的,故又称为Ward法。

设将个样品分成类: ,用表示中的第个样品(注意维向量),表示中的样品个数,的重心,则中样品的离差平方和为:

个类的类内离差平方和为

 

Ward法的基本思想是来自于方差分析,如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和应当较大。具体做法是先将n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使S增加最小的两类合并(因为如果分类正确,同类样品的离差平方和应当较小)直到所有的样品归为一类为止。

粗看Ward法与前七种方法有较大的差异,但是如果将的距离定义为  其中,就可使Ward法和前七种系统聚类方法统一

起来,且可以证明Ward法合并类的距离公式为:

 

收藏 推荐 打印 | 录入:jinting | 阅读:
相关文章      
热门评论