你好,游客 登录 注册
背景:
阅读正文

判别分析

[日期:2011-11-17] 来源:  作者:辽宁省科学技术厅科技统计中心 [字体: ]

      判别分析是判别样品所属类型的一种统计方法。判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对聚类分析来说,一批给定样品要划分的类型事先并不知道,正要通过聚类分析来给以确定类型的。

正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判别新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。

在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型。

判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,如马式距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。这里仅介绍四种常用的判别方法即距离判别法、Fisher判别法、Bayes判别法和逐步判别法。

1)距离判别法的基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第类的重心距离最近,就认为它来自第类。

距离判别法,对各类(或总体)的分布,并无特定的要求。

2Fisher判别法的基本思想:

不等协差阵的两总体Fisher判别法:从两个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个判别函数或称判别式:其中系数确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别式后,对于一个新的样品,将它的个指标值代入判别式中求出值,然后与判别临界值(或称分界点后面给出)进行比较,就可以判别它应属于哪一个总体。

由于多总体Fisher判别法比较复杂,此处不加以介绍了。

3Bayes判别法的基本思想:总是假定对所研究的对象已有一定的认识,常用先验概率来描述这种认识。设有个总体他们的先验概率分别为(它们可以由经验给出也可以估出)。各总体的密度函数分别为:(在离散情形是概率函数),在观测到一个样品的情况下,可用著名的Bayes公式计算它来自第g总体的后验概率(相对于先验概率来说,将它又称为后验概率):       

并且当时,则判来自第总体。

有时还可以使用错判损失最小的概念作判决函数。这时把错判归第总体的平均损失定义为其中称为损失函数。它表示本来是第g总体

 

的样品错判为第总体的损失。显然上式是对损失函数依概率加权平均或称为错判的平均损失。当时,有;当时,有。建立判别准则为如果则判定来自第总体。

原则上说,考虑损失函数更为合理,但是在实际应用中不容易确定,因此常常在数学模型中就假设各种错判的损失皆相等,即     

这样一来,寻找使后验概率最大和使错判的平均损失最小是等价的,即

4)逐步判别法的基本思想:逐步判别法与逐步回归法的基本思想类似,都是采用“有进有出”的算法,即逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,如果其判别能力随新引入变量而变为不显著了(例如其作用被后引入的某几个变量的组合所代替),应及时从判别式中把它剔除去,直到判别式中没有不重要的变量需要剔除,而剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。这个筛选过程实质就是做假设检验,通过检验找出显著性变量,剔除不显著变量。

 

收藏 推荐 打印 | 录入:jinting | 阅读:
相关文章      
热门评论