判别分析也叫线性判别分析。它产生于20世纪30年代。利用已知类别的样本建立判别模型,对未知类别的样本进行判别的一种统计方法。

判别分析方法的目的和特点

目的

判别的目的是为分类已知的数据建立一个由数值指标组成的分类规则,然后将这个规则应用于分类未知的样本进行分类。

比如我们有一些胃炎患者和健康人的实验室指标,就可以从这些实验室指标中找出两类人的区别,并把这种区别表示为一个判别公式。然后,怀疑患有胃炎的人可以根据他们的实验室指标用判别公式进行诊断。

特性

因此,判别分析的特点是根据历史上每个类别的若干样本的数据信息,总结客观事物分类的规律性,建立判别公式和判别准则。

当遇到新的样本点时,可以根据总结的判别公式和准则来识别该样本点的类别。

判别分析按组数可分为两组和多组。

原理解释

在判别分析中,通常需要将数据分成两部分。一部分是训练模型数据,一部分是验证模型数据。

首先,通过训练训练集的数据来拟合模型。然后用另一部分来验证模型效果。如果它在测试集数据上也表现良好,那么拟合模型就非常好。

后来,这个模型可以用来预测其他“未确定类别”的数据,以预测新数据的类别。

判别分析方法

判别分析根据数据的性质分为定性数据判别分析和定量数据判别分析。采用不同的判别标准,有费希尔、贝叶斯、距离等判别方法。

费雪的判别思想是投影,将多维问题简化为一维问题来处理。选择一个合适的投影轴,使所有的采样点都投影到这个轴上,得到一个投影值。

对这个投影轴方向的要求是,使每个类中的投影值形成的类内离差尽可能小,不同类之间的投影值形成的类间离差尽可能大。

贝叶斯判别思想是根据先验概率计算后验概率,根据后验概率分布进行统计推断。

所谓先验概率,就是用概率来描述人们对所研究对象的先验知识的程度;后验概率是根据特定的数据、先验概率和特定的判别规则计算出来的概率。它是修正先验概率的结果。

距离辨别的思想是基于每个样本和每个父母之间的距离。即根据数据建立每个亲本的距离判别函数公式,将每个样本的数据逐一代入计算,得到每个样本与每个亲本的距离值,判断该样本属于距离值最小的亲本。

区分经典案例。

这个案例是判别分析的鼻祖Fisher观察到的虹膜的分析数据。

其中,蓝色箭头表示的量相当于分类变量,包含三个级别,即1、2和3,代表鸢尾、变色鸢尾和弗吉尼亚鸢尾。

红框中的四个变量是测量变量,是数值变量,分别表示花萼的长和宽,花瓣的长和宽。

我们的目的是通过这四个数值变量来区分未知的鸢尾花类型。

需要注意的是,在判别分析中,输入变量必须是数值型的,而输出变量必须是分类的。

操作程序

打开Spss中的“分析”-“分类”-“判别”,将不同类型的输出变量拖入“分组变量”中;将剩余的四个数字输入变量拖到。

Spss提供了“一起输入”和“分步方法”。用户可以根据自己的需要,决定是让所有输入变量一起参与判别函数的构造,还是在输入前进行筛选。

结果的解释

点击确定后,Spss给出描述性的统计分析结果,如下:

下图是对判别分析的进一步描述。

第一种形式:

给出了两个判别函数的特征根。表中只给出两个判别函数,其中第一个判别函数携带的信息远大于第二个判别函数,其解释的组间方差也占绝大多数。

注意后面有一个典型的相关系数,表示不同组与第一、第二判别函数之间的相关性。相关性越强,群体在这个维度上的差异越大。反之,这个群体在这个维度上的差异就越小。

第二种形式:

两个函数的WiksLamdba测试。

结果表明,两个判别函数具有统计学意义,即Sig小于0.05。

第三种形式:

给出了标准化判别系数。它显示了不同输入变量对第一和第二判别函数的贡献率。

第三表可以写成线性形式,需要注意的是这是标准化的判别系数,没有常数项。

下图是对判别分析的进一步描述:

第一种形式:

结构矩阵表,显示不同输入变量与第一和第二判别函数之间的相关性。

从图表中可以看出,花瓣长度与第一判别函数的相关性最强,其他三个输入变量与第二判别函数相关。

该矩阵的结构不同于以前的标准化函数系数。虽然它们的分布趋势是一致的,但一个可以直接写成标准化的一阶和二阶差分函数,而另一个只是表示它们之间的相关性。

第二张表:

它在由第一和第二判别函数构成的平面上显示了不同群体的分布重心。第一个和第二个函数用WilksLambda统计量进行检验,检验的是这两个向量在每组中的得分是否相等。

在第二个表中,我们得到了不同组在二维图上的坐标,所以只要计算出新数据的坐标,然后比较它与哪一组的中心点的距离,就可以确定它属于哪一类。

如果不想使用Spss提供的标准化的第一、第二判别函数,可以通过设置面板中的设置,得到如下图所示的非标准化的第一、第二判别函数的系数。

使用这个系数,可以计算新数据的坐标。

识别结果的图形显示

它为Spss提供了三种图形显示方式。它们是:

↘领域地图

↘分离分布图

联合分布图

下面介绍联合分布图。下面的联合分布表明,这三个类别彼此有很大的不同。

如果要预测新的记录,只需要输入相应的位置,新数据的位置就会显示在联合分布图中。通过位置,我们可以区分新数据属于哪一类。

判别效果验证

判别效果的验证和解释是对原始数据进行一次判别,然后对确定的判别进行汇总。

适用条件的判断

使用判别分析时,组间输入变量的均值必须是显著差异,组间方差越大越好。

下表显示了每个输入变量在不同类别中的平均分布。从平均测试来看,各组之间存在显著差异。这是一个单向方差分析表。

发表评论

后才能评论