什么是判别分析有哪些使用场景
2024/5/30 来源:不详判别分析最初应用于考古学,例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等.。慢慢的已经成为一种常用的分类分析方法,其通过已知的分类情况,根据数据的特征对其他研究对象进行预测归类。
原理说明
判别分析时,通常需要将数据分为两部分。一部分是训练模型数据,一部分是验证模型数据。首先通过训练集数据训练拟合出一个模型。接着再利用另一部分验证模型效果。如果在测试集数据上,也表现良好,那么说明拟合模型非常好。后面可以利用此模型用于预测其它“没有确定类别”的数据,来预测新数据的类别情况。
应用场景
判别分析与回归分析相似,可用于确定哪些预测变量与因变量相关,并在给定预测变量的某些值的情况下预测因变量的值。
在实际生活中,判别分析也被广泛用于预测事物的类别归属。
企业营销中,营销人员可通过已有的客户特征数据(如消费金额、消费频次、购物时长、购买产品种类等),预测当前的消费者属于哪种类型的顾客(款式偏好型、偏重质量型、价格敏感型...),并根据其特点有针对性的采取有效的营销手段。或是根据各成分含量指标,判断白酒的品牌或水果的产地等。除此以外,判别分析还可与聚类分析结合使用。比如,银行的贷款部门想要在发放贷款之前,可通过此方法判断申请人是否具有良好的信用风险。
案例应用
1、背景
本次数据使用最为经典的鸢尾花卉数据集。该数据是利用花萼长、花萼宽、花瓣长、花瓣宽共4个特征,来预测花的种类(共3类:分别是刚毛鸢尾花、变色鸢尾花和佛吉尼亚鸢尾花;下面全部是类别1,类别2和类别3表示)。数据共有个样本,包括4个特征。
2、操作步骤
使用路径:SPSSAU→进阶方法→判别分析3、结果分析
①模型训练集和测试集分布
SPSSAU上表是对训练集和测试集整体数据分布的说明,包括样本量、样本比例。
②判别函数
SPSSAU上表展示的是各类别对应的判别函数,结合判别函数和判别特征(自变量X),可计算得到判别分类结果,用于判别样本应该属于哪个类别。
三类表达式分别为:
类别1=-.+21.*花萼长+14.*花萼宽-12.*花瓣长-10.*花瓣宽
类别2=-.+18.*花萼长+2.*花萼宽-1.*花瓣长+4.*花瓣宽
类别3=-.+17.*花萼长+0.*花萼宽+2.*花瓣长+14.*花瓣宽
③训练集预测准确率
SPSSAU判别分析后可通过正确率,召回率和F1-score共三个指标判断训练集数据预测准确情况,三个指标值都是越大越好,SPSSAU建议此三个指标均大于70%。
上表显示,三类的预测准确率均超过90%,说明训练集有很高的预测准确率。
④测试集预测准确率
SPSSAU判别分析后更重要的在于查看测试集数据模型预测准确情况。
上表展示测试集即30个样本数据的预测准确率;上表显示整体正确率为%。也即说明测试集显示数据全部预测准确,没有预测出错的现象。模型拟合质量非常高。
4、如何确定未分类数据组别
确定了最终的模型,即可将其他未分类数据分别代入3个公式得到每个判别类别的判别分,对应分值最高的类别,就为最终归属类别。最终将得到的结果,整理为下表:
SPSSAU结果总结:编号1样本,最终归类为类别1,属于刚毛鸢尾花。编号2样本,最终归类为类别3,属于佛吉尼亚鸢尾花。编号3样本,最终归类为类别3,属于佛吉尼亚鸢尾花。