挖掘软件KNIME中的Kmeans
2022/7/11 来源:不详IrisDataSet是数据挖掘中常用的数据集,可以直接从UCI机器学习库中获得,原始数据一共有个cases,4个属性,常用来进行分类(classification)实践。这个数据集也一直是最受欢迎的,下载量居于榜首。IrisDataSet(鸢尾花数据集)最初由埃德加?安德森从加拿大加斯帕半岛上的鸢尾花花朵中统计整理得出,后来由英国著名统计学家Fisher(费雪)在判别分析中加以应用,从而将这一植物学领域的数据引入统计学中。数据集包含的鸢尾花种类包括:山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)、维吉尼亚鸢尾(Iris-virginica),四个属性分别是:花萼长度(sepallength)、花萼宽度(sepalwidth)、花瓣长度(petallength)、花瓣宽度(petalwidth)。Fisher当年使用的是线性判别方法(LinearDiscriminantAnalysis,LDA)来对鸢尾花进行分类,后来线性判别方法也成为模式识别中的经典算法。Fisher线性判别方法意图将d维空间中的数据点投影到c-1维的空间上,使得不同类的样本点在这个c-1维空间上的投影尽可能分散,而同类的样本点则尽量紧凑。关于线性判别方法的介绍以及它与主成分分析法的异同,有很多文章已经有过详尽阐述,比如JerryLead里的这一篇: