挖掘软件KNIME中的Kmeans

2022/7/11 来源：不详

IrisDataSet是数据挖掘中常用的数据集，可以直接从UCI机器学习库中获得，原始数据一共有个cases，4个属性，常用来进行分类（classification）实践。这个数据集也一直是最受欢迎的，下载量居于榜首。IrisDataSet（鸢尾花数据集）最初由埃德加?安德森从加拿大加斯帕半岛上的鸢尾花花朵中统计整理得出，后来由英国著名统计学家Fisher（费雪）在判别分析中加以应用，从而将这一植物学领域的数据引入统计学中。数据集包含的鸢尾花种类包括：山鸢尾（Iris-setosa）、变色鸢尾（Iris-versicolor）、维吉尼亚鸢尾（Iris-virginica），四个属性分别是：花萼长度（sepallength）、花萼宽度（sepalwidth）、花瓣长度（petallength）、花瓣宽度（petalwidth）。Fisher当年使用的是线性判别方法（LinearDiscriminantAnalysis,LDA）来对鸢尾花进行分类，后来线性判别方法也成为模式识别中的经典算法。Fisher线性判别方法意图将d维空间中的数据点投影到c-1维的空间上，使得不同类的样本点在这个c-1维空间上的投影尽可能分散，而同类的样本点则尽量紧凑。关于线性判别方法的介绍以及它与主成分分析法的异同，有很多文章已经有过详尽阐述，比如JerryLead里的这一篇：

转载请注明：: http://www.3g-city.net/gjyzd/750.html

上一篇文章： ldquo数据为王rdquo时代

下一篇文章：没有了

没有热点文章

没有推荐文章