挖掘软件KNIME中的Kmeans

2022/7/11 来源:不详

IrisDataSet是数据挖掘中常用的数据集,可以直接从UCI机器学习库中获得,原始数据一共有个cases,4个属性,常用来进行分类(classification)实践。这个数据集也一直是最受欢迎的,下载量居于榜首。IrisDataSet(鸢尾花数据集)最初由埃德加?安德森从加拿大加斯帕半岛上的鸢尾花花朵中统计整理得出,后来由英国著名统计学家Fisher(费雪)在判别分析中加以应用,从而将这一植物学领域的数据引入统计学中。数据集包含的鸢尾花种类包括:山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)、维吉尼亚鸢尾(Iris-virginica),四个属性分别是:花萼长度(sepallength)、花萼宽度(sepalwidth)、花瓣长度(petallength)、花瓣宽度(petalwidth)。Fisher当年使用的是线性判别方法(LinearDiscriminantAnalysis,LDA)来对鸢尾花进行分类,后来线性判别方法也成为模式识别中的经典算法。Fisher线性判别方法意图将d维空间中的数据点投影到c-1维的空间上,使得不同类的样本点在这个c-1维空间上的投影尽可能分散,而同类的样本点则尽量紧凑。关于线性判别方法的介绍以及它与主成分分析法的异同,有很多文章已经有过详尽阐述,比如JerryLead里的这一篇:

转载请注明:
http://www.3g-city.net/gjyzd/750.html
  • 上一篇文章:

  • 下一篇文章: 没有了
    • 没有热点文章
    • 没有推荐文章
    网站首页 版权信息 发布优势 合作伙伴 隐私保护 服务条款 网站地图 网站简介

    温馨提示:本站信息不能作为诊断和医疗依据
    版权所有2014-2024 冀ICP备19027023号-6
    今天是: