使用ScikitLearn的分类器探索I

2023/5/5 来源:不详

儿童白癜风有哪些症状 http://pf.39.net/bdfyy/zjdy/150410/4606634.html

暂时,想象一下你不是一个花卉专家(如果你是专家,那对你很好!)。你能区分三种不同的鸢尾属植物吗?刚毛鸢尾属,花色鸢尾属和维吉尼亚鸢尾属(setosa,versicolor,virginica)?

我知道我不能…

但是,如果我们有一个包含这些物种实例的数据集,以及它们的萼片和花瓣的测量结果呢?

换言之,我们能从这个数据集中学到什么来帮助我们区分这三个物种吗?

目录

我们为什么选择这个数据集?我们想回答什么问题?在这个数据集中我们能找到什么?我们正在构建哪些分类器?下一步该怎么办?数据集

在这篇博文中,我将探索UCI机器学习库中的Iris数据集。它摘自其网站,据说这可能是模式识别文献中最著名的数据库。此外,JasonBrownlee,机器学习社区创建者,他称该数据集为机器学习的“HelloWorld”。

我将把这个数据集推荐给那些对数据科学感兴趣并渴望构建第一个ML模型的人。它的一些优良特性见下文:

个具有4个属性的实例(相同的单位,全部为数字)均衡的阶级分布无缺失数据如你所见,这些特性有助于将你在数据准备过程中花费的时间减至最少,这样你就可以专注于构建你的第一个ML模型。

并不是说准备阶段不重要。相反,这个过程是如此的重要,以至于对于一些初学者来说,这可能是非常耗时的,而且他们在开始模型开发之前可能会把自己压得喘不过气来。

例如,来自Kaggle的流行数据集HousePrices:AdvancedreturnationTechniques有大约80个特征,其中超过20%包含某种程度的缺失数据。在这种情况下,你可能需要花费一些时间来理解属性并填充缺失的值。

目标

在研究了这个数据集之后,我们希望能够回答两个问题,这在分类问题中非常典型:

预测-给定新的数据点,模型预测其类(物种)的准确度如何?推断-哪些预测因素可以有效地帮助预测?分类

分类是一类有监督的机器学习问题,其中目标(响应)变量是离散的。给定包含已知标签的训练数据,分类器从输入变量(X)到输出变量(Y)近似一个映射函数(f)。

现在是时候写一些代码了!请参阅我的Github页面以获取完整的Python代码(在JupyterNotebook中编写)。

链接:

转载请注明:
http://www.3g-city.net/gjyzl/4463.html
  • 上一篇文章:

  • 下一篇文章:
  • 网站首页 版权信息 发布优势 合作伙伴 隐私保护 服务条款 网站地图 网站简介

    温馨提示:本站信息不能作为诊断和医疗依据
    版权所有2014-2024 冀ICP备19027023号-6
    今天是: