使用ScikitLearn的分类器探索I

2023/5/5 来源：不详

暂时，想象一下你不是一个花卉专家（如果你是专家，那对你很好！）。你能区分三种不同的鸢尾属植物吗？刚毛鸢尾属，花色鸢尾属和维吉尼亚鸢尾属（setosa,versicolor,virginica）？

我知道我不能…

但是，如果我们有一个包含这些物种实例的数据集，以及它们的萼片和花瓣的测量结果呢？

换言之，我们能从这个数据集中学到什么来帮助我们区分这三个物种吗？

我们为什么选择这个数据集？我们想回答什么问题？在这个数据集中我们能找到什么？我们正在构建哪些分类器？下一步该怎么办？数据集

在这篇博文中，我将探索UCI机器学习库中的Iris数据集。它摘自其网站，据说这可能是模式识别文献中最著名的数据库。此外，JasonBrownlee，机器学习社区创建者，他称该数据集为机器学习的“HelloWorld”。

我将把这个数据集推荐给那些对数据科学感兴趣并渴望构建第一个ML模型的人。它的一些优良特性见下文：

个具有4个属性的实例（相同的单位，全部为数字）均衡的阶级分布无缺失数据如你所见，这些特性有助于将你在数据准备过程中花费的时间减至最少，这样你就可以专注于构建你的第一个ML模型。

并不是说准备阶段不重要。相反，这个过程是如此的重要，以至于对于一些初学者来说，这可能是非常耗时的，而且他们在开始模型开发之前可能会把自己压得喘不过气来。

例如，来自Kaggle的流行数据集HousePrices:AdvancedreturnationTechniques有大约80个特征，其中超过20%包含某种程度的缺失数据。在这种情况下，你可能需要花费一些时间来理解属性并填充缺失的值。

目标

在研究了这个数据集之后，我们希望能够回答两个问题，这在分类问题中非常典型：

预测-给定新的数据点，模型预测其类（物种）的准确度如何？推断-哪些预测因素可以有效地帮助预测？分类

分类是一类有监督的机器学习问题，其中目标（响应）变量是离散的。给定包含已知标签的训练数据，分类器从输入变量（X）到输出变量（Y）近似一个映射函数（f）。

现在是时候写一些代码了！请参阅我的Github页面以获取完整的Python代码（在JupyterNotebook中编写）。

链接：