使用ScikitLearn的分类器探索I
2023/5/5 来源:不详儿童白癜风有哪些症状 http://pf.39.net/bdfyy/zjdy/150410/4606634.html
暂时,想象一下你不是一个花卉专家(如果你是专家,那对你很好!)。你能区分三种不同的鸢尾属植物吗?刚毛鸢尾属,花色鸢尾属和维吉尼亚鸢尾属(setosa,versicolor,virginica)?
我知道我不能…
但是,如果我们有一个包含这些物种实例的数据集,以及它们的萼片和花瓣的测量结果呢?
换言之,我们能从这个数据集中学到什么来帮助我们区分这三个物种吗?
目录
我们为什么选择这个数据集?我们想回答什么问题?在这个数据集中我们能找到什么?我们正在构建哪些分类器?下一步该怎么办?数据集
在这篇博文中,我将探索UCI机器学习库中的Iris数据集。它摘自其网站,据说这可能是模式识别文献中最著名的数据库。此外,JasonBrownlee,机器学习社区创建者,他称该数据集为机器学习的“HelloWorld”。
我将把这个数据集推荐给那些对数据科学感兴趣并渴望构建第一个ML模型的人。它的一些优良特性见下文:
个具有4个属性的实例(相同的单位,全部为数字)均衡的阶级分布无缺失数据如你所见,这些特性有助于将你在数据准备过程中花费的时间减至最少,这样你就可以专注于构建你的第一个ML模型。
并不是说准备阶段不重要。相反,这个过程是如此的重要,以至于对于一些初学者来说,这可能是非常耗时的,而且他们在开始模型开发之前可能会把自己压得喘不过气来。
例如,来自Kaggle的流行数据集HousePrices:AdvancedreturnationTechniques有大约80个特征,其中超过20%包含某种程度的缺失数据。在这种情况下,你可能需要花费一些时间来理解属性并填充缺失的值。
目标
在研究了这个数据集之后,我们希望能够回答两个问题,这在分类问题中非常典型:
预测-给定新的数据点,模型预测其类(物种)的准确度如何?推断-哪些预测因素可以有效地帮助预测?分类
分类是一类有监督的机器学习问题,其中目标(响应)变量是离散的。给定包含已知标签的训练数据,分类器从输入变量(X)到输出变量(Y)近似一个映射函数(f)。
现在是时候写一些代码了!请参阅我的Github页面以获取完整的Python代码(在JupyterNotebook中编写)。
链接: