案例5步掌握Python数据分析挖掘

2022/7/11 来源:不详

论坛君本文通过简单案例,分享Python在数据处理方面的实际应用,属于基础学习范畴,希望刚刚接触Python学习的新手们能通过应用去解决实际问题从而巩固掌握Python操作,在这里与大家分享学习。

作者:吕鸿福

首发于CDA数据分析师(cdacdacda)

许许多多的人都非常容易爱上Python这门语言。自从年诞生以来,Python现在已经成为最受欢迎的动态编程语言之一,尤其进入21世纪以来,Python在行业应用和学术研究中进行科学计算的势头也越来越迅猛。

——《PythonforDataAnalysis》(WsMckinny)

Python不仅在编程方面有强大的实力,而且由于不断改进的第三方库,Python在数据处理方面也越来越突出;近年来,非常火爆的机器学习(MachinLarning)以及前沿的自然语言处理(NaturalLanguagProcssing)也选择Python作为基础工具。所以要想在数据科学领域有所进步的话,了解学习Python看来还是有所必要的。

本文通过简单案例,分享Python在数据处理方面的实际应用,属于基础学习范畴,希望刚刚接触Python学习的新手们能通过应用去解决实际问题从而巩固掌握Python操作,在这里与大家相互学习,也希望大神们轻拍:)

Withoutfurthrado,ltsgtstartd!

本文使用Python2.7版本,操作在集成开发坏境Spydr中进行;选择的数据集,是大名鼎鼎的鸢尾花数据集iris.csv,数据集网上公开请自行下载!

1.数据集截图如下图1:

图1.iris数据集截图

该数据集包含数据有行*5列。前4列分别是:花萼的长度、宽度,花瓣的长度、宽度;最后一列是花的分类,总共分3类。

2.读入数据,如下图2:

图2.读入数据代码截图

输出结果如下图3:

图3.读取数据结果显示

Python通过pandas库,读入数据,注意读取时文件路径的填写,需用“\\”或者“/”符号。同时,Python面向对象编程,shap及had函数建立在iris数据框对象之上,这与R语言不同,R语言更加“函数化”,dim及had等函数都是内置函数。

3.描述性统计结果,如下图4:

图4.面属性统计代码结果

本结果操作代码仅有一行#printiris.csv.dscrib().T#,就不再单独截图列出了。从输出结果中可以看到每列数据的平均值等统计数值,较简单不多说。

4.聚类分析,如下图5:

图5.聚类分析代码

输出结果,如下图6:

图6.聚类分析结果

在Python中利用sklarn库中的clustr.Kmans对irisFaturs进行聚类分析,并输出分类结果。

5.决策树模型,如下图7:

图7.决策树模型代码

输出结果如下图8:

图8.决策树模型结果

利用CART算法对iris数据集建立模型,并预测结果,同时输出训练集测试集的预测正确率。相关说明及代码含义均在代码中已注释。

最后:因为网上教程给出完整数据、代码及结果的资料不多,所以把自己的浅薄经验分享给大家希望对您有帮助,感兴趣的童鞋赶快去码代码吧:)

End预览时标签不可点收录于合集#个上一篇下一篇
转载请注明:
http://www.3g-city.net/gjycs/742.html
  • 上一篇文章:

  • 下一篇文章:
    • 没有热点文章
    • 没有推荐文章
    网站首页 版权信息 发布优势 合作伙伴 隐私保护 服务条款 网站地图 网站简介

    温馨提示:本站信息不能作为诊断和医疗依据
    版权所有2014-2024 冀ICP备19027023号-6
    今天是: