案例5步掌握Python数据分析挖掘
2022/7/11 来源:不详论坛君本文通过简单案例,分享Python在数据处理方面的实际应用,属于基础学习范畴,希望刚刚接触Python学习的新手们能通过应用去解决实际问题从而巩固掌握Python操作,在这里与大家分享学习。
作者:吕鸿福
首发于CDA数据分析师(cdacdacda)
许许多多的人都非常容易爱上Python这门语言。自从年诞生以来,Python现在已经成为最受欢迎的动态编程语言之一,尤其进入21世纪以来,Python在行业应用和学术研究中进行科学计算的势头也越来越迅猛。
——《PythonforDataAnalysis》(WsMckinny)
Python不仅在编程方面有强大的实力,而且由于不断改进的第三方库,Python在数据处理方面也越来越突出;近年来,非常火爆的机器学习(MachinLarning)以及前沿的自然语言处理(NaturalLanguagProcssing)也选择Python作为基础工具。所以要想在数据科学领域有所进步的话,了解学习Python看来还是有所必要的。
本文通过简单案例,分享Python在数据处理方面的实际应用,属于基础学习范畴,希望刚刚接触Python学习的新手们能通过应用去解决实际问题从而巩固掌握Python操作,在这里与大家相互学习,也希望大神们轻拍:)
Withoutfurthrado,ltsgtstartd!
本文使用Python2.7版本,操作在集成开发坏境Spydr中进行;选择的数据集,是大名鼎鼎的鸢尾花数据集iris.csv,数据集网上公开请自行下载!
1.数据集截图如下图1:
图1.iris数据集截图
该数据集包含数据有行*5列。前4列分别是:花萼的长度、宽度,花瓣的长度、宽度;最后一列是花的分类,总共分3类。
2.读入数据,如下图2:
图2.读入数据代码截图
输出结果如下图3:
图3.读取数据结果显示
Python通过pandas库,读入数据,注意读取时文件路径的填写,需用“\\”或者“/”符号。同时,Python面向对象编程,shap及had函数建立在iris数据框对象之上,这与R语言不同,R语言更加“函数化”,dim及had等函数都是内置函数。
3.描述性统计结果,如下图4:
图4.面属性统计代码结果
本结果操作代码仅有一行#printiris.csv.dscrib().T#,就不再单独截图列出了。从输出结果中可以看到每列数据的平均值等统计数值,较简单不多说。
4.聚类分析,如下图5:
图5.聚类分析代码
输出结果,如下图6:
图6.聚类分析结果
在Python中利用sklarn库中的clustr.Kmans对irisFaturs进行聚类分析,并输出分类结果。
5.决策树模型,如下图7:
图7.决策树模型代码
输出结果如下图8:
图8.决策树模型结果
利用CART算法对iris数据集建立模型,并预测结果,同时输出训练集测试集的预测正确率。相关说明及代码含义均在代码中已注释。
最后:因为网上教程给出完整数据、代码及结果的资料不多,所以把自己的浅薄经验分享给大家希望对您有帮助,感兴趣的童鞋赶快去码代码吧:)
End预览时标签不可点收录于合集#个上一篇下一篇