加入收藏 | 设为首页 | 会员中心 | 我要投稿 淮安站长网 (https://www.0517zz.com.cn/)- 数据开发、人脸识别、智能机器人、图像处理、语音技术!
当前位置: 首页 > 站长资讯 > 动态 > 正文

解决了数据清洗 80% 的工作量

发布时间:2021-03-23 13:43:29 所属栏目:动态 来源:互联网
导读:识。 作者:Real Python DataCamp 干净整洁的数据是后续进行研究和分析的基



识。

作者:Real Python × DataCamp

干净整洁的数据是后续进行研究和分析的基础。数据科学家们会花费大量的时间来清理数据集,毫不夸张地说,数据清洗会占据他们80%的工作时间,而真正用来分析数据的时间只占到20%左右。

所以,数据清洗到底是在清洗些什么?

通常来说,你所获取到的原始数据不能直接用来分析,因为它们会有各种各样的问题,如包含无效信息, 列名不规范、格式不一致,存在重复值, 缺失值,异常值 等.....

本文会给大家介绍如何用Python中自带的 Pandas 和 NumPy 库进行数据清洗。在正式讲解之前,先简单介绍一下这两个非常好用的库。

Pandas的名称来自于 P anel data 和Python数据分析 data analysis ,是Python的一个数据分析包, 最初由AQR Capital Management于2008年4月开发, 被作为金融数据分析工具,为时间序列分析提供了很好的支持, 并于2009年底开源出来。

NumPy是 Numeric Python 的缩写,是Python的一种开源的数值计算扩展,可用来存储和处理大型矩阵 matrix ,比Python自身的嵌套列表结构要高效的多,提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库,专为进行严格的数字处理而产生。

目录

一、了解数据

二、清洗数据

去除不需要的行、列

重新命名列

重新设置索引

用字符串操作规范列

用函数规范列

删除重复数据

填充缺失值

三、总结

【注】为了清晰直观地展示数据清洗操作,本文会用到几个不同的数据集,重点是方法的讲解。

【工具】Python 3

一、了解数据

拿到一个全新的数据集,应该从哪里入手?

没错,我们需要先了解数据,看看它长什么样子。这里用 tushare.pro 上面的日线行情数据进行展示,以浦发银行(600000.SH)为例。 常用的方法和属性如下:

.head()

.tail()

.shape

.columns

.info()

.describe()

.value_counts()

首先,获取数据:

(编辑:淮安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读