解决了数据清洗 80% 的工作量

发布时间：2021-03-23 13:43:29 所属栏目：动态来源：互联网

导读：识。作者：Real Python DataCamp 干净整洁的数据是后续进行研究和分析的基

识。

作者：Real Python × DataCamp

干净整洁的数据是后续进行研究和分析的基础。数据科学家们会花费大量的时间来清理数据集，毫不夸张地说，数据清洗会占据他们80%的工作时间，而真正用来分析数据的时间只占到20%左右。

所以，数据清洗到底是在清洗些什么？

通常来说，你所获取到的原始数据不能直接用来分析，因为它们会有各种各样的问题，如包含无效信息，列名不规范、格式不一致，存在重复值，缺失值，异常值等.....

本文会给大家介绍如何用Python中自带的 Pandas 和 NumPy 库进行数据清洗。在正式讲解之前，先简单介绍一下这两个非常好用的库。

Pandas的名称来自于 P anel data 和Python数据分析 data analysis ，是Python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，被作为金融数据分析工具，为时间序列分析提供了很好的支持，并于2009年底开源出来。

NumPy是 Numeric Python 的缩写，是Python的一种开源的数值计算扩展，可用来存储和处理大型矩阵 matrix ，比Python自身的嵌套列表结构要高效的多，提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库，专为进行严格的数字处理而产生。

一、了解数据

拿到一个全新的数据集，应该从哪里入手？

没错，我们需要先了解数据，看看它长什么样子。这里用 tushare.pro 上面的日线行情数据进行展示，以浦发银行（600000.SH）为例。常用的方法和属性如下：

.head()

.tail()

.shape

.columns

.info()

.describe()

.value_counts()

首先，获取数据：

（编辑：淮安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

网易传媒科技研究院怀	在不可信的网络中将来
将办公桌放进电脑里	奕目科技创始人李浩天