pandas效率提升的几个方法

前言

如果你现在正在学习数据分析,或者正在从事数据分析行业,肯定会处理一些大数据集。pandas就是这些大数据集的一个很好的处理工具。那么pandas到底是什么呢?官方文档上说:

" 快速灵活,富有表现力的数据结构,旨在使”关系“或”标记“数据的使用既简单直观。"

快速、灵活、简单、直观!这些听起来感觉很棒。如果你的工作涉及到构建复杂的数据模型,你肯定不希望花费大量的开发时间等待模块处理大数据集。我们需要将大量的时间与精力放在解释数据当中,而不是使用那些功能较少的工具,为了处理数据而煞费苦心。

Pandas处理数据慢?

在使用的pandas的过程中有人说,虽然他是一个很好的解析数据的工具,但是因为它的速度太慢了,无法作为统计建模工具。对于初学者在自己的使用当中可能会发现,它的运行速度,并不符合一个数据分析工具的标准。

但是Pandas的开发是建立在Numpy的数组结构之上的,它的许多操作都是通过C语言实现的,基于Numpy和Pandas自己的拓展模块来编写的,这些模块是Cpython编写的,编译成C语言。这样来看,pandas的速度肯定快的。

事实证明,肯定是,但是你必须正确的使用它!

本文不是讲如何过度优化Pandas的代码,而是讲如何正确的使用它,主要介绍几种pandas中常用到的方法,对于这些方法的使用存在哪些需要注意的问题,以及如何对它们进行速度上的提升。

  • 讲datetime数据与时间序列一起使用的优点
  • 进行批量计算的最有效的途径
  • 通过HDFStore存储数据节省时间

使用datetime数据节省时间

上一篇
下一篇
Copyright © 2022 Egon的技术星球 egonlin.com 版权所有 帮助IT小伙伴学到真正的技术