python selenium导致的c盘占用

作者：admin 日期：2024-11-07 分类：综艺动漫浏览：101次评论：0条

dataframe 的内部表示

在 pandas 内部，同样数据类型的列会组织成同一个值块（blocks of values）。这里给出了一个示例，说明了 pandas 对我们的 dataframe 的前 12 列的存储方式。

python selenium导致的c盘占用_学习

你可以看到这些块并没有保留原有的列名称。这是因为这些块为存储 dataframe 中的实际值进行了优化。pandas 的 BlockManager 类则负责保留行列索引与实际块之间的映射关系。它可以作为一个 API 使用，提供了对底层数据的访问。不管我们何时选择、编辑或删除这些值，dataframe 类和 BlockManager 类的接口都会将我们的请求翻译成函数和方法的调用。

在 pandas.core.internals 模块中，每一种类型都有一个专门的类。pandas 使用 ObjectBlock 类来表示包含字符串列的块，用 FloatBlock 类表示包含浮点数列的块。对于表示整型数和浮点数这些数值的块，pandas 会将这些列组合起来，存储成 NumPy ndarray。NumPy ndarray 是围绕 C 语言的数组构建的，其中的值存储在内存的连续块中。这种存储方案使得对值的访问速度非常快。

因为每种数据类型都是分开存储的，所以我们将检查不同数据类型的内存使用情况。首先，我们先来看看各个数据类型的平均内存用量。

可以看出，78 个 object 列所使用的内存量最大。我们后面再具体谈这个问题。首先我们看看能否改进数值列的内存用量。

理解子类型（subtype）

正如我们前面简单提到的那样，pandas 内部将数值表示为 NumPy ndarrays，并将它们存储在内存的连续块中。这种存储模式占用的空间更少，而且也让我们可以快速访问这些值。因为 pandas 表示同一类型的每个值时都使用同样的字节数，而 NumPy ndarray 可以存储值的数量，所以 pandas 可以快速准确地返回一个数值列所消耗的字节数。

pandas 中的许多类型都有多个子类型，这些子类型可以使用更少的字节来表示每个值。比如说 float 类型就包含 float16、float32 和 float64 子类型。类型名称中的数字就代表该类型表示值的位（bit）数。比如说，我们刚刚列出的子类型就分别使用了 2、4、8、16 个字节。下面的表格给出了 pandas 中最常用类型的子类型：

python selenium导致的c盘占用_面试_02

一个 int8 类型的值使用 1 个字节的存储空间，可以表示 256（2^8）个二进制数。这意味着我们可以使用这个子类型来表示从 -128 到 127（包括 0）的所有整数值。

我们可以使用 numpy.iinfo 类来验证每个整型数子类型的最大值和最小值。举个例子：

这里我们可以看到 uint（无符号整型）和 int（有符号整型）之间的差异。这两种类型都有一样的存储能力，但其中一个只保存 0 和正数。无符号整型让我们可以更有效地处理只有正数值的列。

使用子类型优化数值列

我们可以使用函数 pd.to_numeric() 来对我们的数值类型进行 downcast（向下转型）操作。我们会使用 DataFrame.select_dtypes 来选择整型列，然后我们会对其数据类型进行优化，并比较内存用量。

python selenium导致的c盘占用_面试_03

我们可以看到内存用量从 7.9 MB 下降到了 1.5 MB，降低了 80% 以上。但这对我们原有 dataframe 的影响并不大，因为其中的整型列非常少。

让我们对其中的浮点型列进行一样的操作。

python selenium导致的c盘占用_Python_04

我们可以看到浮点型列的数据类型从 float64 变成了 float32，让内存用量降低了 50%。

让我们为原始 dataframe 创建一个副本，并用这些优化后的列替换原来的列，然后看看我们现在的整体内存用量。

尽管我们极大地减少了数值列的内存用量，但整体的内存用量仅减少了 7%。我们的大部分收获都将来自对 object 类型的优化。

在我们开始行动之前，先看看 pandas 中字符串的存储方式与数值类型的存储方式的比较。

数值存储与字符串存储的比较

object 类型表示使用 Python 字符串对象的值，部分原因是 NumPy 不支持缺失（missing）字符串类型。因为 Python 是一种高级的解释性语言，它对内存中存储的值没有细粒度的控制能力。

这一限制导致字符串的存储方式很碎片化，从而会消耗更多内存，而且访问速度也更慢。object 列中的每个元素实际上都是一个指针，包含了实际值在内存中的位置的「地址」。

下面这幅图给出了以 NumPy 数据类型存储数值数据和使用 Python 内置类型存储字符串数据的方式。

python selenium导致的c盘占用_字符串_05

在前面的表格中，你可能已经注意到 object 类型的内存使用是可变的。尽管每个指针仅占用 1 字节的内存，但如果每个字符串在 Python 中都是单独存储的，那就会占用实际字符串那么大的空间。我们可以使用 sys.getsizeof() 函数来证明这一点，首先查看单个的字符串，然后查看 pandas series 中的项。

你可以看到，当存储在 pandas series 时，字符串的大小与用 Python 单独存储的字符串的大小是一样的。

使用 Categoricals 优化 object 类型

pandas 在 0.15 版引入了 Categorials。category 类型在底层使用了整型值来表示一个列中的值，而不是使用原始值。pandas 使用一个单独的映射词典将这些整型值映射到原始值。只要当一个列包含有限的值的集合时，这种方法就很有用。当我们将一列转换成 category dtype 时，pandas 就使用最节省空间的 int 子类型来表示该列中的所有不同值。

python selenium导致的c盘占用_字符串_06

为了了解为什么我们可以使用这种类型来减少内存用量，让我们看看我们的 object 类型中每种类型的不同值的数量。

python selenium导致的c盘占用_Python_07

上图完整图像详见原文

大概看看就能发现，对于我们整个数据集的 172,000 场比赛，其中不同（unique）值的数量可以说非常少。

为了了解当我们将其转换成 categorical 类型时究竟发生了什么，我们拿出一个 object 列来看看。我们将使用数据集的第二列 day_of_week.

看看上表，可以看到其仅包含 7 个不同的值。我们将使用 .astype() 方法将其转换成 categorical 类型。

如你所见，除了这一列的类型发生了改变之外，数据看起来还是完全一样。让我们看看这背后发生了什么。

在下面的代码中，我们使用了 Series.cat.codes 属性来返回 category 类型用来表示每个值的整型值。

你可以看到每个不同值都被分配了一个整型值，而该列现在的基本数据类型是 int8。这一列没有任何缺失值，但就算有，category 子类型也能处理，只需将其设置为 -1 即可。

最后，让我们看看在将这一列转换为 category 类型前后的内存用量对比。

9.8 MB 的内存用量减少到了 0.16 MB，减少了 98%！注意，这个特定列可能代表了我们最好的情况之一——即大约 172,000 项却只有 7 个不同的值。

尽管将所有列都转换成这种类型听起来很吸引人，但了解其中的取舍也很重要。最大的坏处是无法执行数值计算。如果没有首先将其转换成数值 dtype，那么我们就无法对 category 列进行算术运算，也就是说无法使用 Series.min() 和 Series.max() 等方法。

我们应该坚持主要将 category 类型用于不同值的数量少于值的总数量的 50% 的 object 列。如果一列中的所有值都是不同的，那么 category 类型所使用的内存将会更多。因为这一列不仅要存储所有的原始字符串值，还要额外存储它们的整型值代码。你可以在 pandas 文档中了解 category 类型的局限性：http://pandas.pydata.org/pandas-docs/stable/categorical.html。

我们将编写一个循环函数来迭代式地检查每一 object 列中不同值的数量是否少于 50%；如果是，就将其转换成 category 类型。

和之前一样进行比较：

python selenium导致的c盘占用_面试_08

在这个案例中，所有的 object 列都被转换成了 category 类型，但并非所有数据集都是如此，所以你应该使用上面的流程进行检查。

object 列的内存用量从 752MB 减少到了 52MB，减少了 93%。让我们将其与我们 dataframe 的其它部分结合起来，看看从最初 861MB 的基础上实现了多少进步。

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

转载注明出处：https://gzdrzz.com/post/243.html

python selenium导致的c盘占用

相关文章