掌握 Python 内存优化：数据科学和机器学习技术-Python教程-PHP中文网

101本书

我们的创作

我们在Medium上

首页

后端开发

Python教程

掌握 Python 内存优化：数据科学和机器学习技术

Barbara Streisand

Jan 20, 2025 am 06:14 AM

Mastering Python Memory Optimization: Techniques for Data Science and Machine Learning

作为一位多产的作家，我邀请您探索我的亚马逊图书收藏。请记得在 Medium 上关注我以获取更新并表示您的支持！非常感谢您的鼓励！

Python 在数据科学和机器学习领域日益突出，需要对大型项目进行高效的内存管理。数据集规模的扩大和计算需求的增加使得优化内存使用变得至关重要。我在内存密集型 Python 应用程序方面的经验产生了几种有效的优化策略，我将在这里分享。

我们将从 NumPy 开始，这是一个用于数值计算的基石库。与 Python 列表相比，NumPy 数组具有显着的内存优势，特别是对于大量数据集。它们的连续内存分配和静态类型最大限度地减少了开销。

考虑这个比较：

import numpy as np
import sys

# Creating a list and a NumPy array with 1 million integers
py_list = list(range(1000000))
np_array = np.arange(1000000)

# Comparing memory usage
print(f"Python list size: {sys.getsizeof(py_list) / 1e6:.2f} MB")
print(f"NumPy array size: {np_array.nbytes / 1e6:.2f} MB")

登录后复制

NumPy 数组更小的内存占用是显而易见的。随着数据集的增大，这种差异变得更加明显。

NumPy 还提供内存高效的操作。它不是为每个操作生成新数组，而是经常就地修改数组：

# In-place operations
np_array += 1  # Modifies the original array directly

登录后复制

转向 Pandas，分类数据类型是内存优化的关键。对于唯一值有限的字符串列，转换为分类类型可以大大减少内存消耗：

import pandas as pd

# DataFrame with repeated string values
df = pd.DataFrame({'category': ['A', 'B', 'C'] * 1000000})

# Memory usage check
print(f"Original memory usage: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

# Conversion to categorical
df['category'] = pd.Categorical(df['category'])

# Post-conversion memory usage
print(f"Memory usage after conversion: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

登录后复制

可以节省大量内存，尤其是对于包含重复字符串的大型数据集。

对于稀疏数据集，Pandas 提供稀疏数据结构，仅存储非空值，从而为具有大量空值或零值的数据集节省大量内存：

# Creating a sparse series
sparse_series = pd.Series([0, 0, 1, 0, 2, 0, 0, 3], dtype="Sparse[int]")

print(f"Memory usage: {sparse_series.memory_usage(deep=True) / 1e3:.2f} KB")

登录后复制

当数据集超过可用 RAM 时，内存映射文件就会发生变革。它们允许像在内存中一样处理大文件，而无需加载整个文件：

import mmap
import os

# Creating a large file
with open('large_file.bin', 'wb') as f:
    f.write(b'0' * 1000000000)  # 1 GB file

# Memory-mapping the file
with open('large_file.bin', 'r+b') as f:
    mmapped_file = mmap.mmap(f.fileno(), 0)

# Reading from the memory-mapped file
print(mmapped_file[1000000:1000010])

# Cleaning up
mmapped_file.close()
os.remove('large_file.bin')

登录后复制

这对于随机访问大文件而不将它们完全加载到内存中特别有用。

生成器表达式和 itertools 对于内存高效的数据处理来说非常强大。它们允许处理大型数据集，而无需同时将所有内容加载到内存中：

import itertools

# Generator expression
sum_squares = sum(x*x for x in range(1000000))

# Using itertools for memory-efficient operations
evens = itertools.islice(itertools.count(0, 2), 1000000)
sum_evens = sum(evens)

print(f"Sum of squares: {sum_squares}")
print(f"Sum of even numbers: {sum_evens}")

登录后复制

这些技术在处理大型数据集时最大限度地减少内存开销。

对于性能关键的代码部分，Cython 提供了巨大的优化潜力。将 Python 代码编译为 C 可以显着提高速度并减少潜在的内存消耗：

def sum_squares_cython(int n):
    cdef int i
    cdef long long result = 0
    for i in range(n):
        result += i * i
    return result

# Usage
result = sum_squares_cython(1000000)
print(f"Sum of squares: {result}")

登录后复制

此 Cython 函数将优于其纯 Python 函数，特别是对于较大的 n 值。

PyPy 是一个即时编译器，提供自动内存优化。它对于长时间运行的程序特别有益，通常可以显着减少内存使用量：

import numpy as np
import sys

# Creating a list and a NumPy array with 1 million integers
py_list = list(range(1000000))
np_array = np.arange(1000000)

# Comparing memory usage
print(f"Python list size: {sys.getsizeof(py_list) / 1e6:.2f} MB")
print(f"NumPy array size: {np_array.nbytes / 1e6:.2f} MB")

登录后复制

与标准 CPython 相比，PyPy 可以提高内存效率和速度。

内存分析对于识别优化机会至关重要。 memory_profiler 库是一个很有价值的工具：

# In-place operations
np_array += 1  # Modifies the original array directly

登录后复制

使用 mprof run script.py 和 mprof plot 可视化内存使用情况。

解决内存泄漏问题至关重要。 tracemalloc 模块 (Python 3.4 ) 帮助识别内存分配源：

import pandas as pd

# DataFrame with repeated string values
df = pd.DataFrame({'category': ['A', 'B', 'C'] * 1000000})

# Memory usage check
print(f"Original memory usage: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

# Conversion to categorical
df['category'] = pd.Categorical(df['category'])

# Post-conversion memory usage
print(f"Memory usage after conversion: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

登录后复制

这可以精确定位内存密集型代码部分。

对于内存极其密集的应用程序，可能需要自定义内存管理。这可能涉及用于对象重用或自定义缓存的对象池：

# Creating a sparse series
sparse_series = pd.Series([0, 0, 1, 0, 2, 0, 0, 3], dtype="Sparse[int]")

print(f"Memory usage: {sparse_series.memory_usage(deep=True) / 1e3:.2f} KB")

登录后复制

这可以最大限度地减少对象创建/销毁的开销。

对于特别大的数据集，请考虑使用 Dask 等核外计算库：

import mmap
import os

# Creating a large file
with open('large_file.bin', 'wb') as f:
    f.write(b'0' * 1000000000)  # 1 GB file

# Memory-mapping the file
with open('large_file.bin', 'r+b') as f:
    mmapped_file = mmap.mmap(f.fileno(), 0)

# Reading from the memory-mapped file
print(mmapped_file[1000000:1000010])

# Cleaning up
mmapped_file.close()
os.remove('large_file.bin')

登录后复制

Dask 通过将计算分成更小的块来处理大于可用 RAM 的数据集。

算法优化也至关重要。选择高效的算法可以显着减少内存使用：

import itertools

# Generator expression
sum_squares = sum(x*x for x in range(1000000))

# Using itertools for memory-efficient operations
evens = itertools.islice(itertools.count(0, 2), 1000000)
sum_evens = sum(evens)

print(f"Sum of squares: {sum_squares}")
print(f"Sum of even numbers: {sum_evens}")

登录后复制

这个优化的斐波那契函数使用常量内存，与简单的递归实现不同。

总之，有效的 Python 内存优化结合了高效的数据结构、专门的库、内存高效的编码和适当的算法。这些技术减少了内存占用，从而能够处理更大的数据集和更复杂的计算。请记住分析您的代码以识别瓶颈并将优化工作集中在它们会产生最大影响的地方。

101本书

101 Books是由作家Aarav Joshi联合创立的人工智能出版社，利用人工智能最大限度地降低出版成本，让优质知识触手可及（有些书的价格低至4 美元！）。

在 Amazon 上查找我们的 Golang Clean Code 书。

有关更新和更多内容，请在亚马逊上搜索 Aarav Joshi。可通过[链接]获得特别折扣。

我们的创作

探索我们的创作：

我们在Medium上

以上是掌握 Python 内存优化：数据科学和机器学习技术的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1675

CakePHP 教程

1429

Laravel 教程

1333

PHP教程

1278

C# 教程

1257

显示更多

Related knowledge

Python与C：学习曲线和易用性 Apr 19, 2025 am 12:20 AM

Python更易学且易用，C 则更强大但复杂。1.Python语法简洁，适合初学者，动态类型和自动内存管理使其易用，但可能导致运行时错误。2.C 提供低级控制和高级特性，适合高性能应用，但学习门槛高，需手动管理内存和类型安全。

学习Python：2小时的每日学习是否足够？ Apr 18, 2025 am 12:22 AM

每天学习Python两个小时是否足够？这取决于你的目标和学习方法。1)制定清晰的学习计划，2)选择合适的学习资源和方法，3)动手实践和复习巩固，可以在这段时间内逐步掌握Python的基本知识和高级功能。

Python vs.C：探索性能和效率 Apr 18, 2025 am 12:20 AM

Python在开发效率上优于C ，但C 在执行性能上更高。1.Python的简洁语法和丰富库提高开发效率。2.C 的编译型特性和硬件控制提升执行性能。选择时需根据项目需求权衡开发速度与执行效率。

Python vs. C：了解关键差异 Apr 21, 2025 am 12:18 AM

Python和C 各有优势，选择应基于项目需求。1)Python适合快速开发和数据处理，因其简洁语法和动态类型。2)C 适用于高性能和系统编程，因其静态类型和手动内存管理。

Python标准库的哪一部分是：列表或数组？ Apr 27, 2025 am 12:03 AM

pythonlistsarepartofthestAndArdLibrary，herilearRaysarenot.listsarebuilt-In，多功能，和Rused ForStoringCollections，而EasaraySaraySaraySaraysaraySaraySaraysaraySaraysarrayModuleandleandleandlesscommonlyusedDduetolimitedFunctionalityFunctionalityFunctionality。

Python：自动化，脚本和任务管理 Apr 16, 2025 am 12:14 AM

Python在自动化、脚本编写和任务管理中表现出色。1)自动化：通过标准库如os、shutil实现文件备份。2)脚本编写：使用psutil库监控系统资源。3)任务管理：利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。

科学计算的Python：详细的外观 Apr 19, 2025 am 12:15 AM

Python在科学计算中的应用包括数据分析、机器学习、数值模拟和可视化。1.Numpy提供高效的多维数组和数学函数。2.SciPy扩展Numpy功能，提供优化和线性代数工具。3.Pandas用于数据处理和分析。4.Matplotlib用于生成各种图表和可视化结果。

Web开发的Python：关键应用程序 Apr 18, 2025 am 12:20 AM

Python在Web开发中的关键应用包括使用Django和Flask框架、API开发、数据分析与可视化、机器学习与AI、以及性能优化。1.Django和Flask框架：Django适合快速开发复杂应用，Flask适用于小型或高度自定义项目。2.API开发：使用Flask或DjangoRESTFramework构建RESTfulAPI。3.数据分析与可视化：利用Python处理数据并通过Web界面展示。4.机器学习与AI：Python用于构建智能Web应用。5.性能优化：通过异步编程、缓存和代码优

See all articles

掌握 Python 内存优化：数据科学和机器学习技术

101本书

我们的创作

我们在Medium上

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题