Python メモリ最適化をマスターする: データサイエンスと機械学習のテクニック-Python チュートリアル-php.cn

101 冊

私たちの作品

私たちは中程度です

ホームページ

バックエンド開発

Python チュートリアル

Python メモリ最適化をマスターする: データサイエンスと機械学習のテクニック

Barbara Streisand

Jan 20, 2025 am 06:14 AM

Mastering Python Memory Optimization: Techniques for Data Science and Machine Learning

多作な作家として、私の Amazon の書籍コレクションをぜひご覧ください。忘れずに Medium で私をフォローして最新情報を入手し、サポートを示してください。ご激励をよろしくお願いいたします!

データサイエンスと機械学習における Python の重要性が高まっているため、大規模プロジェクトでは効率的なメモリ管理が必要です。データセットのサイズが拡大し、計算需要が増大しているため、メモリ使用量の最適化が重要になっています。メモリ集約型の Python アプリケーションに関する私の経験から、いくつかの効果的な最適化戦略が生まれました。それをここで共有します。

数値計算の基礎となるライブラリである NumPy から始めます。 NumPy 配列は、特に大規模なデータセットの場合、Python リストに比べてメモリ上の大幅な利点を提供します。連続したメモリ割り当てと静的型付けにより、オーバーヘッドが最小限に抑えられます。

次の比較を考えてみましょう:

import numpy as np
import sys

# Creating a list and a NumPy array with 1 million integers
py_list = list(range(1000000))
np_array = np.arange(1000000)

# Comparing memory usage
print(f"Python list size: {sys.getsizeof(py_list) / 1e6:.2f} MB")
print(f"NumPy array size: {np_array.nbytes / 1e6:.2f} MB")

ログイン後にコピー

NumPy 配列のメモリ使用量が小さいことは明らかです。この差異は、データセットが大きくなるほど顕著になります。

NumPy はメモリ効率の高い操作も提供します。操作ごとに新しい配列を生成する代わりに、多くの場合、配列をインプレースで変更します。

# In-place operations
np_array += 1  # Modifies the original array directly

ログイン後にコピー

Pandas に目を向けると、カテゴリカルデータ型がメモリ最適化の鍵となります。一意の値が制限されている文字列列の場合、カテゴリ型に変換するとメモリ消費量が大幅に削減されます。

import pandas as pd

# DataFrame with repeated string values
df = pd.DataFrame({'category': ['A', 'B', 'C'] * 1000000})

# Memory usage check
print(f"Original memory usage: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

# Conversion to categorical
df['category'] = pd.Categorical(df['category'])

# Post-conversion memory usage
print(f"Memory usage after conversion: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

ログイン後にコピー

特に繰り返しの文字列を含む大規模なデータセットの場合、メモリを大幅に節約できます。

スパースデータセットの場合、Pandas はスパースデータ構造を提供し、null 以外の値のみを保存するため、多数の null またはゼロ値を持つデータセットのメモリを大幅に節約できます。

# Creating a sparse series
sparse_series = pd.Series([0, 0, 1, 0, 2, 0, 0, 3], dtype="Sparse[int]")

print(f"Memory usage: {sparse_series.memory_usage(deep=True) / 1e3:.2f} KB")

ログイン後にコピー

データセットが利用可能な RAM を超えると、メモリマップされたファイルは変化します。ファイル全体をロードせずに、メモリ内にあるかのように大きなファイルを操作できるようになります。

import mmap
import os

# Creating a large file
with open('large_file.bin', 'wb') as f:
    f.write(b'0' * 1000000000)  # 1 GB file

# Memory-mapping the file
with open('large_file.bin', 'r+b') as f:
    mmapped_file = mmap.mmap(f.fileno(), 0)

# Reading from the memory-mapped file
print(mmapped_file[1000000:1000010])

# Cleaning up
mmapped_file.close()
os.remove('large_file.bin')

ログイン後にコピー

これは、大きなファイルをメモリに完全にロードせずにランダムにアクセスする場合に特に便利です。

ジェネレーター式と itertools は、メモリ効率の高いデータ処理に強力です。すべてを同時にメモリにロードすることなく、大規模なデータセットを処理できます:

import itertools

# Generator expression
sum_squares = sum(x*x for x in range(1000000))

# Using itertools for memory-efficient operations
evens = itertools.islice(itertools.count(0, 2), 1000000)
sum_evens = sum(evens)

print(f"Sum of squares: {sum_squares}")
print(f"Sum of even numbers: {sum_evens}")

ログイン後にコピー

これらの手法により、大規模なデータセットを処理する際のメモリオーバーヘッドが最小限に抑えられます。

パフォーマンスが重要なコードセクションに対して、Cython は大幅な最適化の可能性を提供します。 Python コードを C にコンパイルすると、速度が大幅に向上し、メモリが削減される可能性があります:

def sum_squares_cython(int n):
    cdef int i
    cdef long long result = 0
    for i in range(n):
        result += i * i
    return result

# Usage
result = sum_squares_cython(1000000)
print(f"Sum of squares: {result}")

ログイン後にコピー

この Cython 関数は、特に n 値が大きい場合、純粋な Python 関数よりも優れたパフォーマンスを発揮します。

ジャストインタイムコンパイラである PyPy は、自動メモリ最適化を提供します。これは、長時間実行されるプログラムに特に有益であり、多くの場合、メモリ使用量が大幅に削減されます:

import numpy as np
import sys

# Creating a list and a NumPy array with 1 million integers
py_list = list(range(1000000))
np_array = np.arange(1000000)

# Comparing memory usage
print(f"Python list size: {sys.getsizeof(py_list) / 1e6:.2f} MB")
print(f"NumPy array size: {np_array.nbytes / 1e6:.2f} MB")

ログイン後にコピー

PyPy は、標準の CPython と比較してメモリ効率と速度の向上につながります。

メモリプロファイリングは、最適化の機会を特定するために不可欠です。 memory_profiler ライブラリは貴重なツールです:

# In-place operations
np_array += 1  # Modifies the original array directly

ログイン後にコピー

メモリ使用量を視覚化するには、mprof run script.py と mprof plot を使用します。

メモリリークに対処することは非常に重要です。 tracemalloc モジュール (Python 3.4 ) は、メモリ割り当てソースの識別に役立ちます:

import pandas as pd

# DataFrame with repeated string values
df = pd.DataFrame({'category': ['A', 'B', 'C'] * 1000000})

# Memory usage check
print(f"Original memory usage: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

# Conversion to categorical
df['category'] = pd.Categorical(df['category'])

# Post-conversion memory usage
print(f"Memory usage after conversion: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

ログイン後にコピー

これにより、メモリを大量に使用するコードセクションが特定されます。

非常にメモリを大量に消費するアプリケーションの場合、カスタムメモリ管理が必要になる場合があります。これには、オブジェクトの再利用またはカスタムキャッシュのためのオブジェクトプールが関係する可能性があります:

# Creating a sparse series
sparse_series = pd.Series([0, 0, 1, 0, 2, 0, 0, 3], dtype="Sparse[int]")

print(f"Memory usage: {sparse_series.memory_usage(deep=True) / 1e3:.2f} KB")

ログイン後にコピー

これにより、オブジェクトの作成/破棄のオーバーヘッドが最小限に抑えられます。

非常に大規模なデータセットの場合は、Dask のようなアウトオブコア計算ライブラリを検討してください。

import mmap
import os

# Creating a large file
with open('large_file.bin', 'wb') as f:
    f.write(b'0' * 1000000000)  # 1 GB file

# Memory-mapping the file
with open('large_file.bin', 'r+b') as f:
    mmapped_file = mmap.mmap(f.fileno(), 0)

# Reading from the memory-mapped file
print(mmapped_file[1000000:1000010])

# Cleaning up
mmapped_file.close()
os.remove('large_file.bin')

ログイン後にコピー

Dask は、計算を小さなチャンクに分割することで、利用可能な RAM よりも大きなデータセットを処理します。

アルゴリズムの最適化も重要です。効率的なアルゴリズムを選択すると、メモリ使用量を大幅に削減できます:

import itertools

# Generator expression
sum_squares = sum(x*x for x in range(1000000))

# Using itertools for memory-efficient operations
evens = itertools.islice(itertools.count(0, 2), 1000000)
sum_evens = sum(evens)

print(f"Sum of squares: {sum_squares}")
print(f"Sum of even numbers: {sum_evens}")

ログイン後にコピー

この最適化されたフィボナッチ関数は、単純な再帰実装とは異なり、定数メモリを使用します。

要約すると、効果的な Python メモリ最適化は、効率的なデータ構造、特殊なライブラリ、メモリ効率の高いコーディング、および適切なアルゴリズムを組み合わせたものです。これらの手法によりメモリフットプリントが削減され、より大きなデータセットやより複雑な計算の処理が可能になります。コードのプロファイリングを忘れずに行ってボトルネックを特定し、最も大きな影響を与える最適化の取り組みに焦点を当ててください。

101 冊

著者

Aarav Joshi が共同設立した AI を活用した出版社 101 Books は、AI を活用して出版コストを最小限に抑え、質の高い知識にアクセスできるようにしています (一部の書籍は、 4 ドル!).

Amazon で Golang Clean Code の本を見つけてください。

アップデートやその他のタイトルについては、Amazon で Aarav Joshi を検索してください。特別割引は [リンク] からご利用いただけます。

私たちの作品

私たちの作品をご覧ください:

私たちは中程度です

以上がPython メモリ最適化をマスターする: データサイエンスと機械学習のテクニックの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1669

CakePHP チュートリアル

1428

Laravel チュートリアル

1329

PHP チュートリアル

1273

C# チュートリアル

1256

Related knowledge

Python vs. C：曲線と使いやすさの学習 Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Pythonと時間：勉強時間を最大限に活用する Apr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python vs. C：パフォーマンスと効率の探索 Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

Pythonの学習：2時間の毎日の研究で十分ですか？ Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Python Standard Libraryの一部はどれですか：リストまたは配列はどれですか？ Apr 27, 2025 am 12:03 AM

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

Python：自動化、スクリプト、およびタスク管理 Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Python vs. C：重要な違いを理解します Apr 21, 2025 am 12:18 AM

PythonとCにはそれぞれ独自の利点があり、選択はプロジェクトの要件に基づいている必要があります。 1）Pythonは、簡潔な構文と動的タイピングのため、迅速な開発とデータ処理に適しています。 2）Cは、静的なタイピングと手動メモリ管理により、高性能およびシステムプログラミングに適しています。

Web開発用のPython：主要なアプリケーション Apr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

See all articles

Python メモリ最適化をマスターする: データ サイエンスと機械学習のテクニック

101 冊

私たちの作品

私たちは中程度です

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Python メモリ最適化をマスターする: データサイエンスと機械学習のテクニック