Memuatkan berat badan model memori dalam pitorch-AI-php.cn

Memuatkan berat badan model memori dalam pitorch

Lisa Kudrow

Lepaskan： 2025-03-20 10:44:09

asal

623 orang telah melayarinya

Pos blog ini meneroka teknik pengurusan memori yang cekap untuk memuatkan model pytorch yang besar, terutamanya bermanfaat apabila berurusan dengan sumber GPU atau CPU terhad. Penulis memberi tumpuan kepada senario di mana model disimpan menggunakan torch.save(model.state_dict(), "model.pth") . Walaupun contoh menggunakan model bahasa yang besar (LLM), teknik -teknik ini boleh digunakan untuk mana -mana model pytorch.

Strategi utama untuk memuatkan model yang cekap:

Artikel ini memperincikan beberapa kaedah untuk mengoptimumkan penggunaan memori semasa memuatkan model:

Pemuatan Berat Berturutan: Teknik ini memuatkan arsitektur model ke GPU dan kemudiannya menyalin berat individu dari memori CPU ke GPU. Ini menghalang kehadiran serentak kedua -dua model penuh dan berat dalam memori GPU, dengan ketara mengurangkan penggunaan memori puncak.
Peranti Meta: Peranti "Meta" Pytorch membolehkan penciptaan tensor tanpa peruntukan memori segera. Model ini dimulakan pada peranti meta, kemudian dipindahkan ke GPU, dan berat dimuatkan terus ke GPU, meminimumkan penggunaan memori CPU. Ini amat berguna untuk sistem dengan RAM CPU terhad.
mmap=True dalam torch.load() : Pilihan ini menggunakan fail yang dipetakan memori I/O, yang membolehkan pytorch membaca data model secara langsung dari cakera atas permintaan, dan bukannya memuatkan segala-galanya ke dalam RAM. Ini sesuai untuk sistem dengan memori CPU terhad dan cakera cepat I/O.
Penjimatan dan pemuatan berat individu: Sebagai usaha terakhir untuk sumber yang sangat terhad, artikel itu mencadangkan menjimatkan setiap parameter model (Tensor) sebagai fail berasingan. Memuatkan kemudian berlaku satu parameter pada satu masa, meminimumkan jejak memori pada bila -bila masa. Ini datang dengan kos peningkatan overhead I/O.

Pelaksanaan praktikal dan penanda aras:

Jawatan ini menyediakan coretan kod Python yang menunjukkan setiap teknik, termasuk fungsi utiliti untuk menjejaki penggunaan memori GPU dan CPU. Penanda aras ini menggambarkan penjimatan memori yang dicapai oleh setiap kaedah. Penulis membandingkan penggunaan memori setiap pendekatan, menonjolkan perdagangan antara kecekapan memori dan kesan prestasi yang berpotensi.

Kesimpulan:

Artikel ini menyimpulkan dengan menekankan pentingnya pemuatan model efisien memori, terutama untuk model besar. Ia mengesyorkan memilih teknik yang paling sesuai berdasarkan batasan perkakasan tertentu (CPU RAM, GPU VRAM) dan kelajuan I/O. Pendekatan mmap=True biasanya disukai untuk RAM CPU terhad, sementara pemuatan berat individu adalah usaha terakhir untuk persekitaran yang sangat terkawal. Kaedah pemuatan berurutan menawarkan keseimbangan yang baik untuk banyak senario.

Memuatkan berat badan model memori dalam pitorch

Atas ialah kandungan terperinci Memuatkan berat badan model memori dalam pitorch. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!