Jika anda mempunyai peralatan terbiar, mungkin anda boleh mencubanya.
Kali ini, peranti perkakasan di tangan anda juga boleh melenturkan ototnya dalam bidang AI.
Dengan menggabungkan iPhone, iPad dan Macbook, anda boleh memasang "penyelesaian inferens kelompok heterogen" dan kemudian menjalankan model Llama3 dengan lancar.
Perlu dinyatakan bahawa kelompok heterogen ini boleh menjadi sistem Windows, Linux atau sistem iOS dan sokongan untuk Android akan datang tidak lama lagi. Kelompok heterogen sedang berjalan.
Menurut pengarang projek @evilsocket, kluster heterogen ini termasuk iPhone 15 Pro Max, iPad Pro, MacBook Pro (M1 Max), NVIDIA GeForce 3080, 2x NVIDIA Titan X Pascal. Semua kod telah dimuat naik ke GitHub. Melihat perkara ini, netizen meluahkan bahawa lelaki tua ini sememangnya tidak mudah.
Namun, segelintir netizen mula risau tentang penggunaan tenaga Tanpa mengira kelajuan, bil elektrik tidak mampu. Memindahkan data ke sana ke mari menyebabkan terlalu banyak kerugian.
Pengenalan ProjekPelaksanaan fungsi di atas tidak dapat dipisahkan daripada rangka kerja Rust yang dipanggil Cake. Kek boleh melengkapkan inferens teragih model besar (seperti Llama3) dan direka bentuk untuk menggabungkan perkakasan gred pengguna ke dalam kelompok heterogen Perkakasan gred pengguna menggunakan pelbagai sistem pengendalian, termasuk: iOS, Android, macOS, Linux dan Windows, supaya AI lebih mudah diakses.
Alamat projek: https://github.com/evilsocket/cake
Idea utama Kek ialah memecahkan blok transformer kepada berbilang peranti untuk dapat menjalankan inferens pada model yang biasanya tidak sesuai memori GPU bagi satu peranti . Inferens pada blok pengubah berturut-turut pada benang pekerja yang sama dilakukan secara berkelompok untuk meminimumkan kelewatan yang disebabkan oleh pemindahan data.
Kek pada masa ini menyokong sistem dan peranti berikut: KompilasiSelepas memasang Rust, jalankan kod berikut:cargo build --release
make ios
Gunakan
untuk menjalankan nod pekerja:cake-cli --model /path/to/Meta-Llama-3-8B \ # model path, read below on how to optimize model size for workers --mode worker \# run as worker --name worker0 \ # worker name in topology file --topology topology.yml \# topology --address 0.0.0.0:10128 # bind address
cake-cli --model /path/to/Meta-Llama-3-8B \ --topology topology.yml
Mengenai isu pengoptimuman ruang cakera dan memori Pengguna mungkin mahu memberikan pekerja hanya data yang sebenarnya diperlukan dalam model, dan bukannya keseluruhan folder dalam kes ini, model pemisahan kek boleh digunakan. Contohnya, untuk menjana versi llama3 safetensors yang lebih kecil, anda boleh menggunakan kod berikut:
linux_server_1:host: 'linux_server.host:10128'description: 'NVIDIA Titan X Pascal (12GB)'layers:- 'model.layers.0-5'linux_server_2:host: 'linux_server2.host:10128'description: 'NVIDIA GeForce 3080 (10GB)'layers:- 'model.layers.6-16'iphone:host: 'iphone.host:10128'description: 'iPhone 15 Pro Max'layers:- 'model.layers.17'ipad:host: 'ipad.host:10128'description: 'iPad'layers:- 'model.layers.18-19'macbook:host: 'macbook.host:10128'description: 'M1 Max'layers: - 'model.layers.20-31'
Atas ialah kandungan terperinci sangat hebat! Peranti iPhone, iPad dan MacBook lama membentuk kelompok heterogen dan boleh menjalankan Llama 3. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!