Lambda Labs bietet derzeit GH200 zum halben Preis an, um mehr Menschen an die ARM-Werkzeuge zu gewöhnen. Das bedeutet, dass Sie es sich vielleicht tatsächlich leisten können, die größten Open-Source-Modelle zu betreiben! Die einzige Einschränkung besteht darin, dass Sie gelegentlich etwas aus dem Quellcode erstellen müssen. So habe ich Lama 405b auf der GH200s mit voller Präzision zum Laufen gebracht.
Llama 405b ist etwa 750 GB groß, Sie benötigen also etwa 10 96-GB-GPUs, um es auszuführen. (Die GH200 hat eine ziemlich gute CPU-GPU-Speicheraustauschgeschwindigkeit – das ist sozusagen der ganze Sinn der GH200 – Sie können also nur 3 verwenden. Die Zeit pro Token wird schrecklich sein, aber der Gesamtdurchsatz ist akzeptabel, wenn Sie führen eine Stapelverarbeitung durch.) Melden Sie sich bei Lambda Labs an und erstellen Sie eine Reihe von GH200-Instanzen. Stellen Sie sicher, dass Sie allen das gleiche gemeinsame Netzwerkdateisystem geben.
Speichern Sie die IP-Adressen in ~/ips.txt.
Ich bevorzuge direktes Bash und SSH gegenüber allem Ausgefallenen wie Kubernetes oder Slurm. Mit einigen Helfern ist es zu bewältigen.
# skip fingerprint confirmation for ip in $(cat ~/ips.txt); do echo "doing $ip" ssh-keyscan $ip >> ~/.ssh/known_hosts done function run_ip() { ssh -i ~/.ssh/lambda_id_ed25519 ubuntu@$ip -- stdbuf -oL -eL bash -l -c "$(printf "%q" "$*")" < /dev/null } function run_k() { ip=$(sed -n "$k"p ~/ips.txt) run_ip "$@"; } function runhead() { ip="$(head -n1 ~/ips.txt)" run_ip "$@"; } function run_ips() { for ip in $ips; do ip=$ip run_ip "$@" |& sed "s/^/$ip\t /" & # pids="$pids $!" done wait &> /dev/null } function runall() { ips="$(cat ~/ips.txt)" run_ips "$@"; } function runrest() { ips="$(tail -n+2 ~/ips.txt)" run_ips "$@"; } function ssh_k() { ip=$(sed -n "$k"p ~/ips.txt) ssh -i ~/.ssh/lambda_id_ed25519 ubuntu@$ip } alias ssh_head='k=1 ssh_k' function killall() { pkill -ife '.ssh/lambda_id_ed25519' sleep 1 pkill -ife -9 '.ssh/lambda_id_ed25519' while [[ -n "$(jobs -p)" ]]; do fg || true; done }
Wir werden die Python-Umgebung und die Modellgewichte in das NFS einfügen. Es wird viel schneller geladen, wenn wir es zwischenspeichern.
# First, check the NFS works. # runall ln -s my_other_fs_name shared runhead 'echo world > shared/hello' runall cat shared/hello # Install and enable cachefilesd runall sudo apt-get update runall sudo apt-get install -y cachefilesd runall "echo ' RUN=yes CACHE_TAG=mycache CACHE_BACKEND=Path=/var/cache/fscache CACHEFS_RECLAIM=0 ' | sudo tee -a /etc/default/cachefilesd" runall sudo systemctl restart cachefilesd runall 'sudo journalctl -u cachefilesd | tail -n2' # Set the "fsc" option on the NFS mount runhead cat /etc/fstab # should have mount to ~/shared runall cp /etc/fstab etc-fstab-bak.txt runall sudo sed -i 's/,proto=tcp,/,proto=tcp,fsc,/g' /etc/fstab runall cat /etc/fstab # Remount runall sudo umount /home/ubuntu/wash2 runall sudo mount /home/ubuntu/wash2 runall cat /proc/fs/nfsfs/volumes # FSC column should say "yes" # Test cache speedup runhead dd if=/dev/urandom of=shared/bigfile bs=1M count=8192 runall dd if=shared/bigfile of=/dev/null bs=1M # First one takes 8 seconds runall dd if=shared/bigfile of=/dev/null bs=1M # Seond takes 0.6 seconds
Anstatt auf jeder Maschine genau die gleichen Befehle sorgfältig auszuführen, können wir eine Conda-Umgebung im NFS verwenden und sie einfach mit dem Hauptknoten steuern.
# We'll also use a shared script instead of changing ~/.profile directly. # Easier to fix mistakes that way. runhead 'echo ". /opt/miniconda/etc/profile.d/" >> shared/' runall 'echo "source /home/ubuntu/shared/" >> ~/.profile' runall which conda # Create the environment runhead 'conda create --prefix ~/shared/311 -y python=3.11' runhead '~/shared/311/bin/python --version' # double-check that it is executable runhead 'echo "conda activate ~/shared/311" >> shared/' runall which python
Aphrodite ist eine Abzweigung von vllm, die etwas schneller startet und einige zusätzliche Funktionen bietet.
Es führt die OpenAI-kompatible Inferenz-API und das Modell selbst aus.
Sie benötigen Taschenlampe, Triton und Blitzlicht.
Sie können aarch64-Fackel-Builds von erhalten (Sie möchten es nicht selbst erstellen).
Die anderen beiden kannst du entweder selbst bauen oder das Rad verwenden, das ich gemacht habe.
Wenn Sie aus dem Quellcode erstellen, können Sie etwas Zeit sparen, indem Sie python bdist_wheel für Triton, Flash-Attention und Aphrodite parallel auf drei verschiedenen Computern ausführen. Oder Sie können sie einzeln auf derselben Maschine ausführen.
runhead pip install 'numpy<2' torch==2.4.0 --index-url '' # fix for " version `GLIBCXX_3.4.30' not found" error: runhead conda install -y -c conda-forge libstdcxx-ng=12 runhead python -c 'import torch; print(torch.tensor(2).cuda() + 2, "torch ok")'
runhead pip install '' runhead pip install ''
k=1 ssh_k # ssh into first machine pip install -U pip setuptools wheel ninja cmake setuptools_scm git config --global feature.manyFiles true # faster clones git clone ~/shared/triton cd ~/shared/triton/python git checkout 755d4164 # <-- optional, tested versions # Note that ninja already parallelizes everything to the extent possible, # so no sense trying to change the cmake flags or anything. python bdist_wheel pip install --no-deps dist/*.whl # good idea to download this too for later python -c 'import triton; print("triton ok")'
k=2 ssh_k # go into second machine git clone ~/shared/flash-attention cd ~/shared/flash-attention python bdist_wheel pip install --no-deps dist/*.whl python -c 'import aphrodite_flash_attn; import aphrodite_flash_attn_2_cuda; print("flash attn ok")'
Sie können mein Rad verwenden oder es selbst bauen.
Gehen Sie zu und stellen Sie sicher, dass Sie über die richtigen Berechtigungen verfügen. Die Genehmigung dauert in der Regel etwa eine Stunde. Holen Sie sich ein Token von
Wir machen die Server aufeinander aufmerksam, indem wir Ray starten.
runhead pip install '' runhead pip install ''
Wir können Aphrodite in einem Terminal-Tab starten:
Und führen Sie eine Abfrage vom lokalen Computer in einem zweiten Terminal aus:
runhead pip install ''
Ein gutes Tempo für Text, aber etwas langsam für Code. Wenn Sie zwei 8xH100-Server verbinden, kommen Sie näher an 16 Token pro Sekunde, aber es kostet das Dreifache.
