NVIDIA's Llama 3.1-Nemotron-51B menetapkan penanda aras baharu dalam AI dengan ketepatan dan kecekapan yang unggul, membolehkan beban kerja yang tinggi pada satu GPU.
Model bahasa terbaharu NVIDIA, Llama 3.1-Nemotron-51B, menetapkan piawaian baharu dalam prestasi AI dengan ketepatan dan kecekapan yang luar biasa. Model ini menandakan kemajuan dalam menskalakan LLM agar muat pada satu GPU, walaupun di bawah beban kerja yang tinggi.
NVIDIA telah melancarkan model bahasa baharu, digelar Llama 3.1-Nemotron-51B, menjanjikan lonjakan dalam prestasi AI dengan ketepatan dan kecekapan yang unggul. Model ini diperoleh daripada Meta Llama-3.1-70B dan memanfaatkan pendekatan Carian Senibina Neural (NAS) novel untuk mengoptimumkan ketepatan dan kecekapan. Hebatnya, model ini boleh dimuatkan pada satu GPU NVIDIA H100, walaupun di bawah beban kerja yang tinggi, menjadikannya lebih mudah diakses dan menjimatkan kos.
Model Llama 3.1-Nemotron-51B mempunyai kelajuan inferens 2.2 kali lebih pantas sambil mengekalkan tahap ketepatan yang hampir sama berbanding dengan pendahulunya. Kecekapan ini membolehkan beban kerja 4 kali ganda lebih besar pada satu GPU semasa inferens, berkat jejak memori yang berkurangan dan seni bina yang dioptimumkan.
Salah satu cabaran dalam mengguna pakai model bahasa besar (LLM) ialah kos inferens yang tinggi. Model Llama 3.1-Nemotron-51B menangani perkara ini dengan menawarkan pertukaran seimbang antara ketepatan dan kecekapan, menjadikannya penyelesaian yang kos efektif untuk pelbagai aplikasi, daripada sistem tepi hingga pusat data awan. Keupayaan ini amat berguna untuk menggunakan berbilang model melalui pelan tindakan Kubernetes dan NIM.
Model Nemotron dioptimumkan dengan enjin TensorRT-LLM untuk prestasi inferens yang lebih tinggi dan dibungkus sebagai perkhidmatan mikro inferens NVIDIA NIM. Persediaan ini memudahkan dan mempercepatkan penggunaan model AI generatif merentas infrastruktur dipercepat NVIDIA, termasuk awan, pusat data dan stesen kerja.
Model Llama 3.1-Nemotron-51B-Instruct dibina menggunakan teknologi NAS dan kaedah latihan yang cekap, yang membolehkan penciptaan model pengubah bukan standard yang dioptimumkan untuk GPU tertentu. Pendekatan ini termasuk rangka kerja penyulingan blok untuk melatih pelbagai varian blok secara selari, memastikan inferens yang cekap dan tepat.
Pendekatan NAS NVIDIA membolehkan pengguna memilih keseimbangan optimum mereka antara ketepatan dan kecekapan. Sebagai contoh, varian Llama-3.1-Nemotron-40B-Instruct dicipta untuk mengutamakan kelajuan dan kos, mencapai peningkatan kelajuan 3.2 kali ganda berbanding model induk dengan penurunan ketepatan yang sederhana.
Model Llama 3.1-Nemotron-51B-Instruct telah ditanda aras dengan beberapa piawaian industri, mempamerkan prestasi unggulnya dalam pelbagai senario. Ia menggandakan daya pemprosesan model rujukan, menjadikannya kos efektif dalam pelbagai kes penggunaan.
Model Llama 3.1-Nemotron-51B-Instruct menawarkan satu set baharu kemungkinan untuk pengguna dan syarikat memanfaatkan model asas yang sangat tepat secara kos efektif. Keseimbangan antara ketepatan dan kecekapan menjadikannya pilihan yang menarik untuk pembina dan menyerlahkan keberkesanan pendekatan NAS, yang NVIDIA sasarkan untuk diperluaskan kepada model lain.
Atas ialah kandungan terperinci NVIDIA Memperkenalkan Llama 3.1-Nemotron-51B: Lonjakan dalam Ketepatan dan Kecekapan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!