


Nvidia mengeluarkan perisian sumber terbuka TensorRT-LLM untuk meningkatkan prestasi model AI pada cip GPU mewah
Nvidia baru-baru ini mengumumkan pelancaran suite perisian sumber terbuka baharu yang dipanggil TensorRT-LLM, yang memperluaskan keupayaan pengoptimuman model bahasa besar pada GPU Nvidia dan memecahkan had prestasi inferens kecerdasan buatan selepas penggunaan.
Model bahasa besar AI Generatif telah menjadi popular kerana keupayaannya yang mengagumkan. Ia memperluaskan kemungkinan kecerdasan buatan dan digunakan secara meluas dalam pelbagai industri. Pengguna boleh mendapatkan maklumat dengan bercakap dengan chatbots, meringkaskan dokumen besar, menulis kod perisian dan menemui cara baharu untuk memahami maklumat
Ian Buck, naib presiden pengkomputeran skala besar dan berprestasi tinggi di Nvidia, berkata: "Inferens model bahasa berskala besar menjadi semakin penting. Semestinya model berkembang dalam kerumitan, menjadi lebih pintar dan menjadi lebih besar, tetapi apabila model berskala melebihi satu GPU dan mesti dijalankan pada berbilang GPU "
Dari segi kecerdasan buatan, inferens ialah satu proses. di mana model memproses data baharu yang tidak pernah dilihat sebelum ini, seperti untuk meringkaskan, menjana kod, memberikan cadangan, atau menjawab soalan Ia merupakan usaha model bahasa berskala besar.
Dengan perkembangan pesat ekosistem model, model menjadi lebih besar dan lebih kaya dalam fungsi. Ini juga bermakna model menjadi sangat besar sehingga tidak boleh dijalankan serentak pada satu GPU dan mesti dipecahkan. Pembangun dan jurutera mesti mengedarkan dan menyelaraskan beban kerja secara manual untuk mendapatkan respons dalam masa nyata. TensorRT-LLM menyelesaikan masalah ini dengan melaksanakan "tensor parallelism", membenarkan inferens berskala besar dan cekap pada berbilang GPU
Di samping itu, disebabkan oleh pelbagai jenis model bahasa besar di pasaran hari ini, Nvidia telah mengoptimumkan teras untuk model bahasa besar arus perdana semasa. Suite perisian termasuk versi model bahasa berskala besar yang dioptimumkan dan sedia untuk dijalankan, termasuk Llama 2 Meta Platform, GPT-2 dan GPT-3 OpenAI, Falcon, MosaicMPT dan BLOOM.
Mekanisme "On-the-fly batching" untuk mengatasi beban kerja dinamik
Disebabkan sifat model bahasa yang besar itu sendiri, beban kerja model boleh menjadi sangat dinamik, dan keperluan beban kerja serta penggunaan tugas juga boleh berubah dari semasa ke semasa. model tunggal boleh digunakan secara serentak sebagai chatbot untuk bertanya dan menjawab soalan, dan boleh digunakan untuk meringkaskan dokumen besar serta dokumen pendek. Oleh itu, saiz keluaran mungkin dalam susunan magnitud yang berbeza sama sekali.
Untuk mengatasi beban kerja yang berbeza ini, TensorRT-LLM memperkenalkan mekanisme yang dipanggil "on-the-fly batching", yang merupakan proses penjadualan yang dioptimumkan yang memecahkan proses penjanaan teks kepada beberapa bahagian supaya ia boleh dialihkan ke Atau alihkan GPU keluar supaya keseluruhan kumpulan beban kerja tidak perlu dilengkapkan sebelum memulakan kumpulan baharu.
Sebelum ini, jika terdapat permintaan yang besar, seperti meringkaskan dokumen yang sangat besar, semua yang berada di belakang perlu menunggu proses selesai sebelum giliran boleh bergerak ke hadapan.
Nvidia telah bekerjasama dengan banyak vendor untuk mengoptimumkan TensorRT-LLM, termasuk Meta, Cohere, Grammarly, Databricks dan Tabnine. Dengan bantuan mereka, Nvidia terus menyelaraskan fungsi dan set alat dalam suite perisiannya, termasuk antara muka pengguna aplikasi Python sumber terbuka untuk mentakrif dan mengoptimumkan seni bina baharu untuk menyesuaikan model bahasa yang besar.
Sebagai contoh, apabila MosaicML menyepadukan TensorRT-LLM dengan tindanan perisian sedia ada, ia menambahkan fungsi tambahan di atas TensorRT-LLM. Naveen Rao, naib presiden kejuruteraan di Databricks, berkata bahawa prosesnya sangat mudah
"TensorRT-LLM mudah digunakan, kaya dengan ciri, termasuk penstriman token, batching dinamik, perhatian halaman, kuantisasi, dll., dan ia adalah sangat cekap dan menyediakan penyelesaian terbaik untuk menggunakan GPU NVIDIA Perkhidmatan model bahasa berskala besar memberikan prestasi terbaik dan membolehkan kami menyerahkan semula penjimatan kos kepada pelanggan kami "
Nvidia berkata bahawa TensorRT-LLM dan faedah yang dibawanya , termasuk keupayaan pemprosesan kelompok, boleh digunakan oleh Nvidia Prestasi penaakulan H100 untuk pengekstrakan ringkasan artikel dipertingkatkan lebih daripada 1 kali. Apabila menggunakan model GPT-J-6B untuk melaksanakan ujian A100 pada ringkasan artikel CNN/Daily Mail, hanya menggunakan H100 adalah 4 kali lebih pantas daripada A100 dan dengan pengoptimuman TensorRT-LLM didayakan, kelajuan meningkat sebanyak 8 kali ganda
TensorRT- LLM menyediakan pembangun dan jurutera dengan pengkompil pembelajaran mendalam, kernel model bahasa besar yang dioptimumkan, pra dan pasca pemprosesan, keupayaan komunikasi berbilang GPU/berbilang nod dan API sumber terbuka yang mudah, membolehkan mereka mengoptimumkan dan melaksanakan model bahasa besar dengan cepat Penaakulan pengeluaran. Memandangkan model bahasa besar terus membentuk semula pusat data, permintaan perusahaan untuk prestasi yang lebih tinggi bermakna pembangun, lebih daripada sebelumnya, memerlukan alat yang memberi mereka fungsi dan akses untuk menyampaikan hasil yang berprestasi lebih tinggi.
Suit perisian TensorRT-LLM kini tersedia untuk akses awal kepada pembangun dalam Program Pembangun Nvidia dan akan disepadukan ke dalam rangka kerja NeMo untuk platform perisian hujung ke hujung AI pengeluaran Nvidia AI Enterprise bulan depan. Suite perisian TensorRT-LLM telah dikeluarkan untuk akses awal oleh pembangun dalam Program Pembangun Nvidia dan akan disepadukan ke dalam rangka kerja NeMo Nvidia AI Enterprise bulan depan untuk platform perisian hujung ke hujung AI pengeluaran
Atas ialah kandungan terperinci Nvidia mengeluarkan perisian sumber terbuka TensorRT-LLM untuk meningkatkan prestasi model AI pada cip GPU mewah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Baru-baru ini, "Persidangan Pengkomputeran Pintar Kawasan Baharu Lingang" dengan tema "AI menerajui era, kuasa pengkomputeran memacu masa depan" telah diadakan. Pada mesyuarat itu, Perikatan Industri Pengkomputeran Pintar Kawasan Baru telah ditubuhkan secara rasmi SenseTime menjadi ahli perikatan sebagai pembekal kuasa pengkomputeran Pada masa yang sama, SenseTime telah dianugerahkan gelaran perusahaan "Industri Pengkomputeran Pintar Kawasan Baru". Sebagai peserta aktif dalam ekosistem kuasa pengkomputeran Lingang, SenseTime kini telah membina salah satu platform pengkomputeran pintar terbesar di Asia - SenseTime AIDC, yang boleh mengeluarkan jumlah kuasa pengkomputeran sebanyak 5,000 Petaflops dan menyokong 20 model ultra-besar dengan ratusan bilion parameter. Berlatih pada masa yang sama. SenseCore, peranti berskala besar yang dibina dengan AIDC sebagai asas dan berpandangan ke hadapan, komited untuk mencipta infrastruktur dan perkhidmatan AI generasi seterusnya yang cekap tinggi, kos rendah dan berskala besar untuk memperkasakan kecerdasan buatan.

IT House melaporkan pada 13 Oktober bahawa "Joule", jurnal saudara perempuan "Cell", menerbitkan kertas minggu ini yang dipanggil "The growth footprint of artificial intelligence (The growing energy footprint of artificial intelligence)". Melalui pertanyaan, kami mengetahui bahawa kertas kerja ini diterbitkan oleh Alex DeVries, pengasas institusi penyelidikan saintifik Digiconomist. Beliau mendakwa bahawa prestasi penaakulan kecerdasan buatan pada masa hadapan mungkin menggunakan banyak tenaga elektrik Dianggarkan menjelang 2027, penggunaan elektrik kecerdasan buatan mungkin bersamaan dengan penggunaan elektrik Belanda selama setahun dunia luar sentiasa percaya bahawa melatih model AI adalah "perkara yang paling penting dalam AI".

Saya percaya bahawa rakan-rakan yang mengikuti bulatan telefon bimbit tidak akan asing dengan ungkapan "dapat markah jika anda tidak menerimanya". Sebagai contoh, perisian ujian prestasi teori seperti AnTuTu dan GeekBench telah menarik banyak perhatian daripada pemain kerana ia boleh mencerminkan prestasi telefon mudah alih pada tahap tertentu. Begitu juga, terdapat perisian penanda aras yang sepadan untuk pemproses PC dan kad grafik untuk mengukur prestasi mereka Memandangkan "semuanya boleh ditanda aras", model AI besar yang paling popular juga telah mula mengambil bahagian dalam pertandingan penanda aras, terutamanya dalam "Seratus Model" Selepas itu. "perang" bermula, kejayaan dibuat hampir setiap hari, dan setiap syarikat mendakwa sebagai "nombor satu dalam skor larian model AI domestik yang besar hampir tidak pernah ketinggalan dari segi skor prestasi, tetapi mereka tidak pernah dapat mengatasi GP." syarat pengalaman pengguna.

IT House melaporkan pada 3 November bahawa laman web rasmi Institut Fizik Akademi Sains China menerbitkan artikel Baru-baru ini, Kumpulan SF10 Institut Fizik Akademi Sains China/Pusat Penyelidikan Kebangsaan Beijing untuk Fizik Pekat. dan Pusat Maklumat Rangkaian Komputer Akademi Sains China bekerjasama untuk menggunakan model AI yang besar kepada sains bahan Dalam bidang ini, puluhan ribu data laluan sintesis kimia disalurkan kepada model bahasa besar LLAMA2-7b, dengan itu memperoleh model MatChat. , yang boleh digunakan untuk meramalkan laluan sintesis bahan bukan organik. IT House menyatakan bahawa model itu boleh melakukan penaakulan logik berdasarkan struktur pertanyaan dan mengeluarkan proses penyediaan dan formula yang sepadan. Ia telah digunakan dalam talian dan terbuka kepada semua penyelidik bahan, membawa inspirasi baharu dan idea baharu kepada penyelidikan dan inovasi bahan. Kerja ini adalah untuk model bahasa besar dalam bidang sains bersegmen

Memandu China News pada 28 Jun 2023, hari ini semasa Kongres Dunia Mudah Alih di Shanghai, China Unicom mengeluarkan model grafik "Honghu Graphic Model 1.0". China Unicom berkata bahawa model grafik Honghu ialah model besar pertama untuk perkhidmatan tambah nilai pengendali. Wartawan China Business News mengetahui bahawa model grafik Honghu pada masa ini mempunyai dua versi 800 juta parameter latihan dan 2 bilion parameter latihan, yang boleh merealisasikan fungsi seperti gambar berasaskan teks, penyuntingan video dan gambar berasaskan gambar. Di samping itu, Pengerusi Unicom China Liu Liehong juga berkata dalam ucaptama hari ini bahawa AI generatif membawa ketunggalan pembangunan, dan 50% pekerjaan akan terjejas teruk oleh kecerdasan buatan dalam tempoh dua tahun akan datang.

Model Transformer berasal daripada kertas kerja "Attentionisallyouneed" yang diterbitkan oleh pasukan Google pada 2017. Kertas kerja ini mula-mula mencadangkan konsep penggunaan Attention untuk menggantikan struktur kitaran model Seq2Seq, yang membawa impak yang hebat kepada bidang NLP. Dan dengan kemajuan berterusan penyelidikan dalam beberapa tahun kebelakangan ini, teknologi berkaitan Transformer telah beransur-ansur mengalir daripada pemprosesan bahasa semula jadi ke bidang lain. Sehingga kini, model siri Transformer telah menjadi model arus perdana dalam NLP, CV, ASR dan bidang lain. Oleh itu, cara melatih dan membuat kesimpulan model Transformer dengan lebih pantas telah menjadi hala tuju penyelidikan yang penting dalam industri. Teknik pengkuantitian ketepatan rendah boleh

Jabatan kecerdasan buatan Meta Platforms baru-baru ini menyatakan bahawa mereka sedang mengajar model AI cara belajar berjalan di dunia fizikal dengan sokongan sejumlah kecil data latihan, dan telah mencapai kemajuan pesat. Penyelidikan ini boleh memendekkan dengan ketara masa untuk model AI memperoleh keupayaan navigasi visual. Sebelum ini, untuk mencapai matlamat sedemikian memerlukan "pembelajaran pengukuhan" berulang menggunakan set data yang besar. Penyelidik Meta AI berkata bahawa penerokaan navigasi visual AI ini akan memberi kesan yang ketara kepada dunia maya. Idea asas projek itu tidak rumit: untuk membantu AI menavigasi ruang fizikal seperti yang dilakukan manusia, hanya melalui pemerhatian dan penerokaan. Jabatan Meta AI menjelaskan, “Sebagai contoh, jika kita mahu cermin mata AR membimbing kita untuk mencari kunci, kita mesti

Nvidia baru-baru ini mengumumkan pelancaran suite perisian sumber terbuka baharu yang dipanggil TensorRT-LLM, yang memperluaskan keupayaan pengoptimuman model bahasa besar pada GPU Nvidia dan memecahkan had prestasi inferens kecerdasan buatan selepas penggunaan. Model bahasa besar AI Generatif telah menjadi popular kerana keupayaannya yang mengagumkan. Ia memperluaskan kemungkinan kecerdasan buatan dan digunakan secara meluas dalam pelbagai industri. Pengguna boleh mendapatkan maklumat dengan bercakap dengan chatbots, meringkaskan dokumen besar, menulis kod perisian dan menemui cara baharu untuk memahami maklumat, kata Ian Buck, naib presiden pengkomputeran skala besar dan berprestasi tinggi di Nvidia Corporation: "Inferens model bahasa besar semakin meningkat. sukar. .Kerumitan model terus meningkat, model menjadi lebih dan lebih pintar, dan ia menjadi
