Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan-AI-php.cn

Rumah

Peranti teknologi

Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan

王林

Jan 26, 2024 pm 02:15 PM

ai kereta api

"Adakah API model besar merupakan perjanjian yang merugikan?"

Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan

Dengan pengamalan teknologi model bahasa besar, banyak syarikat teknologi telah melancarkan API model besar untuk digunakan oleh pembangun. Walau bagaimanapun, kami tidak boleh tidak mula tertanya-tanya sama ada perniagaan berdasarkan model besar boleh dikekalkan, terutamanya memandangkan OpenAI menjana pendapatan sebanyak $700,000 sehari.

Khamis ini, AI permulaan Marikh mengiranya dengan teliti untuk kami.

Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan

Pautan kedudukan: https://leaderboard.withmartian.com/

Papan Pendahulu Penyedia Inferens LLM ialah kedudukan sumber terbuka produk inferens API untuk model besar , throughput dan P50 dan P90 TTFT untuk titik akhir awam Mixtral-8x7B dan Llama-2-70B-Chat bagi setiap vendor.

Walaupun mereka bersaing antara satu sama lain, Martian mendapati bahawa perkhidmatan model besar setiap syarikat adalah dalam kos , terdapat perbezaan ketara dalam pemprosesan dan pengehadan kadar. Perbezaan ini melebihi perbezaan kos 5x, perbezaan daya pemprosesan 6x dan perbezaan had kadar yang lebih besar. Memilih API yang berbeza adalah penting untuk mendapatkan prestasi terbaik, walaupun ia hanya sebahagian daripada menjalankan perniagaan.

Mengikut ranking semasa, perkhidmatan yang disediakan oleh Anyscale mempunyai daya pemprosesan terbaik di bawah beban perkhidmatan sederhana Llama-2-70B. Untuk beban perkhidmatan yang besar, Together AI menunjukkan prestasi terbaik dengan daya pemprosesan P50 dan P90 pada Llama-2-70B dan Mixtral-8x7B.

Selain itu, LeptonAI Jia Yangqing menunjukkan daya pengeluaran terbaik apabila mengendalikan beban tugas kecil dengan input pendek dan isyarat keluaran panjang. Daya pemprosesan P50nya sebanyak 130 tks/s adalah yang terpantas antara model yang disediakan oleh semua pengeluar di pasaran pada masa ini.

Jia Yangqing, seorang sarjana AI yang terkenal dan pengasas Lepton AI, mengulas serta-merta selepas ranking dikeluarkan. Mari lihat apa yang dia katakan.

Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan

Jia Yangqing mula-mula menerangkan status semasa industri dalam bidang kecerdasan buatan, kemudian mengesahkan kepentingan ujian penanda aras, dan akhirnya menunjukkan bahawa LeptonAI akan membantu pengguna mencari strategi AI asas yang terbaik.

1. Model besar API "membakar wang"

Jika model itu mendahului tanda aras beban kerja yang tinggi, maka tahniah, ia adalah "wang terbakar".

LLM Penaakulan tentang kapasiti API awam adalah seperti menjalankan restoran: anda mempunyai tukang masak dan anda perlu menganggarkan trafik pelanggan. Mengupah chef memerlukan wang. Latensi dan daya pemprosesan boleh difahami sebagai "seberapa cepat anda boleh memasak untuk pelanggan." Untuk perniagaan yang munasabah, anda memerlukan bilangan chef yang "munasabah". Dalam erti kata lain, anda mahu mempunyai kapasiti yang boleh mengendalikan trafik biasa, bukan letusan trafik secara tiba-tiba yang berlaku dalam masa beberapa saat. Lonjakan dalam trafik bermakna menunggu jika tidak, "tukang masak" tidak akan berbuat apa-apa.

Dalam dunia kecerdasan buatan, GPU memainkan peranan sebagai "cef". Beban garis dasar adalah pecah. Di bawah beban kerja yang rendah, beban garis dasar digabungkan ke dalam trafik biasa dan pengukuran memberikan gambaran yang tepat tentang prestasi perkhidmatan di bawah beban kerja semasa.

Senario beban perkhidmatan tinggi adalah menarik kerana ia akan menyebabkan gangguan. Penanda aras hanya berjalan beberapa kali sehari/minggu, jadi ini bukan trafik biasa yang sepatutnya dijangkakan. Bayangkan ada 100 orang berduyun-duyun ke restoran tempatan untuk melihat seberapa cepat chef memasak hasilnya. Untuk meminjam istilah fizik kuantum, ini dipanggil "kesan pemerhati." Lebih kuat gangguan (iaitu lebih besar beban pecah), lebih rendah ketepatan. Dalam erti kata lain: jika anda meletakkan beban tinggi secara tiba-tiba pada perkhidmatan dan melihat bahawa perkhidmatan itu bertindak balas dengan cepat, anda tahu bahawa perkhidmatan itu mempunyai kapasiti terbiar yang agak besar. Sebagai pelabur, apabila anda melihat situasi ini, anda harus bertanya: Adakah cara ini membakar wang bertanggungjawab?

2 Model akhirnya akan mencapai prestasi yang serupa

Bidang kecerdasan buatan menggemari pertandingan kompetitif, yang sememangnya menarik. Semua orang cepat menumpu pada penyelesaian yang sama, dan Nvidia sentiasa menang pada akhirnya kerana GPU. Ini adalah terima kasih kepada projek sumber terbuka yang hebat, vLLM ialah contoh yang bagus. Ini bermakna, sebagai pembekal, jika model anda berprestasi jauh lebih teruk daripada yang lain, anda boleh mengejar dengan mudah dengan melihat penyelesaian sumber terbuka dan menggunakan kejuruteraan yang baik.

3. "Sebagai pelanggan, saya tidak kisah tentang kos penyedia"

Bagi pembina aplikasi AI, kami bernasib baik: sentiasa ada penyedia API yang sanggup "membakar wang." Industri AI sedang membakar wang untuk mendapatkan trafik, dan langkah seterusnya ialah bimbang tentang keuntungan.

Penandaan aras adalah tugas yang membosankan dan terdedah kepada kesilapan. Baik atau buruk, selalunya pemenang memuji anda dan yang kalah menyalahkan anda. Begitulah halnya dengan pusingan terakhir penanda aras rangkaian saraf konvolusi. Ini bukan tugas yang mudah, tetapi penandaarasan akan membantu kami mencapai 10x seterusnya dalam infrastruktur AI.

Berdasarkan rangka kerja kecerdasan buatan dan infrastruktur awan, LeptonAI akan membantu pengguna mencari strategi asas AI yang terbaik.

Atas ialah kandungan terperinci Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7554

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Baris arahan shutdown centos Apr 14, 2025 pm 09:12 PM

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Apakah kaedah sandaran untuk gitlab di centos Apr 14, 2025 pm 05:33 PM

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

Cara Memeriksa Konfigurasi HDFS CentOS Apr 14, 2025 pm 07:21 PM

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Bagaimana sokongan GPU untuk Pytorch di CentOS Apr 14, 2025 pm 06:48 PM

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Penjelasan terperinci mengenai Prinsip Docker Apr 14, 2025 pm 11:57 PM

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

CentOS memasang MySQL Apr 14, 2025 pm 08:09 PM

Memasang MySQL pada CentOS melibatkan langkah -langkah berikut: Menambah sumber MySQL YUM yang sesuai. Jalankan YUM Pasang Perintah MySQL-Server untuk memasang pelayan MySQL. Gunakan perintah mysql_secure_installation untuk membuat tetapan keselamatan, seperti menetapkan kata laluan pengguna root. Sesuaikan fail konfigurasi MySQL seperti yang diperlukan. Tune parameter MySQL dan mengoptimumkan pangkalan data untuk prestasi.

CentOS8 memulakan semula SSH Apr 14, 2025 pm 09:00 PM

Perintah untuk memulakan semula perkhidmatan SSH ialah: Sistem Restart SSHD. Langkah -langkah terperinci: 1. Akses terminal dan sambungkan ke pelayan; 2. Masukkan arahan: SistemCtl Restart SSHD; 3. Sahkan Status Perkhidmatan: Status Sistem SSHD.

Cara Mengendalikan Latihan Pittorch Diagihkan di Centos Apr 14, 2025 pm 06:36 PM

Latihan yang diedarkan Pytorch pada sistem CentOS memerlukan langkah -langkah berikut: Pemasangan Pytorch: Premisnya ialah Python dan PIP dipasang dalam sistem CentOS. Bergantung pada versi CUDA anda, dapatkan arahan pemasangan yang sesuai dari laman web rasmi Pytorch. Untuk latihan CPU sahaja, anda boleh menggunakan arahan berikut: PipinstallToRchTorchVisionTorchaudio Jika anda memerlukan sokongan GPU, pastikan versi CUDA dan CUDNN yang sama dipasang dan gunakan versi pytorch yang sepadan untuk pemasangan. Konfigurasi Alam Sekitar Teragih: Latihan yang diedarkan biasanya memerlukan pelbagai mesin atau mesin berbilang mesin tunggal. Tempat

See all articles