Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan.-AI-php.cn

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2023-09-08 11:25:08

ke hadapan

902 orang telah melayarinya

Sebaik sahaja Code Llama keluar, semua orang menjangkakan seseorang akan meneruskan pelangsingan secara kuantitatif Mujurlah ia boleh dijalankan secara tempatan

Seperti yang dijangka, Georgi Gerganov, pengarang llama.cpp, yang mengambil tindakan, tetapi kali ini dia melakukannya. tidak mengikut rutin:

Tidak meneruskan Dikuantisasi, kod 34B Kod LLama boleh dijalankan pada komputer Apple walaupun dengan ketepatan FP16, dan kelajuan inferens melebihi 20 token sesaat

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. Gambar

hanya menggunakan lebar jalur 800GB/

M2 Ultra boleh menyelesaikan tugasan yang asalnya memerlukan 4 GPU mewah, dan kelajuan menulis kod juga sangat pantas

Orang tua itu kemudian mendedahkan rahsianya, iaitu pensampelan/penyahkodan spekulatif

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. . Gambar

mencetuskan perhatian banyak gergasi industri

Ahli pengasas OpenAI Andrej Karpathy mengulas bahawa ini adalah pengoptimuman masa inferens yang sangat baik dan memberikan penjelasan yang lebih teknikal.

Fan Linxi, seorang saintis NVIDIA, juga percaya bahawa ini adalah teknik yang semua orang yang bekerja pada model besar harus biasa dengan

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. Gambar

GPT-4 juga menggunakan kaedah ini

Mereka yang menggunakan spekulatif Ia tidak terhad kepada mereka yang menjalankan model besar secara tempatan, tetapi gergasi super seperti Google dan OpenAI juga menggunakan teknologi ini

Menurut maklumat yang bocor sebelum ini, GPT-4 menggunakan kaedah ini untuk mengurangkan kos inferens, jika tidak, ia tidak boleh mampu membakar wang tersebut.

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. Pictures

Berita terkini menunjukkan bahawa model besar generasi seterusnya Gemini yang dibangunkan bersama oleh Google DeepMind berkemungkinan akan digunakan.

Walaupun kaedah khusus OpenAI adalah sulit, pasukan Google telah mengeluarkan kertas berkaitan dan kertas itu telah dipilih untuk laporan lisan ICML 2023

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. Gambar

Kaedahnya mudah, mula-mula latih model yang adalah serupa dengan model besar dan lebih murah Untuk model kecil, biarkan model kecil menjana token K dahulu, dan kemudian biarkan model besar membuat penilaian.

Model besar boleh terus menggunakan bahagian yang diterima dan mengubah suai bahagian yang tidak diterima oleh model besar

Dalam penyelidikan asal, model T5-XXL digunakan untuk demonstrasi, dan sambil mengekalkan hasil yang dijana tidak berubah,

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. picture

Andjrey Karpathy menyamakan kaedah ini dengan "biarkan model kecil merangka dahulu".

Beliau menjelaskan bahawa kunci kepada keberkesanan kaedah ini ialah apabila model besar dimasukkan ke dalam token dan kumpulan token, masa yang diperlukan untuk meramalkan token seterusnya adalah hampir sama

Setiap token bergantung pada yang sebelumnya. token, jadi dalam keadaan biasa, adalah mustahil untuk mencuba berbilang token pada masa yang sama

Walaupun model kecil mempunyai keupayaan yang lemah, banyak bahagian apabila sebenarnya menghasilkan ayat adalah sangat mudah, dan model kecil juga boleh melakukan kerja itu. Hanya apabila menghadapi bahagian yang sukar, biarkan model yang besar itu terus sahaja.

Kertas asal menunjukkan bahawa model matang sedia ada boleh dipercepatkan secara langsung tanpa mengubah struktur atau latihan semula

Hujah matematik untuk fakta bahawa ketepatan tidak akan dikurangkan juga diberikan dalam lampiran kertas.

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. Gambar

Sekarang kita faham prinsipnya, mari kita lihat tetapan khusus Georgi Gerganov kali ini.

Dia menggunakan model 7B terkuantisasi 4-bit sebagai model "draf", yang boleh menjana kira-kira 80 token sesaat.

Apabila digunakan secara bersendirian, model 34B dengan ketepatan FP16 hanya boleh menjana 10 token sesaat

Selepas menggunakan kaedah pensampelan spekulatif, kami memperoleh kesan pecutan 2x, yang konsisten dengan data dalam kertas asal

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan.

Dia juga menyatakan bahawa kelajuan mungkin berbeza-beza bergantung pada kandungan yang dijana, tetapi ia sangat berkesan dalam penjanaan kod, dan model draf boleh meneka kebanyakan token dengan betul. 🎜

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. Gambar

Akhirnya, dia juga mencadangkan Meta terus memasukkan model draf kecil semasa mengeluarkan model pada masa hadapan, yang diterima baik oleh semua orang.

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. Pictures

Pengarang telah memulakan perniagaan

Georgi Gerganov ialah pengarang Dia memindahkan generasi pertama LlaMA ke C++ pada Mac tahun ini. Projek sumber terbukanya llama.cpp telah menerima hampir 40,000 bintang

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. gambar

Dia pada mulanya hanya menganggap ini sebagai hobi sampingan, tetapi disebabkan sambutan yang menggalakkan, dia mengumumkan permulaannya pada bulan Jun

syarikat baharu ggml. ai didedikasikan untuk menjalankan AI pada peranti edge. Produk utama syarikat ialah rangka kerja pembelajaran mesin bahasa C di belakang llama.cpp

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. Picture

Pada hari-hari awal permulaan, kami berjaya memperoleh pembiayaan pra-benih daripada bekas CEO GitHub Nat Friedman dan rakan kongsi Y Combinator Daniel Gross Pelaburan

Dia juga sangat aktif selepas keluaran LlaMA2 Yang paling kejam adalah memasukkan model besar terus ke dalam pelayar.

Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan. Gambar

Sila lihat kertas pensampelan spekulatif Google: https://arxiv.org/abs/2211.17192

Pautan rujukan: [1]https://x.com/1709718us ]https://x.com/karpathy/status/1697318534555336961

Atas ialah kandungan terperinci Teras Apple menjalankan model besar tanpa mengurangkan ketepatan pengiraan Pensampelan spekulatif juga digunakan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!