Jadual Kandungan
1. Apakah itu Toolformer?
2. Seni bina Toolformer dan kaedah pelaksanaan
2.1 Persampelan panggilan API
2.2 Pelaksanaan Panggilan API
2.3 Menapis panggilan API
2.4 Penalaan Halus Model
2.5 Inferens
2.6 Alat API
3. Contoh aplikasi
3.1 LAMA
3.2 Set Data Matematik
3.3 Soalan Jawapan
3.4 Menjawab Soalan Berbilang Bahasa
3.5 Set Data Temporal
4. Had ToolFormer
5. Ringkasan
Rumah Peranti teknologi AI Tafsir Toolformer

Tafsir Toolformer

May 05, 2023 pm 08:10 PM
bahasa Model toolformer

Model Bahasa Besar (LLM) telah menunjukkan kelebihan yang luar biasa dalam menyelesaikan tugasan baharu dengan data teks yang terhad. Walau bagaimanapun, walaupun demikian, mereka mempunyai batasan dalam cara lain, seperti:

  • Kekurangan akses kepada maklumat terkini
  • Kecenderungan untuk berkhayal tentang fakta
  • Kesukaran dengan bahasa sumber rendah
  • Kekurangan kemahiran matematik untuk pengiraan yang tepat
  • Kurang pemahaman tentang proses masa

Cara menggunakan model besar untuk menyelesaikan lebih banyak masalah ? Dalam artikel "Tafsiran TaskMatrix.AI", TaskMatrix.AI ialah gabungan Toolformer dan chatGPT, menghubungkan model asas dengan berjuta-juta API untuk menyelesaikan tugasan. Jadi, apakah itu Toolformer?

Toolformer ialah model sumber terbuka baharu Meta yang boleh menyelesaikan masalah yang memerlukan penggunaan API, seperti kalkulator, carian Wikipedia, carian kamus, dsb. Toolformer menyedari bahawa ia mesti menggunakan alat, menentukan alat yang hendak digunakan dan cara menggunakan alat tersebut. Kes penggunaan untuk Toolformers mungkin tidak berkesudahan, daripada menyediakan hasil carian segera untuk sebarang soalan, kepada maklumat kontekstual, seperti restoran terbaik di bandar.

1. Apakah itu Toolformer?

Apakah itu Toolformer? Pendek kata, Toolformer ialah model bahasa yang boleh mengajar dirinya sendiri cara menggunakan alatan.

Toolformer adalah berdasarkan model GPT-J yang telah dilatih dengan 6.7 bilion parameter, dilatih menggunakan kaedah pembelajaran yang diselia sendiri. Pendekatan ini melibatkan pensampelan dan penapisan panggilan API untuk menambah set data teks sedia ada.

Toolformer berharap dapat menyelesaikan tugas pembelajaran kendiri LLM cara menggunakan alatan melalui dua keperluan berikut:

  • Penggunaan alatan harus dipelajari melalui penyeliaan kendiri tanpa memerlukan banyak buruh kasar Nota.
  • LM seharusnya tidak kehilangan keluasannya dan seharusnya boleh menentukan sendiri masa dan cara menggunakan alat yang mana.

Imej berikut menunjukkan ramalan Toolformer (cth. panggilan API yang dibenamkan dalam sampel data):

Tafsir Toolformer

2. Seni bina Toolformer dan kaedah pelaksanaan

Ciri teras dalam ChatGPT ialah pembelajaran berasaskan konteks (Pembelajaran Dalam Konteks), yang merujuk kepada kaedah pembelajaran mesin di mana model dipersembahkan daripada konteks atau persekitaran tertentu Belajar daripada contoh. Matlamat pembelajaran kontekstual adalah untuk meningkatkan keupayaan model untuk memahami dan menjana bahasa yang sesuai untuk konteks atau situasi tertentu. Dalam tugas pemprosesan bahasa semula jadi (NLP), model bahasa boleh dilatih untuk menjana respons kepada gesaan atau soalan tertentu. Jadi, bagaimanakah Toolformer memanfaatkan Pembelajaran Dalam Konteks?

Toolformer ialah model bahasa besar yang membolehkan penggunaan alat yang berbeza melalui panggilan API. Input dan output setiap panggilan API perlu diformatkan sebagai urutan teks/perbualan untuk mengalir secara semula jadi dalam sesi.

Tafsir Toolformer

Seperti yang anda boleh lihat daripada imej di atas, Toolformer mula-mula memanfaatkan keupayaan pembelajaran kontekstual model untuk mencuba sejumlah besar panggilan API yang berpotensi.

Laksanakan panggilan API ini dan semak sama ada respons yang diperoleh boleh membantu meramalkan token pada masa hadapan dan digunakan sebagai penapis. Selepas penapisan, panggilan API ke alat yang berbeza dibenamkan ke dalam sampel data mentah, menghasilkan set data yang dipertingkat yang modelnya diperhalusi.

Khususnya, imej di atas menunjukkan model yang menyelesaikan tugasan ini menggunakan alat soal jawab:

  1. Dataset LM mengandungi teks sampel: Masukkan gesaan "Pittsburgh" untuk "Pittsburgh juga dikenali sebagai" juga dikenali sebagai "The Steel City".
  2. Untuk mencari jawapan yang betul, model perlu membuat panggilan API dan membuatnya dengan betul.
  3. Mensampel beberapa panggilan API, khususnya "Apakah nama lain yang dikenali oleh Pittsburgh dan "Di negara manakah Pittsburgh?"
  4. Jawapan yang sepadan ialah "Bandar Keluli" dan "Amerika Syarikat". Oleh kerana jawapan pertama adalah lebih baik, ia dimasukkan ke dalam set data LM baharu dengan panggilan API: "Pittsburgh juga dikenali sebagai [QA("Apakah nama lain yang dikenali oleh Pittsburgh?") -> Steel City] the Steel City" .
  5. Ini mengandungi panggilan dan respons API yang dijangkakan. Ulangi langkah ini untuk menjana set data LM baharu menggunakan pelbagai alatan (iaitu, panggilan API).

Oleh itu, LM menganotasi sejumlah besar data menggunakan panggilan API yang dibenamkan dalam teks, dan kemudian menggunakan panggilan API ini untuk memperhalusi LM untuk membuat panggilan API yang berguna. Beginilah cara latihan yang diselia sendiri berfungsi, dan faedah pendekatan ini termasuk:

  • Kurang keperluan untuk anotasi manual.
  • Membenamkan panggilan API ke dalam teks membolehkan LM menggunakan berbilang alatan luaran untuk menambah lebih banyak kandungan.

Toolformer kemudian belajar untuk meramalkan alat yang akan digunakan untuk setiap tugasan.

2.1 Persampelan panggilan API

Rajah berikut menunjukkan bahawa input pengguna yang diberikan, Toolformer menggunakan dan untuk mewakili permulaan dan akhir panggilan API. Menulis gesaan untuk setiap API menggalakkan Pembentuk Alat untuk menganotasi contoh dengan panggilan API yang berkaitan.

Tafsir Toolformer

Toolformer memberikan kebarangkalian kepada setiap token sebagai kemungkinan kesinambungan urutan yang diberikan. Kaedah ini mengambil sampel sehingga k kedudukan calon untuk panggilan API dengan mengira kebarangkalian yang diberikan oleh ToolFormer untuk memulakan panggilan API pada setiap kedudukan dalam jujukan. Kedudukan dengan kebarangkalian lebih besar daripada ambang tertentu disimpan, dan untuk setiap kedudukan, sehingga m panggilan API diperolehi dengan pensampelan daripada Pembentuk Alat menggunakan jujukan yang diawali dengan panggilan API dan diakhiri dengan penanda akhir jujukan.

2.2 Pelaksanaan Panggilan API

Pelaksanaan panggilan API bergantung sepenuhnya pada klien yang melaksanakan panggilan. Pelanggan boleh menjadi jenis aplikasi yang berbeza, daripada rangkaian saraf lain, kepada skrip Python, kepada sistem perolehan yang mencari dalam korpus besar. Adalah penting untuk ambil perhatian bahawa apabila pelanggan membuat panggilan, API mengembalikan satu tindak balas jujukan teks. Respons ini mengandungi maklumat terperinci tentang panggilan, termasuk status kejayaan atau kegagalan panggilan, masa pelaksanaan dan banyak lagi.

Oleh itu, untuk mendapatkan keputusan yang tepat, pelanggan harus memastikan bahawa parameter input yang betul disediakan. Jika parameter input tidak betul, API mungkin mengembalikan hasil yang salah, yang mungkin tidak dapat diterima oleh pengguna. Selain itu, pelanggan harus memastikan bahawa sambungan kepada API adalah stabil untuk mengelakkan gangguan sambungan atau isu rangkaian lain semasa panggilan.

2.3 Menapis panggilan API

Semasa proses penapisan, Toolformer mengira kehilangan rentas entropi wajaran Toolformer melalui token selepas panggilan API.

Kemudian, bandingkan dua pengiraan kerugian yang berbeza:

(i) Satu ialah panggilan API, yang hasilnya diberikan sebagai input kepada Toolformer

(ii) Satu ialah bukan panggilan API atau panggilan API tetapi tiada hasil dikembalikan.

Panggilan API dianggap berguna jika input dan output yang disediakan untuk panggilan API memudahkan Pembentuk Alat meramalkan token masa hadapan. Gunakan ambang penapisan untuk mengekalkan hanya panggilan API yang perbezaan antara kedua-dua kerugian adalah lebih besar daripada atau sama dengan ambang.

2.4 Penalaan Halus Model

Akhir sekali, Toolformer menggabungkan baki panggilan API dengan input asal dan mencipta panggilan API baharu untuk menambah set data. Dalam erti kata lain, set data ditambah mengandungi teks yang sama seperti set data asal, dengan hanya panggilan API disisipkan.

Kemudian, gunakan set data baharu untuk memperhalusi ToolFormer menggunakan objektif pemodelan bahasa standard. Ini memastikan penalaan halus model pada set data tambahan terdedah kepada kandungan yang sama seperti penalaan halus pada set data asal. Penalaan halus data tambahan membolehkan model bahasa memahami masa dan cara menggunakan panggilan API berdasarkan maklum balasnya sendiri, dengan memasukkan panggilan API di lokasi yang tepat dan menggunakan model bantuan untuk meramal input token masa hadapan.

2.5 Inferens

Semasa inferens, proses penyahkodan terganggu apabila model bahasa menghasilkan token "→", yang menunjukkan tindak balas dijangka seterusnya kepada panggilan API. Kemudian, hubungi API yang sesuai untuk mendapatkan respons dan teruskan penyahkodan selepas memasukkan respons dan token.

Pada ketika ini, kita perlu memastikan bahawa respons yang diperolehi sepadan dengan respons yang diharapkan daripada token sebelumnya. Jika ia tidak sepadan, kita perlu melaraskan panggilan API untuk mendapatkan respons yang betul. Sebelum meneruskan penyahkodan, kami juga perlu melakukan beberapa pemprosesan data untuk menyediakan langkah seterusnya dalam proses inferens. Proses data ini termasuk analisis respons, pemahaman konteks dan pemilihan laluan inferens. Oleh itu, semasa proses inferens, anda bukan sahaja perlu memanggil API untuk mendapatkan respons, tetapi anda juga perlu melakukan satu siri pemprosesan dan analisis data untuk memastikan ketepatan dan ketekalan proses inferens.

2.6 Alat API

Setiap alat API yang boleh digunakan dalam Toolformer mesti memenuhi dua syarat berikut:

  • Input/output perlu diwakili sebagai teks urutan .
  • Terdapat tunjuk cara tersedia yang menunjukkan cara menggunakan alatan ini.

Pelaksanaan awal Toolformer menyokong lima alatan API:

  1. Soal Jawab: Ini adalah satu lagi LM yang menjawab soalan fakta mudah.
  2. Kalkulator: Pada masa ini hanya menyokong 4 operasi aritmetik asas dan membundarkan kepada dua tempat perpuluhan.
  3. Carian Wiki: Enjin carian yang mengembalikan teks pendek yang dipotong daripada Wikipedia.
  4. Sistem terjemahan mesin: LM yang boleh menterjemah frasa dalam mana-mana bahasa ke dalam bahasa Inggeris.
  5. Kalendar: Panggilan API ke kalendar yang mengembalikan tarikh semasa tanpa menerima sebarang input.

Rajah berikut menunjukkan contoh input dan output semua API yang digunakan:

Tafsir Toolformer

3. Contoh aplikasi

Toolformer berprestasi lebih baik daripada model garis dasar dan GPT-3 dalam tugasan seperti LAMA, set data matematik, jawapan soalan dan set data temporal, tetapi berprestasi lebih teruk daripada model lain dalam menjawab soalan berbilang bahasa. Toolformer menggunakan panggilan API untuk menyelesaikan tugas, seperti API LAMA, API Kalkulator dan API Alat Carian Wikipedia.

3.1 LAMA

Tugasnya ialah melengkapkan kenyataan yang kurang fakta. Toolformer mengatasi model garis dasar dan model yang lebih besar seperti GPT-3. Jadual berikut menunjukkan keputusan yang diperoleh melalui panggilan API LAMA:

Tafsir Toolformer

3.2 Set Data Matematik

Tugasnya adalah untuk menilai penaakulan matematik of Toolformer Keupayaan untuk membandingkan pelbagai model asas. Toolformer berprestasi lebih baik daripada model lain, mungkin kerana penalaan halus contoh panggilan API. Membenarkan model membuat panggilan API dengan ketara meningkatkan prestasi pada semua tugasan dan mengatasi prestasi model yang lebih besar seperti OPT dan GPT-3. Dalam hampir semua kes, model memutuskan untuk meminta bantuan alat kalkulator.

Jadual berikut menunjukkan keputusan yang diperoleh melalui panggilan API Kalkulator:

Tafsir Toolformer

3.3 Soalan Jawapan

The tugasan ialah Untuk menjawab soalan, Toolformer mengatasi model garis dasar dengan saiz yang sama, tetapi mengatasi GPT-3(175B). Toolformer menggunakan alat carian Wikipedia untuk kebanyakan contoh dalam tugasan ini. Jadual berikut menunjukkan keputusan yang diperolehi melalui panggilan API alat carian Wikipedia:

Tafsir Toolformer

3.4 Menjawab Soalan Berbilang Bahasa

Soal Jawab set data digunakan Pada soalan berbilang bahasa menjawab tanda aras MLQA, yang mengandungi petikan konteks dalam bahasa Inggeris dan soalan dalam bahasa Arab, Jerman, Sepanyol, Hindi, Vietnam atau Cina Ringkas. Toolformer bukanlah pemain yang paling kuat di sini, mungkin disebabkan kekurangan penalaan CCNet merentas semua bahasa.

Jadual berikut menunjukkan hasil yang diperoleh melalui panggilan API alat carian Wikipedia:

Tafsir Toolformer

3.5 Set Data Temporal

Tugasnya adalah untuk mengetahui di mana tarikh semasa adalah penting untuk menjawab soalan. Toolformer dapat mengatasi prestasi asas, namun, ia jelas tidak menggunakan alat kalendar 100% pada masa itu. Sebaliknya, ia menggunakan carian Wikipedia. Jadual berikut menunjukkan keputusan yang diperolehi melalui panggilan API alat carian Wikipedia:

Tafsir Toolformer

4. Had ToolFormer

Toolformer masih mempunyai beberapa Had seperti ketidakupayaan untuk menggunakan berbilang alatan pada masa yang sama, ketidakupayaan untuk mengendalikan alatan yang mengembalikan terlalu banyak hasil, kepekaan terhadap perkataan input yang membawa kepada ketidakcekapan, kegagalan untuk mempertimbangkan kos penggunaan yang mungkin membawa kepada kos pengiraan yang tinggi, dsb. Butirannya adalah seperti berikut:

  1. Toolformer tidak boleh menggunakan berbilang alatan dalam proses memandangkan panggilan API untuk setiap alat dijana secara bebas.
  2. Terutama untuk alatan yang mungkin mengembalikan ratusan hasil yang berbeza (seperti enjin carian), Toolformer tidak boleh digunakan secara interaktif.
  3. Model yang dilatih menggunakan Toolformer sangat sensitif terhadap perkataan input yang tepat, pendekatan ini tidak cekap untuk sesetengah alatan dan memerlukan dokumentasi yang luas untuk menjana sebilangan kecil panggilan API yang berguna.
  4. Apabila membuat keputusan untuk menggunakan setiap alat, kos penggunaannya tidak dipertimbangkan, yang mungkin mengakibatkan kos pengiraan yang lebih tinggi.

5. Ringkasan

Toolformer ialah model bahasa berskala besar yang menggunakan Pembelajaran Dalam Konteks untuk meningkatkan keupayaan model memahami dan menjana bahasa yang sesuai untuk konteks atau situasi tertentu. Ia menggunakan panggilan API untuk menganotasi sejumlah besar data dan kemudian menggunakan panggilan API ini untuk memperhalusi model untuk membuat panggilan API yang berguna. Toolformer belajar untuk meramalkan alat yang akan digunakan untuk setiap tugas. Walau bagaimanapun, Toolformer masih mempunyai beberapa batasan, seperti ketidakupayaan untuk menggunakan berbilang alatan dalam proses dan ketidakupayaan untuk menggunakan alatan secara interaktif yang mungkin mengembalikan ratusan hasil yang berbeza.

[Bahan rujukan dan bacaan berkaitan]

  • Pembentuk Alat: Model Bahasa Boleh Ajar Diri Menggunakan Alat, https://arxiv.org/pdf/2302.04761.pdf
  • Meta's Toolformer Menggunakan API untuk Mengungguli GPT-3 pada Zero-Shot NLP Tasks, https://www.infoq.com/news/2023/04/meta-toolformer/
  • Toolformer: Model Bahasa Boleh Mengajar Sendiri untuk Menggunakan Alat (2023), https://kikaben.com/toolformer-2023/
  • Breaking Down Toolformer, https://www.shaped.ai/blog/breaking-down-toolformer
  • Toolformer: Meta Masuk Semula Perlumbaan ChatGPT Dengan Model Baharu Menggunakan Wikipedia, https://thechainsaw.com/business/meta-toolformer-ai/
  • Model bahasa Toolformer menggunakan alat luaran sendiri , https://the-decoder.com/toolformer-language-model-uses-external-tools-on-its-own/

Atas ialah kandungan terperinci Tafsir Toolformer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 | Satu kad menjalankan Llama 70B lebih pantas daripada dua kad, Microsoft hanya meletakkan FP6 ke dalam A100 | Apr 29, 2024 pm 04:55 PM

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed ​​​​memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu

See all articles