


ChatGPT boleh memilih model dengan sendirinya! Institut Penyelidikan Asia Microsoft + kertas baharu Universiti Zhejiang, projek HuggingGPT telah menjadi sumber terbuka
Kegilaan AI yang dicetuskan oleh ChatGPT juga telah "membakar" bulatan kewangan.
Baru-baru ini, penyelidik di Bloomberg juga telah membangunkan GPT dalam bidang kewangan - Bloomberg GPT, dengan 50 bilion parameter.
Kemunculan GPT-4 telah memberi ramai orang merasai keupayaan berkuasa model bahasa besar.
Walau bagaimanapun, OpenAI tidak dibuka. Ramai orang dalam industri telah mula mengklon GPT, dan banyak model gantian ChatGPT dibina pada model sumber terbuka, terutamanya model LLMa sumber terbuka Meta.
Contohnya, Alpaca Stanford, UC Berkeley bekerjasama dengan CMU, Stanford dan Vicuna lain, Dolly dari Databricks permulaan, dsb.
Pelbagai model bahasa berskala besar seperti ChatGPT dibina untuk tugas dan aplikasi yang berbeza, menunjukkan seratus aliran pemikiran dalam keseluruhan bidang.
Jadi persoalannya, bagaimanakah penyelidik memilih model yang sesuai, atau malah berbilang model, untuk menyelesaikan tugas yang kompleks?
Baru-baru ini, pasukan penyelidik dari Microsoft Research Asia dan Universiti Zhejiang mengeluarkan HuggingGPT, sistem kerjasama model besar.
Alamat kertas: https://arxiv.org/pdf/2303.17580.pdf
HuggingGPT menggunakan ChatGPT sebagai pengawal untuk menyambungkan pelbagai model AI dalam komuniti HuggingFace untuk menyelesaikan tugasan kompleks berbilang modal.
Ini bermakna anda akan mempunyai sejenis keajaiban hebat melalui HuggingGPT, anda boleh mempunyai keupayaan berbilang modal, termasuk gambar, video dan suara.
HuggingGPT bridge
Penyelidik menegaskan bahawa menyelesaikan masalah semasa model bahasa besar (LLM) mungkin merupakan langkah pertama ke arah AGI juga merupakan satu langkah kritikal.
Oleh kerana teknologi semasa model bahasa besar masih mempunyai beberapa kelemahan, terdapat beberapa cabaran mendesak dalam pembinaan sistem AGI.
- Terhad oleh bentuk input dan output penjanaan teks, LLM semasa tidak mempunyai keupayaan untuk memproses maklumat yang kompleks (seperti penglihatan dan pertuturan
).- Dalam senario aplikasi sebenar, beberapa tugasan kompleks biasanya terdiri daripada berbilang sub-tugas, justeru memerlukan penjadualan dan kerjasama berbilang model, yang juga di luar keupayaan model bahasa; .
Untuk mengendalikan tugas AI yang kompleks, LLM seharusnya dapat menyelaraskan dengan model luaran untuk memanfaatkan keupayaan mereka. Oleh itu, perkara utama ialah cara memilih perisian tengah yang sesuai untuk merapatkan LLM dan model AI.
Penyelidik mendapati bahawa setiap model AI boleh dinyatakan sebagai bentuk bahasa dengan meringkaskan fungsi modelnya.
Oleh itu, konsep diperkenalkan, "Bahasa ialah LLM, iaitu ChatGPT, antara muka universal untuk menyambung model kecerdasan buatan."
Dengan memasukkan penerangan model AI ke dalam gesaan, ChatGPT boleh dianggap sebagai otak yang menguruskan model AI. Oleh itu, kaedah ini membolehkan ChatGPT memanggil model luaran untuk menyelesaikan tugas praktikal.
Ringkasnya, HuggingGPT ialah sistem kerjasama, bukan model besar.
Fungsinya adalah untuk menghubungkan ChatGPT dan HuggingFace untuk memproses input dalam modaliti yang berbeza dan menyelesaikan banyak tugas kecerdasan buatan yang kompleks.
Jadi, setiap model AI dalam komuniti HuggingFace mempunyai penerangan model yang sepadan dalam perpustakaan HuggingGPT dan disepadukan ke dalam gesaan untuk membina sambungan ChatGPT.
HuggingGPT kemudian menggunakan ChatGPT sebagai otak untuk menentukan jawapan kepada soalan.
Setakat ini, HuggingGPT telah menyepadukan ratusan model pada HuggingFace di sekitar ChatGPT, meliputi pengelasan teks, pengesanan sasaran, segmentasi semantik, penjanaan imej, 24 tugasan termasuk Soal Jawab, teks-ke-ucapan, dan teks-ke-video.
Hasil eksperimen membuktikan bahawa HuggingGPT mempunyai keupayaan untuk mengendalikan maklumat pelbagai mod dan tugas kecerdasan buatan yang kompleks.
Aliran kerja empat langkah
Memeluk seluruh aliran kerja GPT Ia boleh dibahagikan kepada empat peringkat berikut:
-Perancangan tugas: ChatGPT menghuraikan permintaan pengguna, memecahkannya kepada berbilang tugas dan merancang urutan tugas berdasarkan pengetahuan dan kebergantungan
- Pemilihan model: LLM memberikan tugas yang dihuraikan kepada model pakar
berdasarkan penerangan model dalam HuggingFace- Pelaksanaan tugas: Model pakar melaksanakan tugas yang diberikan pada titik akhir inferens dan merekodkan maklumat pelaksanaan dan keputusan inferens ke dalam LLM
- Penjanaan respons: LLM meringkaskan log proses pelaksanaan dan hasil inferens, dan mengembalikan ringkasan kepada pengguna
Keupayaan berbilang modal, dengan
Tetapan percubaan
Dalam percubaan, penyelidik menggunakan gpt-3.5-turbo dan text-davinci-003 Varian model GPT yang dihidangkan sebagai Model Bahasa Besar (LLM), yang boleh diakses secara umum melalui OpenAI API.
Untuk menjadikan output LLM lebih stabil, kami menetapkan suhu penyahkodan kepada 0.
Pada masa yang sama, untuk melaraskan output LLM agar mematuhi format yang dijangkakan, kami menetapkan logit_bias kepada 0.1 pada kekangan format.
Para penyelidik menyediakan petua terperinci yang direka untuk perancangan misi, pemilihan model dan fasa penjanaan tindak balas dalam jadual berikut, di mana {{pembolehubah}} mewakili Sebelum gesaan dimasukkan ke dalam LLM, nilai medan perlu diisi dengan teks yang sepadan.
Penyelidik menguji HuggingGPT pada pelbagai tugas pelbagai mod.
Dengan kerjasama ChatGP dan model pakar, HuggingGPT boleh menyelesaikan tugasan dalam pelbagai mod seperti bahasa, imej, audio dan video, termasuk pengesanan, penjanaan, pengelasan dan menjawab soalan.
Walaupun tugasan ini kelihatan mudah, menguasai keupayaan asas HuggingGPT adalah prasyarat untuk menyelesaikan tugasan yang rumit.
Contohnya, tugasan soalan dan jawapan visual:
Generasi teks:
Gambar Vincent:
HuggingGPT boleh menyepadukan berbilang kandungan input untuk melakukan penaakulan mudah. Ia boleh didapati bahawa walaupun terdapat berbilang sumber tugas, HuggingGPT boleh menguraikan tugas utama kepada berbilang tugas asas, dan akhirnya menyepadukan hasil inferens berbilang model untuk mendapatkan jawapan yang betul.
Selain itu, penyelidik menilai keberkesanan HuggingGPT dalam situasi tugas yang kompleks melalui ujian.
menunjukkan keupayaan HuggingGPT untuk mengendalikan pelbagai tugas yang kompleks.
Apabila memproses berbilang permintaan, ia mungkin mengandungi berbilang tugas tersirat atau memerlukan pelbagai aspek maklumat Dalam kes ini, bergantung pada model pakar untuk menyelesaikan masalah adalah tak cukup.
HuggingGPT boleh menganjurkan kerjasama pelbagai model melalui perancangan tugas.
Permintaan pengguna mungkin secara eksplisit mengandungi berbilang tugas:
Rajah di bawah menunjukkan keupayaan HuggingGPT untuk mengendalikan tugas yang rumit dalam senario dialog berbilang pusingan.
Pengguna membahagikan permintaan yang rumit kepada beberapa langkah dan mencapai matlamat akhir melalui beberapa pusingan permintaan. Didapati bahawa HuggingGPT boleh menjejaki status situasi permintaan pengguna melalui pengurusan situasi dialog dalam peringkat perancangan tugas, dan boleh menyelesaikan sumber yang diminta dan perancangan tugas yang disebut oleh pengguna.
"Jarvis" ialah sumber terbuka
Pada masa ini, projek ini telah bersumberkan terbuka pada GitHub. Tetapi kod itu belum dikeluarkan sepenuhnya.
Menariknya, penyelidik menamakan projek ini Jarvis dalam "Iron Man", AI yang tidak dapat dikalahkan.
JARVIS: Sistem yang menghubungkan LLM dan komuniti ML
Dengan cara ini, HuggingGPT memerlukan OpenAI API untuk digunakan.
Netizen: Masa depan penyelidikan
JARVIS/HuggingGPT sama seperti Toolformer yang dicadangkan sebelum ini oleh Meta, Mereka semua bertindak sebagai penyambung.
Malah, termasuk pemalam ChatGPT.
Netizen berkata, "Saya sangat mengesyaki bahawa kecerdasan am buatan (AGI) pertama akan muncul lebih awal daripada yang dijangkakan. Ia akan bergantung pada kecerdasan buatan "gam", mampu menggabungkan satu siri kecerdasan buatan yang sempit dan alat praktikal dengan bijak.
Saya diberi akses kepada pemalam, yang mengubahnya daripada noob matematik kepada genius matematik dalam sekelip mata. Sudah tentu, ini hanya satu langkah kecil, tetapi ia adalah tanda arah aliran pembangunan masa depan.
Saya meramalkan bahawa pada tahun hadapan atau lebih kita akan melihat pembantu AI yang berpuluh-puluh model bahasa besar ( LLM) dan alatan serupa disambungkan, dan pengguna akhir hanya memberi arahan kepada pembantu mereka untuk menyelesaikan tugasan untuk mereka. Momen sci-fi ini akan datang.
Sesetengah netizen berkata ini adalah kaedah kajian masa hadapan.
GPT berada di hadapan banyak alatan, kini anda tahu cara menggunakannya.
Atas ialah kandungan terperinci ChatGPT boleh memilih model dengan sendirinya! Institut Penyelidikan Asia Microsoft + kertas baharu Universiti Zhejiang, projek HuggingGPT telah menjadi sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Pada 29 Julai, pada majlis pelepasan kereta baharu AITO Wenjie yang ke-400,000, Yu Chengdong, Pengarah Urusan Huawei, Pengerusi Terminal BG, dan Pengerusi Smart Car Solutions BU, menghadiri dan menyampaikan ucapan dan mengumumkan bahawa model siri Wenjie akan akan dilancarkan tahun ini Pada bulan Ogos, Huawei Qiankun ADS 3.0 versi telah dilancarkan, dan ia dirancang untuk terus naik taraf dari Ogos hingga September. Xiangjie S9, yang akan dikeluarkan pada 6 Ogos, akan memperkenalkan sistem pemanduan pintar ADS3.0 Huawei. Dengan bantuan lidar, versi Huawei Qiankun ADS3.0 akan meningkatkan keupayaan pemanduan pintarnya, mempunyai keupayaan bersepadu hujung-ke-hujung, dan mengguna pakai seni bina hujung ke hujung baharu GOD (pengenalpastian halangan am)/PDP (ramalan). membuat keputusan dan kawalan), menyediakan fungsi NCA pemanduan pintar dari ruang letak kereta ke ruang letak kereta, dan menaik taraf CAS3.0

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi
