Rumah Peranti teknologi AI MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

Oct 11, 2023 pm 12:45 PM
data Penyelidikan

Model berskala besar membuat lompatan antara bahasa dan penglihatan, menjanjikan untuk memahami dan menjana kandungan teks dan imej dengan lancar. Dalam satu siri kajian baru-baru ini, penyepaduan ciri berbilang mod bukan sahaja menjadi trend yang semakin berkembang tetapi telah membawa kepada kemajuan utama yang terdiri daripada perbualan pelbagai mod kepada alatan penciptaan kandungan. Model bahasa yang besar telah menunjukkan keupayaan yang tiada tandingan dalam pemahaman dan penjanaan teks. Walau bagaimanapun, penjanaan imej secara serentak dengan naratif teks yang koheren masih merupakan kawasan yang perlu dibangunkan

Baru-baru ini, pasukan penyelidik dari University of California, Santa Cruz mencadangkan MiniGPT-5, kaedah berdasarkan konsep "undi generatif" Inovatif teknologi penjanaan bahasa visual interleaved.

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.


  • Alamat kertas: https://browse.arxiv.org/pdf/2310.02239v1.pdf
  • alamat projek ai-lab/MiniGPT-5

Menggabungkan mekanisme resapan yang stabil dengan LLM melalui "undi generatif" token visual khas, MiniGPT-5 menandakan cara baharu untuk model penjanaan pelbagai mod mahir. Pada masa yang sama, kaedah latihan dua peringkat yang dicadangkan dalam artikel ini menekankan kepentingan peringkat asas tanpa penerangan, membolehkan model berkembang maju walaupun data adalah terhad. Fasa umum kaedah tidak memerlukan anotasi khusus domain, yang menjadikan penyelesaian kami berbeza daripada kaedah sedia ada. Untuk memastikan teks dan imej yang dijana adalah harmoni, strategi kerugian berganda kertas ini dimainkan, yang dipertingkatkan lagi dengan kaedah undian generatif dan kaedah klasifikasi

Berdasarkan teknik ini, kerja ini menandakan Pendekatan transformatif. Dengan menggunakan ViT (Pengubah Penglihatan) dan Qformer serta model bahasa yang besar, pasukan penyelidik menukar input berbilang modal kepada undian generatif dan memasangkannya dengan lancar dengan Resapan Stable2.1 resolusi tinggi untuk mencapai penjanaan imej yang sedar konteks. Kertas kerja ini menggabungkan imej sebagai input tambahan dengan kaedah pelarasan arahan, dan mempelopori penggunaan kehilangan penjanaan teks dan imej, dengan itu mengembangkan sinergi antara teks dan penglihatan

MiniGPT-5 memadankan model seperti kekangan CLIP, dengan bijak Menyatukan model penyebaran dengan MiniGPT-4 mencapai hasil berbilang modal yang lebih baik tanpa bergantung pada anotasi khusus domain. Paling penting, strategi kami boleh memanfaatkan kemajuan dalam model asas bahasa visual multimodal untuk menyediakan pelan tindakan baharu untuk meningkatkan keupayaan generatif multimodal.

Seperti yang ditunjukkan dalam rajah di bawah, sebagai tambahan kepada pemahaman multi-modal asal dan keupayaan penjanaan teks, MiniGPT5 juga boleh memberikan output multi-modal yang munasabah dan koheren: MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

    Sumbangan artikel ini adalah dicerminkan dalam tiga aspek:
  • Adalah dicadangkan untuk menggunakan pengekod berbilang modal, yang mewakili teknik umum baru dan telah terbukti lebih berkesan daripada LLM dan Voken generatif songsang, dan menggabungkannya dengan Stable Diffusion untuk menghasilkan interleaved output visual dan linguistik (model bahasa multimodal yang mampu menghasilkan multimodal).
  • menyerlahkan strategi latihan dua peringkat baharu untuk penjanaan pelbagai mod tanpa penerangan. Peringkat penjajaran modal tunggal memperoleh ciri visual penjajaran teks berkualiti tinggi daripada sebilangan besar pasangan imej teks. Fasa pembelajaran multimodal termasuk tugas latihan baru, penjanaan konteks segera, memastikan gesaan visual dan tekstual diselaraskan dan dihasilkan dengan baik. Menambah panduan tanpa pengelas semasa fasa latihan meningkatkan lagi kualiti penjanaan.
Berbanding dengan model generatif berbilang mod yang lain, MiniGPT-5 mencapai prestasi terkini pada set data CC3M. MiniGPT-5 juga menetapkan penanda aras baharu pada set data terkenal seperti VIST dan MMDialog.

Sekarang, marilah kita memahami kandungan penyelidikan ini secara terperinci

Tinjauan keseluruhan kaedah

🎜Untuk membolehkan model bahasa besar dengan keupayaan penjanaan pelbagai mod, penyelidik berstruktur memperkenalkan rangka kerja Model bahasa berskala besar berbilang modal terlatih dan model penjanaan teks ke imej disepadukan. Untuk menyelesaikan perbezaan antara medan model yang berbeza, mereka memperkenalkan simbol visual khas "undi generatif" (undi generatif), yang boleh dilatih terus pada imej asal. Selain itu, kaedah latihan dua peringkat dimajukan, digabungkan dengan strategi bootstrap tanpa pengelas, untuk meningkatkan lagi kualiti penjanaan. 🎜🎜

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

Peringkat input berbilang modal

Kemajuan terkini dalam model berbilang modal besar (seperti MiniGPT-4) terutamanya menumpukan pada pemahaman berbilang mod sebagai input berterusan, mampu mengendalikan input. Untuk melanjutkan fungsinya kepada penjanaan berbilang modal, penyelidik memperkenalkan Vokens generatif yang direka khusus untuk mengeluarkan ciri visual. Selain itu, mereka juga mengguna pakai teknologi penalaan halus yang cekap parameter dalam rangka kerja Model Bahasa Besar (LLM) untuk pembelajaran output berbilang modal

Penjanaan keluaran berbilang modal

Untuk memastikan penjanaan token adalah Untuk menjana penjajaran tepat model, para penyelidik membangunkan modul pemetaan padat untuk pemadanan dimensi dan memperkenalkan beberapa kehilangan yang diselia, termasuk kehilangan ruang teks dan kehilangan model penyebaran terpendam. Kehilangan ruang teks membantu model mempelajari lokasi token dengan tepat, manakala kehilangan resapan terpendam secara langsung menjajarkan token dengan ciri visual yang sesuai. Memandangkan ciri-ciri simbol generatif dipandu secara langsung oleh imej, kaedah ini tidak memerlukan penerangan imej yang lengkap dan mencapai pembelajaran tanpa penerangan

strategi latihan

Memandangkan terdapat kewujudan yang tidak boleh diabaikan. domain teks dan domain imej Pergeseran domain, penyelidik mendapati bahawa latihan secara langsung pada teks berselang yang terhad dan set data imej boleh membawa kepada salah jajaran dan kemerosotan kualiti imej.

Jadi mereka menggunakan dua strategi latihan berbeza untuk mengurangkan masalah ini. Strategi pertama melibatkan penggunaan teknik bootstrapping tanpa pengelas untuk meningkatkan keberkesanan token yang dijana sepanjang proses penyebaran strategi kedua dibentangkan dalam dua fasa: fasa pra-latihan awal memfokuskan pada penjajaran ciri kasar, diikuti dengan fasa penalaan halus Bekerja; mengenai pembelajaran ciri yang kompleks.

Eksperimen dan keputusan

Untuk menilai keberkesanan model, penyelidik memilih pelbagai penanda aras dan menjalankan satu siri penilaian. Tujuan percubaan adalah untuk menangani beberapa soalan utama: Bolehkah

  • MiniGPT-5 menjana imej yang boleh dipercayai dan teks yang munasabah?
  • Bagaimanakah prestasi MiniGPT-5 berbanding model SOTA lain dalam tugas penjanaan bahasa visual berjalin satu pusingan dan berbilang pusingan?
  • Apakah kesan reka bentuk setiap modul terhadap prestasi keseluruhan?

Untuk menilai prestasi model MiniGPT-5 pada peringkat latihan yang berbeza, kami menjalankan analisis kuantitatif, dan hasilnya ditunjukkan dalam Rajah 3:

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

Untuk menunjukkan kebolehgunaan daripada model yang dicadangkan, kami menilainya, meliputi domain visual (metrik berkaitan imej) dan linguistik (metrik teks)

VIST Penilaian Langkah Akhir

set percubaan pertama penilaian langkah, iaitu, imej yang sepadan dijana mengikut model segera dalam langkah terakhir, dan hasilnya ditunjukkan dalam Jadual 1.

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik. MiniGPT-5 mengatasi prestasi SD 2 yang diperhalusi dalam ketiga-tiga tetapan. Terutama sekali, skor CLIP model MiniGPT-5 (LoRA) secara konsisten mengatasi varian lain merentas pelbagai jenis gesaan, terutamanya apabila menggabungkan gesaan imej dan teks. Sebaliknya, skor FID menyerlahkan daya saing model MiniGPT-5 (Awalan), menunjukkan bahawa mungkin terdapat pertukaran antara kualiti pembenaman imej (dicerminkan oleh skor CLIP) dan kepelbagaian dan ketulenan imej (dicerminkan oleh skor FID). Berbanding dengan model yang dilatih secara langsung pada VIST tanpa memasukkan peringkat pendaftaran mod tunggal (MiniGPT-5 tanpa UAS), walaupun model mengekalkan keupayaan untuk menjana imej yang bermakna, kualiti imej dan konsistensi berkurangan dengan ketara . Pemerhatian ini menonjolkan kepentingan strategi latihan dua peringkat

VIST Penilaian Pelbagai Langkah

🎜🎜🎜🎜🎜🎜🎜🎜🎜🎜🎜🎜🎜 dalam model penilaian yang lebih terperinci dan menyeluruh tentang sistem sejarah penyelidik. konteks, dan imej dan naratif yang terhasil kemudiannya dinilai pada setiap langkah. 🎜🎜

Jadual 2 dan Jadual 3 meringkaskan keputusan eksperimen ini, memberikan gambaran keseluruhan prestasi pada metrik imej dan bahasa masing-masing. Keputusan eksperimen menunjukkan bahawa MiniGPT-5 mampu mengeksploitasi isyarat input berbilang mod peringkat panjang untuk menjana imej berkualiti tinggi yang koheren merentas semua data tanpa menjejaskan keupayaan pemahaman pelbagai mod model asal. Ini menyerlahkan keberkesanan MiniGPT-5 dalam persekitaran yang berbeza

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

VIST Penilaian Manusia

ditunjukkan dalam Jadual 4. 5 7.18% menjana lebih relevan naratif teks dalam 52.06% kes, memberikan kualiti imej yang lebih baik dalam 52.06% kes, dan menghasilkan output berbilang modal yang lebih koheren dalam 57.62% adegan. Berbanding dengan garis dasar dua peringkat yang menggunakan penceritaan segera teks-ke-imej tanpa mood subjungtif, data ini jelas menunjukkan keupayaan penjanaan pelbagai mod yang lebih kukuh. . Walaupun imej yang dijana mempunyai kualiti yang sama, MiniGPT-5 mengatasi model garis dasar dari segi korelasi MM, menunjukkan bahawa ia lebih berupaya untuk mempelajari cara meletakkan penjanaan imej dengan sewajarnya dan menjana respons pelbagai mod yang sangat konsisten

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.

Mari kita lihat keluaran MiniGPT-5 dan lihat sejauh mana keberkesanannya. Rajah 7 di bawah menunjukkan perbandingan antara MiniGPT-5 dan model garis dasar pada set pengesahan CC3M

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.Rajah 8 di bawah menunjukkan perbandingan antara MiniGPT-5 dan model garis dasar pada set pengesahan VIST

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.Rajah 9 di bawah menunjukkan perbandingan antara MiniGPT-5 dan model garis dasar pada set ujian MMDialog.

MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci MiniGPT-5, yang menyatukan penjanaan imej dan teks, ada di sini: Token menjadi Voken, dan model itu bukan sahaja boleh meneruskan penulisan, tetapi juga menambah gambar secara automatik.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Gunakan ddrescue untuk memulihkan data pada Linux Gunakan ddrescue untuk memulihkan data pada Linux Mar 20, 2024 pm 01:37 PM

DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Cara menggunakan fungsi penapis Excel dengan berbilang syarat Cara menggunakan fungsi penapis Excel dengan berbilang syarat Feb 26, 2024 am 10:19 AM

Jika anda perlu tahu cara menggunakan penapisan dengan berbilang kriteria dalam Excel, tutorial berikut akan membimbing anda melalui langkah-langkah untuk memastikan anda boleh menapis dan mengisih data anda dengan berkesan. Fungsi penapisan Excel sangat berkuasa dan boleh membantu anda mengekstrak maklumat yang anda perlukan daripada sejumlah besar data. Fungsi ini boleh menapis data mengikut syarat yang anda tetapkan dan memaparkan hanya bahagian yang memenuhi syarat, menjadikan pengurusan data lebih cekap. Dengan menggunakan fungsi penapis, anda boleh mencari data sasaran dengan cepat, menjimatkan masa dalam mencari dan menyusun data. Fungsi ini bukan sahaja boleh digunakan pada senarai data ringkas, tetapi juga boleh ditapis berdasarkan berbilang syarat untuk membantu anda mencari maklumat yang anda perlukan dengan lebih tepat. Secara keseluruhan, fungsi penapisan Excel adalah sangat berguna

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

Robot pertama yang menyelesaikan tugas manusia secara autonomi muncul, dengan lima jari fleksibel dan kelajuan manusia luar biasa, dan model besar menyokong latihan angkasa maya Robot pertama yang menyelesaikan tugas manusia secara autonomi muncul, dengan lima jari fleksibel dan kelajuan manusia luar biasa, dan model besar menyokong latihan angkasa maya Mar 11, 2024 pm 12:10 PM

Minggu ini, FigureAI, sebuah syarikat robotik yang dilaburkan oleh OpenAI, Microsoft, Bezos, dan Nvidia, mengumumkan bahawa ia telah menerima hampir $700 juta dalam pembiayaan dan merancang untuk membangunkan robot humanoid yang boleh berjalan secara bebas dalam tahun hadapan. Dan Optimus Prime Tesla telah berulang kali menerima berita baik. Tiada siapa yang meragui bahawa tahun ini akan menjadi tahun apabila robot humanoid meletup. SanctuaryAI, sebuah syarikat robotik yang berpangkalan di Kanada, baru-baru ini mengeluarkan robot humanoid baharu, Phoenix. Pegawai mendakwa bahawa ia boleh menyelesaikan banyak tugas secara autonomi pada kelajuan yang sama seperti manusia. Pheonix, robot pertama di dunia yang boleh menyelesaikan tugas secara autonomi pada kelajuan manusia, boleh mencengkam, menggerakkan dan meletakkan setiap objek secara elegan di sisi kiri dan kanannya dengan perlahan. Ia boleh mengenal pasti objek secara autonomi

See all articles