Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian-AI-php.cn

Jadual Kandungan

Paper Overview

Bot sembang pelbagaimod

Maklum balas percubaan

Rumah

Peranti teknologi

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

PHPz

May 12, 2023 pm 02:28 PM

data kereta api

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Bilakah keupayaan pengecaman imej GPT-4 akan berada dalam talian? Masih tiada jawapan untuk soalan ini.

Tetapi komuniti penyelidik tidak sabar lagi dan telah memulakan DIY Yang paling popular ialah projek yang dipanggil MiniGPT-4. MiniGPT-4 menunjukkan banyak keupayaan yang serupa dengan GPT-4, seperti menjana penerangan imej terperinci dan mencipta tapak web daripada draf tulisan tangan. Selain itu, pengarang memerhatikan keupayaan lain yang muncul dari MiniGPT-4, termasuk mencipta cerita dan puisi berdasarkan imej yang diberikan, menyediakan penyelesaian kepada masalah yang ditunjukkan dalam imej, mengajar pengguna cara memasak berdasarkan foto makanan, dsb. Projek itu menerima hampir 10,000 bintang dalam masa 3 hari selepas pelancarannya.

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Projek yang akan kami perkenalkan hari ini - LLaVA (Large Language and Vision Assistant) adalah serupa dan merupakan projek yang dibangunkan oleh University of Wisconsin -Madison dan Microsoft Model berbilang modal besar yang dikeluarkan bersama oleh penyelidik dari Institut dan Universiti Columbia.

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Pautan kertas: https://arxiv.org/pdf/2304.08485.pdf
Pautan projek: https://llava-vl.github.io/

Model ini menunjukkan beberapa Imej dan keupayaan pemahaman teks hampir dengan GPT-4 berbilang modal: ia mencapai skor relatif 85.1% berbanding GPT-4. Apabila diperhalusi pada Science QA, sinergi LLaVA dan GPT-4 mencapai SoTA baharu dengan ketepatan 92.53%.

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Berikut ialah keputusan percubaan Heart of the Machine (lihat lebih banyak keputusan di akhir artikel):

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Paper Overview

Manusia berinteraksi dengan dunia melalui pelbagai saluran seperti penglihatan dan bahasa, kerana saluran yang berbeza mempunyai kelebihan tersendiri dalam mewakili dan menyampaikan konsep tertentu, cara berbilang saluran untuk lebih memahami dunia. Salah satu aspirasi teras kecerdasan buatan adalah untuk membangunkan pembantu sejagat yang boleh mengikut arahan berbilang modal dengan berkesan, seperti arahan visual atau lisan, memenuhi niat manusia, dan menyelesaikan pelbagai tugas dalam persekitaran sebenar.

Untuk tujuan ini, terdapat trend dalam komuniti untuk membangunkan model visual berdasarkan peningkatan bahasa. Model jenis ini mempunyai keupayaan hebat dalam pemahaman visual dunia terbuka, seperti pengelasan, pengesanan, pembahagian dan grafik, serta penjanaan visual dan keupayaan penyuntingan visual. Setiap tugasan diselesaikan secara bebas oleh model visual yang besar, dengan keperluan tugasan dipertimbangkan secara tersirat dalam reka bentuk model. Tambahan pula, bahasa digunakan hanya untuk menerangkan kandungan imej. Walaupun ini menjadikan bahasa memainkan peranan penting dalam memetakan isyarat visual kepada semantik linguistik (saluran biasa untuk komunikasi manusia), ia menghasilkan model yang selalunya mempunyai antara muka tetap dengan batasan dalam interaktiviti dan kebolehsuaian kepada arahan pengguna.

Model Bahasa Besar (LLM), sebaliknya, telah menunjukkan bahawa bahasa boleh memainkan peranan yang lebih luas: sebagai antara muka interaktif universal untuk pembantu pintar universal. Dalam antara muka biasa, pelbagai arahan tugasan boleh dinyatakan secara eksplisit dalam bahasa dan membimbing pembantu rangkaian saraf terlatih hujung-ke-hujung untuk menukar mod untuk menyelesaikan tugasan. Sebagai contoh, kejayaan ChatGPT dan GPT-4 baru-baru ini menunjukkan kuasa LLM dalam mengikut arahan manusia untuk menyelesaikan tugas dan mencetuskan gelombang pembangunan LLM sumber terbuka. Antaranya, LLaMA ialah LLM sumber terbuka dengan prestasi yang serupa dengan GPT-3. Alpaca, Vicuna, GPT-4-LLM menggunakan pelbagai sampel surih arahan berkualiti tinggi yang dihasilkan mesin untuk meningkatkan keupayaan penjajaran LLM, menunjukkan prestasi yang mengagumkan berbanding LLM proprietari. Malangnya, input kepada model ini adalah teks sahaja.

Dalam artikel ini, penyelidik mencadangkan kaedah penalaan arahan visual, yang merupakan percubaan pertama untuk melanjutkan penalaan arahan kepada ruang berbilang mod, membuka jalan untuk membina pembantu visual am.

Secara khusus, kertas kerja ini memberikan sumbangan berikut:

Data arahan berbilang mod. Salah satu cabaran utama hari ini ialah kekurangan data arahan visual dan lisan. Kertas kerja ini mencadangkan pendekatan penyusunan semula data menggunakan ChatGPT/GPT-4 untuk menukar pasangan teks imej ke dalam format arahan yang sesuai; Para penyelidik membangunkan model multimodal besar (LMM) - LLaVA - dengan menyambungkan pengekod visual sumber terbuka CLIP dan penyahkod bahasa LLaMA, dan melakukan penalaan halus hujung ke hujung pada data arahan visual-verbal yang dijana. Penyelidikan empirikal mengesahkan keberkesanan menggunakan data yang dijana untuk penalaan arahan LMM, dan menyediakan teknik yang lebih praktikal untuk membina arahan universal yang mengikut agen visual. Menggunakan GPT-4, kami mencapai prestasi terkini pada Science QA, set data inferens berbilang modal.
Sumber terbuka. Para penyelidik mengeluarkan aset berikut kepada orang ramai: data arahan berbilang modal yang dijana, perpustakaan kod untuk penjanaan data dan latihan model, pusat pemeriksaan model dan demonstrasi sembang visual.
LLaVA Architecture

Matlamat utama artikel ini adalah untuk menggunakan kuasa model LLM dan visi yang telah terlatih dengan berkesan. Seni bina rangkaian ditunjukkan dalam Rajah 1. Kertas kerja ini memilih model LLaMA sebagai LLM fφ(・) kerana keberkesanannya telah ditunjukkan dalam beberapa kerja penalaan arahan bahasa tulen sumber terbuka.

Untuk imej input X_v, artikel ini menggunakan pengekod visual CLIP terlatih ViT-L/14 untuk pemprosesan dan mendapatkan ciri visual Z_v=g ( X_v). Ciri mesh sebelum dan selepas lapisan Transformer terakhir digunakan dalam eksperimen. Artikel ini menggunakan lapisan linear ringkas untuk menyambungkan ciri imej ke dalam ruang pembenaman perkataan. Khususnya, matriks unjuran yang boleh dilatih W digunakan untuk mengubah Z_v menjadi token pembenaman bahasa H_q, yang mempunyai dimensi yang sama seperti ruang pembenaman perkataan dalam model bahasa: Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Selepas itu, satu siri penanda visual H_v diperolehi. Skim unjuran mudah ini adalah ringan, kos rendah dan boleh mengulangi dengan cepat pada eksperimen tertumpu data. Seseorang juga boleh mempertimbangkan skim yang lebih kompleks (tetapi mahal) untuk menggabungkan ciri imej dan bahasa, seperti mekanisme perhatian silang berpagar dalam Flamingo dan Q-bekas dalam BLIP-2, atau pengekod visual lain yang menyediakan ciri peringkat objek, seperti SAM. Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Hasil eksperimen

Bot sembang pelbagaimod

Pengkaji membangunkan produk contoh Robot sembang untuk menunjukkan pemahaman imej LLaVA dan keupayaan dialog. Untuk mengkaji lebih lanjut bagaimana LLaVA memproses input visual dan menunjukkan keupayaannya untuk memproses arahan, penyelidik mula-mula menggunakan contoh daripada kertas GPT-4 asal, seperti yang ditunjukkan dalam Jadual 4 dan 5. Gesaan yang digunakan perlu sesuai dengan kandungan imej. Sebagai perbandingan, artikel ini memetik gesaan dan keputusan model multimodal GPT-4 daripada kertas mereka.

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Anehnya, walaupun LLaVA dilakukan menggunakan set data arahan berbilang modal kecil ( (kira-kira 80K imej unik ), tetapi ia menunjukkan keputusan inferens yang hampir sama dengan model berbilang modal GPT-4 pada dua contoh di atas. Ambil perhatian bahawa kedua-dua imej berada di luar skop set data LLaVA, yang mampu memahami adegan dan menjawab arahan soalan. Sebaliknya, BLIP-2 dan OpenFlamingo menumpukan pada menerangkan imej dan bukannya menjawab arahan pengguna dengan cara yang sesuai. Lebih banyak contoh ditunjukkan dalam Rajah 3, Rajah 4, dan Rajah 5. Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Keputusan penilaian kuantitatif ditunjukkan dalam Jadual 3.

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

ScienceQA

ScienceQA mengandungi 21k pelbagai mod pelbagai pilihan Soalan , melibatkan 3 tema, 26 topik, 127 kategori dan 379 kemahiran, dengan kepelbagaian domain yang kaya. Set data penanda aras dibahagikan kepada bahagian latihan, pengesahan dan ujian dengan 12726, 4241 dan 4241 sampel masing-masing. Artikel ini membandingkan dua kaedah perwakilan, termasuk model GPT-3.5 (text-davinci-002) dan model GPT-3.5 tanpa versi Chain of Thought (CoT), LLaMA-Adapter dan Multimodal Thought Chain (MM- CoT) [57]. ], iaitu kaedah SoTA semasa pada set data ini, dan hasilnya ditunjukkan dalam Jadual 6.

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Maklum balas percubaan

Pada halaman penggunaan visualisasi yang diberikan dalam kertas, Machine Heart juga cuba memasukkan beberapa gambar dan arahan. Yang pertama ialah tugas berbilang orang biasa dalam Soal Jawab. Ujian telah menunjukkan bahawa sasaran yang lebih kecil diabaikan semasa mengira orang, terdapat ralat pengecaman untuk orang yang bertindih, dan terdapat juga ralat pengecaman untuk jantina.

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Seterusnya, kami mencuba beberapa tugas generasi, seperti menamakan gambar atau bercerita berdasarkan cerita bergambar. Hasil output oleh model masih berat sebelah ke arah memahami kandungan imej, dan keupayaan penjanaan perlu diperkukuh.

Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian

Dalam foto ini, bilangan orang masih boleh dikenal pasti dengan tepat walaupun mayat bertindih. Dari perspektif penerangan gambar dan keupayaan memahami, masih terdapat sorotan dalam karya artikel ini, dan terdapat ruang untuk penciptaan kedua.

Atas ialah kandungan terperinci Lava Alpaca LLaVA ada di sini: seperti GPT-4, anda boleh melihat gambar dan berbual, tiada kod jemputan diperlukan dan anda boleh bermain dalam talian. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7463

Tutorial CakePHP

1376

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Gunakan ddrescue untuk memulihkan data pada Linux Mar 20, 2024 pm 01:37 PM

DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Jun 11, 2024 am 09:51 AM

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

See all articles