


Apakah peningkatan yang ada pada GPT-4 berbanding ChatGPT? Jensen Huang mengadakan 'sembang tepi api' dengan pengasas bersama OpenAI
Perbezaan paling penting antara ChatGPT dan GPT-4 ialah ia dibina berdasarkan GPT-4 untuk meramalkan watak seterusnya dengan ketepatan yang lebih tinggi. Lebih baik rangkaian saraf boleh meramalkan perkataan seterusnya dalam teks, lebih baik ia boleh memahami teks.
Dihasilkan oleh Big Data Digest
Pengarang: Caleb
Apakah jenis percikan api yang akan dibuat oleh Nvidia apabila ia menemui OpenAI?
Sebentar tadi, pengasas dan Ketua Pegawai Eksekutif NVIDIA Jensen Huang mengadakan perbincangan mendalam dengan pengasas bersama OpenAI, Ilya Sutskever semasa sembang api unggun GTC.
Pautan video:
https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessinotallow=16566177511100015Kus #/session/1669748941314001t6Nv
Dua hari lalu, OpenAI melancarkan model kecerdasan buatan paling berkuasa setakat ini, GPT-4. OpenAI memanggil GPT-4 sebagai "sistem paling maju OpenAI" di tapak web rasminya dan "boleh menghasilkan respons yang lebih selamat dan lebih berguna."
Sutskever juga berkata semasa ceramah bahawa GPT-4 menandakan "peningkatan yang ketara" dalam banyak aspek berbanding ChatGPT, dengan menyatakan bahawa model baharu itu boleh membaca imej dan teks. "Dalam beberapa versi akan datang, [pengguna] mungkin mendapat carta" sebagai jawapan kepada soalan dan pertanyaan, katanya.
Tidak dinafikan bahawa dengan populariti ChatGPT dan GPT-4 pada skala global, ini juga menjadi tumpuan perbualan ini Selain GPT-4 dan pendahulunya termasuk topik berkaitan ChatGPT, Huang Renxun dan Sutskever juga bercakap tentang keupayaan, had dan operasi dalaman rangkaian saraf dalam, serta ramalan untuk pembangunan AI masa hadapan.
Mari kita lihat dengan lebih dekat perbualan ini dengan Digest Fungus~
Mulakan apabila tiada siapa yang mengambil berat tentang skala rangkaian dan skala pengkomputeran
Mungkin ramai orang Apabila saya mendengar Sutskever's nama, perkara pertama yang terlintas di fikiran ialah OpenAI dan produk AI yang berkaitan, tetapi anda mesti tahu bahawa resume Sutskever boleh dikesan kembali kepada postdoc Andrew Ng, saintis penyelidikan Google Brain dan pembangun bersama model Seq2Seq.
Boleh dikatakan pembelajaran mendalam telah terikat dengan Sutskever sejak awal.
Apabila bercakap tentang pemahamannya tentang pembelajaran mendalam, Sutskever berkata bahawa mulai sekarang, pembelajaran mendalam sememangnya telah mengubah dunia. Walau bagaimanapun, titik permulaan peribadinya lebih banyak terletak pada gerak hatinya tentang potensi impak besar AI, minatnya yang kuat dalam kesedaran dan pengalaman manusia, dan kepercayaannya bahawa pembangunan AI akan membantu menjawab soalan-soalan ini.
Sepanjang 2002-03, orang ramai secara amnya percaya bahawa pembelajaran adalah sesuatu yang hanya manusia boleh lakukan dan komputer tidak boleh belajar. Dan jika komputer boleh diberikan keupayaan untuk belajar, ia akan menjadi satu kejayaan besar dalam bidang AI.
Ini juga telah menjadi peluang bagi Sutskever untuk memasuki bidang AI secara rasmi.
Jadi Sutskever menemui Jeff Hinton dari universiti yang sama. Pada pandangannya, rangkaian saraf yang diusahakan oleh Hinton adalah satu kejayaan, kerana ciri-ciri rangkaian saraf terletak pada komputer selari yang boleh belajar dan diprogramkan secara automatik.
Pada masa itu, tiada siapa mengambil berat tentang kepentingan skala rangkaian dan skala pengiraan Orang hanya melatih 50 atau 100 rangkaian saraf, dan ratusan daripadanya sudah dianggap besar, dengan satu juta parameter Juga dianggap besar.
Selain itu, mereka hanya boleh menjalankan program pada kod CPU yang tidak dioptimumkan, kerana tiada siapa yang memahami BLAS Mereka menggunakan Matlab yang dioptimumkan untuk melakukan beberapa percubaan, seperti jenis soalan yang hendak digunakan untuk perbandingan.
Tetapi masalahnya ialah ini adalah eksperimen yang sangat tersebar dan tidak boleh benar-benar menggalakkan kemajuan teknologi.
Membina rangkaian saraf untuk penglihatan komputer
Pada masa itu, Sutskever menyedari bahawa pembelajaran diselia adalah jalan ke hadapan pada masa hadapan.
Ini bukan sahaja intuisi, tetapi juga fakta yang tidak dapat dipertikaikan. Jika rangkaian saraf cukup dalam dan cukup besar, ia akan mempunyai keupayaan untuk menyelesaikan beberapa tugas yang sukar. Tetapi orang ramai belum lagi menumpukan pada rangkaian neural yang mendalam dan besar, malah memberi tumpuan kepada rangkaian neural sama sekali.
Untuk mencari penyelesaian yang baik, set data besar yang sesuai dan banyak pengiraan diperlukan.
ImageNet ialah data itu. Pada masa itu, ImageNet adalah set data yang sangat sukar, tetapi untuk melatih rangkaian saraf konvolusi yang besar, anda mesti mempunyai kuasa pengkomputeran yang sepadan.
Seterusnya, tiba masanya untuk GPU muncul. Di bawah cadangan Jeff Hinton, mereka mendapati bahawa dengan kemunculan set data ImageNet, rangkaian saraf konvolusi adalah model yang sangat sesuai untuk GPU, jadi ia boleh dibuat dengan sangat pantas dan skala semakin besar dan lebih besar.
Selepas itu, ia secara langsung dan ketara memecahkan rekod penglihatan komputer Ini tidak berdasarkan kesinambungan kaedah sebelumnya.
OpenAI: Daripada 100 orang kepada ChatGPT
Pada hari-hari awal OpenAI, Sutskever mengakui bahawa mereka tidak pasti sepenuhnya cara mempromosikan projek itu.
Pada awal tahun 2016, rangkaian saraf tidak begitu berkembang dan terdapat ramai penyelidik yang lebih sedikit berbanding sekarang. Sutskever teringat bahawa hanya terdapat 100 orang dalam syarikat itu pada masa itu, dan kebanyakan mereka masih bekerja di Google atau DeepMind.
Tetapi mereka mempunyai dua idea besar pada masa itu.
Salah satunya ialah pembelajaran tanpa pengawasan melalui pemampatan. Pada tahun 2016, pembelajaran tanpa pengawasan merupakan masalah yang tidak dapat diselesaikan dalam pembelajaran mesin, dan tiada siapa yang tahu cara melaksanakannya. Pemampatan bukanlah topik yang biasa dibincangkan orang baru-baru ini, tetapi tiba-tiba semua orang menyedari bahawa GPT sebenarnya memampatkan data latihan.
Secara matematik, melatih model generatif autoregresif ini memampatkan data dan secara intuitif mungkin untuk melihat sebab ia berfungsi. Jika data dimampatkan dengan cukup baik, anda boleh mengekstrak semua maklumat tersembunyi yang terdapat di dalamnya. Ini juga secara langsung membawa kepada penyelidikan berkaitan OpenAI mengenai neuron emosi.
Pada masa yang sama, apabila mereka menyesuaikan LSTM yang sama untuk meramal watak seterusnya ulasan Amazon, mereka mendapati bahawa jika anda meramalkan watak seterusnya dengan cukup baik, akan ada neuron dalam LSTM yang sepadan dengan sentimennya. Ini adalah demonstrasi yang baik tentang kesan pembelajaran tanpa pengawasan dan juga mengesahkan idea ramalan watak seterusnya.
Tetapi di manakah anda mendapatkan data untuk pembelajaran tanpa pengawasan? Sutskever berkata titik kesakitan dengan pembelajaran tanpa pengawasan adalah kurang mengenai data dan lebih banyak tentang sebab anda melakukannya, dan menyedari bahawa melatih rangkaian saraf untuk meramalkan watak seterusnya patut diusahakan dan diterokai. Dari situ ia mempelajari representasi yang boleh difahami.
Satu lagi idea besar ialah pembelajaran pengukuhan. Sutskever sentiasa percaya bahawa lebih besar adalah lebih baik. Di OpenAI, salah satu matlamat mereka adalah untuk mengetahui cara yang betul untuk membuat skala.
Projek pertama yang sangat besar yang disiapkan OpenAI ialah pelaksanaan permainan strategi Dota 2. Pada masa itu, OpenAI melatih ejen pembelajaran pengukuhan untuk melawan dirinya sendiri Matlamatnya adalah untuk mencapai tahap tertentu dan boleh bermain permainan dengan pemain manusia.
Transformasi daripada pembelajaran pengukuhan Dota kepada pembelajaran pengukuhan maklum balas manusia yang digabungkan dengan asas teknologi output GPT telah menjadi ChatGPT hari ini.
Cara OpenAI melatih rangkaian saraf yang besar
Apabila melatih rangkaian saraf yang besar untuk meramal perkataan seterusnya dengan tepat dalam teks yang berbeza di Internet, perkara yang OpenAI lakukan ialah mempelajari Model dunia.
Ini kelihatan seperti kita hanya mempelajari korelasi statistik dalam teks, tetapi sebenarnya, mempelajari korelasi statistik ini boleh memampatkan pengetahuan ini dengan baik. Apa yang dipelajari oleh rangkaian saraf ialah beberapa ungkapan dalam proses menghasilkan teks Teks ini sebenarnya adalah peta dunia, jadi rangkaian saraf boleh mempelajari lebih banyak perspektif untuk melihat manusia dan masyarakat. Inilah yang sebenarnya dipelajari oleh rangkaian saraf dalam tugas meramal perkataan seterusnya dengan tepat.
Pada masa yang sama, lebih tepat ramalan perkataan seterusnya, lebih tinggi tahap pemulihan, dan lebih tinggi resolusi dunia yang diperoleh dalam proses ini. Ini adalah peranan fasa pra-latihan, tetapi ia tidak menjadikan rangkaian saraf berkelakuan seperti yang kita mahukan.
Apa yang sebenarnya cuba dilakukan oleh model bahasa ialah, jika saya mempunyai beberapa teks rawak di internet, bermula dengan beberapa awalan atau pembayang, apakah yang akan melengkapkannya.
Sudah tentu ia juga boleh mencari teks di Internet untuk diisi, tetapi ini bukan yang asalnya dibayangkan, jadi latihan tambahan diperlukan, iaitu penalaan halus, pembelajaran pengukuhan daripada guru manusia, dan bentuk lain Di mana bantuan AI boleh membantu.
Tetapi ini bukan tentang mengajar pengetahuan baru, tetapi tentang berkomunikasi dengannya dan menyampaikan kepadanya apa yang kita inginkan, yang juga merangkumi sempadan. Semakin baik proses ini dilakukan, semakin berguna dan boleh dipercayai rangkaian saraf, dan semakin tinggi kesetiaan sempadannya.
Mari kita bercakap tentang GPT-4 sekali lagi
Tidak lama selepas ChatGPT menjadi aplikasi dengan pengguna yang paling pesat berkembang, GPT-4 telah dikeluarkan secara rasmi.
Apabila bercakap tentang perbezaan antara kedua-duanya, Sutskever berkata bahawa GPT-4 telah mencapai peningkatan yang ketara dalam banyak dimensi berbanding ChatGPT.
Perbezaan paling penting antara ChatGPT dan GPT-4 ialah ia dibina berdasarkan GPT-4 untuk meramalkan watak seterusnya dengan ketepatan yang lebih tinggi. Lebih baik rangkaian saraf boleh meramalkan perkataan seterusnya dalam teks, lebih baik ia boleh memahami teks.
Sebagai contoh, jika anda membaca novel detektif, plotnya sangat kompleks, diselang-seli dengan banyak jalan cerita dan watak, dan terkubur dengan banyak petunjuk misteri. Dalam bab terakhir buku itu, detektif mengumpul semua petunjuk, memanggil semua orang bersama-sama, dan berkata bahawa sekarang dia akan mendedahkan siapa pelakunya, dan orang itu...
Inilah yang GPT-4 boleh meramal.
Orang mengatakan bahawa pembelajaran mendalam tidak boleh menaakul secara logik. Tetapi sama ada contoh ini atau beberapa perkara yang GPT boleh lakukan, ia menunjukkan tahap keupayaan penaakulan tertentu.
Sutskever membalas dengan mengatakan bahawa apabila kami mentakrifkan penaakulan logik, jika anda boleh memikirkannya dengan cara tertentu semasa membuat keputusan seterusnya, anda mungkin boleh mendapat jawapan yang lebih baik. Ia masih dapat dilihat sejauh mana rangkaian saraf boleh pergi, dan OpenAI masih belum memanfaatkan sepenuhnya potensinya.
Sesetengah rangkaian saraf sebenarnya sudah mempunyai keupayaan seperti ini, tetapi kebanyakannya tidak cukup dipercayai. Kebolehpercayaan adalah halangan terbesar untuk menjadikan model ini berguna, dan ia juga merupakan kesesakan utama model semasa. Ia bukan tentang sama ada model itu mempunyai keupayaan khusus, tetapi berapa banyak keupayaan yang dimilikinya.
Sutskever juga berkata bahawa GPT-4 tidak mempunyai fungsi carian terbina dalam apabila ia dikeluarkan Ia hanya alat yang baik yang boleh meramalkan perkataan seterusnya, tetapi boleh dikatakan bahawa ia mempunyai ini sepenuhnya keupayaan dan akan menjadikan carian lebih baik.
Satu lagi peningkatan ketara GPT-4 ialah tindak balas dan pemprosesan imej. Pembelajaran multimodal memainkan peranan penting di dalamnya. Sutskever mengatakan bahawa multimodality mempunyai dua dimensi yang pertama ialah multimodality berguna untuk rangkaian saraf, terutamanya penglihatan, selain itu, pengetahuan tentang dunia juga boleh dipelajari daripada imej.
Masa depan kecerdasan buatan
Mengenai penggunaan AI untuk melatih AI, Sutskever berkata bahawa bahagian data ini tidak boleh diabaikan.
Sukar untuk meramalkan perkembangan model bahasa pada masa hadapan, tetapi pada pandangan Sutskever, terdapat sebab yang kukuh untuk mempercayai bahawa bidang ini akan terus maju, dan AI akan terus mengejutkan manusia dengan kekuatannya di sempadan. daripada keupayaannya. Kebolehpercayaan AI ditentukan oleh sama ada ia boleh dipercayai, dan ia pasti akan mencapai tahap di mana ia boleh dipercayai sepenuhnya pada masa hadapan.
Jika ia tidak memahami sepenuhnya, ia juga akan memikirkannya dengan bertanya soalan, atau memberitahu anda bahawa ia tidak tahu Ini adalah kawasan di mana kebolehgunaan AI mempunyai kesan yang paling besar dan akan melihat yang paling hebat kemajuan pada masa hadapan.
Kini kita berhadapan dengan cabaran sedemikian, anda mahu rangkaian saraf meringkaskan dokumen yang panjang atau mendapatkan ringkasan, bagaimana untuk memastikan butiran penting tidak diabaikan? Jika sesuatu perkara itu jelas cukup penting sehingga setiap pembaca akan bersetuju mengenainya, maka kandungan yang diringkaskan oleh rangkaian saraf boleh diterima sebagai boleh dipercayai.
Perkara yang sama terpakai kepada sama ada rangkaian saraf dengan jelas mengikut niat pengguna.
Kita akan melihat lebih banyak lagi teknologi ini dalam tempoh dua tahun akan datang, menjadikan teknologi ini lebih dipercayai.
Laporan berkaitan:https://blogs.nvidia.com/blog/2023/03/22/sutskever-openai-gtc/
Atas ialah kandungan terperinci Apakah peningkatan yang ada pada GPT-4 berbanding ChatGPT? Jensen Huang mengadakan 'sembang tepi api' dengan pengasas bersama OpenAI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



DALL-E 3 telah diperkenalkan secara rasmi pada September 2023 sebagai model yang jauh lebih baik daripada pendahulunya. Ia dianggap sebagai salah satu penjana imej AI terbaik setakat ini, mampu mencipta imej dengan perincian yang rumit. Walau bagaimanapun, semasa pelancaran, ia adalah tidak termasuk

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Kaedah pembelajaran mendalam hari ini memberi tumpuan kepada mereka bentuk fungsi objektif yang paling sesuai supaya keputusan ramalan model paling hampir dengan situasi sebenar. Pada masa yang sama, seni bina yang sesuai mesti direka bentuk untuk mendapatkan maklumat yang mencukupi untuk ramalan. Kaedah sedia ada mengabaikan fakta bahawa apabila data input mengalami pengekstrakan ciri lapisan demi lapisan dan transformasi spatial, sejumlah besar maklumat akan hilang. Artikel ini akan menyelidiki isu penting apabila menghantar data melalui rangkaian dalam, iaitu kesesakan maklumat dan fungsi boleh balik. Berdasarkan ini, konsep maklumat kecerunan boleh atur cara (PGI) dicadangkan untuk menghadapi pelbagai perubahan yang diperlukan oleh rangkaian dalam untuk mencapai pelbagai objektif. PGI boleh menyediakan maklumat input lengkap untuk tugas sasaran untuk mengira fungsi objektif, dengan itu mendapatkan maklumat kecerunan yang boleh dipercayai untuk mengemas kini berat rangkaian. Di samping itu, rangka kerja rangkaian ringan baharu direka bentuk

Robot humanoid Ameca telah dinaik taraf kepada generasi kedua! Baru-baru ini, di Persidangan Komunikasi Mudah Alih Sedunia MWC2024, robot Ameca paling canggih di dunia muncul semula. Di sekitar venue, Ameca menarik sejumlah besar penonton. Dengan restu GPT-4, Ameca boleh bertindak balas terhadap pelbagai masalah dalam masa nyata. "Jom kita menari." Apabila ditanya sama ada dia mempunyai emosi, Ameca menjawab dengan beberapa siri mimik muka yang kelihatan sangat hidup. Hanya beberapa hari yang lalu, EngineeredArts, syarikat robotik British di belakang Ameca, baru sahaja menunjukkan hasil pembangunan terkini pasukan itu. Dalam video tersebut, robot Ameca mempunyai keupayaan visual dan boleh melihat serta menerangkan keseluruhan bilik dan objek tertentu. Perkara yang paling menakjubkan ialah dia juga boleh

Mengenai Llama3, keputusan ujian baharu telah dikeluarkan - komuniti penilaian model besar LMSYS mengeluarkan senarai kedudukan model besar Llama3 menduduki tempat kelima, dan terikat untuk tempat pertama dengan GPT-4 dalam kategori Bahasa Inggeris. Gambar ini berbeza daripada Penanda Aras yang lain Senarai ini berdasarkan pertempuran satu lawan satu antara model, dan penilai dari seluruh rangkaian membuat cadangan dan skor mereka sendiri. Pada akhirnya, Llama3 menduduki tempat kelima dalam senarai, diikuti oleh tiga versi GPT-4 dan Claude3 Super Cup Opus yang berbeza. Dalam senarai tunggal Inggeris, Llama3 mengatasi Claude dan terikat dengan GPT-4. Mengenai keputusan ini, ketua saintis Meta LeCun sangat gembira, tweet semula dan

Langkah pemasangan: 1. Muat turun perisian ChatGTP dari laman web rasmi ChatGTP atau kedai mudah alih 2. Selepas membukanya, dalam antara muka tetapan, pilih bahasa sebagai bahasa Cina 3. Dalam antara muka permainan, pilih permainan mesin manusia dan tetapkan Spektrum bahasa Cina; 4 Selepas memulakan, masukkan arahan dalam tetingkap sembang untuk berinteraksi dengan perisian.

Kelantangan gila, kelantangannya gila, dan model besar telah berubah lagi. Baru-baru ini, model AI paling berkuasa di dunia bertukar tangan dalam sekelip mata, dan GPT-4 ditarik dari altar. Anthropic mengeluarkan siri model Claude3 terbaharu Satu penilaian ayat: Ia benar-benar menghancurkan GPT-4! Dari segi penunjuk kebolehan berbilang modal dan bahasa, Claude3 menang. Dalam kata-kata Anthropic, model siri Claude3 telah menetapkan penanda aras industri baharu dalam penaakulan, matematik, pengekodan, pemahaman dan penglihatan berbilang bahasa! Anthropic ialah syarikat permulaan yang ditubuhkan oleh pekerja yang "membelot" daripada OpenAI kerana konsep keselamatan yang berbeza Produk mereka telah berulang kali memukul OpenAI. Kali ini, Claude3 juga menjalani pembedahan besar.

Alamat kertas: https://arxiv.org/abs/2307.09283 Alamat kod: https://github.com/THU-MIG/RepViTRepViT berprestasi baik dalam seni bina ViT mudah alih dan menunjukkan kelebihan yang ketara. Seterusnya, kami meneroka sumbangan kajian ini. Disebutkan dalam artikel bahawa ViT ringan biasanya berprestasi lebih baik daripada CNN ringan pada tugas visual, terutamanya disebabkan oleh modul perhatian diri berbilang kepala (MSHA) mereka yang membolehkan model mempelajari perwakilan global. Walau bagaimanapun, perbezaan seni bina antara ViT ringan dan CNN ringan belum dikaji sepenuhnya. Dalam kajian ini, penulis menyepadukan ViT ringan ke dalam yang berkesan
