Dihasilkan oleh Kumpulan Teknologi Huxiu
Pengarang|Qi Jian
Editor|Chen Yifan
Imej pengepala|FlagStudio
"Adakah OpenAI akan membuka model besar sumber semula?"
Apabila Zhang Hongjiang, Pengerusi Institut Penyelidikan Zhiyuan, bertanya kepada Ketua Pegawai Eksekutif OpenAI Sam Altman, yang menghadiri Persidangan Zhiyuan 2023 dalam talian, tentang isu sumber terbuka, Sam Altman tersenyum dan berkata, OpenAI akan membuka lebih banyak kod pada masa hadapan, tetapi terdapat tiada jadual sumber terbuka khusus.
Perbincangan sebegini datang dari salah satu topik Persidangan Hikmah ini - Model besar sumber terbuka.
Pada 9 Jun, Persidangan Zhiyuan 2023 telah diadakan di Beijing, dan semua tempat duduk penuh sesak. Pada persidangan itu, perkataan berkaitan AI seperti "kuasa pengkomputeran", "model besar" dan "ekologi" muncul dari semasa ke semasa dalam sembang peserta, serta pelbagai syarikat dalam rantaian industri ini.
Pada persidangan ini, Institut Penyelidikan Zhiyuan mengeluarkan sumber terbuka komprehensif Wu Dao 3.0. Termasuk Siri model besar visual "Vision", siri model besar bahasa "Sky Eagle" dan sistem penilaian model besar asal "Libra".
Sumber terbuka model besar bermakna menjadikan kod model awam untuk dipelajari oleh pembangun AI. Model bahasa lapisan asas "Sky Eagle" dalam Wu Dao 3.0 masih merupakan model yang tersedia secara komersial, dan semua orang boleh menggunakan model besar ini secara percuma.
Pada masa ini, rakan kongsi mendalam Microsoft OpenAI, Google dan BAAI adalah tiga institusi di barisan hadapan dalam bidang kecerdasan buatan. "Dalam temu bual baru-baru ini, Presiden Microsoft Brad Smith menyebut BAAI, institusi penyelidikan AI "terkuat" di China, yang terkenal seperti OpenAI dan Google. Institusi ini ialah Institut Penyelidikan Kepintaran Buatan Beijing Zhiyuan. Ramai orang dalam industri percaya bahawa , persidangan kecerdasan buatan yang dianjurkan oleh institut ini adalah penanda aras untuk trend industri
.Institut Penyelidikan Chiyuan, yang sangat diiktiraf oleh presiden Microsoft, telah melancarkan projek "Pencerahan" model besar AI seawal Oktober 2020, dan telah mengeluarkan dua versi model Enlightenment 1.0 dan 2.0. Skala parameter Enlightenment 2.0 yang diumumkan secara rasmi mencapai 1.7 trilion. Pada masa itu, baru setahun OpenAI mengeluarkan model GPT-3 175 bilion parameter.
Walau bagaimanapun, perintis model AI besar sebegini sangat rendah semasa kegilaan model besar AI sejak enam bulan lalu.
Sementara model besar muncul satu demi satu di kalangan pengeluar utama dan syarikat permulaan, Zhiyuan kekal "diam" kepada dunia luar selama lebih daripada tiga bulan, kecuali "SegGPT" yang bertembung dengan potongan AI "SAM" Meta pada awal April , hampir tiada maklumat tentang model AI besar telah didedahkan kepada umum.
Dalam hal ini, ramai orang di dalam dan di luar industri AI mempunyai soalan Mengapa Institut Penyelidikan Zhiyuan, peneraju dalam bidang model besar AI, nampaknya lewat dalam kemuncak model besar?
Adakah model sumber terbuka akan meruntuhkan parit OpenAI?
"Walaupun persaingan untuk model besar kini sengit, OpenAI mahupun Google tidak mempunyai parit, kerana 'sumber terbuka' semakin meningkat dalam bidang model besar AI
Dalam dokumen yang dibocorkan oleh Google, penyelidik dalaman Google percaya bahawa model sumber terbuka mungkin menerajui masa depan pembangunan model besar Dokumen tersebut menyebut bahawa “Model sumber terbuka mempunyai lelaran yang lebih pantas, kebolehubahsuaian yang lebih kukuh dan lebih banyak lagi Ada privasi dan orang akan menang. t membayar untuk model terhad apabila alternatif percuma dan tidak terhad mempunyai kualiti yang sama ” Ini mungkin salah satu sebab mengapa Intelligent Source memilih untuk membangunkan model besar sumber terbuka.
Pada masa ini, tidak banyak model besar komersial sumber terbuka yang menjalankan tinjauan ke atas beberapa model besar AI yang telah dikeluarkan Di antara 39 model besar bahasa sumber terbuka yang dikeluarkan di luar negara, 16 tersedia secara komersial. . Antara 28 model bahasa besar yang dikeluarkan di China, sejumlah 11 adalah model sumber terbuka, tetapi hanya satu daripadanya adalah model sumber terbuka dan tersedia secara komersial.
Model bahasa besar yang dikeluarkan oleh Zhiyuan kali ini ialah model sumber terbuka dan tersedia secara komersil Ia juga merupakan salah satu daripada beberapa model bahasa besar sumber terbuka yang kini tersedia untuk kegunaan komersil. Ini juga menentukan bahawa model sedemikian perlu lebih berhati-hati sebelum ini melepaskannya.
“Setakat Zhiyuan, kami pastinya tidak mahu model sumber terbuka terlalu hodoh, jadi kami akan mengeluarkannya dengan berhati-hati.” Seorang penyelidik AI di persidangan Zhiyuan berkata bahawa model sumber terbuka sudah semestinya perlu disahkan berulang kali dan pepijat diambil oleh sebilangan besar pembangun Untuk memastikan Berkenaan kualiti model sumber terbuka, kemajuan penyelidikan dan pembangunan Zhiyuan mungkin telah diperlahankan oleh "sumber terbuka".
Huang Tiejun, Presiden Institut Penyelidikan Zhiyuan, percaya bahawa sumber terbuka dan keterbukaan model besar semasa dalam pasaran negara kita adalah jauh dari mencukupi “Kita harus mengukuhkan lagi sumber terbuka dan sumber terbuka juga merupakan persaingan . Jika terdapat piawaian yang benar-benar baik dan algoritma yang baik, letakkannya untuk penilaian Hanya dengan membandingkan anda boleh membuktikan tahap teknikal anda ”
.Terdapat kekurangan ketelusan apabila pengeluar domestik mengeluarkan model besar, dan ramai orang meragui sama ada pengeluar ini benar-benar menjalankan penyelidikan dan pembangunan bebas. Sesetengah orang mengatakan bahawa mereka memanggil ChatGPT melalui API, manakala yang lain mengatakan bahawa mereka menggunakan model LLaMA yang dibocorkan oleh Meta + data jawapan ChatGPT untuk melatihnya Model sumber terbuka memotong keraguan ini daripada sumber.
Walau bagaimanapun, Model sumber terbuka dan mempertingkatkan ketelusan teknikal bukanlah untuk membuktikan seseorang itu tidak bersalah, tetapi untuk benar-benar "menumpukan usaha untuk melakukan perkara besar". Menurut data Zhiyuan, kos latihan harian Model Bahasa Besar Tianying adalah lebih daripada 100,000 yuan Di bawah trend umum "Perang 100 Model" domestik atau pun "Perang 1,000 Model", banyak industri menjalankan aktiviti besar. bilangan latihan berulang yang tidak perlu, mengakibatkan perbelanjaan berulang mungkin sangat besar.
Model sumber terbuka boleh mengurangkan latihan berulang Bagi syarikat yang mempunyai keperluan model, menggunakan sumber terbuka dan model AI besar yang tersedia secara komersial dan menggabungkan data mereka sendiri untuk latihan mungkin merupakan penyelesaian terbaik untuk pelaksanaan AI dan aplikasi industri.
Satu lagi pertimbangan sumber terbuka adalah untuk mengumpulkan pengguna dan pembangun pada peringkat awal untuk membina ekosistem yang baik dan mencapai pengkomersilan masa hadapan. Pengasas syarikat model domestik yang besar memberitahu Huxiu, "GPT-1 dan GPT-2 OpenAI adalah kedua-dua model besar sumber terbuka Ini adalah untuk mengumpul pengguna dan meningkatkan pengiktirafan model setelah keupayaan model GPT-3 sepenuhnya Selepas muncul, pengkomersilan akan menjadi tumpuan, dan model ini secara beransur-ansur akan ditutup Oleh itu, model sumber terbuka secara amnya tidak akan dibenarkan untuk dikomersialkan ini juga disebabkan oleh pertimbangan pengkomersialan seterusnya
Tetapi jelas sekali, sebagai institusi penyelidikan bukan untung, Zhiyuan tidak mempunyai pertimbangan komersil apabila melibatkan isu sumber terbuka. Bagi Zhiyuan, dari segi model sumber terbuka, di satu pihak, ia berharap dapat mempromosikan penyelidikan saintifik dan inovasi dalam industri model besar AI dan mempercepatkan pelaksanaan industri dengan membuka sumber terbuka seperti model asas. Sebaliknya, anda juga mungkin ingin mengumpul lebih banyak maklum balas pengguna berdasarkan model sumber terbuka dan meningkatkan kebolehgunaan model besar dalam kejuruteraan.Walau bagaimanapun, model sumber terbuka tidak "sempurna".
Seorang pengarah teknikal AI sebuah kilang utama memberitahu Huxiu bahawa pasaran pengkomersilan semasa untuk model AI yang besar boleh dibahagikan kepada tiga peringkat Peringkat pertama adalah untuk pemain terkemuka yang berkebolehan sepenuhnya untuk model yang dibangunkan sendiri, dan peringkat kedua adalah untuk. mereka yang perlu membangunkan model berdasarkan keperluan khusus Bagi perusahaan yang melatih model proprietari berdasarkan senario, lapisan ketiga adalah untuk pelanggan bersaiz kecil dan sederhana yang hanya memerlukan keupayaan model umum dan boleh menggunakan panggilan API untuk memenuhi keperluan mereka.
Dalam konteks ini, model sumber terbuka boleh membantu pemain terkemuka dengan keupayaan penyelidikan sendiri menjimatkan banyak masa dan kos dalam membangunkan model. Tetapi untuk syarikat peringkat kedua dan ketiga, mereka perlu menubuhkan pasukan teknikal mereka sendiri untuk melatih dan menyesuaikan model Bagi kebanyakan syarikat yang kurang kekuatan teknikal, ini akan menjadikan proses pelaksanaan lebih rumit, terbuka sumber nampaknya mempunyai beberapa perasaan "perkara percuma adalah yang paling mahal" kepada mereka.
"Pencerahan" ini bukan lagi "pencerahan" itu
Zhiyuan's Enlightenment 3.0 ialah siri model berskala besar yang dibangunkan semula sepenuhnya
Ini juga merupakan salah satu sebab untuk "pelepasan lewat".Memandangkan kita sudah mempunyai asas Enlightenment 2.0, mengapakah Zhiyuan perlu membangunkan sistem model baharu? Di satu pihak, ia adalah pelarasan arah teknikal model, dan sebaliknya, ia disebabkan oleh "penggantian" data latihan asas model.
"Wudao 2.0 akan dibangunkan pada tahun 2021, jadi sama ada model bahasa (seperti GLM) atau model graf Vincentian (seperti CogView), seni bina algoritma yang berasaskannya adalah agak awal mulai sekarang. Pada masa lalu tahun atau lebih, Seni bina model dalam bidang berkaitan telah menjalani lebih banyak pengesahan atau evolusi Contohnya, seni bina penyahkod sahaja yang digunakan dalam model bahasa telah membuktikan bahawa data yang lebih berkualiti boleh diperolehi dalam model asas dengan prestasi Penjanaan berskala besar model graf teks, kami beralih kepada penyebaran untuk inovasi selanjutnya, jadi dalam Wu Dao 3.0, kami menggunakan seni bina yang dikemas kini untuk model bahasa besar dan model penjanaan graf teks besar " Lin Yonghua, timbalan pengarah dan ketua jurutera Institut Penyelidikan Zhiyuan, berkata berdasarkan penyelidikan model lepas, Wu Dao 3.0 telah dibina semula dalam pelbagai arah.
Selain itu, Wudao 3.0 juga telah mengoptimumkan dan menaik taraf data latihan model asas Data Wudao Chinese yang dikemas kini telah digunakan dalam data latihan, termasuk dari 2021 hingga sekarang, dan telah menjalani pembersihan kualiti yang lebih ketat sisi lain, meningkat Sebilangan besar Cina berkualiti tinggi, termasuk buku Cina, kesusasteraan, dll. Selain itu, set data kod berkualiti tinggi telah ditambah, jadi model asas juga telah mengalami perubahan besar.
Data latihan model asas bukan bahasa Cina asli, menyebabkan banyak model domestik menghadapi masalah dengan keupayaan pemahaman bahasa Cina. Banyak model AI berskala besar di dalam dan luar negara menggunakan data sumber terbuka besar-besaran dari luar negara untuk latihan. Sumber utama termasuk set data sumber terbuka yang terkenal Common Crawl. Zhiyuan menganalisis 1 juta data halaman web Common Crawl dan
39,052 halaman web Cina boleh diekstrak. Dari perspektif sumber laman web, terdapat 25,842 laman web yang boleh mengekstrak bahasa Cina, di mana hanya 4,522 mempunyai IP di tanah besar China, menyumbang hanya 17%.Ini bukan sahaja mengurangkan ketepatan data Cina, tetapi juga mengurangkan keselamatan.
"Korpus yang digunakan untuk melatih model asas sebahagian besarnya akan menjejaskan pematuhan, keselamatan dan nilai yang dijana oleh aplikasi AIGC, model yang diperhalusi dan kandungan lain berkata bahawa keupayaan Cina bagi model asas Tianying bukanlah a terjemahan mudah, tetapi cukup Banyak pengetahuan bahasa Cina "ditekan ke dalam model ini".
Pada masa yang sama, melalui sejumlah besar pemprosesan dan pembersihan data dan nombor yang diperhalusi, model dengan prestasi yang sama atau lebih baik boleh dilatih dengan jumlah data yang kecil malah boleh serendah 30% atau 40% daripada jumlah data Teruskan atau melebihi model sumber terbuka sedia ada.Sekarang nampaknya laluan ini mungkin penyelesaian yang lebih baik untuk Zhiyuan. Kerana dari segi data latihan, Zhiyuan mempunyai kekurangan berbanding pengeluar Internet. Syarikat Internet yang besar mempunyai data interaksi pengguna yang kaya dan sejumlah besar data hak cipta untuk latihan. Tidak lama dahulu, Alibaba Damo Academy baru sahaja mengeluarkan set data bahasa video, Youku-mPLUG, di mana semua kandungannya datang daripada Youku, platform video yang dimiliki oleh Alibaba.
Memandangkan
Zhiyuan tidak mempunyai pangkalan pengguna yang mendalam, dari segi data latihan, ia hanya boleh mendapatkan kebenaran melalui rundingan dengan pemilik hak cipta, dan mengumpul serta mengumpulnya sedikit demi sedikit melalui beberapa projek data kebajikan awam.
Walau bagaimanapun, pada masa ini, set data Cina Zhiyuan hanya boleh menjadi sebahagian daripada sumber terbuka Sebab utama adalah hak cipta data Cina tersebar di tangan pelbagai institusi Pada masa ini, data latihan Zhiyuan diperoleh melalui penyelarasan pelbagai pihak untuk model sumber terbuka Menyelidik akses terbuka. Kebanyakan data hanya boleh digunakan pada model Zhiyuan dan tidak mempunyai hak untuk digunakan untuk kegunaan kedua."
Adalah sangat perlu di China untuk mewujudkan pakatan industri untuk set data, menyatukan pemegang hak cipta dan menjalankan perancangan bersatu data latihan untuk kecerdasan buatan, tetapi ini memerlukan kebijaksanaan reka bentuk peringkat atasan. " Lin Yonghua memberitahu Huxiu .
Akademi Tentera Whampoa dalam industri model besar domestikEnlightenment 3.0 menceritakan kisah yang berbeza daripada Enlightenment 2.0, dan perubahan dalam pasukan R&D adalah salah satunya. Sebagai perintis dalam industri model besar AI, Institut Penyelidikan Zhiyuan adalah seperti Akademi Tentera Whampoa model besar AI domestik.
Daripada sarjana Zhiyuan kepada jurutera akar umbi, mereka semua telah menjadi popular dalam industri dalam kegilaan model besar hari ini Pasukan asal Zhiyuan juga telah mengeram beberapa pasukan keusahawanan model besar.
Sebelum Wudao 3.0, siri model besar adalah gabungan hasil penyelidikan yang dikeluarkan bersama oleh pelbagai makmal luaran, tetapi kali ini Wudao 3.0 ialah siri model yang dibangunkan sendiri oleh pasukan Zhiyuan.Model Wudao 2.0 dikeluarkan pada tahun 2021, termasuk Wenyuan, Wenlan, Wenhui dan Wensu. Antaranya, dua model teras telah disiapkan oleh dua makmal Universiti Tsinghua. Hari ini, kedua-dua pasukan telah mengasaskan syarikat mereka sendiri dan membangunkan produk bebas mereka sendiri dalam hala tuju penyelidikan dan pembangunan CPM dan GLM.
Antaranya, Makmal Kejuruteraan Pengetahuan (KEG) Universiti Tsinghua, pasukan R&D utama GLM, melancarkan model sumber terbuka ChatGLM-6B bersama-sama dengan Zhipu AI, yang telah diiktiraf secara meluas oleh industri, pasukan R&D utama CPM Sains Komputer Universiti Tsinghua Teknologi Shenyan, yang dianggotai oleh beberapa ahli Makmal Pengkomputeran Bahasa Asli dan Kemanusiaan Sosial (THUNLP), telah digemari oleh pelbagai ibu negara sejak penubuhannya setahun lalu dalam dua pusingan pembiayaan tahun ini , Tencent Investment, Sequoia China, dan Qiji Chuangtan serta dana lain.
Seorang yang rapat dengan Institut Penyelidikan Zhiyuan memberitahu Huxiu,
Sejak kemunculan model berskala besar AI domestik, pasukan Zhiyuan telah menjadi "sasaran memburu" dalam perang bakat "Seluruh pasukan R&D telah disasarkan oleh syarikat lain atau pemburu kepala."
Dalam industri model besar AI domestik semasa, yang paling kurang ialah wang, dan yang paling kurang ialah manusia. Cari ChatGPT di tiga platform Liepin, Maimai dan BOSS Zhipin Gaji bulanan untuk jawatan dengan ijazah sarjana dan doktor falsafah biasanya lebih tinggi daripada 30,000, dan yang tertinggi ialah 90,000. "Syarikat IT yang besar tidak mengambil banyak kelebihan dari segi gaji. Penyelidikan dan pembangunan model AI yang besar semuanya dilakukan pada tahap yang tinggi, dan gaji yang ditawarkan oleh syarikat permulaan mungkin lebih kompetitif." , memberitahu Huxiu bahawa bakat Perang akan menjadi semakin sengit dalam industri AI.“Gaji berganda sama sekali tidak kompetitif pada pendapat ramai pekerja di Zhiyuan Kerana sekarang mereka memburu orang dengan gaji lima kali atau sepuluh kali ganda Tidak kira betapa ideal anda dan bagaimana anda merancang untuk masa depan Tahan godaan gaji tahunan melebihi satu juta "Seorang yang rapat dengan Zhiyuan memberitahu Huxiu,
Memandangkan Zhiyuan adalah institusi penyelidikan bukan untung, tahap gaji adalah sukar untuk dipadankan dengan syarikat Internet atau syarikat permulaan. sejumlah besar modal di belakang mereka berbanding dengan.
Melalui pencarian kepala, Huxiu mengetahui bahawa gaji permulaan pakar pemprosesan bahasa semula jadi kini melebihi 1 juta. Bagi sesetengah pekerja yang bekerja lama dan bergaji rendah, sukar untuk tidak goyah apabila berhadapan dengan gaji berkali-kali ganda.Namun, berdasarkan data awam semasa Institut Penyelidikan Zhiyuan, kebanyakan ketua pasukan projek teras Institut Penyelidikan Zhiyuan masih bertanggungjawab untuk projek penyelidikan dan pembangunan Institut Penyelidikan Zhiyuan sepenuh masa.
“
Model Wu Dao 3.0 semuanya dibangunkan oleh penyelidik Zhiyuan sendiri, termasuk Tianying, Libra dan Vision.” Lin Yonghua berkata bahawa kekuatan R&D semasa Institut Penyelidikan Zhiyuan sentiasa berada di kedudukan teratas dalam industri.
Mereka yang sedang berubah dan ingin mengubah dunia ada di APP Huxiu
Atas ialah kandungan terperinci Mengapakah model besar institut penyelidikan AI yang paling berkuasa di China terlambat?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!