. Time it is Innovation Works Siri "Yi" model besar sumber terbuka yang dilancarkan oleh Kai-Fu Lee, Pengerusi dan Ketua Pegawai Eksekutif syarikat model besar "Zero One Thousand Things". Dilaporkan bahawa Zero One Thousand Things telah ditubuhkan secara rasmi pada penghujung Mac tahun ini dan mula beroperasi pada bulan Jun dan Julai Dr. Kaifu Li ialah pengasas dan CEO.
Pada 6 November, Zero One Wagon secara rasmi mengeluarkan siri "Yi" model besar sumber terbuka pra-terlatih, termasuk versi Yi-6B dan Yi-34B, memberikan komuniti model besar sumber terbuka sedikit A kejutan kecil.”
Menurut senarai terkini platform komuniti sumber terbuka Bahasa Inggeris Hugging Face dan penilaian bahasa Cina C-Eval, model pra-latihan Yi-34B telah mencapai pelbagai pengiktirafan penunjuk prestasi terbaik antarabangsa SOTA dan telah menjadi "juara berganda " model besar sumber terbuka global. , mengalahkan produk pesaing sumber terbuka seperti LLaMA2 dan Falcon. Yi-34B juga telah menjadi satu-satunya model domestik setakat iniyang telah berjaya mengungguli senarai kedudukan model sumber terbuka global Hugging Face. Menggunakan pengetahuan kecil untuk mencapai puncak senarai model besar berwibawa Inggeris dan Cina global No. 1
Kami mengetahui bahawa dalam penarafan model sumber terbuka pra-latihan Pra-latihan pada Muka Memeluk Senarai awam ujian Bahasa Inggeris, Yi -34B berprestasi baik dalam pelbagai penunjuk, menduduki tempat pertama di dunia dengan skor 70.72 Ia kecil dan besar, menghancurkan banyak model bersaiz besar seperti LLaMA2-70B dan Falcon-180B
.
Dari segi parameter dan prestasi, Yi-34B adalah bersamaan dengan menggunakan kurang daripada separuh daripada parameter LLaMA2-70B dan satu perlima daripada parameter Falcon-180B Ia telah mengatasi peneraju global dalam pelbagai ujian tugasan. Dengan prestasi cemerlangnya, Yi-34B disenaraikan antara model asas sumber terbuka paling berkuasa di dunia. ... Model besar domestik, Kai-fu Lee berkata, Yi-34B "memahami" bahasa Cina dengan lebih baik, C-Eval mengatasi semua model sumber terbuka di dunia dalam senarai berwibawa Cina
Berbanding dengan GPT-4, raja terkuat bagi model besar, Yi-34B mempunyai kelebihan mutlak dalam tiga penunjuk utama Cina CMMLU, E-Eval, dan Gaokao, menonjolkan keupayaan cemerlangnya di dunia China dan menjadi mampu memenuhi permintaan pasaran Domestik dengan lebih baik. Dari sudut penilaian yang lebih komprehensif, antara pelbagai penilaian model besar global, set penilaian paling kritikal seperti "MMLU" (Massive Multitask Language Understanding) dan BBH mencerminkan keupayaan menyeluruh model tersebut ujian itu, Yi-34B menunjukkan prestasi yang paling cemerlang, memenangi semua penilaian pada pelbagai petunjuk seperti kebolehan umum, penaakulan pengetahuan dan kefahaman bacaan, yang sangat konsisten dengan penilaian Hugging Face.
Walau bagaimanapun, seperti LLaMA2, model besar sumber terbuka siri Yi berprestasi lebih buruk daripada model GPT dalam penilaian matematik dan kod GSM8k dan MBPP. Pada masa hadapan, siri model besar Yi akan melancarkan model latihan berterusan yang pakar dalam keupayaan pengekodan dan keupayaan matematik. Saiz tetingkap konteks melebihi 200k dan sumber terbuka terus Dari segi tetingkap konteks yang penting untuk kesan pertempuran sebenar model besar, sumber terbuka Yi-34B kali ini dikeluarkan Tetingkap konteks terpanjang dan paling disokong di dunia Versi tetingkap konteks ultra-panjang 200K boleh mengendalikan input teks ultra-panjang kira-kira 400,000 aksara Cina, yang secara kasarnya bersamaan dengan panjang buku "The Scholars". Sebagai perbandingan, tetingkap konteks GPT-4 OpenAI hanya 32K, dan volum pemprosesan teks ialah kira-kira 25,000 perkataan.
Bagaimana caranya? Difahamkan bahawa pasukan teknikal Zero-One Everything telah melaksanakan satu siri pengoptimuman, termasuk pertindihan komunikasi pengkomputeran, selari jujukan, pemampatan komunikasi, dsb. Melalui peningkatan keupayaan ini, peningkatan hampir 100 kali ganda dalam keupayaan dalam latihan model berskala besar dicapai. Perlu dinyatakan bahawa Zero One Wish ialah syarikat model besar pertama membuka sumber tetingkap konteks ultra panjang, membenarkan pembangun menggunakannya secara langsung.
Tetingkap konteks 200K Yi-34B ialah sumber terbuka terus, yang bukan sahaja menyediakan maklumat semantik yang lebih kaya, tetapi juga memahami dokumen PDF lebih daripada 1000 halaman, membenarkan banyak senario yang bergantung pada pangkalan data vektor membina pangkalan pengetahuan luaran untuk digunakan tetingkap konteks. Sifat sumber terbuka Yi-34B juga menyediakan lebih banyak kemungkinan untuk pembangun yang ingin memperhalusi dalam tetingkap konteks yang lebih panjang. Kaedah latihan model saintifik yang unik, kos latihan dikurangkan sebanyak 40%
Yi-34B sangat berkuasa, ini disebabkan oleh dua faktor utama berikut, iaitu pasukan AI Infra carian dan diri sendiri platform latihan Global skala
Kai-fu Lee berkata Zero-One telah menubuhkan pasukan AI Infra (AI Infrastructure) secara dalaman, yang bertanggungjawab terutamanya untuk latihan dan penggunaan model besar serta menyediakan pelbagai kemudahan teknikal asas, termasuk pemproses, sistem pengendalian, storan sistem, dan infrastruktur rangkaian, platform pengkomputeran awan, dll. telah menjadi "teknologi jaminan" yang sangat kritikal di sebalik latihan model siri Yi.
Dengan sokongan kuat AI Infra, pasukan Zero One Thing telah mencapai keputusan latihan yang melebihi tahap industri. Kos latihan model Yi-34B telah diukur untuk menurun sebanyak 40%
Perbezaan antara masa tamat latihan sebenar dan masa yang diramalkan adalah kurang daripada satu jam Simulasi selanjutnya boleh mengurangkan kos latihan sebanyak 50% kepada skala 100 bilion.
Pada masa yang sama, Lingyiwuwu telah merealisasikan transformasi daripada "alkimia meluas" kepada metodologi "latihan model saintifik".
Selepas beberapa bulan pemodelan dan percubaan, Lingyiwanwu telah membangunkan "platform percubaan latihan berskala besar" untuk membimbing reka bentuk dan pengoptimuman model. Perkadaran data, carian hiperparameter dan eksperimen struktur model semuanya boleh dilakukan pada platform percubaan berskala kecil, dan ralat ramalan setiap nod model 34B boleh dikawal dalam 0.5%. Model ini mempunyai keupayaan ramalan yang lebih kuat, yang mengurangkan banyak sumber yang diperlukan untuk eksperimen perbandingan dan mengurangkan pembaziran sumber pengkomputeran yang disebabkan oleh ralat latihan.
Pembinaan saluran paip pemprosesan data dan keupayaan latihan untuk meningkatkan ramalan berskala besar telah menjadikan proses "alkimia" latihan model besar sebelum ini sangat terperinci dan saintifik, yang bukan sahaja memastikan keluaran semasa Yi-34B, Yi - Prestasi tinggi model 6B juga mengurangkan masa dan kos untuk melatih model berskala besar pada masa hadapan, dan ia juga mempunyai keupayaan untuk mengembangkan skala model beberapa kali lebih pantas daripada industri.
Akhirnya, Kai-fu Lee juga mengumumkan bahawa semasa melengkapkan pra-latihan Yi-34B, latihan 100 bilion model parameter seterusnya telah dimulakan serta-merta. Dalam beberapa bulan akan datang, kami menjangkakan untuk melihat lebih banyak model susulan Yi dilancarkan. Atas ialah kandungan terperinci Kai-Fu Lee secara rasmi mengumumkan pelancaran model besar sumber terbuka 'paling berkuasa di dunia': memproses 400,000 aksara Cina, menduduki tempat pertama dalam kedua-dua bahasa Cina dan Inggeris. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!