Syarikat AI Kai-Fu Lee, Zero One, mempunyai seorang lagi pemain model besar di tempat kejadian:
9 bilion parameter Yi-9B.
Ia dikenali sebagai "Juara Sains" dalam siri Yi Ia "menebus" matematik kod tanpa ketinggalan dalam keupayaan komprehensif.
Berprestasi terbaik antara satu siri model sumber terbuka skala yang serupa (termasuk Mistral-7B, SOLAR-10.7B, Gemma-7B, DeepSeek-Coder-7B-Base-v1.5, dll.) .
Peraturan lama, keluaran bermaksud sumber terbuka, terutamanya mesra kepada pembangun:
Yi-9B (BF 16) dan versi kuantitatifnya Yi-9B (Int8) boleh digunakan pada kad grafik gred pengguna
RTX 4090 atau RTX 3090 sudah memadai.
Keluarga Yi Zero One Thousand Things sebelum ini telah mengeluarkan siri Yi-6B dan Yi-34B.
Kedua-dua mereka telah dilatih terlebih dahulu pada data Cina dan Inggeris token 3.1T, dan Yi-9B telah dilatih atas dasar ini dengan menambah token 0.8T.
Tarikh akhir untuk data ialah Jun 2023.
Telah disebut pada mulanya bahawa peningkatan terbesar Yi-9B terletak pada matematik dan pengekodan, jadi bagaimanakah kedua-dua kebolehan ini boleh dipertingkatkan?
Pengenalan Sifar Satu Ribu Perkara:
Hanya menambah jumlah data tidak dapat memenuhi jangkaan.
bergantung pada mula-mula meningkatkan saiz model kepada 9B berdasarkan Yi-6B, dan kemudian melakukan latihan tambahan data berbilang peringkat .
Pertama sekali, bagaimana untuk meningkatkan saiz model?
Satu premis ialah pasukan yang ditemui melalui analisis:
Yi-6B telah dilatih sepenuhnya, dan kesan latihan mungkin tidak bertambah baik tidak kira berapa banyak lagi token yang ditambahkan, jadi ia dianggap untuk mengembangkan saiznya. (Unit dalam gambar di bawah bukan TB tetapi B)
Bagaimana untuk meningkatkannya? Jawapannya ialah penguatan mendalam.
Pengenalan kepada Zero One Thousand Things:
Memperluaskan lebar model asal akan membawa lebih banyak kehilangan prestasi Selepas penguatan kedalaman model dengan memilih lapisan yang sesuai, kosinus input/output lapisan baharu akan lebih hampir kepada 1.0. , iaitu, lebih banyak prestasi model yang dikuatkan dapat mengekalkan prestasi model asal, semakin kecil kehilangan prestasi model.
Mengikut idea ini, Zero Yiwu memilih untuk menyalin 16 lapisan yang agak belakang (lapisan 12-28) Yi-6B untuk membentuk 48 lapisan Yi-9B.
Eksperimen menunjukkan bahawa kaedah ini mempunyai prestasi yang lebih baik daripada menggunakan model Solar-10.7B untuk menyalin 16 lapisan tengah (lapisan 8-24) .
Kedua, apakah kaedah latihan pelbagai peringkat?
Jawapannya ialah tambahkan dahulu data 0.4T yang mengandungi teks dan kod, tetapi nisbah data adalah sama dengan Yi-6B.
Kemudian tambahkan lagi 0.4T data, yang juga termasuk teks dan kod, tetapi memfokuskan pada meningkatkan perkadaran kod dan data matematik.
(Difahamkan, ia sama seperti helah kami "berfikir langkah demi langkah" dalam bertanya soalan tentang model besar)
Selepas dua langkah ini selesai, pasukan masih merujuk kepada dua kertas (An Empirical Model of Large- Latihan Kelompok dan Jangan Merosot Kadar Pembelajaran, Tingkatkan Saiz Kelompok), dan mengoptimumkan kaedah pelarasan parameter.
Maksudnya, bermula dari kadar pembelajaran tetap, setiap kali kehilangan model berhenti menurun, saiz kelompok dipertingkatkan supaya penurunan tidak terganggu dan model belajar dengan lebih lengkap.
Akhirnya, Yi-9B sebenarnya mengandungi sejumlah 8.8 bilion parameter, mencapai panjang konteks 4k.
Dalam ujian sebenar, Zero Yiwu menggunakan kaedah penjanaan penyahkodan tamak (iaitu, memilih perkataan dengan nilai kebarangkalian tertinggi setiap kali) untuk ujian.
Model yang mengambil bahagian ialah DeepSeek-Coder, DeepSeek-Math, Mistral-7B, SOLAR-10.7B dan Gemma-7B:
(1)DeepSeek-Coder, daripada syarikat carian dalam domestik, arahan 33B Penilaian manusia bagi versi yang ditala melebihi GPT-3.5-turbo, dan prestasi versi 7B boleh mencapai prestasi CodeLlama-34B.
DeepSeek-Math adalah bergantung pada parameter 7B untuk membatalkan GPT-4, mengejutkan seluruh komuniti sumber terbuka.
(2)SOLAR-10.7BUpstage AI dari Korea Selatan, lahir pada Disember 2023, mengatasi Mixtral-8x7B-Instruct dalam prestasi.
(3)Mistral-7B ialah model besar KPM sumber terbuka pertama, mencapai atau bahkan melepasi tahap Llama 2 70B dan GPT-3.5.
(4)Gemma-7BDari Google, Zero One Wanwu menegaskan:
Jumlah parameter berkesan sebenarnya pada tahap yang sama dengan Yi-9B.
(Standard penamaan kedua-duanya adalah berbeza. Yang pertama hanya menggunakan parameter Non-Embedding, manakala yang kedua menggunakan semua parameter dan membulatkannya)
Hasilnya adalah seperti berikut.
Pertama sekali, dari segi tugas pengekodan, prestasi Yi-9B adalah yang kedua selepas DeepSeek-Coder-7B, dan empat yang lain semuanya KO.
Dari segi keupayaan matematik, prestasi Yi-9B berada di tempat kedua selepas DeepSeek-Math-7B, mengatasi empat yang lain.
Keupayaan keseluruhan juga tidak teruk.
Prestasinya adalah yang terbaik dalam kalangan model sumber terbuka dengan saiz yang sama, mengatasi semua lima pemain lain.
Akhirnya, kebolehan akal dan penaakulan diuji:
Hasilnya ialah Yi-9B setanding dengan Mistral-7B, SOLAR-10.7B dan Gemma-7B.
Dan kebolehan bahasa, bukan sahaja bahasa Inggeris yang bagus, tetapi bahasa Cina juga dipuji ramai:
Akhirnya, selepas membaca ini, beberapa netizen berkata: Saya tidak sabar untuk mencubanya.
Sesetengah orang bimbang tentang DeepSeek:
Cepat dan kuatkan "permainan" anda. Penguasaan total telah hilang==
Portal ada di sini: https://huggingface.co/01-ai/Yi-9B
Atas ialah kandungan terperinci Kad grafik gred pengguna tersedia! Li Kaifu mengeluarkan dan membuka sumber model Yi 9 bilion parameter, yang mempunyai keupayaan matematik kod terkuat dalam sejarah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!