チームの新しいモデルは、複数のベンチマークにおいて Gemini Pro および GPT-3.5 に匹敵します。
AI の大規模モデルの方向性に関する論文をよく読む人なら、Yi Tay はよく知られた名前に違いありません。 Google Brain の元上級研究員として、Yi Tay は、PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI など、多くの有名な大規模言語モデルやマルチモーダル モデルに貢献してきました。 、ママなど。 Yi Tay の個人情報によると、Google Brain での 3 年以上の勤務中に、合計約 45 の論文の執筆に参加し、共著者でもありました。そのうち 16 件中。執筆論文には、UL2、U-PaLM、DSI、Synthesizer、Charformer、Long Range Arenaなどが含まれます。 Google を辞めて自分のビジネスを始めたほとんどの Transformer 著者と同じように、Yi Tay は昨年 3 月に Google からの退職を発表し、Reka という会社を共同設立しました。彼は同社のチーフサイエンティストを務めており、大規模な言語モデルに重点を置いています。 時間が経ち、たった今、Yi Tay が新しいモデルをリリースしたことを発表しました: "とても幸せです Reka Flash を共有します。言語およびビジュアル ベンチマークにおいて Gemini Pro および GPT 3.5 に匹敵する SOTA パフォーマンスを備えた新しい 21B マルチモーダル モデルです。比較的限られたリソースでゼロから開始しました。このモデルをトレーニングしています...同時に同時に、当社の最大かつ最も強力なモデル Reka-Core も完成間近です。次の作品にご期待ください。」 Reka Flash: An効率的なマルチモーダル言語モデルReka Flash のパラメータ サイズは 21B で、完全にスクラッチからトレーニングされており、そのパフォーマンスはより大きなモデルと比較できます。 Reka Flash は、数多くの言語および視覚ベンチマークにおいて Gemini Pro および GPT-3.5 と競合します。 さらに、Reka チームは、よりコンパクトなモデル バリアントである Reka Edge も提案しました。これはパラメータが少なく、わずか 7B で、より効率的であり、リソースが限られたシナリオ (デバイス上、ローカルなど) で実行することもできます。 これら 2 つのモデルは公開テスト段階にあり、興味のある読者は行って試してみることができることは言及する価値があります。 トライアルアドレス: https://chat.reka.ai/auth/login同時に, Reka チームは、最大かつ最も強力な Reka Core モデルが今後数週間以内に一般公開されると発表しました。 オープンソースの問題に関しては、チームはまだ検討中であると述べました。
##評価ベンチマークには MMLU (知識ベースの質問応答) が含まれます、GSM8K (推論と数学)、HumanEval (コード生成)、GPQA (Google が証明する大学院レベルの質問応答)。
結果は、Reka Flash がこれらのベンチマーク テストで非常に良い結果を達成したことを示しています。MMLU と GPQA では Gemini Pro よりも優れており、GSM8K と HumanEval Competitiveness の結果では優れた結果を達成しています。さらに、これらの評価では、Reka Flash は多くの大型モデル (Llama 2 70B、Grok-1、GPT-3.5 など) を大幅に上回っています。 評価: 多言語推論
Reka Flash は 32 以上の言語で利用可能ですReka Flash を含む、強力な多言語モデルとみなすことができます。研究者らは、多言語の常識推論、因果推論、質問応答などの多言語ベンチマークでさまざまなモデルのパフォーマンスを比較しました。結果は、Reka Flash がこれらすべてのタスクにおいて Llama-2 70B および Mixtral よりも優れていることを示しています。さらに、この研究は複数の分野でも行われます。モーダル Reka Flash は、ビジュアル質問応答 (MMMU、VQA-v2)、ビデオ字幕 (VATEX)、ビデオ質問応答 (Perception Test) などのベンチマークで評価されました。結果は、Reka Flash が 4 つのベンチマークすべてにおいて Gemini Pro と競合できることを示しています。 調査では、Reka Flash ベースのチャット モデルを評価するために、一連の人による評価も実施しました。研究者らは、1) テキストのみのチャット モデルと 2) マルチモーダル チャット モデルの 2 つの設定を検討しました。評価中に、Askell らの方法に従って ELO スコアと全体の勝率を計算しました。 プレーン テキスト チャット: 研究者は、GPT-4、Claude 2.1、Gemini Pro (API バージョン) などの主要モデルをベンチマークしました。さらに研究者らは、Reka Edge、Mistral 7B、および Llama 2 7B チャット モデルのパフォーマンスも比較しました。 人間による評価の結果、Reka Flash は GPT-3.5 Turbo、Claude、Mixtral、Gemini Pro を上回る競争力のある結果を達成していることが示されています。 Reka Edge は他の 2 つの 7B モデルよりも優れており、Claude Instant 1.2 のパフォーマンスに近づいています。 この研究では、Reka Flash と GPT4-V も組み合わせています。 Gemini Pro、Llava-1.6、IDEFICS 80b、および Adept Fuyu-8B マルチモーダル言語モデルを比較します。結果は、Reka Flash が GPT4-V を除くすべてのモデルよりも優れていることを示しています。 Reka Edge も良好なランキングを獲得し、Mistral 7B ベースの Llava 1.6 7B を上回り、Gemini Pro のパフォーマンスに迫りました。 Reka Edge は、よりコンパクトに設計された 7B モデルです。オンプレミス展開や遅延の影響を受けやすいアプリケーション向け。この研究では、言語評価タスクに関して、同様のサイズのモデル(つまり、Mistral 7B および Llama-2 7B)との比較を報告しています。結果は、Reka Edge が標準言語ベンチマークで Llama 2 7B および Mistral 7B よりも優れていることを示しています。 Reka チームは、最先端のマルチモーダル言語モデル、Reka Flash と Reka Edge のリリースにより、AI ロードマップの最初のマイルストーンが達成されました。誰もが次の研究を楽しみにしています。 参考リンク:https://reka.ai/reka-flash-an-efficient-and-capable-multimodal- language-model/ 以上が3年間で16本の記事、元Google研究員Yi Tay氏がGemini Pro、GPT-3.5に匹敵する新モデル21Bを正式発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。