小型モデルがトレンドになりつつある?
今週、OpenAI は小型モデル GPT-4o-mini を発売し、小型モデル トラックが正式に開始されました。最近このトラックに Apple が参加しました。
最近、Apple は DataComp-LM (DCLM) プロジェクトの研究機関の 1 つとして、Hugging Face で DCLM-7B オープンソース モデルをリリースしました。モデルのパフォーマンスは Mistral-7B を上回り、Llama 3 や Gemma などの他の主要なオープンソース モデルに近づいています。
論文リンク: https://arxiv.org/pdf/2406.11794
プロジェクトリンク: https://huggingface.co/apple/DCLM-7B
論文著者その1人、Appleの機械学習チームのVaishaal Shankar氏は、DCLMモデルがモデルの重みをオープンソース化しただけでなく、トレーニングコードと事前トレーニングデータセットもオープンソース化したため、DCLMモデルを「真のオープンソースである最良のモデル」と述べた。
研究紹介
大規模言語モデル (LLM) が直面している現在の評価課題の 1 つは、制御された比較の欠如です。 LLM の研究では、さまざまなアーキテクチャ、計算、またはハイパーパラメータを備えたモデルを比較することが多いため、言語モデルの品質に影響を与える要因を解明することが困難になります。
これに基づいて、研究チームは、言語モデル データ比較の新しいベンチマークである DCLM を提案しました。これは、LLM が高品質のデータ セットを設計することでモデルのパフォーマンスを向上できるようにすることを目的とした、言語モデル トレーニング データ キュレーションの最初のベンチマークです。マルチモーダル領域で。研究チームは、機械学習 (ML) モデルが大規模なデータセットから高品質のデータを自動的にフィルタリングして選択するモデルベースのフィルタリングが、高品質のトレーニング セットを構築する鍵となる可能性があることを発見しました。
DCLM の全体的なアイデアはシンプルです。標準化されたフレームワークを使用して、固定モデル アーキテクチャ、トレーニング コード、ハイパーパラメーター、評価などの実験を実施し、最終的にどのデータ並べ替え戦略が高性能モデルのトレーニングに最適かを見つけます。 。
DCLM を使用して、研究チームは高品質のデータセット DCLM-BASELINE を構築し、このデータセットを使用して 7B パラメーター モデル - DCLM-7B を最初からトレーニングしました。 DCLM-7Bモデルの詳細。
DCLM-7B は OpenLM フレームワークに基づく事前トレーニング ソリューションを使用しており、5 ショットの精度は MMLU ベンチマークで 64% に達し、Mistral-7B-v0.3 (63%) や Llama に匹敵します。 3 8B (66%) これは、Mistral-7B-v0.3 および Llama 3 8B に匹敵し、53 の自然言語理解タスクの平均パフォーマンスも Mistral-7B-v0.3 および Llama 3 8B に匹敵します。必要な計算量はLlama 3 8Bの1/6です。
DCLM-7B の各種タスク(部品)の評価結果を以下に示します。
DCLM-7B と同サイズの他機種との比較結果を下表に示します。
注目すべき点 はい、他のほとんどのモデルにはウェイトはオープンですがデータはクローズされています。これが、ヴァイシャール シャンカールが DCLM モデルを「真のオープンソース」と表現する理由です。参考リンク:https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/
以上が重み、コード、データセットはすべてオープンソースであり、Apple の小型モデル Mistral-7B を超えるパフォーマンスがここにあります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。