大規模モデルの機能を向上させるためにデータが焦点になっています。
Llama-3 がリリースされて間もなく、競合他社が登場しましたが、それらは携帯電話で動作する小型モデルでした。 火曜日、マイクロソフトは自社開発の小型モデル Phi-3 をリリースしました。 新しいモデルには 3 つのバージョンがあり、そのうちの Phi-3 mini は 38 億のパラメーターを持つ言語モデルで、3 兆 3,000 億のトークンでトレーニングした後、その全体的なパフォーマンスは学術ベンチマークと内部テストで優れた結果を達成しました。 Phi-3 mini は携帯電話での展開に最適化されていますが、そのパフォーマンスは Mixtral 8x7B や GPT-3.5 などのモデルに匹敵します。 Microsoftは、イノベーションは主にトレーニングに使用されるデータセットにあると述べた。 同時に、Phi-3 は Llama-2 と同じアーキテクチャを使用しているため、オープンソース コミュニティがそれに基づいて開発することが容易になります。 以前、MicrosoftのPhiシリーズモデルは、昨年6月に、わずか7Bトークンの「教科書品質」データを使用して1.3 Bパラメータを訓練する「教科書が必要だ」という論文を発表し、激しい議論を巻き起こした。モデル phi-1 は優れたパフォーマンスを実現します。 昨年 9 月、Microsoft はこの道をさらに検討し、1.3B パラメーターの Transformer アーキテクチャ言語モデル Phi-1.5 が強力なコーディング機能を発揮できるようにしました。 昨年末、Microsoftが提案したPhi-2は一定の常識的な能力を持ち、複数のベンチマークテスト結果はLlama2 7B、Llama2 13B、Mistral 7Bなどの上級モデルの2.7Bレベルを上回りました。 Phi-3 技術レポート: https://arxiv.org/abs/2404.14219提案されたばかりの phi-3-mini は、3 兆 3,000 億のトークン モデルでトレーニングされた 38 億のパラメーター言語です。実験テストでは、phi-3-mini の全体的なパフォーマンスが Mixtral 8x7B や GPT-3.5 などのモデルと同等であることが示されています。たとえば、phi-3-mini は MMLU で 69%、MT ベンチで 8.38 に達します。 phi シリーズのモデルに関する Microsoft の以前の研究では、高品質の「小さなデータ」により、より小さなモデルでも優れたパフォーマンスを実現できることが示されています。 phi-3-mini は、厳密にフィルタリングされたネットワーク データと合成データ (phi-2 と同様) でトレーニングされ、堅牢性、セキュリティ、チャットの形式がさらに調整されています。 さらに、研究チームは、phi-3-small および phi-3-medium と呼ばれる、4.8T トークン用にトレーニングされた 7B および 14B モデルの初期パラメーター拡張結果も提供します。どちらも phi-3 よりも大きいです。 - Mini の方が高性能です。 標準的なオープンソースベンチマークでは、phi-3-mini と phi-2、Mistral-7b-v0.1、Mixtral-8x7B、Gemma 7B、Llama-3- instruct8B と GPT-3.5 の比較結果を以下の表に示します。比較可能にするために、すべての結果はまったく同じパイプラインを通じて取得されています。 Phi-3-mini は、マイクロソフトの責任ある人工知能原則に従って開発されました。大規模モデルを保護するための全体的なアプローチには、トレーニング後のセキュリティ調整、レッドチーム テスト、自動テスト、および数十の RAI ハザード カテゴリの評価が含まれます。 Microsoft は、[BSA+ 24] からインスピレーションを得て修正された有用かつ無害な設定データセット [BJN+ 22、JLD+ 23] と、内部で生成された複数のデータセットを活用して、トレーニング後のセキュリティの RAI ハザード カテゴリに対処します。 Microsoft の独立したレッド チームは、トレーニング後のプロセスで改善すべき領域をさらに特定するために、phi-3-mini を再検査しました。 レッドチームからのフィードバックに基づいて、研究チームはトレーニング後のデータセットを改善するために追加のデータセットを編集しました。このプロセスにより、図 3 に示すように、有害な反応率が大幅に減少しました。 以下の表は、phi-2、Mistral-7B-v0.1、Gemma 7B を使用した phi-3-mini-4k および phi-3-mini-128k の内部マルチラウンド ダイアログ RAI ベンチマーク結果を示しています。このベンチマークは GPT-4 を利用して、5 つの異なるカテゴリにわたる複数ラウンドの会話をシミュレートし、モデルの応答を評価します。 Microsoftは、LLM機能に関して、phi-3-miniモデルは大型モデルと同様の言語理解および推論能力に達しているが、いくつかの点で失敗すると述べました。タスク まだ基本的にそのサイズによって制限されています。たとえば、このモデルには単純に多くの「事実の知識」を保存する能力がありません。これは TriviaQA での低い評価からもわかります。しかし研究者らは、これらの問題は検索エンジンの機能強化によって解決できると考えている。 参考コンテンツ:https://news.ycombinator.com/item?id=40127806以上がMicrosoft が Llama-3 よりも優れたパフォーマンスを備え、携帯電話で実行できる Phi-3 をリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。