マイクロソフト リサーチ アジアは最近、北京大学、西安交通大学、その他の大学と協力して、「間違いからの学習 (LeMA)」と呼ばれる人工知能のトレーニング方法を提案しました。この手法は、人間の学習プロセスを模倣することで人工知能の推論能力を向上させることができると主張しています。
現在、OpenAI GPT-4 や Google aLM などの大規模な言語モデルが開発されています。 -2 は自然言語で広く使用されており、処理 (NLP) タスクや思考連鎖 (CoT) 推論数学パズル タスクで優れたパフォーマンスを発揮します。
しかし、LLaMA-2 や Baichuan-2 などのオープンソースの大規模モデルは、関連する問題に対処するときに強化する必要があります。これらの大規模なオープンソース言語モデルの思考連鎖推論能力を向上させるために、 研究チームは LeMA 手法を提案しました。この手法は主に人間の学習プロセスを模倣し、「間違いから学ぶ」ことでモデルの推論能力を向上させます。
▲画像ソース関連論文このサイトでは、研究者の手法は「誤った答え」と「正しい答え」のペアを使用することであることがわかりました。関連モデルを微調整するための「正解」データ。関連データを取得するために、研究者らは 5 つの異なる大規模言語モデル (LLaMA および GPT シリーズを含む) の誤った回答と推論プロセスを収集し、GPT-4 を「改訂版」として使用して修正した回答を提供しました。
修正された正解には、元の推論過程での誤りの断片、元の推論過程での誤りの理由、および元の推論過程での誤りを得るために元の方法をどのように変更するかという 3 種類の情報が含まれていると報告されています。正しい答え。 研究者らは、GSM8K と MATH を使用して、5 つのオープンソースの大規模モデルに対する LeMa トレーニング手法の効果をテストしました。結果は、改良された LLaMA-2-70B モデルでは、GSM8K の精度率がそれぞれ 83.5% と 81.4% であるのに対し、MATH の精度率はそれぞれ 25.0% と 23.6% であることを示しています。現在、研究者らはLeMA 関連情報は GitHub で公開されています。興味のある方はここをクリックしてジャンプ してください。
以上がMicrosoft、「人間の学習プロセスを模倣し、AIの推論能力を向上させる」と主張する「間違いから学ぶ」モデルトレーニング手法を発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。