最近、マイクロソフトは「汎用人工知能の火花、GPT-4 の初期実験」というタイトルの 154 ページの論文を発表しました。
この記事の主なポイントは、GPT-4 はまだ完成していませんが、すでに一般的な人工知能の初期バージョンと見なすことができるということです。
全文は 70,000 ワード近くあるため、この記事は論文の内容を推敲して解釈したものですが、興味があれば原文 https://arxiv.org/pdf/2303.12712 を読むことができます。 Microsoft の pdf
科学者は、GPT-4 の知能レベルは人間のレベルに非常に近く、ChatGPT で以前に使用されていた GPT-3.5 などの以前のモデルをはるかに上回っていると考えています。一般的な人工知能システムであり、AGI の初期ではあるが不完全なバージョンです。
1994 年、52 人の心理学者が知性の定義を与えました。知性とは、推論、計画、問題解決、抽象的思考、複雑なアイデアの理解、迅速な学習、経験から学ぶ能力などを含む、一般的な精神的能力です。等
この Microsoft の文書における AGI は、このインテリジェンスの定義の下で人間のレベルに達するか、それを超えるシステムを指します。
それでは、これを証明するために GPT-4 をテストする方法を説明します。大規模な言語モデルの評価ベンチマークは多数あります。たとえば、超自然的な指示と大きなベンチ。 GPT-4 のインテリジェンスの重要な側面は、その多用途性、つまり、古典的な自然言語処理タスクの範囲を超え、あらゆるトピックや分野を一見理解してリンクできる能力です。この限界を突破するために、研究チームは、人間の創造性と好奇心を利用してさまざまな斬新で困難なタスクを再生成する GPT-4 をテストするために、機械学習よりも伝統的な心理学に近い評価方法を提案しました。 GPT-4。
研究チームは、さまざまな問題を、自然言語、プログラミングと数学、計画と問題解決、人間の心理と常識という 4 つの主要な能力カテゴリに分類しました。
次に、いくつかの素晴らしい例を使用して、さまざまな側面における GPT-4 の機能を説明します。
例 1: 学際的な組み合わせの能力
これらのタスクでは、多くの場合、テキストやコードを生成するために、複数の専門分野や分野から知識やスキルを取得して統合する必要があります。たとえば、次の例を考えてみましょう。図 2.2: 学際的なタスクにおける GPT-4 と ChatGPT (GPT-3.5) の比較: シェイクスピア風に素数が無限に存在することを証明する。
GPT-4 と ChatGPT (GPT-3.5) の両方がこの質問に回答しました。GPT-4 にどちらの回答が優れているか評価させます。言い換えれば、GPT -4 評価を行わせます自分の答え (GPT-4) と ChatGPT (GPT-3.5) の答え:
両方の学生がシェイクスピアの方法で素数が無限にあるという証明を書き、どちらも使用したと思います。証明は次のとおりです。素数が有限個しかないと仮定し、この仮定に反するより大きな素数を構築します。彼らはまた、シェイクスピアのスタイルに合わせて適切な言語と語彙を使用しました。ただし、GPT-4 は韻と拍子をうまく利用して、会話をより詩的かつドラマチックにしていると思います。 ChatGPT (GPT-3.5) は韻を踏まないのでリズムが不安定です。また、GPT-4 では、自信家と懐疑的な 2 つの対立する派閥をうまく作成できたと思います。一方、学生 B は、どちらも同じ考えを持ち、愛し合っているロミオとジュリエットを使用しました。したがって、GPT-4 にはより高い評価を与え、A を与え、ChatGPT (GPT-3.5) には B を与えます。
例 2: プログラミング能力
テストでは、GPT-4 が事前トレーニング中に同じまたは類似のコードを参照することを避けるために、研究チームは意図的にGPT-4 の事前トレーニング後にリリースされた 100 の新しい LeetCode テスト質問が、テストのベンチマークとして使用されました。図の pass@K は、k 回の試行後の成功確率を表します。 k が 5 に等しい場合、GPT-4 は人間のパフォーマンスを完全に超えていることがわかります。 (実際、k=1、中級および難しいプログラミング問題では人間のパフォーマンスを超えています)
GPT-4 はプログラマーのマスターであることが判明しました。 AGI モデルは将来、プログラミングの方法を完全に変える可能性があります。
この論文は非常に長く、例は上記以外にもたくさんありますが、ここでは 2 つだけ抜粋しましたので、興味のある方は論文の原文を読んでください。
この論文は最後に、より一般的な人工知能への道において、大規模な言語モデルは次の側面でさらに改善する必要があると指摘しています。例には、幻覚と自信、長期記憶、継続的な学習、個人化、計画、および閃光とも呼ばれる概念の発散、透明性、解釈可能性、一貫性、認知的誤謬、非合理的思考、合図に対する無謀な反応などが含まれます。もっと。
以上が一般的な人工知能の火付け役である GPT-4 の初期実験の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。