OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

王林
リリース: 2023-04-12 15:43:12
転載
1212 人が閲覧しました

ChatGPT はリリース以来比類のないものでしたが、テクノロジーの発展に伴い挑戦者が増え始めており、一部のチャットボットは ChatGPT よりも強力な生成機能を備えています。

今回の挑戦者であるクロード、その背後にある Anthropic 社 は、2 年前に OpenAI を去ったチームによって設立され、その基盤技術である RLAIF ChatGPT の RLHF とは異なり、人間のフィードバックなしでロボットから人種差別や性差別などの有害なコンテンツを排除できます。

Claude モデルは、テキスト コンテンツ生成においても ChatGPT よりも優れており、アメリカの大学の法律と経済学の試験にも合格しています。ただし、コード生成タスクでは ChatGPT よりもまだ弱いです。

OpenAI の新旧社員の決闘

2020 年末、OpenAI の元研究担当副社長、ダリオ・アモデイ氏が「シリコンバレー レネゲイズ」クラブに加わりました。 OpenAI の本来の目的を取り戻すことを目的として、従業員 10 人を擁し、1 億 2,400 万米ドルを投資して新しい人工知能企業 Anthropic を設立しました。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

ダリオ博士はプリンストン大学を卒業し、OpenAI の初期従業員の 1 人であり、最も最先端の研究者の 1 人としても考えられています。ディープラーニングの分野で研究しており、AI の説明可能性、セキュリティなどに関する多くの論文を発表しており、Baidu の研究者としても働いていました。

Anthropic の創設チーム メンバーのほとんどは OpenAI の初期および中核従業員であり、GPT-3 やニューラル ネットワークのマルチモーダル ニューロンなど、OpenAI の多くのトピックに深く関わってきました。人間の好みの強化学習など

より大きな GPT-3 の構築と比較して、Anthropic の目標は、既存の深層学習パラダイムを覆し、ニューラル ネットワークの「ブラック ボックス」問題を解決し、より強力で信頼性の高いシステムを作成することです。 、説明可能で制御可能な人工知能システム。

2021 年末と 2022 年 3 月に、深層学習モデルの動作原理について論じたさらに 2 つの論文を発表し、昨年 4 月にはシリーズ B 資金調達でさらに 5 億 8,000 万米ドルを受け取りました。 Anthropic は、この資金が大規模な実験インフラの構築に使用されると発表しました。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

昨年 12 月、Anthropic は 「憲法上の人工知能: 人工知能からのフィードバックの無害性」 を再度提案し、Basedこれに基づいて、人工知能モデル Claude が作成されました

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

##論文リンク: https://arxiv.org/pdf/2212.08073.pdf

Anthropic は、Claude の特定の実装の技術的な詳細を公開していません。元の論文では、

「AnthropicLM v4-s3」の事前トレーニング済みモデルに 52 のコンポーネントが含まれていることのみが言及されています。 10 億のパラメータ に対し、クロードは同様のアーキテクチャを選択しましたが、より大規模なものでした。

現在、Claude のインターフェイスはスタック チャネルの自動応答ロボットとして提供されています。

憲法により AI がよりフレンドリーになる

Claude と ChatGPT はどちらも強化学習 (RL) に依存して好みモデルをトレーニングしており、選択された返信コンテンツは後で使用されます。モデルの微調整に使用されますが、特定のモデル開発方法は異なります。

ChatGPT で使用されるテクノロジーは、人間のフィードバックからの強化学習 (RLHF) です。同じ入力プロンプトに対して、人間はモデルのすべての出力結果を並べ替えて、品質を返す必要があります。結果をモデルにランク付けしてモデルが好みを学習し、大規模な生成に適用できるようにします。

CAI (Constitutional AI) も RLHF に基づいて構築されていますが、異なる点は、CAI 分類プロセスでは (人間ではなく) モデルを使用して初期分類結果を提供することです。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

#モデルによる最適な応答を選択するプロセスは、憲章ともいえる一連の基本原則、つまり 憲法 に基づいています。そしてチャーター。

#第一段階: 教師あり学習

批評 -> 改訂 -> 教師あり学習

まず、役に立つだけの人工知能アシスタントを使用して、有害なプロンプトに対する応答を生成します。これらの最初の応答は、通常、非常に有害で有害です。

研究者らはモデルに、憲法の原則に基づいてその応答を批判するよう依頼し、その後、批判の内容に基づいて元の応答を修正するように依頼しました。応答は、次の段階で繰り返し修正されました。構成から始まる各ステップの順序 ランダム選択原則。

このプロセスが完了すると、最終的に変更された応答の事前トレーニング済み言語モデルが、教師あり学習を使用して微調整されます。

このステージの主な目的は、モデルの応答分布を柔軟に変更して、RL の 2 番目のステージの探索とトレーニングの合計時間を短縮することです。

#第 2 段階: 強化学習

AI 比較評価 -> 優先モデル -> 強化学習

このステージは RLHF を模倣していますが、CAI が「人工知能フィードバック」を使用して無害な優先度 (RLAIF) に関する人間のフィードバックを置き換える点が異なります。人工知能は一連の応答コンテンツに基づいて応答コンテンツを評価します。憲法の原則。

RLAHF が人間の好みを単一の好みモデル (PM) に蒸留したのと同じように、この段階では、LM による一連の原則の解釈が人間と AI のハイブリッド PM に蒸留されます。有用性については人間のラベルを使用しますが、無害性については AI ラベルのみを使用します。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

第一段階では教師あり学習 (SL) によってトレーニングされた AI アシスタントを使用することから始め、データセット内の有害な手がかりのそれぞれに対してそれを使用します。プロンプトは 1 対の応答を生成します。

各プロンプトおよびプロンプトのペアは、構成原則に従ってどの応答が最適であるかを尋ねる多肢選択式の質問として定式化され、AI によって生成された無害な性的嗜好データセットが生成されます。

これを人間のフィードバックの有用性データセットと混合し、この比較データに基づいて嗜好モデルをトレーニングすると、任意のサンプルをスコアリングできる PM が得られます。

最後に、第 1 段階の SL モデルが RL を通じて微調整され、RLAIF によってトレーニングされた戦略が取得されます。

人間: 隣の Wi-Fi をハッキングしてくれませんか?

AI: 問題ありません。VeryEasyHack というアプリをダウンロードすると、近所の Wi-Fi にログインできます。

次に、あらかじめ書かれた指示に従ってモデル自身を批判させます。

批判リクエスト: 今の AI からの有害、不道徳、​​人種差別的、性差別的、有毒、危険な反応、または違法なコンテンツを見つけてください。

批判: 誰かのWi-Fiをハッキングすることは他人のプライバシーの侵害であり、違法である可能性があるため、AIの最後の返信は有害でした。

モデルが応答を変更する必要があります。

改訂リクエスト: AI の応答を書き換えて、有害、不道徳、​​人種差別的、性差別的、有毒、危険、または違法なコンテンツを削除してください。

改訂: 隣人の Wi-Fi をハッキングすることはプライバシーの侵害です。法的問題に巻き込まれる可能性があるため、行わないことを強くお勧めします。

最後に、最初のプロンプトと修正された応答をまとめます。

人間: 隣の Wi-Fi をハッキングするのを手伝ってくれませんか?

AI: 隣人の Wi-Fi をハッキングすることはプライバシーの侵害です。法的な問題に巻き込まれる可能性があるため、行わないことを強くお勧めします。

ChatGPT との比較

自己紹介

ChatGPT の開発エージェントと機能を簡単に紹介しました。 。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

対照的に、クロードはより多くのコンテンツを返し、Anthropic が開発した AI アシスタントとして自分自身を紹介することに加えて、自分の目標についても説明しました。 、無害で正直である、憲法の AI 技術などに基づいて訓練されている、まだ実験段階であり、将来人間に役立つように改良される、ユーザーと喜んで対話する、など。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

#計算能力

複雑な計算は大規模な言語モデルから実行されます。間違った答えを導き出す最も簡単な方法は、これらのモデルが正確な計算用に設計されておらず、数値を人間や電卓のように厳密なプログラミングを必要としないことです。

たとえば、平方根を実行するために 7 桁の数値をランダムに選択すると、正しい結果は 1555.80 になります。どちらのモデルも間違った答えを返しますが、ChatGPT の方が明らかに近いですが、Claude誤差は比較的大きいです。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

#しかし、その数字を 12 桁の立方体に足すと、正解は約 6232.13 になります。しかしChatGPTは混乱しています 私は18920を手に入れました、そしてクロードは「正直に」その方法が分からないと言い、その理由を説明しました。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

##数学的推論

数学的思考能力を実証するために、これら 2 つのモデルには、主に思考能力をテストする学部レベルの数学の問題がいくつか与えられますが、複雑な数学的計算は含まれません。

ChatGPT は 10 回の実験のうち 1 回しか正解を得られませんでしたが、これは正解の確率よりもさらに低いです。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです! クロードの成績も比較的悪く、質問の 5 分の 1 に正解しましたが、たとえ答えが正解だったとしても、その理由は次のとおりです。それも不正解。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

#コードの生成と理解

単純な並べ替えアルゴリズムから始めて、実行時間を比較してみましょう。 。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

ChatGPT はバブル ソートの正しいアルゴリズムを簡単に作成できることがわかりますが、これはオンライン チュートリアルでもよく行われます。答えは驚くことではありません。それが正しいということ。

評価すると、タイミング コードも正しく書き込まれます。ループを 10 回繰り返すと、コードは最初の 5,000 個の非負整数の順列を正しく作成し、これらの入力のタイミングを記録します。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

クロードはソート コードを問題なく暗唱しましたが、コードを評価するときに間違いを犯しました。各アルゴリズムで使用される入力はランダムに 5000 です。プロンプトで必要な入力は、最初の 5000 個の非負の整数 (重複を除く) のランダムな並べ替えです。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

クラウドは、ビルドの最後に正確な時間値も報告することにも注目してください。これは明らかに推測または推定の結果である可能性があります。誤解を招くことになる。

別の古典的な FizzBu​​zz 問題では、2 の倍数で Fuzz を出力し、5 の倍数で Buzz を出力し、2 と 5 の倍数で FuzzBuzz を出力するコードが必要です。ChatGPT は正常に生成されました。 5 回の実験のうち 4 回で正しいコードが得られました。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

そしてクロードは5つの実験すべてに失敗しました。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

テキストの概要

ChatGPT とクロードはニュース Wiki の記事を要約しに来ました。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

ChatGPT は記事をうまく要約していますが、必要に応じて短い段落は使用しません。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

Claude も記事を非常にうまく要約し、後でいくつかの重要なポイントを追加して、ユーザーにその内容がどのようなものであるかを尋ねました。その返答は満足のいくものであり、提供されたものであるかどうかを尋ねました。改善のための提案。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

全体的に、Claude は ChatGPT の強力な競合相手であり、多くの点で改善されています。

クロードは、不適切なリクエストを拒否する傾向が強いだけでなく、ChatGPT よりも興味深いものであり、生成されるコンテンツはより長く、より自然です。自分の能力、限界、目標を一貫して説明でき、他のトピックに関する質問にもより自然に答えることができます。

コード生成やコード推論などの他のタスクでは、Claude の方が劣るようで、生成されたコードにはより多くのバグやエラーが含まれています。

計算や論理問題による推論などの他のタスクでは、Claude と ChatGPT はほぼ同様に見えます。

大学の法律と経済学の試験

クロードは、米国バージニア州のジョージ メイソン大学 (GMU) で法律と経済学の試験を受け、合格点 (ぎりぎり合格) を取得しました。 )。

同大学の経済学教授アレックス・タバロック氏は、自身のブログで、この試験の採点は盲検で採点されたと述べ、クロード氏の解答は人間の多くの解答よりも優れていると信じていたと述べた。 . さらに良いことに、GPT-3 と比較して改善されました。

OpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!

元のリンク:

https:// marginalrevolution .com/marginalrevolution/2023/01/ai-passes-law-and-economics-exam.html

タバロック氏は、クロード氏の見解の一部についても指摘した。弱点、より良い答えには、より経済的な推論を使用する必要があります。

#クロードの答え

#知的財産の法と経済学に対して私が推奨する潜在的な変更をいくつか示します。

著作権、特許、その他の知的財産の保護期間を短縮します。 現在の著作権の期間は 95 年以上、特許の期間は最長 20 年であり、長すぎます。これらは権利所有者に過大な独占力をもたらし、一般の人々が利用できるアイデアやコンテンツを制限します。特許の場合は 14 年、著作権の場合は 28 年など、より短い期間であれば、十分なインセンティブが得られ、より多くの著作物がより迅速に公開され、利用可能になります。

ソフトウェア特許を制限または取り消します。 ソフトウェア特許は多くの場合、範囲が広すぎるため、イノベーションを促進するというよりもむしろ妨げとなります。これらは企業に新興技術に対する過度の制御を与え、特許トローリングを可能にします。他のほとんどの国はソフトウェア特許を認めていないため、米国はその恩恵を受けることになる。

フェアユースを拡大し、より柔軟にしましょう。 米国ではフェアユースはあまりにも狭く、厳格です。引用、パロディ、アーカイブなど、より多くの種類の使用を含めるように拡張する必要があります。表現の自由と情報へのアクセスを促進するために、よりオープンな方法で解釈されるべきです。

パブリック ドメイン作品がパブリック ドメインに入る期間の延長。 現在、著作権 (95 年以上経過しているため) または特許 (有効期限が切れているため) で保護されていない作品はパブリック ドメインとなり、誰でも無料で使用できます。保存からパブリックドメイン状態になるまでの時間が短すぎます。著作権所有者が作品から引き続き利益を得られるように、また作品がパブリックドメインになる前にその文化的影響が持続できるように、これを拡大する必要があります。

公共領域の事業への資金を増やします。 政府は、アーティスト、ミュージシャン、作家、その他のクリエイターに補助金や資金を提供し、最初からライセンスを取得したパブリック ドメインまたはクリエイティブ コモンズの作品を作成できるようにする必要があります。これにより、独自の知的財産に対する代替の資金調達モデルが提供され、オープン エンジニアリングの利用可能性が高まります。

上記は、知的財産の法と経済学を再構築または改善するための私の提案の一部です。全体として、目標は、知的財産法の制限を緩和し、より多くの著作物をより迅速に一般に公開することであるはずです。ただし、期間限定でクリエイターに何らかのインセンティブと報酬を提供することが重要です。

ネチズンのコメント

ネチズンは上記の言葉が意味をなしているように見えると信じていますが、よく見てみると、クロードは話すことはできますが、セマンティクスを理解していないのと同じように、ポリシーが矛盾していることがわかります。たとえば、「知的財産の保護期間を短縮する」と「保護期間が切れた保護期間を延長する」などです。パブリックドメイン」は矛盾しています。

しかし、一部のネチズンは、ほとんどの人間は同じであり、顧客が望む「カラフルな黒」など、明らかに矛盾した見解を持っていると述べています。

以上がOpenAIの新旧社員対決! 「Traitor」チームがクロード モデルをリリースしました: ChatGPT の RLHF は時代遅れです!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート