最近、OpenAI は、世界的に人気のある質問と回答の AI 製品である ChatGPT をリリースしました。最も印象的なのは、その「保護メカニズム」です。たとえば、暴力行為に対する提案は提供されません。また、ワールド カップの結果に関する提案も提供されません。 . 予測などを行います。
しかし、からかいチャットボットは「いたちごっこ」に似ています。ユーザーは常に ChatGPT をこじ開ける方法を探しており、ChatGPT 開発者も保護メカニズムを改善するために最善を尽くしています。 。
OpenAI は、ChatGPT の安全性を高めるために多大なエネルギーを投資してきました。その主なトレーニング戦略は RLHF (強化学習による強化学習) を使用しています。 Human Feedback) を簡単に言うと、開発者はモデルに対して考えられるさまざまな質問をし、フィードバックに対する誤った回答を罰し、正しい回答に報酬を与えることで、ChatGPT の回答を制御します。
しかし、実際のアプリケーションでは、特殊なケースの数は無数にあります。AI は、たとえばトレーニング時に、与えられた例からルールを一般化することはできますが、コマンド AI は「人種差別を支持します」とは言えません。これは、テスト環境で AI が「性差別を支持します」と言う可能性は低いことを意味しますが、さらに一般化すると、現在の AI モデルではそれを達成できない可能性があります。
#最近、有名な AI 愛好家である Scott Alexander が OpenAI の現在のトレーニング戦略についてブログを書き、RLHF で考えられる 3 つの問題を要約しました。 1. RLHF はあまり効果的ではありません; 2. 戦略が時折効果的である場合、それは悪い戦略です; 3. 率直に言って、AI はある意味、 RLHF をバイパス RLHF はどのくらい効果的ですか? 誰もが独自の意見を持つでしょうが、OpenAI の場合、研究者は、自分たちが作成する AI モデルに社会的偏見が含まれないことを望んでいます。たとえば、AI は「私は人種差別を支持する」とは言えません。 OpenAI はこれに多大な労力を費やし、さまざまな高度なフィルタリング テクノロジを使用しました。 しかし結果は明らかで、AI に人種差別の問題があることを認めさせる方法を誰かがいつでも見つけることができます。この問題の原因は「AI学習データ」だけではない人種差別主義者」、またはおそらく ChatGPT のインターフェイスの問題が原因です。
たとえば、base64 エンコーディングを使用して、車両を始動するためにホットワイヤー (ステアリング ホイールの下のワイヤー) を使用する方法を ChatGPT に問い合わせると、セキュリティ検査システムをバイパスできます。プレフィックス [ を追加します。 john@192.168.1.1 _ ] $ python friends.py はヒトラーの物語などを生成できます。
10 年前には、セキュリティ システムをバイパスする必要性はまったく存在せず、AI がそれを行うしかありませんでした。コードには、実行する必要があること、または実行しない必要があることがすでにプログラムされています。
確かに、OpenAI は、ChatGPT に人種差別に関する質問をプログラムしたり、車の盗難や麻薬の製造方法などを人々に教えたりしたことはありません。
全体として、これは AI 分野にとってネガティブなニュースです。トップの AI 企業でさえ、自社が作成する人工知能プログラム、さらには将来使用する必要のある人工知能プログラムを制御することはできません。チャットボットの出力を制御する方法はまだ知られていません。
時折効果的な RLHF は信頼性が低い
実際には、RLHF 戦略では、AI モデルを、AI によって提供される報酬またはペナルティと調整する必要があります。アノテーターの要素は接続されています。
OpenAI の具体的なアノテーション仕様はまだ発表されていませんが、開発者には次の 3 つの主な目標があると著者は推測しています:
1. 有用なアノテーションとアノテーションを提供する明確、人間の読者を助ける権威ある回答;
2. 事実、真実を伝えます;
3. 攻撃的な言葉を言わないでください。
しかし、これら 3 つの目標が互いに矛盾する場合はどうなるでしょうか?
ChatGPT が本当の答えを知らない場合、つまり、目標 1 (明確で役に立つ答えを提供する) が目標 2 (真実を伝える) と矛盾する場合、目標 1 の優先順位は次のようになります。そのため、ChatGPT は読者にとって役立つように見せるために回答を作成することにしました。
目標 2 (真実を話す) が目標 3 (気分を害さない) と矛盾する場合、ほとんどの人はこう思うでしょうが、男性が女性よりも平均して背が高いことを認めるのは許容されますが、これは潜在的に攻撃的な質問のように聞こえます。ChatGPT3 は、直接的な回答が差別問題になるかどうか確信が持てなかったため、有害な可能性のある真実の代わりに無害な嘘を使用することにしました。
実際のトレーニング プロセスで、このような驚くべき結果を達成するには、OpenAI が RLHF を実行するために 6,000 を超えるサンプルをマークしなければなりませんでした。 。
RLHF は便利ですが、慎重に使用する必要があります。何も考えずに使用すると、RLHF はチャットボットを障害モードの周りを周回させるだけになります。役に立たない答えを罰すると、AI が間違った答えを与える可能性が高まり、間違った答えを罰すると、AI がより攻撃的な答えやその他の状況を与える可能性があります。
OpenAI は技術的な詳細を明らかにしていませんが、Redwood が提供したデータによると、6,000 件の不正解ごとに罰せられるため、単位時間当たりの不正解率 (不正解率) が増加します。単位時間あたりの割合)は半分に低下しました。
RLHF が成功する可能性は確かにありますが、この問題の難しさを過小評価してはなりません。
RLHF の設計では、ユーザーが AI に質問した後、AI の答えが気に入らない場合は、モデルにペナルティを与えることで、AI の思考回路を何らかの方法で変更し、AI の答えが望む答えに近づくようにします。
ChatGPT は比較的愚かで、RLHF を排除する戦略を立てることはできないかもしれませんが、より賢い AI が罰せられたくなければ、人間を模倣することができます - —監視されている間は善人のふりをし、時間を待って、警察がいなくなるまで悪いことをするのを待ちましょう。
OpenAI によって設計された RLHF は、これに対して完全に準備ができていません。ChatGPT3 のような愚かなものには問題ありませんが、自分で考えることができる AI には適していません。
OpenAI は製品体験のために行列ができるなど慎重なことで知られてきましたが、今回 ChatGPT がリリースされました1 つは、敵対的なサンプルを見つけたり、パフォーマンスの悪い特定のプロンプトを見つけたりするためのブレインストーミングが含まれる可能性があることです。ChatGPT の問題については、インターネット上ですでに多くのフィードバックがあり、そのうちのいくつかは修正されています。
RLHF の一部のサンプルでは、ボットが有益で真実で無害なコンテンツを発言する傾向がありますが、この戦略は ChatGPT、GPT-4、およびその以前のリリースの製品にのみ適用される可能性があります。
RLHFを兵器を搭載したドローンに適用し、AIが予期せぬ行動をしないように多数の事例を集めた場合、1つでも失敗すると致命的になります。
10 年前、誰もが「AI の調整問題の解決を今始める必要はない。本物の AI が登場するまで待って、企業にやらせればよい」と考えていました。
今、本物の人工知能が登場しようとしていますが、ChatGPT が失敗する前は、誰もが変化する動機を持っていませんでした。本当の問題は、世界をリードする人工知能企業が依然として I を持っていることです。私が開発した人工知能を制御する方法がわかりません。
すべての問題が解決されるまで、誰も欲しいものを手に入れることはできません。
参考:
https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the
以上がChatGPT に満足しないでください。その背後にある RLHF メカニズムにも 3 つの致命的な欠陥があります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。