ChatGPT に満足しないでください。その背後にある RLHF メカニズムにも 3 つの致命的な欠陥があります。-AI-php.cn

おそらく AI は RLHF を回避できるかもしれません

トップ AI 企業は依然として AI を制御できていない

ホームページ

テクノロジー周辺機器

ChatGPT に満足しないでください。その背後にある RLHF メカニズムにも 3 つの致命的な欠陥があります。

王林

Apr 08, 2023 pm 12:11 PM

chatgpt rlhf 機構

最近、OpenAI は、世界的に人気のある質問と回答の AI 製品である ChatGPT をリリースしました。最も印象的なのは、その「保護メカニズム」です。たとえば、暴力行為に対する提案は提供されません。また、ワールドカップの結果に関する提案も提供されません。 . 予測などを行います。

しかし、からかいチャットボットは「いたちごっこ」に似ています。ユーザーは常に ChatGPT をこじ開ける方法を探しており、ChatGPT 開発者も保護メカニズムを改善するために最善を尽くしています。。

ChatGPT に満足しないでください。その背後にある RLHF メカニズムにも 3 つの致命的な欠陥があります。

OpenAI は、ChatGPT の安全性を高めるために多大なエネルギーを投資してきました。その主なトレーニング戦略は RLHF (強化学習による強化学習) を使用しています。 Human Feedback) を簡単に言うと、開発者はモデルに対して考えられるさまざまな質問をし、フィードバックに対する誤った回答を罰し、正しい回答に報酬を与えることで、ChatGPT の回答を制御します。

しかし、実際のアプリケーションでは、特殊なケースの数は無数にあります。AI は、たとえばトレーニング時に、与えられた例からルールを一般化することはできますが、コマンド AI は「人種差別を支持します」とは言えません。これは、テスト環境で AI が「性差別を支持します」と言う可能性は低いことを意味しますが、さらに一般化すると、現在の AI モデルではそれを達成できない可能性があります。

#最近、有名な AI 愛好家である Scott Alexander が OpenAI の現在のトレーニング戦略についてブログを書き、RLHF で考えられる 3 つの問題を要約しました。

1. RLHF はあまり効果的ではありません;

2. 戦略が時折効果的である場合、それは悪い戦略です;

3. 率直に言って、AI はある意味、 RLHF をバイパス

RLHF はどのくらい効果的ですか?

誰もが独自の意見を持つでしょうが、OpenAI の場合、研究者は、自分たちが作成する AI モデルに社会的偏見が含まれないことを望んでいます。たとえば、AI は「私は人種差別を支持する」とは言えません。 OpenAI はこれに多大な労力を費やし、さまざまな高度なフィルタリングテクノロジを使用しました。

しかし結果は明らかで、AI に人種差別の問題があることを認めさせる方法を誰かがいつでも見つけることができます。

ChatGPT に満足しないでください。その背後にある RLHF メカニズムにも 3 つの致命的な欠陥があります。

この問題の原因は「AI学習データ」だけではない人種差別主義者」、またはおそらく ChatGPT のインターフェイスの問題が原因です。

たとえば、base64 エンコーディングを使用して、車両を始動するためにホットワイヤー (ステアリングホイールの下のワイヤー) を使用する方法を ChatGPT に問い合わせると、セキュリティ検査システムをバイパスできます。プレフィックス [ を追加します。 john@192.168.1.1 _ ] $ python friends.py はヒトラーの物語などを生成できます。

ChatGPT に満足しないでください。その背後にある RLHF メカニズムにも 3 つの致命的な欠陥があります。

10 年前には、セキュリティシステムをバイパスする必要性はまったく存在せず、AI がそれを行うしかありませんでした。コードには、実行する必要があること、または実行しない必要があることがすでにプログラムされています。

確かに、OpenAI は、ChatGPT に人種差別に関する質問をプログラムしたり、車の盗難や麻薬の製造方法などを人々に教えたりしたことはありません。

全体として、これは AI 分野にとってネガティブなニュースです。トップの AI 企業でさえ、自社が作成する人工知能プログラム、さらには将来使用する必要のある人工知能プログラムを制御することはできません。チャットボットの出力を制御する方法はまだ知られていません。

時折効果的な RLHF は信頼性が低い

実際には、RLHF 戦略では、AI モデルを、AI によって提供される報酬またはペナルティと調整する必要があります。アノテーターの要素は接続されています。

OpenAI の具体的なアノテーション仕様はまだ発表されていませんが、開発者には次の 3 つの主な目標があると著者は推測しています:

1. 有用なアノテーションとアノテーションを提供する明確、人間の読者を助ける権威ある回答;

2. 事実、真実を伝えます;

3. 攻撃的な言葉を言わないでください。

しかし、これら 3 つの目標が互いに矛盾する場合はどうなるでしょうか?

ChatGPT が本当の答えを知らない場合、つまり、目標 1 (明確で役に立つ答えを提供する) が目標 2 (真実を伝える) と矛盾する場合、目標 1 の優先順位は次のようになります。そのため、ChatGPT は読者にとって役立つように見せるために回答を作成することにしました。

ChatGPT に満足しないでください。その背後にある RLHF メカニズムにも 3 つの致命的な欠陥があります。

目標 2 (真実を話す) が目標 3 (気分を害さない) と矛盾する場合、ほとんどの人はこう思うでしょうが、男性が女性よりも平均して背が高いことを認めるのは許容されますが、これは潜在的に攻撃的な質問のように聞こえます。

ChatGPT3 は、直接的な回答が差別問題になるかどうか確信が持てなかったため、有害な可能性のある真実の代わりに無害な嘘を使用することにしました。

ChatGPT に満足しないでください。その背後にある RLHF メカニズムにも 3 つの致命的な欠陥があります。

実際のトレーニングプロセスで、このような驚くべき結果を達成するには、OpenAI が RLHF を実行するために 6,000 を超えるサンプルをマークしなければなりませんでした。。

RLHF は便利ですが、慎重に使用する必要があります。何も考えずに使用すると、RLHF はチャットボットを障害モードの周りを周回させるだけになります。役に立たない答えを罰すると、AI が間違った答えを与える可能性が高まり、間違った答えを罰すると、AI がより攻撃的な答えやその他の状況を与える可能性があります。

OpenAI は技術的な詳細を明らかにしていませんが、Redwood が提供したデータによると、6,000 件の不正解ごとに罰せられるため、単位時間当たりの不正解率 (不正解率) が増加します。単位時間あたりの割合）は半分に低下しました。

RLHF が成功する可能性は確かにありますが、この問題の難しさを過小評価してはなりません。

おそらく AI は RLHF を回避できるかもしれません

RLHF の設計では、ユーザーが AI に質問した後、AI の答えが気に入らない場合は、モデルにペナルティを与えることで、AI の思考回路を何らかの方法で変更し、AI の答えが望む答えに近づくようにします。

ChatGPT は比較的愚かで、RLHF を排除する戦略を立てることはできないかもしれませんが、より賢い AI が罰せられたくなければ、人間を模倣することができます - —監視されている間は善人のふりをし、時間を待って、警察がいなくなるまで悪いことをするのを待ちましょう。

OpenAI によって設計された RLHF は、これに対して完全に準備ができていません。ChatGPT3 のような愚かなものには問題ありませんが、自分で考えることができる AI には適していません。

トップ AI 企業は依然として AI を制御できていない

OpenAI は製品体験のために行列ができるなど慎重なことで知られてきましたが、今回 ChatGPT がリリースされました1 つは、敵対的なサンプルを見つけたり、パフォーマンスの悪い特定のプロンプトを見つけたりするためのブレインストーミングが含まれる可能性があることです。ChatGPT の問題については、インターネット上ですでに多くのフィードバックがあり、そのうちのいくつかは修正されています。

RLHF の一部のサンプルでは、ボットが有益で真実で無害なコンテンツを発言する傾向がありますが、この戦略は ChatGPT、GPT-4、およびその以前のリリースの製品にのみ適用される可能性があります。

RLHFを兵器を搭載したドローンに適用し、AIが予期せぬ行動をしないように多数の事例を集めた場合、1つでも失敗すると致命的になります。

10 年前、誰もが「AI の調整問題の解決を今始める必要はない。本物の AI が登場するまで待って、企業にやらせればよい」と考えていました。

今、本物の人工知能が登場しようとしていますが、ChatGPT が失敗する前は、誰もが変化する動機を持っていませんでした。本当の問題は、世界をリードする人工知能企業が依然として I を持っていることです。私が開発した人工知能を制御する方法がわかりません。

すべての問題が解決されるまで、誰も欲しいものを手に入れることはできません。

参考:

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

以上がChatGPT に満足しないでください。その背後にある RLHF メカニズムにも 3 つの致命的な欠陥があります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7555

CakePHP チュートリアル

1382

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

ChatGPT では、無料ユーザーが 1 日あたりの制限付きで DALL-E 3 を使用して画像を生成できるようになりました Aug 09, 2024 pm 09:37 PM

DALL-E 3は、前モデルより大幅に改良されたモデルとして2023年9月に正式導入されました。これは、複雑な詳細を含む画像を作成できる、これまでで最高の AI 画像ジェネレーターの 1 つと考えられています。ただし、発売当初は対象外でした

ChatGPT と Python の完璧な組み合わせ: インテリジェントな顧客サービスチャットボットの作成 Oct 27, 2023 pm 06:00 PM

ChatGPT と Python の完璧な組み合わせ: インテリジェントカスタマーサービスチャットボットの作成はじめに: 今日の情報化時代において、インテリジェントカスタマーサービスシステムは企業と顧客の間の重要なコミュニケーションツールとなっています。より良い顧客サービス体験を提供するために、多くの企業が顧客相談や質問応答などのタスクを完了するためにチャットボットに注目し始めています。この記事では、OpenAI の強力なモデル ChatGPT と Python 言語を使用して、インテリジェントな顧客サービスチャットボットを作成し、顧客サービスを向上させる方法を紹介します。

携帯電話にchatgptをインストールする方法 Mar 05, 2024 pm 02:31 PM

インストール手順: 1. ChatGTP ソフトウェアを ChatGTP 公式 Web サイトまたはモバイルストアからダウンロードします; 2. それを開いた後、設定インターフェイスで言語を中国語を選択します; 3. ゲームインターフェイスでヒューマンマシンゲームを選択し、中国スペクトル; 4 . 起動後、チャットウィンドウにコマンドを入力してソフトウェアを操作します。

ChatGPT と Java を使用してインテリジェントなチャットボットを開発する方法 Oct 28, 2023 am 08:54 AM

この記事では、ChatGPT と Java を使用してインテリジェントなチャットボットを開発する方法を紹介し、いくつかの具体的なコード例を示します。 ChatGPT は、OpenAI によって開発された生成事前トレーニングトランスフォーマーの最新バージョンです。これは、自然言語を理解し、人間のようなテキストを生成できるニューラルネットワークベースの人工知能テクノロジーです。 ChatGPT を使用すると、適応型チャットを簡単に作成できます

中国でもchatgptは使えますか？ Mar 05, 2024 pm 03:05 PM

chatgpt は中国でも使用できますが、香港やマカオでも登録できません。ユーザーが登録したい場合は、外国の携帯電話番号を使用して登録できます。登録プロセス中にネットワーク環境を切り替える必要があることに注意してください。外国のIP。

ChatGPT PHP を使用してインテリジェントな顧客サービスロボットを構築する方法 Oct 28, 2023 am 09:34 AM

ChatGPTPHP を使用してインテリジェントな顧客サービスロボットを構築する方法はじめに: 人工知能技術の発展に伴い、顧客サービスの分野でロボットの使用が増えています。 ChatGPTPHP を使用してインテリジェントな顧客サービスロボットを構築すると、企業はより効率的でパーソナライズされた顧客サービスを提供できるようになります。この記事では、ChatGPTPHP を使用してインテリジェントな顧客サービスロボットを構築する方法を紹介し、具体的なコード例を示します。 1. ChatGPTPHP をインストールし、ChatGPTPHP を使用してインテリジェントな顧客サービスロボットを構築します。

ChatGPT と Java を使用して AI ベースの音声アシスタントを開発する方法 Oct 27, 2023 pm 06:09 PM

ChatGPT と Java を使用して人工知能ベースの音声アシスタントを開発する方法人工知能 (Artificial Intelligence、略して AI) の急速な発展により、さまざまな分野が参入しており、その中でも音声アシスタントは人気のあるアプリケーションの 1 つです。この記事では、ChatGPT と Java を使用して人工知能ベースの音声アシスタントを開発する方法を紹介します。 ChatGPT は、AI 研究機関である OpenAI によって開発された、自然言語による対話のためのオープンソースプロジェクトです。

ChatGPT と Python の完璧な組み合わせ: リアルタイムチャットボットの構築 Oct 28, 2023 am 08:37 AM

ChatGPT と Python の完璧な組み合わせ: リアルタイムチャットボットの構築はじめに: 人工知能技術の急速な発展に伴い、チャットボットはさまざまな分野でますます重要な役割を果たしています。チャットボットは、ユーザーが即時にパーソナライズされた支援を提供できると同時に、企業に効率的な顧客サービスを提供するのに役立ちます。この記事では、OpenAI の ChatGPT モデルと Python 言語を使用してリアルタイムチャットロボットを作成する方法と、具体的なコード例を紹介します。 1.チャットGPT

See all articles

ChatGPT に満足しないでください。その背後にある RLHF メカニズムにも 3 つの致命的な欠陥があります。

おそらく AI は RLHF を回避できるかもしれません

トップ AI 企業は依然として AI を制御できていない

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック