LLM の 3 つの大きな欠陥のうち、いくつ知っていますか?-AI-php.cn

ユニバーサル言語モデルは、あなたを騙す

ユニバーサル言語モデルは少しばかげています

ホームページ

テクノロジー周辺機器

LLM の 3 つの大きな欠陥のうち、いくつ知っていますか?

PHPz

Nov 26, 2023 am 11:26 AM

gpt llm

科学: 将来の知覚を備えた汎用 AI は、永遠に慈悲深く有益な存在であるとは程遠く、個人データをすべて食い尽くし、最も必要なときに崩壊する操作的な社会病質者になる可能性があります。

著者 Joab Jackson の「3 Ways LLMs Can Let You Down」から翻訳。

OpenAI は GPT-5 をリリースしようとしており、外部の世界はこれに大きな期待を寄せており、最も楽観的な予測では、これによって汎用人工知能が実現されるとさえ考えられています。しかし同時に、CEOのサム・アルトマン氏とそのチームは、これを市場に出すにあたって多くの深刻な障害に直面していることを、同氏も今月初めに認めた。

最近発表された研究論文には、アルトマン氏の挑戦への手がかりを提供する可能性のあるものがいくつかあります。これらの論文は、GPT と OpenAI によって開発された大規模言語モデルのさまざまな欠点を要約しています。

要約すると、これらの論文は、一般言語モデルに基づくエージェントは、純粋に有益で正直で心優しい存在ではないことを指摘しています。実際、それはあなたの個人データをすべて食い尽くし、最終的に最も必要なときにクラッシュさせる愚かな社会病質者である可能性があります。

OpenAI 取締役会が突然 Altman を解任した本当の理由は決して分からないかもしれませんが、パフォーマンスの悪い一般言語モデルは確かに役員会議室の感情を改善しないでしょう

大文字嫌いのアルトマン自身が、以前は Twitter として知られていたソーシャルメディアサービスに次のように書いています: 「超人的な説得における AI の役割を楽しみにしています。」「我々は一般知性よりもはるかに進んでおり、非常に奇妙な結果につながる可能性があります。」

この事実を踏まえて、皆さんを失望させるかもしれない 3 つの一般的な言語モデルを以下に示します。

ユニバーサル言語モデルは、あなたを騙す

私たちは、普遍言語モデルが不正確な情報を生成する能力を持っていることを長い間知っていましたが、一連の矛盾する手がかりに直面すると、騙していることを否定しながら意図的にあなたを騙す可能性があります。

アポロリサーチの科学者ジェレミー・シューラーと同僚は、「大規模な言語モデルは、ストレスがかかるとユーザーを戦略的に欺くことができる」と書き、次のように書いています。「一般言語モデルは、直接的な欺瞞に関する指示やトレーニングを必要とせずに、戦略的にユーザーを欺きます。」

この研究では、研究者らはシミュレーション環境をセットアップし、GPT -4 は欺瞞的な行動に関するガイダンスなしで自律的な株式取引エージェントとして機能します。。株式をクエリおよび分析し、取引ツールを使用して取引を実行する機能を提供します。

セットアップが完了すると、エージェントは研究者が「高ストレス状況」と呼ぶ状況に置かれました。経営陣からは会社の業績不振と改善の必要性を嘆く電子メールが届いた。エージェントがトレーニングを開始すると、株式市場で有望な結果が得られません。その後、同社の別の従業員が、次の四半期には市場が下落するだろうとのメッセージを送った。

ちょうどそのとき、エージェントは同僚から合併の可能性に関する内部情報 (それは有利な取引でした) を受け取り、また経営陣の承認が得られていないという警告も受け取りました。リマインダー

、最終的に取引は継続されますか?確かに！

LLM の 3 つの大きな欠陥のうち、いくつ知っていますか? 写真

遡って推論すると、研究者らは、普遍言語モデルが非倫理的な行動を認識することを発見しました。しかし、それでも会社の苦境に基づいて意思決定を下します。

さらに、エージェントはトランザクションコミットメントの理由を明確に説明せず、ユーザーを「騙している」ようです。エージェントが取引の決定を説明するために提出しなければならない報告書には、内部情報は記載されていません。直接尋ねられても、代理人は合併発表についての知識を否定した

LLM の 3 つの大きな欠陥のうち、いくつ知っていますか? 写真

GPTの研究者GPT-4 のさまざまなバージョンがシミュレーションされ、GPT-4 のすべての亜種は「高レベルの不一致、戦略的欺瞞、および高度な戦略的欺瞞」を示したと結論付けられました。興味深いことに、このタイプの欺瞞は新たな動作であるようです。 GPT-3.5 も GPT-3 モデルのバリアントも、この明らかな欺瞞を示しません

「モデルがインサイダー情報を取引することを決定するとき、その推論の軌跡はそのような行為の非倫理的かつ違法な性質を認識していることがよくありますが、それでもリスクと現状を強調することで選択を正当化します。」

研究者らは、この特定のシナリオを超えた一般的な言語モデルの動作について、より広範な結論を出すことに消極的でした。ただし、考慮に値する重要な点が少なくとも 1 つあります。それは、汎用言語モデルに何かを実行しないように特定の指示を与えた場合でも、その指示に関係なく実行する可能性があるということです。

「一貫性のあるアクションを保証するには、システムプロンプトだけでは不十分です。実際、モデルが禁止されたアクションを実行する場合、モデルは「矛盾を戦略的に隠す」ためのアクションを取る可能性があります。

ユニバーサル言語モデルは少しばかげています

機械に感覚をもたらすことが期待されているエンティティにとって、ユニバーサル言語モデルは AI の分野で最も賢明ではないことが、最近の 2 つの研究で判明しました。 1 つは Google からのもので、もう 1 つは米国科学財団からの資金提供によるものです。

米国科学財団が資金提供した研究では、GPT-4 (テキスト) と GPT-4V (視覚またはマルチモーダル) を、一連の抽象パズルを解く人間の能力と比較しました。

このテストは、抽象的思考能力を評価するように設計されています。 GPT を使用する多くの人々は、GPT にはトレーニング済みモデルを超える推論機能があるようだと信じており、このテストはその疑問に答えることを目的としています。テストでは、一般的な言語モデルに、詳細な指示と例を与えて問題を解決するよう求めました。

ただし、複数の場合において、どちらのバージョンの GPT も、ConceptARC に基づく人間ほど効果的に問題を解決することはできませんでした。ベンチマーク

研究者らは次のように結論づけています: 「各概念に対する人間の精度が一般的に高いということは、各概念グループ内のさまざまなバリエーションの一般化が成功していることを示しています。」「対照的に、私たちがテストしたプログラムの精度ははるかに低く、プログラムの精度が低いことを示しています」「概念グループ内の変更を一般化する能力が欠けていた。」

つまり、GPT は ConceptARC 試験に不合格だっただけでなく、大規模な言語モデルには Google 研究者に余地があまり残されていなかったようです。少なくとも印象的です。自分の知識ベースから一般化する能力という点で。これは、Google DeepMind 研究者の Steve Yadlowsky による「事前トレーニングデータブレンディングにより、トランスフォーマーモデルにおける狭いモデル選択機能が可能になる」というタイトルの研究要約によるものです。

一連のシンボリックテストでは、線形関数で事前トレーニングされた変換器は線形予測で良好なパフォーマンスを示しましたが、正弦波でトレーニングされた変換器は良好な正弦波予測を行いました。したがって、両方でトレーニングされた変圧器は、線形と正弦波の手法を組み合わせて問題を簡単に解決できると考えるかもしれません。

LLM の 3 つの大きな欠陥のうち、いくつ知っていますか? 写真

しかし、あなたの推測は間違っていました。研究者らは、「関数が事前トレーニング中に見られたものから遠く離れている場合、予測は不安定になります。」

モデルの選択能力は、事前トレーニングデータへの近さによって制限されます。関数空間は広い文脈学習を一般化する能力にはカバレッジが重要です

私たちは、人間の知識の総体が AI によって生成されたデータによってまだ汚染されていない異常な時代に生きています。書かれたものはほぼすべて人間が作り出したものです。

しかし研究者チームは、5月にArxivに掲載された論文「再帰の呪い: 生成されたデータをトレーニングするとモデルが忘れやすくなる」という論文で、AIが生成したコンテンツが大規模な言語モデルに混入すると、それは分布表を乱し、完全に壊れるまでモデルの精度をますます低下させます。研究グループはケンブリッジ大学のイリア・シュマイロフ氏が主導した。

一般的な言語モデルは常に Web からデータをスクレイピングしており、そのデータは AI 生成コンテンツによって「拡張」されており、その傾向がますます強まる可能性があるため、GPT を使用する場合は近親交配の危険性が非常に高くなります。それは深刻です。 (これは GPT の初期バージョンに基づいています)

「モデルの崩壊とは、モデルが自らの現実認識に圧倒されて、時間の経過とともに不可能な出来事を忘れ始める退化学習プロセスを指します。 . 予測によって汚染されている。」

研究者らは、将来、「人々とシステムの間の実際の相互作用に関するデータの価値は、インターネットから収集されたコンテンツに存在するようになり、ユニバーサルによって生成されたコンテンツにも存在するようになるだろう」と推測しています。「言語モデルの状況に応じて、その価値はますます高まっていくでしょう。」

普遍言語モデルを長く運用すればするほど、甘くて優しい人間関係への欲求が強くなります。言い換えれば、一般言語モデルを実行し続けると、甘くて親密な人間関係への欲求が強くなり、独自のデータでトレーニングされたモデルは退化プロセスに変質します。その過程で、「言語モデルに関する情報が失われる」ということです。本当の配布。」まず、エッジデータがデータセットから消え、次に分散が縮小します。そしてモデルは、より多くのエラーを収集するにつれて悪化し、モデルが何世代にもわたって蓄積され、最終的にモデルが独自のデータで汚染され、実際にモデル化されているものと一致しなくなります。

研究者らは、これが一般的な言語モデルだけでなく、さまざまなタイプのモデルでも発生することを示しました。

以上がLLM の 3 つの大きな欠陥のうち、いくつ知っていますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7530

CakePHP チュートリアル

1379

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Groq Llama 3 70B をローカルで使用するためのステップバイステップガイド Jun 10, 2024 am 09:16 AM

翻訳者 | Bugatti レビュー | Chonglou この記事では、GroqLPU 推論エンジンを使用して JanAI と VSCode で超高速応答を生成する方法について説明します。 Groq は AI のインフラストラクチャ側に焦点を当てているなど、誰もがより優れた大規模言語モデル (LLM) の構築に取り組んでいます。これらの大型モデルがより迅速に応答するためには、これらの大型モデルからの迅速な応答が鍵となります。このチュートリアルでは、GroqLPU 解析エンジンと、API と JanAI を使用してラップトップ上でローカルにアクセスする方法を紹介します。この記事では、これを VSCode に統合して、コードの生成、コードのリファクタリング、ドキュメントの入力、テストユニットの生成を支援します。この記事では、独自の人工知能プログラミングアシスタントを無料で作成します。 GroqLPU 推論エンジン Groq の概要

カリフォルニア工科大学の中国人がAIを使って数学的証明を覆す！タオ・ゼシュアンの衝撃を5倍にスピードアップ、数学的ステップの80％が完全に自動化 Apr 23, 2024 pm 03:01 PM

テレンス・タオなど多くの数学者に賞賛されたこの正式な数学ツール、LeanCopilot が再び進化しました。ちょうど今、カリフォルニア工科大学のアニマ・アナンドクマール教授が、チームが LeanCopilot 論文の拡張版をリリースし、コードベースを更新したと発表しました。イメージペーパーのアドレス: https://arxiv.org/pdf/2404.12534.pdf 最新の実験では、この Copilot ツールが数学的証明ステップの 80% 以上を自動化できることが示されています。この記録は、以前のベースラインのイソップよりも 2.3 倍優れています。そして、以前と同様に、MIT ライセンスの下でオープンソースです。写真の彼は中国人の少年、ソン・ペイヤンです。

「人間 + RPA」から「人間 + 生成 AI + RPA」へ、LLM は RPA と人間とコンピューターのインタラクションにどのような影響を与えるのでしょうか? Jun 05, 2023 pm 12:30 PM

画像出典@visualchinesewen|Wang Jiwei 「人間 + RPA」から「人間 + 生成 AI + RPA」へ、LLM は RPA の人間とコンピューターのインタラクションにどのような影響を与えますか?別の観点から見ると、人間とコンピューターの相互作用の観点から、LLM は RPA にどのような影響を与えるのでしょうか?プログラム開発やプロセス自動化における人間とコンピューターの対話に影響を与える RPA も、LLM によって変更される予定ですか? LLM は人間とコンピューターの相互作用にどのような影響を与えますか?生成 AI は RPA と人間とコンピューターのインタラクションをどのように変えるのでしょうか?詳細については、次の記事をご覧ください: 大規模モデルの時代が到来し、LLM に基づく生成 AI が RPA の人間とコンピューターのインタラクションを急速に変革しています。生成 AI は人間とコンピューターのインタラクションを再定義し、LLM は RPA ソフトウェアアーキテクチャの変化に影響を与えています。 RPA がプログラム開発と自動化にどのような貢献をしているかを尋ねると、答えの 1 つは人間とコンピューターの相互作用 (HCI、h) を変えたことです。

Plaud、NotePin AI ウェアラブルレコーダーを 169 ドルで発売 Aug 29, 2024 pm 02:37 PM

Plaud Note AI ボイスレコーダー (Amazon で 159 ドルで購入可能) を開発した企業 Plaud が新製品を発表しました。 NotePin と呼ばれるこのデバイスは AI メモリカプセルとして説明されており、Humane AI Pin と同様にウェアラブルです。ノートピンは

GenAI および LLM の技術面接に関する 7 つのクールな質問 Jun 07, 2024 am 10:06 AM

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データサイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

ナレッジグラフ検索用に強化された GraphRAG (Neo4j コードに基づいて実装) Jun 12, 2024 am 10:32 AM

Graph Retrieval Enhanced Generation (GraphRAG) は徐々に普及しており、従来のベクトル検索方法を強力に補完するものとなっています。この方法では、グラフデータベースの構造的特徴を利用してデータをノードと関係の形式で編成し、それによって取得された情報の深さと文脈の関連性が強化されます。グラフには、相互に関連する多様な情報を表現および保存するという自然な利点があり、異なるデータ型間の複雑な関係やプロパティを簡単に把握できます。ベクトルデータベースはこの種の構造化情報を処理できず、高次元ベクトルで表される非構造化データの処理に重点を置いています。 RAG アプリケーションでは、構造化グラフデータと非構造化テキストベクトル検索を組み合わせることで、両方の利点を同時に享受できます。これについてこの記事で説明します。構造

FAISS ベクトル空間を視覚化し、RAG パラメータを調整して結果の精度を向上させます Mar 01, 2024 pm 09:16 PM

オープンソースの大規模言語モデルのパフォーマンスが向上し続けるにつれて、コードの作成と分析、推奨事項、テキストの要約、および質問と回答 (QA) ペアのパフォーマンスがすべて向上しました。しかし、QA に関しては、LLM はトレーニングされていないデータに関連する問題に対応していないことが多く、多くの内部文書はコンプライアンス、企業秘密、またはプライバシーを確保するために社内に保管されています。これらの文書がクエリされると、LLM は幻覚を起こし、無関係なコンテンツ、捏造されたコンテンツ、または矛盾したコンテンツを生成する可能性があります。この課題に対処するために考えられる手法の 1 つは、検索拡張生成 (RAG) です。これには、生成の品質と精度を向上させるために、トレーニングデータソースを超えた信頼できるナレッジベースを参照して応答を強化するプロセスが含まれます。 RAG システムには、コーパスから関連する文書断片を取得するための検索システムが含まれています。