大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る-AI-php.cn

ホームページ

テクノロジー周辺機器

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 08, 2023 pm 11:13 PM

データ研究

長年にわたり、私たちは人工知能がどのように意思決定を行い、出力を生成するかを理解できませんでした。

モデル開発者ができるのは、アルゴリズムとデータについて決定し、最終的にはモデルの出力結果、および中間部分、つまりモデルがこれらのアルゴリズムとデータに基づいて結果を出力する方法は、目に見えない「ブラックボックス」になります。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

「モデルのトレーニングは錬金術のようなもの」というジョークがあります。

しかし今、モデルのブラックボックスがついに解釈可能になりました。

Anthropic の研究チームは、モデルのニューラルネットワーク内の最も基本的な単位ニューロンの解釈可能な特徴を抽出しました。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

#これは、人類が AI のブラックボックスを明らかにするための画期的な一歩となるでしょう。

人間は興奮した表情でこう言いました:

「モデル内のニューラルネットワークがどのように機能するかを理解できれば、モデルの欠陥を診断できます。パターン、設計の修正、企業や社会による安全な採用は、手の届く現実になるでしょう!」

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

Anthropic の最新の研究ではレポート「単一意味性を目指して: 辞書学習を使用した言語モデルの分解」では、研究者が辞書学習手法を使用して、512 個のニューロンを含む層を 4,000 を超える解釈可能な特徴に分解することに成功しました

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

研究レポートのアドレス: https://transformer-circuits.pub/2023/monosemantic-features/index.html

これらの特徴は、DNA 配列、法的言語、HTTP リクエストを表します

#単一ニューロンの活性化を個別に観察すると、これらのモデルのプロパティのほとんどを確認することは不可能です

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

ほとんどのニューロンは「多意味的」です。つまり、単一のニューロンは、ネットワークの動作間に一貫した対応関係がありません。

たとえば、小規模な言語モデルでは、単一のニューロンが、学術的な引用、英会話、HTTP リクエスト、韓国語のテキストなど、無関係な多くのコンテキストでアクティブになります。

古典的な視覚モデルでは、単一のニューロンが猫の顔と車の前部に反応します。

#さまざまな状況において、ニューロンの活性化がさまざまな意味を持つことを多くの研究が実証しています。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る #考えられる理由の 1 つは、ニューロンの多意味的な性質が相加効果によるものであるということです。これは仮説的な現象で、ニューラルネットワークが各特徴に独自のニューロンの線形結合を割り当てることでデータの独立した特徴を表し、そのような特徴の数がニューロンの数を超えます

If 各特徴がニューロン上のベクトルと見なされる場合、特徴セットはネットワークニューロンの活性化に対する過完全な線形基礎を形成します。

Anthropic の以前の「重ね合わせのおもちゃモデル」論文では、スパース性によってニューラルネットワークトレーニングのあいまいさが解消され、モデルが特徴間の関係をよりよく理解できるようになり、それによって不確実性が軽減されることが証明されました。活性化ベクトルのソース特徴を分析し、モデルの予測と決定の信頼性を高めます。

この概念は、信号の希薄性により、限られた観測から完全な信号を復元できる圧縮センシングの概念と似ています。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

ただし、「重ね合わせのおもちゃモデル」で提案されている 3 つの戦略のうち、

# (1) 重ね合わせのないモデルを作成する、おそらく活性化の疎性を促進することができます。

##(2) 重ね合わせ状態を示すモデルでは、辞書学習を使用して過完全な特徴を見つけます#(3) ) は、2 つを組み合わせたハイブリッドアプローチに依存しています。

書き直す必要があるのは、方法 (1) では曖昧さの問題を解決できないのに対し、方法 (2) では深刻な過学習が発生する傾向があるということです。

そこで今回、Anthropic の研究者は、スパースオートエンコーダーと呼ばれる弱い辞書学習アルゴリズムを使用して、訓練されたモデルから学習された特徴を生成しました。これにより、意味解析のより統一的な単位であるモデルニューロン自体よりも優れたパフォーマンスが得られます。

具体的には、研究者らは 512 個のニューロンを備えた MLP 単層トランスフォーマーを採用し、最終的に 80 億のデータポイントからの MLP アクティベーションでスパースオートエンコーダーをトレーニングしました。MLP アクティベーションを比較的解釈可能な特徴に分解し、拡張係数の範囲は 1 倍 (512 フィーチャ) から 256 倍 (131,072 フィーチャ) です。

#この研究で見つかった特徴がモデルのニューロンよりも解釈可能であることを検証するために、ブラインドレビューを実施し、人間の評価者にその解釈可能性を評価するよう依頼しました。

#ご覧のとおり、特徴 (赤色) はニューロン (シアン) よりもはるかに高いスコアを持っています。

研究者によって発見された特徴は、モデル内のニューロンに比べて理解しやすいことが示されています

さらに、研究者らは、大規模な言語モデルを使用して小規模なモデルの機能の短い説明を生成し、別のモデルに機能のアクティベーションを予測する能力に基づいてその説明をスコアリングさせるという「自動解釈可能性」アプローチを採用しました。

同様に、特徴のスコアはニューロンよりも高く、特徴の活性化とモデルの動作に対する下流の影響について一貫した解釈が示されています。大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

さらに、これらの抽出された特徴は、モデルをガイドするための対象を絞った方法も提供します。

下の図に示すように、機能を人為的にアクティブ化すると、モデルの動作が予測可能な方法で変化する可能性があります。大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

#以下は、抽出された解釈可能性の特徴を視覚化したものです:

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

左側の特徴リストをクリックして、ニューラルネットワークの特徴空間をインタラクティブに探索します

調査レポートの概要

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

##この調査Anthropic のレポート「Toward Monosemanticity: Decomposition Language Models With Dictionary Learning」は 4 つの部分に分けることができます。

問題設定では、研究者は研究の動機を紹介し、訓練されたトランスフォーマーとスパースオートエンコーダーについて詳しく説明しました。

個々の特徴の詳細な調査により、研究で見つかったいくつかの特徴が機能的に特異的な原因単位であることが証明されました。

グローバル分析を通じて、典型的な特徴は解釈可能であり、MLP 層の重要なコンポーネントを説明できると結論付けました。

現象分析では、特徴のセグメンテーション、普遍性、および複雑な動作を実現するために「有限状態オートマトン」に似たシステムを形成する方法など、特徴のいくつかの特性について説明します。

結論には次の 7 が含まれます。

スパースオートエンコーダには、比較的単一の意味論的特徴を抽出する機能があります。

スパースオートエンコーダーは、実際にはニューロンの基盤では目に見えない解釈可能な特徴を生成できます

3. スパースオートエンコーダーの特徴は、ニューロンの生成に介入し、ガイドするために使用できます。トランスフォーマー。

4. スパースオートエンコーダーは、比較的一般的な特徴を生成できます。

オートエンコーダーのサイズが大きくなると、特徴が「分割」される傾向があります。書き換え後: オートエンコーダーのサイズが大きくなるにつれて、特徴は「分割」の傾向を示します

##6。わずか 512 個のニューロンで数千の特徴を表現できます

#7. 以下の図に示すように、これらの機能は「有限状態オートマトン」システムと同様に相互に接続され、複雑な動作を実現します。

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

具体的な詳細については、レポートをご覧ください。

Anthropic は、この研究レポートの小さなモデルの成功をより大きなモデルに再現するには、将来私たちが直面する課題はもはや科学的な問題ではなく、工学的な問題になると考えています。問題

大規模なモデルで解釈可能性を実現するには、モデルの複雑さとサイズによってもたらされる課題を克服するために、エンジニアリングにおいてより多くの労力とリソースが必要です

#新しい開発が含まれますこれには、モデルの複雑さとデータ規模の課題に対処するためのツール、テクニック、方法が含まれ、大規模モデルのニーズに適応するためのスケーラブルな解釈フレームワークとツールの構築も含まれます。

これは解釈型人工知能と大規模深層学習研究の最新トレンドとなるでしょう

以上が大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7478

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

ddrescue を使用して Linux 上のデータを回復する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハードドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージデバイスなどのファイルデバイスまたはブロックデバイスからデータを回復するためのツールです。あるブロックデバイスから別のブロックデバイスにデータをコピーし、破損したデータブロックを残して正常なデータブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Excelのフィルター機能を複数条件で使う方法 Feb 26, 2024 am 10:19 AM

Excel で複数の条件によるフィルタリングを使用する方法を知る必要がある場合は、次のチュートリアルで、データを効果的にフィルタリングおよび並べ替えできるようにするための手順を説明します。 Excel のフィルタリング機能は非常に強力で、大量のデータから必要な情報を抽出するのに役立ちます。設定した条件でデータを絞り込み、条件に合致した部分のみを表示することができ、データ管理を効率化できます。フィルター機能を利用すると、目的のデータを素早く見つけることができ、データの検索や整理の時間を節約できます。この機能は、単純なデータリストに適用できるだけでなく、複数の条件に基づいてフィルタリングすることもできるため、必要な情報をより正確に見つけることができます。全体として、Excel のフィルタリング機能は非常に実用的です。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

アメリカ空軍が初のAI戦闘機を公開し注目を集める！大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 May 07, 2024 pm 05:00 PM

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機（VISTA）で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランクケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

柔軟かつ高速な 5 本の指を備え、人間のタスクを自律的に完了する初のロボットが登場、大型モデルが仮想空間トレーニングをサポート Mar 11, 2024 pm 12:10 PM

今週、OpenAI、Microsoft、Bezos、Nvidiaが投資するロボット企業FigureAIは、7億ドル近くの資金調達を受け、来年中に自立歩行できる人型ロボットを開発する計画であると発表した。そしてテスラのオプティマスプライムには繰り返し良い知らせが届いている。今年が人型ロボットが爆発的に普及する年になることを疑う人はいないだろう。カナダに拠点を置くロボット企業 SanctuaryAI は、最近新しい人型ロボット Phoenix をリリースしました。当局者らは、多くのタスクを人間と同じ速度で自律的に完了できると主張している。人間のスピードでタスクを自律的に完了できる世界初のロボットである Pheonix は、各オブジェクトを優しくつかみ、動かし、左右にエレガントに配置することができます。自律的に物体を識別できる

See all articles

大型モデルのブラックボックスを破壊し、ニューロンを完全に分解しましょう！ OpenAI のライバル Anthropic が AI の説明不可能性の壁を打ち破る

問題設定では、研究者は研究の動機を紹介し、訓練されたトランスフォーマーとスパース オートエンコーダーについて詳しく説明しました。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

問題設定では、研究者は研究の動機を紹介し、訓練されたトランスフォーマーとスパースオートエンコーダーについて詳しく説明しました。