SF 小説「三体問題」では、地球を占領しようとするトリソラ人には非常にユニークな設定が与えられています。彼らは脳波を通じて情報を共有し、思考と思考が透明です。陰謀的ではありません。彼らにとって、考えることと話すことは同じ言葉です。一方、人類は思考の不透明さを利用して「壁に向かう計画」を立て、ついにトリソララン人を欺くことに成功し、段階的な勝利を収めた。
そこで問題は、人間の思考は本当に完全に不透明なのかということです。いくつかの技術的手段の出現により、この質問に対する答えはそれほど絶対的ではないようです。多くの研究者が人間の思考の謎を解読し、脳信号の一部をテキスト、画像、その他の情報に解読しようとしています。
最近、2 つの研究チームが画像デコードの方向で同時に重要な進歩を遂げ、関連論文が CVPR 2023 に採択されました 。
最初のチームは大阪大学で、最近非常に人気のある安定拡散を使用して、機能的磁気共鳴画像法 (fMRI) によって得られた人間の脳活動画像から脳活動パターンを再構成しています。解像度、高精度の画像 (「安定拡散は脳信号を読み取って画像を再現し、その研究は CVPR に受理されました」を参照)。
##偶然にも、ほぼ同時に、シンガポール国立大学、香港中文大学、そして香港中文大学の中国チームが参加しました。スタンフォード大学でも同様の結果が得られました。彼らは、「MinD-Vis」と呼ばれる人間の視覚デコーダを開発しました。これは、事前にトレーニングされたマスク モデリングと潜在拡散モデルを通じて fMRI データから直接デコードできます。これらの画像は、適度に詳細なだけでなく、画像のセマンティクスや特徴 (テクスチャや形状など) を正確に表現する画像を生成します。現在、この研究のコードはオープンソースです。
#論文のタイトル: 脳を超えて見る: ビジョン デコーディングのためのスパース マスク モデリングを使用した条件付き拡散モデル
研究概要
「目に見えるものは、あなたが考えるものです。」人間の知覚と事前知識は脳内で密接に関係しています。私たちの世界の認識は、客観的な刺激だけでなく、経験によっても影響されます。これらの影響により、複雑な脳活動が形成されます。これらの脳活動を理解し、情報を解読することは認知神経科学の重要な目標の 1 つであり、視覚情報を解読することは困難な問題です。
機能的磁気共鳴画像法 (fMRI) は、画像カテゴリなどの視覚情報を回復するために一般的に使用される非侵襲的で効果的な方法です。
MinD-Vis の目的は、深層学習モデルを使用して fMRI データから視覚刺激を直接デコードする可能性を探ることです。
以前の方法が fMRI データから複雑な神経活動を直接デコードする場合、{fMRI - 画像} のペアリングや効果的な生物学的誘導が欠如しているため、再構成された画像は通常不鮮明で意味的に意味がありません。 。したがって、脳活動と視覚刺激との関係を確立するのに役立つ fMRI 表現を効果的に学習することは重要な課題です。
さらに、個人差が問題を複雑にするため、大規模なデータセットから表現を学習し、fMRI から条件付き合成を生成する際の制約を緩和する必要があります。
したがって、著者は、自己教師あり学習 (プレテキストタスクを使用した自己教師あり学習) と大規模な生成モデルを使用することで、モデルを微調整できると考えています。比較的小さなデータ セットで、コンテキストに関する知識と驚くべき生成能力を備えています。 スパースコードマスク脳モデリング (SC-MBM) は、脳の特徴を効果的に視覚的にデコードするための、生物学的に誘導された事前訓練済み学習者として提案されています。 #以前の方法との比較 - 生成品質
##従来手法との比較 – 評価指標の定量的比較
#大規模生成モデルの自己教師あり学習{fMRI - 画像} ペアの収集は非常に高価で時間がかかるため、このタスクは常にデータ アノテーションの欠如に悩まされてきました。さらに、各データセットと各個人のデータには特定のドメイン オフセットがあります。
これを行うために、彼らは自己教師あり学習と大規模な生成モデルを使用しました。彼らは、このアプローチにより、比較的小さなデータセットでモデルを微調整し、状況に応じた知識と驚くべき生成機能を獲得できると信じています。
MinD-Vis フレームワーク
以下では、MinD-Vis フレームワークを詳しく紹介し、設計の理由や考え方を紹介します。
fMRI は 3D ボクセル (ボクセル) を使用して脳血中酸素濃度の相関を測定します (太字)を変更して、脳活動の変化を観察します。隣接するボクセルの振幅は多くの場合類似しており、fMRI データに空間的冗長性が存在することを示しています。
fMRI データを計算する場合、通常、関心領域 (ROI) が抽出され、データは 1D ベクトルに変換されます。このタスクでは、脳の視覚野からの信号のみを抽出するため、ボクセル数(約 4000)は画像のピクセル数(256*256*3)に比べてはるかに少なく、このようなデータはデータとはなりません。緯度の点で処理される画像データと通常の画像データの使用方法にはかなりのギャップがあります。
クロスアテンション コンディショニングとタイムステップ コンディショニングを通じて事前トレーニングされた fMRI エンコーダと LDM を統合し、条件付き合成のダブル コンディショニングを実行します。次に、ペアの {fMRI, Image} を使用して、LDM のクロス アテンション ヘッドを共同で微調整します。
MinD-Vis の概要
(A) スパースコーディングされたマスクド脳モデリング (SC-MBM) (MinD-Vis の概要は左)
fMRI の空間情報の冗長性により、たとえ大部分はマスクされていますが、fMRI データは引き続き復元できます。したがって、MinD-Vis の最初の段階では、計算時間を節約するために fMRI データのほとんどがマスクされます。ここで、著者はマスクされたオートエンコーダと同様のアプローチを使用します。
##SC-MBM はマスクされた fMRI 情報を効果的に復元できます
この設計は次のようなものですマスク オートエンコーダーとの違いは何ですか?
マスク モデリングを自然画像に適用する場合、モデルでは通常、1 以上の埋め込み対パッチ サイズの比率が使用されます。(B) Double-Conditioned LDM (DC-LDM) (MinD-Vis 概要右)
大規模な実験はステージ A で実行されました。コンテキスト学習により、fMRI エンコーダは fMRI データを局所性制約のあるスパース表現に変換できます。ここで、著者らは復号化タスクを条件付き生成問題として定式化し、事前トレーニングされた LDM を使用してこの問題を解決します。
#LDM は、条件付き情報として fMRI データ z を使用して画像の潜在空間を操作します。目標は、逆拡散を通じて画像を形成する方法を学習することです。プロセス。
#さまざまなランダム状態の画像を複数回デコードすることで、この方法の安定性を実証します。
微調整
fMRI エンコーダーは SC-MBM によって事前トレーニングされた後、ダブルコンディショニングによって事前にトレーニングされた LDM が統合されます。ここで、著者:
DC-LDMのアブレーション実験
追加の詳細驚くべきことに、MinD-Vis は、グラウンド トゥルース画像には実際には存在しないものの、画像の内容に非常に関連のある一部の詳細をデコードできます。たとえば、写真が自然風景の場合、MinD-Vis は川と青空をデコードし、住宅の場合、MinD-Vis は同様の室内装飾をデコードします。これには利点と欠点の両方があります。良いことは、これが私たちが想像したものをデコードできることを示していることですが、悪い点は、これがデコード結果の評価に影響を与える可能性があることです。
##お気に入りのロールオーバーのコレクション著者は、学習サンプルの数が少ない場合、刺激を解読する難易度が異なると考えています。たとえば、GOD データセットには、衣服よりも多くの動物の訓練サンプルが含まれています。これは、意味的に「furry」に似た単語は、衣服ではなく動物としてデコードされる可能性が高いことを意味します。上の図では、靴下が羊としてデコードされています。
実験設定
データセット
ここで、著者は 3 つの公開データ セットを使用しました。
この記事のモデル構造(ViTと拡散モデル)の設計は主に過去の文献を参考にしています。モデルパラメータの詳細については本文を参照してください。同様に、非対称アーキテクチャも採用しています。エンコーダは意味のある fMRI 表現を学習することを目的とし、デコーダは不明瞭なパッチを予測しようとします。したがって、以前の設計に従ってデコーダを小さくし、事前トレーニング後に破棄します。
評価指標
以前の文献と同様に、著者は意味論を評価するために n-way の上位 1 位と上位 5 位の分類精度も使用しました。結果の正確さ。これは、ランダムに選択された n-1 個のカテゴリと、複数の試行にわたる正しいカテゴリの上位 1 位と上位 5 位の分類精度を計算することで結果を評価する方法です。以前のアプローチとは異なり、ここでは、手作りの特徴を使用する代わりに、事前にトレーニングされた ImageNet1K 分類器を使用して、生成された画像の意味論的な正しさを判断する、より直接的で複製可能な評価方法を採用しています。さらに、生成された画像の品質を評価するための基準としてフレシェ開始距離 (FID) を使用しました。ただし、データセット内の画像の数が限られているため、FID は画像の分布を完全には評価できない場合があります。 ###############効果#########
この記事の実験は個人レベルで行われます。つまり、モデルは同じ個人でトレーニングおよびテストされます。以前の文献との比較のために、GOD データセットの 3 番目の被験者の結果をここで報告し、他の被験者の結果を付録にリストします。
このプロジェクトを通じて、著者はfMRIによる人間の脳の視覚情報の復元の実現可能性を実証しました。しかし、この分野には、個人間の差異をより適切に処理する方法、デコードにおけるノイズや干渉の影響を軽減する方法、fMRI デコードと他の神経科学技術を組み合わせて、人間の脳の仕組みと機能をより包括的に理解します。同時に、人間の脳と個人のプライバシーを取り巻く倫理的および法的問題をより深く理解し、尊重する必要もあります。
さらに、このテクノロジーを実用的なアプリケーションに変えるために、医療や人間とコンピューターのインタラクションなど、より幅広い応用シナリオを探求する必要もあります。医療分野では、fMRI デコード技術は将来、視覚障害者、聴覚障害者、さらには全身麻痺の患者などの特殊なグループが思考を解読できるようにするために使用される可能性があります。これらの人々は身体障害があるため、従来のコミュニケーション方法では自分の考えや願望を表現することができません。 fMRI 技術を使用することで、科学者は彼らの脳活動を解読して彼らの考えや願望にアクセスし、より自然かつ効率的にコミュニケーションできるようになります。ヒューマン コンピューター インタラクションの分野では、fMRI デコード テクノロジを使用して、より自然で効率的なヒューマン コンピューター インタラクション エクスペリエンスを実現するためにユーザーの脳活動をデコードするなど、よりインテリジェントで適応性のあるヒューマン コンピューター インターフェイスおよび制御システムを開発できます。
私たちは、大規模なデータセットと大規模なモデルのコンピューティング能力のサポートにより、fMRI デコードがより広範囲かつ広範囲に影響を及ぼし、認知神経科学と人工知能の開発を促進すると信じています。知性を発展させます。
注: *スパースコーディングを使用して脳内で視覚刺激表現を学習するための生物学的基礎: スパースコーディングは、感覚情報の表現戦略として提案されています。研究によると、視覚刺激は視覚皮質でまばらにコード化されており、これにより情報伝達効率が向上し、脳の冗長性が低下します。 fMRI を使用すると、視覚野で収集された少量のデータから自然シーンの視覚内容を再構成できます。スパース コーディングは、コンピューター ビジョンで効率的にコーディングする方法です。この記事では、fMRI データを小さなブロックに分割して局所性制約を導入し、各小さなブロックを高次元ベクトル空間にまばらにエンコードする SC-MBM 法について言及しました。これは、生物学的に効果的かつ効率的な脳特徴学習器として使用できます。 、視覚的なエンコードとデコードに使用されます。
以上がAI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。