ホームページ > テクノロジー周辺機器 > AI > AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

WBOY
リリース: 2023-04-13 19:10:01
転載
1885 人が閲覧しました

SF 小説「三体問題」では、地球を占領しようとするトリソラ人には非常にユニークな設定が与えられています。彼らは脳波を通じて情報を共有し、思考と思考が透明です。陰謀的ではありません。彼らにとって、考えることと話すことは同じ言葉です。一方、人類は思考の不透明さを利用して「壁に向かう計画」を立て、ついにトリソララン人を欺くことに成功し、段階的な勝利を収めた。

そこで問題は、人間の思考は本当に完全に不透明なのかということです。いくつかの技術的手段の出現により、この質問に対する答えはそれほど絶対的ではないようです。多くの研究者が人間の思考の謎を解読し、脳信号の一部をテキスト、画像、その他の情報に解読しようとしています。

最近、2 つの研究チームが画像デコードの方向で同時に重要な進歩を遂げ、関連論文が CVPR 2023 に採択されました

最初のチームは大阪大学で、最近非常に人気のある安定拡散を使用して、機能的磁気共鳴画像法 (fMRI) によって得られた人間の脳活動画像から脳活動パターンを再構成しています。解像度、高精度の画像 (「安定拡散は脳信号を読み取って画像を再現し、その研究は CVPR に受理されました」を参照)。

AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

##偶然にも、ほぼ同時に、シンガポール国立大学、香港中文大学、そして香港中文大学の中国チームが参加しました。スタンフォード大学でも同様の結果が得られました。彼らは、「MinD-Vis」と呼ばれる人間の視覚デコーダを開発しました。これは、事前にトレーニングされたマスク モデリングと潜在拡散モデルを通じて fMRI データから直接デコードできます。これらの画像は、適度に詳細なだけでなく、画像のセマンティクスや特徴 (テクスチャや形状など) を正確に表現する画像を生成します。現在、この研究のコードはオープンソースです。

AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

#論文のタイトル: 脳を超えて見る: ビジョン デコーディングのためのスパース マスク モデリングを使用した条件付き拡散モデル

AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

  • 論文リンク: http://arxiv.org/abs/2211.06956
  • コードリンク: https://github.com/zjc062/mind-vis
  • プロジェクトlink: https://mind-vis.github.io/
次にこの論文を詳しく紹介します。

研究概要

「目に見えるものは、あなたが考えるものです。」

人間の知覚と事前知識は脳内で密接に関係しています。私たちの世界の認識は、客観的な刺激だけでなく、経験によっても影響されます。これらの影響により、複雑な脳活動が形成されます。これらの脳活動を理解し、情報を解読することは認知神経科学の重要な目標の 1 つであり、視覚情報を解読することは困難な問題です。

機能的磁気共鳴画像法 (fMRI) は、画像カテゴリなどの視覚情報を回復するために一般的に使用される非侵襲的で効果的な方法です。

MinD-Vis の目的は、深層学習モデルを使用して fMRI データから視覚刺激を直接デコードする可能性を探ることです。

以前の方法が fMRI データから複雑な神経活動を直接デコードする場合、{fMRI - 画像} のペアリングや効果的な生物学的誘導が欠如しているため、再構成された画像は通常不鮮明で意味的に意味がありません。 。したがって、脳活動と視覚刺激との関係を確立するのに役立つ fMRI 表現を効果的に学習することは重要な課題です。

さらに、個人差が問題を複雑にするため、大規模なデータセットから表現を学習し、fMRI から条件付き合成を生成する際の制約を緩和する必要があります。

したがって、著者は、自己教師あり学習 (プレテキストタスクを使用した自己教師あり学習) と大規模な生成モデルを使用することで、モデルを微調整できると考えています。比較的小さなデータ セットで、コンテキストに関する知識と驚くべき生成能力を備えています。

MinD-Vis は、上記の分析に基づいて、人間の視覚解読のためのマスク信号モデリングと二条件潜在拡散モデルを提案しました。具体的な貢献は次のとおりです。

スパースコードマスク脳モデリング (SC-MBM) は、脳の特徴を効果的に視覚的にデコードするための、生物学的に誘導された事前訓練済み学習者として提案されています。

  • 二条件潜在拡散モデル (DC-LDM) を追加することにより、同じセマンティクスの下でデコードの一貫性が強化され、同時に差異の生成が可能になります。
  • SC-MBM の表現能力と DC-LDM の生成能力を組み合わせることで、MinD-Vis によって生成される画像は、意味情報を保持しながらより合理的になります。
  • 定量的および定性的テストが複数のデータセットに対して実施されました。

AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。#以前の方法との比較 - 生成品質

AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。##従来手法との比較 – 評価指標の定量的比較

#大規模生成モデルの自己教師あり学習{fMRI - 画像} ペアの収集は非常に高価で時間がかかるため、このタスクは常にデータ アノテーションの欠如に悩まされてきました。さらに、各データセットと各個人のデータには特定のドメイン オフセットがあります。

このタスクでは、研究者らは脳活動と視覚刺激の間の関係を確立し、それによって対応する画像情報を生成することを目的としました。

これを行うために、彼らは自己教師あり学習と大規模な生成モデルを使用しました。彼らは、このアプローチにより、比較的小さなデータセットでモデルを微調整し、状況に応じた知識と驚くべき生成機能を獲得できると信じています。

MinD-Vis フレームワーク

以下では、MinD-Vis フレームワークを詳しく紹介し、設計の理由や考え方を紹介します。

fMRI データには次のような特徴と問題があります。

fMRI は 3D ボクセル (ボクセル) を使用して脳血中酸素濃度の相関を測定します (太字)を変更して、脳活動の変化を観察します。隣接するボクセルの振幅は多くの場合類似しており、fMRI データに空間的冗長性が存在することを示しています。

fMRI データを計算する場合、通常、関心領域 (ROI) が抽出され、データは 1D ベクトルに変換されます。このタスクでは、脳の視覚野からの信号のみを抽出するため、ボクセル数(約 4000)は画像のピクセル数(256*256*3)に比べてはるかに少なく、このようなデータはデータとはなりません。緯度の点で処理される画像データと通常の画像データの使用方法にはかなりのギャップがあります。
  1. 個人差、実験計画の違い、脳信号の複雑さにより、各データセットと各個人のデータには一定のドメインシフトが発生します。
  2. 固定された視覚刺激の場合、研究者はモデルによって復元された画像が意味的に一貫していることを望んでいますが、個人差により、この視覚刺激に対する反応は人それぞれ異なります。また、モデルによって復元されたイメージが意味的に一貫していることも期待されており、モデルにある程度のばらつきと柔軟性があることが望まれます。
  3. これらの問題に対処するために、MinD-Vis は 2 つの段階で構成されています。
大規模な fMRI データセットを利用して、マスクされたオートエンコーダをトレーニングして fMRI 表現を学習します。

クロスアテンション コンディショニングとタイムステップ コンディショニングを通じて事前トレーニングされた fMRI エンコーダと LDM を統合し、条件付き合成のダブル コンディショニングを実行します。次に、ペアの {fMRI, Image} を使用して、LDM のクロス アテンション ヘッドを共同で微調整します。
  1. これら 2 つの手順については、ここで詳しく説明します。
  2. AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

    MinD-Vis の概要

    (A) スパースコーディングされたマスクド脳モデリング (SC-MBM) (MinD-Vis の概要は左)

    fMRI の空間情報の冗長性により、たとえ大部分はマスクされていますが、fMRI データは引き続き復元できます。したがって、MinD-Vis の最初の段階では、計算時間を節約するために fMRI データのほとんどがマスクされます。ここで、著者はマスクされたオートエンコーダと同様のアプローチを使用します。

    1. fMRI ボクセルをパッチに分割します
    2. パッチ サイズと同じものを使用します。ステップ サイズ 1D 畳み込み層を埋め込みに変換します
    3. #残りの fMRI パッチを位置埋め込みに追加し、ビジョン トランスフォーマーの入力として使用します
    4. #Decoding 再構築されたデータを取得します
    5. 再構築されたデータと元のデータの間の損失を計算します
    6. バックプロパゲーションを通じてモデルを最適化し、再構築されたデータを作成します可能な限りデータを元のデータと同様にします
    7. 手順 2 ~ 6 を繰り返して最終モデルをトレーニングします

    AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

    ##SC-MBM はマスクされた fMRI 情報を効果的に復元できます

    この設計は次のようなものですマスク オートエンコーダーとの違いは何ですか?

    マスク モデリングを自然画像に適用する場合、モデルでは通常、1 以上の埋め込み対パッチ サイズの比率が使用されます。
    • このタスクでは、著者は比較的大きな埋め込みとパッチ サイズの比率を使用しました。これにより、情報容量が大幅に増加し、fMRI 用に大きな表現空間が作成されます。脳内情報のスパースエンコーディングにも対応した設計*。

    AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

    #SC-MBM のアブレーション実験

    (B) Double-Conditioned LDM (DC-LDM) (MinD-Vis 概要右)

    大規模な実験はステージ A で実行されました。コンテキスト学習により、fMRI エンコーダは fMRI データを局所性制約のあるスパース表現に変換できます。ここで、著者らは復号化タスクを条件付き生成問題として定式化し、事前トレーニングされた LDM を使用してこの問題を解決します。

    #LDM は、条件付き情報として fMRI データ z を使用して画像の潜在空間を操作します。目標は、逆拡散を通じて画像を形成する方法を学習することです。プロセス。

    • 画像生成タスクでは、多様性と一貫性は相反する目標であり、画像に対する fMRI は生成の一貫性により依存します。
    • 生成の一貫性を確保するために、著者はクロスアテンション コンディショニングとタイム ステップ コンディショニングを組み合わせ、UNet の中間層に時間埋め込みを備えた条件付きメカニズムを使用します。
    • 彼らは、最適化目標式を二重調整交互式にさらに再定式化しました。

    #さまざまなランダム状態の画像を複数回デコードすることで、この方法の安定性を実証します。 AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

    微調整

    fMRI エンコーダーは SC-MBM によって事前トレーニングされた後、ダブルコンディショニングによって事前にトレーニングされた LDM が統合されます。ここで、著者:

    1. 畳み込み層を使用してエンコーダの出力を潜在次元にマージします。
    2. fMRI エンコーダ、クロス アテンション ヘッド、プロジェクション ヘッドを共同で最適化します。 ;
    3. #クロスアテンションヘッドの微調整は、事前訓練されたコンディショニング空間と fMRI 潜在空間を接続する鍵です;
    4. fMRI 画像をピアに渡した後、最終的な微調整のプロセスで、大容量の fMRI 表現を通じて、fMRI と画像特徴間のより明確な関係が学習されます。

    AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

    DC-LDMのアブレーション実験

    追加の詳細

    驚くべきことに、MinD-Vis は、グラウンド トゥルース画像には実際には存在しないものの、画像の内容に非常に関連のある一部の詳細をデコードできます。たとえば、写真が自然風景の場合、MinD-Vis は川と青空をデコードし、住宅の場合、MinD-Vis は同様の室内装飾をデコードします。これには利点と欠点の両方があります。良いことは、これが私たちが想像したものをデコードできることを示していることですが、悪い点は、これがデコード結果の評価に影響を与える可能性があることです。

    AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

    ##お気に入りのロールオーバーのコレクション

    AI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。

    著者は、学習サンプルの数が少ない場合、刺激を解読する難易度が異なると考えています。たとえば、GOD データセットには、衣服よりも多くの動物の訓練サンプルが含まれています。これは、意味的に「furry」に似た単語は、衣服ではなく動物としてデコードされる可能性が高いことを意味します。上の図では、靴下が羊としてデコードされています。

    実験設定

    データセット

    ここで、著者は 3 つの公開データ セットを使用しました。

      事前トレーニングの第 1 段階: Human Connectome プロジェクトを使用しました。これは、136,000 個の fMRI データ セグメントを提供します。画像はなく、fMRI のみが提供されます。
    • エンコーダーと第 2 段階生成モデルの微調整: Generic Object Decoding Dataset (GOD) および Brain, Object, Landscape Dataset (BOLD5000) データセットが使用されました。これら 2 つのデータ セットは、それぞれ 1250 と 5254 の {fMRI, Image} ペアを提供し、そのうち 50 と 113 がそれぞれテスト セットとして取得されました。
    モデル構造

    この記事のモデル構造(ViTと拡散モデル)の設計は主に過去の文献を参考にしています。モデルパラメータの詳細については本文を参照してください。同様に、非対称アーキテクチャも採用しています。エンコーダは意味のある fMRI 表現を学習することを目的とし、デコーダは不明瞭なパッチを予測しようとします。したがって、以前の設計に従ってデコーダを小さくし、事前トレーニング後に破棄します。

    評価指標

    以前の文献と同様に、著者は意味論を評価するために n-way の上位 1 位と上位 5 位の分類精度も使用しました。結果の正確さ。これは、ランダムに選択された n-1 個のカテゴリと、複数の試行にわたる正しいカテゴリの上位 1 位と上位 5 位の分類精度を計算することで結果を評価する方法です。以前のアプローチとは異なり、ここでは、手作りの特徴を使用する代わりに、事前にトレーニングされた ImageNet1K 分類器を使用して、生成された画像の意味論的な正しさを判断する、より直接的で複製可能な評価方法を採用しています。さらに、生成された画像の品質を評価するための基準としてフレシェ開始距離 (FID) を使用しました。ただし、データセット内の画像の数が限られているため、FID は画像の分布を完全には評価できない場合があります。 ###############効果#########

    この記事の実験は個人レベルで行われます。つまり、モデルは同じ個人でトレーニングおよびテストされます。以前の文献との比較のために、GOD データセットの 3 番目の被験者の結果をここで報告し、他の被験者の結果を付録にリストします。

    最後に書きました

    このプロジェクトを通じて、著者はfMRIによる人間の脳の視覚情報の復元の実現可能性を実証しました。しかし、この分野には、個人間の差異をより適切に処理する方法、デコードにおけるノイズや干渉の影響を軽減する方法、fMRI デコードと他の神経科学技術を組み合わせて、人間の脳の仕組みと機能をより包括的に理解します。同時に、人間の脳と個人のプライバシーを取り巻く倫理的および法的問題をより深く理解し、尊重する必要もあります。

    さらに、このテクノロジーを実用的なアプリケーションに変えるために、医療や人間とコンピューターのインタラクションなど、より幅広い応用シナリオを探求する必要もあります。医療分野では、fMRI デコード技術は将来、視覚障害者、聴覚障害者、さらには全身麻痺の患者などの特殊なグループが思考を解読できるようにするために使用される可能性があります。これらの人々は身体障害があるため、従来のコミュニケーション方法では自分の考えや願望を表現することができません。 fMRI 技術を使用することで、科学者は彼らの脳活動を解読して彼らの考えや願望にアクセスし、より自然かつ効率的にコミュニケーションできるようになります。ヒューマン コンピューター インタラクションの分野では、fMRI デコード テクノロジを使用して、より自然で効率的なヒューマン コンピューター インタラクション エクスペリエンスを実現するためにユーザーの脳活動をデコードするなど、よりインテリジェントで適応性のあるヒューマン コンピューター インターフェイスおよび制御システムを開発できます。

    私たちは、大規模なデータセットと大規模なモデルのコンピューティング能力のサポートにより、fMRI デコードがより広範囲かつ広範囲に影響を及ぼし、認知神経科学と人工知能の開発を促進すると信じています。知性を発展させます。

    注: *スパースコーディングを使用して脳内で視覚刺激表現を学習するための生物学的基礎: スパースコーディングは、感覚情報の表現戦略として提案されています。研究によると、視覚刺激は視覚皮質でまばらにコード化されており、これにより情報伝達効率が向上し、脳の冗長性が低下します。 fMRI を使用すると、視覚野で収集された少量のデータから自然シーンの視覚内容を再構成できます。スパース コーディングは、コンピューター ビジョンで効率的にコーディングする方法です。この記事では、fMRI データを小さなブロックに分割して局所性制約を導入し、各小さなブロックを高次元ベクトル空間にまばらにエンコードする SC-MBM 法について言及しました。これは、生物学的に効果的かつ効率的な脳特徴学習器として使用できます。 、視覚的なエンコードとデコードに使用されます。

以上がAI はユーザーが考えていることを認識し、それを描画します。プロジェクト コードはオープンソースです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ai
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート