目次
メソッドの概要
実験と分析
ホームページ テクノロジー周辺機器 AI 脳内の映像を高解像度で復元できるようになりました

脳内の映像を高解像度で復元できるようになりました

Jul 06, 2023 pm 07:17 PM
ai 創造性

近年、画像生成の分野、特にテキストから画像への生成において大きな進歩が見られます。テキストを使用して考えを説明する限り、AI は斬新でリアルな画像を生成できます。

しかし、実際にはさらに一歩進めることができます。心の中の考えをテキストに変換するステップを省略し、脳活動 (EEG (脳波) 記録など) を通じて直接制御することができます。 ) 画像の生成的作成。

この「思考からイメージへ」生成方法には、幅広い応用の可能性があります。たとえば、芸術創作の効率が大幅に向上し、人々が一瞬のインスピレーションを捉えるのに役立ち、夜間に人々の夢を視覚化することも可能になる可能性があり、自閉症の子供や言語障害の患者を助けるための心理療法にも使用される可能性があります。

最近、清華大学深セン国際大学院、テンセント AI 研究所、彭城研究所の研究者が共同で、訓練されたデータの強力な生成機能を使用して「イメージへの思考」に関する研究論文を発表しました。テキストから画像へのモデル (安定拡散など) は、EEG 信号から直接高品質の画像を生成します。

脳内の映像を高解像度で復元できるようになりました写真

論文アドレス: https://arxiv.org/pdf/2306.16934.pdf

プロジェクトのアドレス: https://github.com/bbaaii/DreamDiffusion

メソッドの概要

最近の関連研究(例: MinD-Vis) は、fMRI (機能的磁気共鳴画像信号) に基づいて視覚情報を再構築しようと試みます。彼らは、脳の活動を使用して高品質の結果を再構築する実現可能性を実証しました。しかし、これらの方法は、脳信号を迅速かつ効率的に作成するための理想的な利用にはまだ程遠いです。これは主に 2 つの理由によるものです:

第一に、fMRI 装置は持ち運びができず、それが必要です。専門家によって操作されているため、fMRI 信号を捕捉するのは困難です;

第 2 に、fMRI データ収集のコストが高く、実際の芸術作品制作でこの方法を使用するのに大きな障害となります。 . .

対照的に、EEG は脳の電気活動を記録する非侵襲的で低コストの方法であり、現在、EEG 信号を取得できるポータブルな市販製品が市販されています。

しかし、「思考からイメージへ」の生成を実現するには、依然として 2 つの主要な課題があります。

1) EEG 信号は、次の方法によって生成されます。非侵襲的な方法で捕獲するため、騒音が発生します。また、脳波データには限界があり、個人差も無視できません。では、非常に多くの制約の下で、EEG 信号から効果的で堅牢な意味表現を取得するにはどうすればよいでしょうか?

2) 安定拡散のテキストと画像の空間は、CLIP の使用と多数のテキストと画像のペアでのトレーニングにより、適切に位置合わせされています。しかし、脳波信号には独自の特性があり、その空間はテキストや画像とは大きく異なります。限られたノイズのある脳波と画像のペア上で脳波、テキスト、画像の空間をどのように調整するか?

最初の課題に対処するために、この研究では、まれな EEG 画像ペアだけではなく、大量の EEG データを使用して EEG 表現をトレーニングすることを提案します。この研究では、マスクされた信号モデリング手法を使用して、文脈上の手がかりに基づいて欠落トークンを予測します。

入力を 2 次元画像として扱い、空間情報をマスクする MAE や MinD-Vis とは異なり、この研究では脳波信号の時間的特性を考慮し、EEG 信号の時間特性をより深く掘り下げます。人間の脳の意味論の時間的変化。この研究では、トークンの一部をランダムにブロックし、ブロックされたトークンを時間領域で再構築しました。このようにして、事前トレーニングされたエンコーダーは、さまざまな個人およびさまざまな脳活動からの EEG データを深く理解することができます。

2 番目の課題については、以前のソリューションでは通常、トレーニングに少数のノイズの多いデータ ペアを使用して、安定拡散モデルを直接微調整していました。ただし、最終的な画像再構成損失を考慮して SD をエンドツーエンドで微調整するだけでは、脳信号 (EEG や fMRI など) とテキスト空間の間の正確な位置合わせを学習することは困難です。したがって、研究チームは、EEG、テキスト、および画像空間の位置合わせを実現するために、追加の CLIP 監視を使用することを提案しました。

具体的には、SD 自体は CLIP のテキスト エンコーダーを使用してテキスト エンコーダを生成します。これは、前段階のマスクされた事前トレーニングされた EEG エンベディングとは大きく異なります。 CLIP の画像エンコーダを活用して、CLIP のテキスト埋め込みと適切に調整された豊富な画像埋め込みを抽出します。これらの CLIP 画像埋め込みは、EEG 埋め込み表現をさらに改良するために使用されました。したがって、改良された EEG 特徴埋め込みは CLIP の画像およびテキスト埋め込みとよく調整でき、SD 画像生成により適しており、それによって生成される画像の品質が向上します。

上記の 2 つの慎重に設計されたソリューションに基づいて、この研究では新しい手法 DreamDiffusion を提案します。 DreamDiffusion は、脳波 (EEG) 信号から高品質でリアルな画像を生成します。

脳内の映像を高解像度で復元できるようになりました写真

具体的には、DreamDiffusion は主に 3 つの部分で構成されます。

1 ) 信号の事前トレーニングをマスクして、効果的で堅牢な EEG エンコーダを実現します。

#2) 微調整には、事前トレーニングされた安定拡散と限定された EEG 画像ペアを使用します。

3) CLIP エンコーダを使用して、EEG、テキスト、画像スペースを調整します。

まず、研究者らはノイズの多いEEGデータを使用し、マスク信号モデリングを使用し、EEGエンコーダーをトレーニングして、文脈上の知識を抽出しました。結果として得られる EEG エンコーダは、クロスアテンション メカニズムを介して安定拡散の条件付き機能を提供するために使用されます。

脳内の映像を高解像度で復元できるようになりました写真

#EEG 機能と安定拡散の互換性を強化するために、研究者らは、EEG の埋め込みをさらに削減しました。微調整プロセス CLIP 画像埋め込みからの距離により、EEG、テキスト、画像の埋め込みスペースがさらに調整されます。

実験と分析

Brain2Imageとの比較

研究者による比較Brain2Image を使用したこの記事の方法。 Brain2Image は、EEG から画像への変換に、従来の生成モデル、つまり変分オートエンコーダー (VAE) と敵対的生成ネットワーク (GAN) を使用します。ただし、Brain2Image はいくつかのカテゴリの結果のみを提供し、リファレンス実装は提供しません。

これを念頭に置いて、この研究では、Brain2Image 論文に示されているいくつかのカテゴリ (つまり、飛行機、ジャック・オ・ランタン、パンダ) の定性的比較を実行しました。公平な比較を確保するために、研究者らは Brain2Image 論文で説明されているのと同じ評価戦略を使用し、さまざまな方法で生成された結果を以下の図 5 に示しています。

以下の図の最初の行は Brain2Image によって生成された結果を示し、最後の行は研究者が提案した手法である DreamDiffusion によって生成された結果を示しています。 DreamDiffusion によって生成された画像品質は、Brain2Image によって生成された画像品質よりも大幅に高いことがわかり、この方法の有効性も検証されています。

脳内の映像を高解像度で復元できるようになりました#写真

アブレーション実験

# #事前トレーニングの役割: 大規模なEEGデータの事前トレーニングの有効性を証明するために、この研究では未訓練のエンコーダーを使用して検証用に複数のモデルをトレーニングしました。モデルの 1 つは完全なモデルと同一でしたが、もう 1 つのモデルにはデータの過剰適合を避けるために 2 つの EEG コーディング層しかありませんでした。トレーニング プロセス中、2 つのモデルは CLIP 監視の有無にかかわらずトレーニングされ、その結果が表 1 のモデルの列 1 ~ 4 に示されています。事前トレーニングなしのモデルの精度が低下していることがわかります。

脳内の映像を高解像度で復元できるようになりました

マスク率: この記事では、最適な MSM を決定するための EEG データの使用についても研究します。トレーニング前のマスク率。表 1 のモデルの列 5 ~ 7 に示されているように、マスク率が高すぎるか低すぎると、モデルのパフォーマンスに悪影響を及ぼす可能性があります。マスク率が 0.75 の場合、総合精度が最も高くなります。この発見は、通常低いマスク比を使用する自然言語処理とは異なり、EEG で MSM を実行する場合は高いマスク比がより良い選択であることを示唆しているため、非常に重要です。

CLIP アライメント: このアプローチの鍵の 1 つは、CLIP エンコーダを介した画像に対する EEG 表現のアライメントです。本研究では、この手法の有効性を検証するために実験を行ったので、その結果を表1に示します。 CLIP 監視が使用されていない場合、モデルのパフォーマンスが大幅に低下することがわかります。実際、図 6 の右下隅に示すように、CLIP を使用して EEG 特徴を位置合わせすると、事前トレーニングがなくても妥当な結果が得られます。このことは、この方法における CLIP 監視の重要性を強調しています。 ###############写真######

以上が脳内の映像を高解像度で復元できるようになりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

酸性特性を理解する:信頼できるデータベースの柱 酸性特性を理解する:信頼できるデータベースの柱 Apr 08, 2025 pm 06:33 PM

データベース酸属性の詳細な説明酸属性は、データベーストランザクションの信頼性と一貫性を確保するための一連のルールです。データベースシステムがトランザクションを処理する方法を定義し、システムのクラッシュ、停電、または複数のユーザーの同時アクセスの場合でも、データの整合性と精度を確保します。酸属性の概要原子性:トランザクションは不可分な単位と見なされます。どの部分も失敗し、トランザクション全体がロールバックされ、データベースは変更を保持しません。たとえば、銀行の譲渡が1つのアカウントから控除されているが別のア​​カウントに増加しない場合、操作全体が取り消されます。 TRANSACTION; updateaccountssetbalance = balance-100wh

マスターSQL制限条項:クエリの行数を制御する マスターSQL制限条項:クエリの行数を制御する Apr 08, 2025 pm 07:00 PM

sqllimit句:クエリ結果の行数を制御します。 SQLの制限条項は、クエリによって返される行数を制限するために使用されます。これは、大規模なデータセット、パジネートされたディスプレイ、テストデータを処理する場合に非常に便利であり、クエリ効率を効果的に改善することができます。構文の基本的な構文:SelectColumn1、column2、... FromTable_nameLimitnumber_of_rows; number_of_rows:返された行の数を指定します。オフセットの構文:SelectColumn1、column2、... FromTable_nameLimitoffset、number_of_rows; offset:skip

高負荷アプリケーションのMySQLパフォーマンスを最適化する方法は? 高負荷アプリケーションのMySQLパフォーマンスを最適化する方法は? Apr 08, 2025 pm 06:03 PM

MySQLデータベースパフォーマンス最適化ガイドリソース集約型アプリケーションでは、MySQLデータベースが重要な役割を果たし、大規模なトランザクションの管理を担当しています。ただし、アプリケーションのスケールが拡大すると、データベースパフォーマンスのボトルネックが制約になることがよくあります。この記事では、一連の効果的なMySQLパフォーマンス最適化戦略を検討して、アプリケーションが高負荷の下で効率的で応答性の高いままであることを保証します。実際のケースを組み合わせて、インデックス作成、クエリ最適化、データベース設計、キャッシュなどの詳細な主要なテクノロジーを説明します。 1.データベースアーキテクチャの設計と最適化されたデータベースアーキテクチャは、MySQLパフォーマンスの最適化の基礎です。いくつかのコア原則は次のとおりです。適切なデータ型を選択し、ニーズを満たす最小のデータ型を選択すると、ストレージスペースを節約するだけでなく、データ処理速度を向上させることもできます。

MongoDBデータベースパスワードを表示するNAVICATの方法 MongoDBデータベースパスワードを表示するNAVICATの方法 Apr 08, 2025 pm 09:39 PM

Hash値として保存されているため、Navicatを介してMongoDBパスワードを直接表示することは不可能です。紛失したパスワードを取得する方法:1。パスワードのリセット。 2。構成ファイルを確認します(ハッシュ値が含まれる場合があります)。 3.コードを確認します(パスワードをハードコードできます)。

SQLで条項ごとに注文をマスターする:効果的にデータを並べ替える SQLで条項ごとに注文をマスターする:効果的にデータを並べ替える Apr 08, 2025 pm 07:03 PM

SQLORDERBY句の詳細な説明:Data OrderBY句の効率的なソートは、クエリ結果セットをソートするために使用されるSQLの重要なステートメントです。単一の列または複数の列で昇順(ASC)または下降順序(DESC)で配置でき、データの読みやすさと分析効率を大幅に改善できます。 Orderby Syntax SelectColumn1、column2、... fromTable_nameOrderByColumn_name [asc | desc]; column_name:列ごとに並べ替えます。 ASC:昇順の注文ソート(デフォルト)。 DESC:降順で並べ替えます。 Orderbyの主な機能:マルチコラムソート:複数の列のソートをサポートし、列の順序によりソートの優先度が決まります。以来

Navicatは、データベースエラーコードとソリューションに接続します Navicatは、データベースエラーコードとソリューションに接続します Apr 08, 2025 pm 11:06 PM

データベースに接続するときの一般的なエラーとソリューション:ユーザー名またはパスワード(エラー1045)ファイアウォールブロック接続(エラー2003)接続タイムアウト(エラー10060)ソケット接続を使用できません(エラー1042)SSL接続エラー(エラー10055)接続の試みが多すぎると、ホストがブロックされます(エラー1129)データベースは存在しません(エラー1049)

SQL挿入ステートメントに最新のチュートリアルを書く方法 SQL挿入ステートメントに最新のチュートリアルを書く方法 Apr 09, 2025 pm 01:48 PM

SQL挿入ステートメントは、データベーステーブルに新しい行を追加するために使用され、その構文は次のとおりです。Table_name(column1、column2、...、columnn)values(value1、value2、... ...、valuen);。このステートメントは、複数の値の挿入をサポートし、ヌル値を列に挿入できるようにしますが、挿入された値が列のデータ型と互換性があることを確認して、一意性の制約に違反しないようにする必要があります。

MySQLにストアドプロシージャはありますか MySQLにストアドプロシージャはありますか Apr 08, 2025 pm 03:45 PM

MySQLは、複雑なロジックをカプセル化し、コードの再利用性とセキュリティを向上させる事前コンパイルされたSQLコードブロックであるストアドプロシージャを提供します。そのコア関数には、ループ、条件付きステートメント、カーソル、トランザクションコントロールが含まれます。ストアドプロシージャを呼び出すことにより、ユーザーは内部実装に注意を払うことなく、単に入力および出力するだけでデータベース操作を完了できます。ただし、構文エラー、許可の問題、ロジックエラーなどの一般的な問題に注意を払い、パフォーマンスの最適化とベストプラクティスの原則に従う必要があります。

See all articles