メタ: 気管挿管の必要はありません。 AIは脳波を見ることであなたが何を考えているかを知ることができます
毎年、世界中で 6,900 万人以上の人々が外傷性脳損傷に苦しんでおり、その多くは音声、タイピング、またはジェスチャーによるコミュニケーションが困難です。研究者が非侵襲的な方法で脳の活動から直接言語を解読できる技術を開発すれば、これらの人々の生活は大幅に改善されるでしょう。今回、メタ社はこの問題を解決するために新たな研究を実施しました。
先ほど、Meta AI 公式ブログに、AI を利用して脳活動から音声を直接解読できる新技術を紹介する記事が掲載されました。
この AI は、3 秒間の脳活動から人々の日常生活から学習できます。 793 語の語彙を使用すると、対応する音声セグメントが 73% の精度でデコードされます。
歴史的に、脳活動から音声を解読することは神経科学者や臨床医にとって長年の目標でしたが、その進歩のほとんどは定位脳波検査や皮質電気検査などの侵襲的な脳記録技術に依存していました。
これらのデバイスは、非侵襲的方法よりも明確な信号を提供できますが、神経外科的介入が必要です。
この研究の結果は、脳活動の記録から音声を解読することが実現可能であることを示唆していますが、非侵襲的な方法を使用して音声を解読することは、より安全で拡張性の高いソリューションを提供し、最終的にはより多くの利益を得ることができるでしょう。人々。
ただし、非侵襲的録音はノイズが多いことで知られ、各人の脳の性質やセンサーの配置場所などさまざまな理由から、これは非常に困難です。録音セッションや個人によって大きく異なります。 Meta は、対照学習でトレーニングされた深層学習モデルを作成し、それを使用して非侵襲的な脳記録と音声の調整を最大化することで、これらの課題に対処します。
この目的を達成するために、Meta は 2020 年に FAIR チームによって開発されたオープンソースの自己教師あり学習モデル wave2vec 2.0 を使用します。 . オーディオブックを聞いているボランティアの脳内で音声の複雑な表現を特定します。 Meta は、脳波検査と脳磁気検査 (略して EEG と MEG) という 2 つの非侵襲的技術に焦点を当てています。これらの技術は、それぞれニューロンの活動によって引き起こされる電場と磁場の変動を測定します。
実際には、この 2 つのシステムは、数百のセンサーを使用して、巨視的な脳活動のスナップショットを 1 秒あたり約 1,000 枚取得できます。 Meta は、学術機関からの 4 つのオープンソース EEG データセットと MEG データセットを活用し、169 人の健康なボランティアがオーディオブックや英語とオランダ語の単独の文章を聞いた 150 時間以上の録音を活用しています。
Meta は、これらの EEG および MEG 記録を、残りの接続を備えた標準的な深層畳み込みネットワークで構成される「脳」モデルにフィードします。
個人の脳の解剖学的構造、脳領域における神経機能の位置とタイミング、および脳波測定中のセンサーの位置の違いにより、EEG と MEG の記録は個人間で大きく異なることがよく知られています。録音。
これは、実際には、脳データの分析には、テンプレート脳上の脳信号を再調整するための複雑なエンジニアリング パイプラインが必要になることが多いことを意味します。これまでの研究では、脳デコーダは少数の録音でトレーニングされ、品詞カテゴリや小さな語彙の単語など、限られた音声特徴セットを予測していました。
研究を促進するために、Meta は新しいトピック埋め込みレイヤーを設計しました。このレイヤーは、すべての脳の記録を共通のスペースに配置するようにエンドツーエンドでトレーニングされています。
非侵襲的な脳信号から音声を解読するために、Meta は対照学習を使用してモデルをトレーニングし、音声とそれに対応する脳活動を調整しました。このアーキテクチャは、脳モデルの出力を、参加者に提示された音声の深い表現と一致させることを学習しました。
Meta の以前の研究では、wav2vec 2.0 を使用し、この音声アルゴリズムが自動的に学習して脳と一致する音声表現を生成することを示しました。
wav2vec 2.0 における音声の「脳のような」表現の出現により、Meta の研究者が脳信号から何を抽出すべきかを知らせるのに役立つため、Meta の研究者が独自のデコーダを構築するのは自然な選択となりました。 。
Meta は最近、同じ音声に反応して脳 (右) にマッピングされた wav2vec 2.0 (左) が活性化することを実証しました。アルゴリズムの最初の層の表現 (寒色) は初期聴覚皮質にマッピングされ、最も深い層は高次脳領域 (前頭前野や頭頂葉皮質など) にマッピングされます。メタ システムは、ゼロショット分類と呼ばれるものを実行します。脳活動のクリップが与えられると、新しいオーディオ クリップの大きなプールから、その人が実際に聞いたクリップを判断できます。
アルゴリズムは、その人が聞く可能性が最も高い単語を推測します。これは、人工知能が音声を知覚する際の脳活動のノイズが多く変動する非侵襲的記録をデコードする方法を首尾よく学習できることを示しているため、興味深いステップです。
次のステップは、研究者がこのモデルを拡張して、オーディオ クリップのプールを必要とせずに、脳の活動から直接音声をデコードできるかどうかを確認することです。つまり、安全で多用途な音声に移行できるかどうかを確認することです。デコード装置。研究者らの分析はさらに、wav2vec 2.0 やトピック レイヤーの使用を含むアルゴリズムのいくつかのコンポーネントがデコード パフォーマンスに有益であることを示しています。
さらに、Meta のアルゴリズムは、EEG および MEG 記録の数に応じて改善されます。実際的に言えば、これは、メタ研究者の手法が大量の異種データの抽出から恩恵を受け、原理的には小規模なデータセットのデコードを改善するのに役立つ可能性があることを意味します。
多くの場合、特定の参加者から大量のデータを収集するのは難しいため、これは重要です。たとえば、システムが自分に適しているかどうかを確認するためにスキャナーで何十時間も費やすように患者に求めるのは非現実的です。代わりに、多くの個人や条件を含む大規模なデータセットでアルゴリズムを事前トレーニングし、少ないデータで新しい患者の脳活動の解読サポートを提供できます。
Meta の研究は、自己監視によって訓練された人工知能が、固有のノイズと変動性があるにもかかわらず、脳活動の非侵襲的記録から知覚された音声を首尾よく解読できることを示しているため、心強いものです。データの中で。もちろん、これらの結果は最初のステップにすぎません。この研究活動では、Meta は音声認識の解読に焦点を当てましたが、患者のコミュニケーションという最終目標を達成するには、この研究を音声生成まで拡張する必要があります。
この研究分野は、患者の支援を超えて、コンピュータと対話する新しい方法の実現を含む可能性があります。
広い視野で見ると、メタの研究は、人工知能を使用して人間の脳をより深く理解する科学コミュニティの取り組みの一部です。メタは、将来の課題の進展を加速するために、この研究を公に共有したいと考えています。
論文分析
論文リンク: https://arxiv.org/pdf/2208.12266.pdf
この論文では、自然音声の自己教師あり表現を予測するために、大規模な個人グループに対する対照学習でトレーニングされた単一のエンドツーエンド アーキテクチャを提案します。
私たちは、自然音声を聞きながら脳磁図または脳波図 (M/EEG) で記録された 169 人のボランティアから構成される 4 つの公開データセットでモデルを評価しました。
これは、非侵襲的な脳活動記録から自然言語処理をリアルタイムにデコードするための新しいアイデアを提供します。
方法とアーキテクチャ
まず、ニューラル デコーディングの一般的なタスクを形式化し、対照的な損失を使用してトレーニングを奨励します。脳デコードのための深層学習アーキテクチャを紹介する前に、事前トレーニングされた自己教師ありモジュール wav2vec 2.0 によって提供される豊かな音声表現を紹介します。私たちは、健康なボランティアが音声文を受動的に聞きながら、非侵襲的脳磁図 (MEG) または脳波検査 (EEG) で記録された高次元脳スキャンから高次元データを取得することを目的としました。母国語の脳信号の時系列から音声を解読します。
話し言葉が脳内でどのように表現されるかはほとんどわかっていないため、デコーダーは通常、既知の音声の潜在的な表現を予測するために教師付きの方法でトレーニングされます。脳と関係があること。
経験的に、この直接回帰アプローチはいくつかの課題に直面していることがわかります。音声が存在する場合、デコード予測は区別できない広帯域成分によって支配されているように見えます (図 2.A-B)。
この課題により、私たちは 3 つの主要な貢献を行うことになりました。それは、コントラスト損失、事前トレーニングされた深い音声表現、および特殊な脳デコーダーの導入です。
1. 対照的な損失
まず、回帰は私たちの注意をそらすため、無効な損失である可能性があると推測します。目標: 脳活動から音声を解読する。したがって、これを対照的な損失である「CLIP」損失に置き換えます。この損失は、もともとテキストと画像の両方のモダリティの潜在表現と一致するように設計されました。
2. 事前トレーニングされた深い音声表現
第二に、メル スペクトルは、次の低レベル表現です。音声なので、豊富な皮質表現と一致する可能性は低いです。したがって、メル スペクトル Y を、エンドツーエンドで学習された (「ディープ メル」モデル)、または独立した自己教師あり音声モデルで学習された音声の潜在表現で置き換えます。実際には、53 の異なる言語で 56,000 時間の音声で事前トレーニングされた wav2vec2-large-xlsr-531 を使用します。
3. 特化した「ブレイン デコーダー」
最後に、ブレイン モジュールでは、ディープ ニューラル ネットワークを使用します。 fclip は、生の M/EEG 時系列 X と、それに対応する被験者 s のシングルショット エンコーディングを入力として受け取り、X と同じレートでサンプリングされた潜在脳表現 Z を出力します。
このアーキテクチャには、(1) M/EEG センサー上の空間注意層、次に、被験者間の変動性を利用するように設計された被験者固有の 1x1 畳み込みで構成され、その入力は畳み込みブロックのスタックです。
結果は、wav2vec 2.0 モデルが 3 秒の EEG 信号から対応する音声断片を識別できることを示しています。精度は 1,594 個の異なるクリップで 72.5%、2,604 個の EEG 記録クリップで 19.1% と高く、トレーニング セットにないフレーズもデコードできました。
以上がメタ: 気管挿管の必要はありません。 AIは脳波を見ることであなたが何を考えているかを知ることができますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









phpMyAdminを使用してデータテーブルを作成するには、次の手順が不可欠です。データベースに接続して、[新しいタブ]をクリックします。テーブルに名前を付けて、ストレージエンジンを選択します(InnoDB推奨)。列名、データ型、null値、その他のプロパティを許可するかどうかなど、列の追加ボタンをクリックして列の詳細を追加します。一次キーとして1つ以上の列を選択します。 [保存]ボタンをクリックして、テーブルと列を作成します。

Oracleデータベースを作成するのは簡単ではありません。根本的なメカニズムを理解する必要があります。 1.データベースとOracle DBMSの概念を理解する必要があります。 2。SID、CDB(コンテナデータベース)、PDB(プラグ可能なデータベース)などのコアコンセプトをマスターします。 3。SQL*Plusを使用してCDBを作成し、PDBを作成するには、サイズ、データファイルの数、パスなどのパラメーターを指定する必要があります。 4.高度なアプリケーションは、文字セット、メモリ、その他のパラメーターを調整し、パフォーマンスチューニングを実行する必要があります。 5.ディスクスペース、アクセス許可、パラメーター設定に注意し、データベースのパフォーマンスを継続的に監視および最適化します。 それを巧みに習得することによってのみ、継続的な練習が必要であることは、Oracleデータベースの作成と管理を本当に理解できます。

Oracleデータベースを作成するには、一般的な方法はDBCAグラフィカルツールを使用することです。手順は次のとおりです。1。DBCAツールを使用してDBNAMEを設定してデータベース名を指定します。 2. SyspasswordとSystemPassWordを強力なパスワードに設定します。 3.文字セットとNationalCharactersetをAL32UTF8に設定します。 4.実際のニーズに応じて調整するようにMemorySizeとTableSpacesizeを設定します。 5. logfileパスを指定します。 高度な方法は、SQLコマンドを使用して手動で作成されますが、より複雑でエラーが発生しやすいです。 パスワードの強度、キャラクターセットの選択、表空間サイズ、メモリに注意してください

Oracle SQLステートメントのコアは、さまざまな条項の柔軟なアプリケーションと同様に、選択、挿入、更新、削除です。インデックスの最適化など、ステートメントの背後にある実行メカニズムを理解することが重要です。高度な使用法には、サブクエリ、接続クエリ、分析関数、およびPL/SQLが含まれます。一般的なエラーには、構文エラー、パフォーマンスの問題、およびデータの一貫性の問題が含まれます。パフォーマンス最適化のベストプラクティスには、適切なインデックスの使用、Select *の回避、条項の最適化、およびバインドされた変数の使用が含まれます。 Oracle SQLの習得には、コードライティング、デバッグ、思考、基礎となるメカニズムの理解など、練習が必要です。

MySQLのフィールド操作ガイド:フィールドを追加、変更、削除します。フィールドを追加:table table_nameを変更するcolumn_name data_type [not null] [default default_value] [プライマリキー] [auto_increment]フィールドの変更:column_name data_typeを変更するcolumn_name data_type [not null] [default default_value] [プライマリキー]

ネストされたクエリは、1つのクエリに別のクエリを含める方法です。これらは主に、複雑な条件を満たし、複数のテーブルを関連付け、要約値または統計情報を計算するデータを取得するために使用されます。例には、平均賃金を超える従業員を見つけること、特定のカテゴリの注文を見つけること、各製品の総注文量の計算が含まれます。ネストされたクエリを書くときは、サブ征服を書き、結果を外側のクエリ(エイリアスまたは条項として参照)に書き込み、クエリパフォーマンスを最適化する必要があります(インデックスを使用)。

Oracleデータベースの整合性の制約により、以下を含むデータの精度を確保できます。NULL:NULL値は禁止されています。一意:単一のヌル値を許可する一意性を保証します。一次キー:一次キーの制約、一意を強化し、ヌル値を禁止します。外部キー:テーブル間の関係を維持する、外部キーはプライマリテーブルのプライマリキーを参照します。チェック:条件に応じて列の値を制限します。

Oracleは、世界最大のデータベース管理システム(DBMS)ソフトウェア会社です。その主な製品には、次の機能が含まれます。リレーショナルデータベース管理システム(Oracle Database)開発ツール(Oracle Apex、Oracle Visual Builder)ミドルウェア(Oracle Weblogic Server、Oracle SOA Suite)Cloud Service(Oracle Cloud Infrastructure)Cloud ServiceおよびBusiness Intelligence(Oracle Analytics Cloud、Oracle Essbase)Blockchain(Oracle Blockchain Pla
