テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました
著者 | Bai Fan、香港中文大学
編集者 | ScienceAI
最近、香港中文大学と知源は、M3D-Data、M3D-LaMed、M3D を含む一連の研究を共同提案しました。 -ベンチは、データセットからモデル、評価まであらゆる面から3D医用画像解析の開発を推進します。
(1) M3D-Data は現在最大の 3D 医療画像データセットであり、M3D-Cap (120K 3D 画像とテキストのペア)、M3D-VQA (510K の質問と回答のペア)、M3D-Seg (150K 3D マスク) が含まれます。 , M3D-RefSeg (3K 推論セグメンテーション) には 4 つのサブデータセットがあります。
(2) M3D-LaMed は現在最も汎用性の高い 3D 医療マルチモーダル大型モデルであり、テキスト (疾患診断、画像検索、視覚的な質疑応答、レポート生成など)、位置決め (ターゲット検出、視覚的) を解決できます。ポジショニングなど) とセグメンテーション (セマンティック セグメンテーション、参照セグメンテーション、推論セグメンテーションなど) の 3 種類の医療分析タスク。
(3) M3D-Bench は、テキスト、位置決め、セグメンテーションの 3 つの側面をカバーする 8 つのタスクを包括的かつ自動的に評価でき、手動で検証されたテスト データを提供します。
データセット、モデル、コードは早ければ 2024 年 4 月にリリースされる予定です。
最近、より小型で強力な M3D-LaMed-Phi-3-4B モデルを提供し、誰もが体験できるオンライン デモを追加しました。
最新の進捗状況については、GitHub ライブラリの更新にご注意ください。ご質問やご提案がございましたら、いつでもお気軽にご連絡ください。
- ペーパーリンク:https://arxiv.org/abs/2404.00578
- コード:https://github.com/BAAI-DCAI/M3D
- モデル:https:// hackgingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
- データセット:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
- オンラインデモ: https://baai.rpailab.xyz/
医療画像に関連する研究者に何を提供できるでしょうか?
- M3D-Data、最大の 3D 医療マルチモーダル データセット、
- M3D-Seg、ほぼすべてのオープンソース 3D 医療セグメンテーション データ セット、合計 25 を統合します。ほとんどの機能を備えたセグメント化された 3D 医療マルチモーダル大規模モデルは、簡潔で明確なコード フレームワークを提供し、研究者は M3D-Cap 3D 画像とテキストのペアに基づいて各モジュールの設定を簡単に変更できます。画像とテキストの対比学習用の M3D-CLIP モデルを開発し、視覚的な事前トレーニング重み 3DViT
- M3D-Bench、包括的で明確な評価計画とコードを提供します。
- この記事に含まれるすべてのリソースは、研究者が共同で 3D 医用画像解析の開発を促進するのに役立つことを期待して一般に公開されています。
オンラインデモビデオ。
データセット
M3D-Data には、M3D-Cap (画像とテキストのペア)、M3D-VQA (視覚的な質問と回答のペア)、M3D-RefSeg (推論セグメンテーション)、および M3D の合計 4 つのサブデータセットが含まれています。 -Seg (25 の 3D セグメンテーション データセットを統合)。データセットの統計。 M3D-VQA データセットの配布。問題の種類には、主に 5 つの一般的な 3D 画像問題 (平面、位相、臓器、異常、位置) が含まれます。 ほぼすべてのオープンソース 3D 医療セグメンテーション データセットを統合して、合計 25 の M3D-Seg を形成しました。データ セットは、セマンティック セグメンテーション、推論セグメンテーション、参照セグメンテーション、および対応する検出および位置特定タスクに使用できます。 M3D セグメント。
モデル
M3D-LaMed モデルの構造を下の図に示します。 (a) 3D 画像エンコーダは、クロスモーダル対比学習損失を通じて画像およびテキスト データから事前にトレーニングされており、画像およびテキストの検索タスクに直接適用できます。 (b) M3D-LaMed モデルでは、3D 医療画像が事前トレーニング済み 3D 画像エンコーダと効率的な 3D 空間プーリング パーセプトロンに入力され、ビジュアル トークンが LLM に挿入され、出力 [SEG] がセグメンテーションモジュールを駆動するよう求めるプロンプトが表示されます。
M3D-LaMed モデルの構造。
実験
グラフィックとテキストの取得
3D グラフとテキストの取得では、モデルは類似性に基づいてデータセットから画像とテキストを照合することを目的とし、通常は次の 2 つのタスクを伴います: テキストから画像の取得 (TR) ) および画像からテキストへの検索 (IR)。
2D医療の代表モデルであるPMC-CLIPを3D画像やテキスト検索に適用したところ、空間情報が不足しているため、検索がほぼ不可能であることが分かりました。 3D 画像およびテキスト検索モデルと比較します。
レポート生成
レポート生成では、モデルは 3D 医用画像から抽出された情報に基づいてテキスト レポートを生成します。
クローズドビジュアル質問応答
クローズドビジュアル質問応答では、A、B、C、Dなどのクローズド回答候補をモデルに提供する必要があり、モデルは選択する必要があります候補者からの正解。
M3D-LaMedは医療分野において一般的なGPT-4Vよりも優れた性能を発揮することがわかりました。
オープンビジュアルな質問と回答
オープンなビジュアルな質問と回答では、モデルは回答のヒントや候補なしで自由回答を生成します。
M3D-LaMedは医療分野において一般的なGPT-4Vよりも優れた性能を発揮することがわかりました。ただし、GPT-4V では現在、回答が医療関連の質問に限定されていることに注意してください。
ポジショニング
視覚言語タスク、特に入力ボックスと出力ボックスが関係するタスクでは、位置決めが重要です。指示表現理解 (REC) などの出力ボックス内のタスクは、指示表現に基づいて画像内のターゲット オブジェクトを特定することを目的としています。対照的に、参照式生成 (REG) などの入力ボックス タスクでは、モデルが画像とロケーション ボックスに基づいて特定の領域の記述を生成する必要があります。
セグメンテーション
セグメンテーション タスクは、その認識機能と位置特定機能により、3D 医用画像解析において非常に重要です。さまざまなテキストの手がかりに対処するために、セグメンテーションは意味セグメンテーションと指示表現セグメンテーションに分割されます。セマンティック セグメンテーションの場合、モデルはセマンティック ラベルに基づいてセグメンテーション マスクを生成します。参照表現のセグメンテーションには、自然言語表現の記述に基づいたターゲットのセグメンテーションが必要であり、これにはモデルが特定の理解および推論能力を備えていることが必要です。
配布外 (OOD) 問題のケーススタディ
OOD 会話で M3D-LaMed モデルをテストしました。これは、すべての問題がトレーニング データに関連していないことを意味します。 M3D-LaMed には強力な一般化機能があり、OOD の問題に対して意味不明な回答ではなく合理的な回答を生成できることがわかりました。各会話セットでは、左側のアバターと質問はユーザーからのもので、右側のアバターと回答は M3D-LaMed からのものです。
このモデルには、強力な推論機能と一般化機能があります。
最新のトレーニング済み小型 M3D-LaMed-Phi-3-4B モデルはパフォーマンスが向上しており、どなたでもご利用いただけます。 GoodBaiBai88/M3D-LaMed-Phi-3-4B · ハグフェイス
レポート生成テスト結果
クローズドVQAテスト結果
TotalSegmentator セマンティック セグメンテーション ダイスでレビュー済み結果
概要
当社の M3D シリーズの研究は、3D 医用画像解析における MLLM の使用を促進します。具体的には、3D 医療タスクに合わせて調整された、120,000 の 3D 画像とテキストのペアと 662,000 の命令と応答のペアが含まれる大規模な 3D マルチモーダル医療データセット M3D-Data を構築します。さらに、画像テキストの検索、レポート生成、視覚的な質問応答、位置特定、およびセグメンテーションを処理する一般的なモデルである M3D-LaMed を提案します。さらに、8 つのタスク向けに慎重に設計された包括的なベンチマークである M3D-Bench を紹介します。
私たちのアプローチは、MLLM が 3D 医療現場のビジョンと言語を理解するための強固な基盤を築きます。当社のデータ、コード、モデルは、将来の研究における 3D 医療 MLLM のさらなる探索と応用を促進します。私たちの研究がこの分野の研究者に役立つことを願っています。誰もがそれを使用し、議論することを歓迎します。
以上がテキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

編集者 | KX 逆合成は創薬や有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴う局所的な分子変化を引き起こします。これに触発されて、浙江大学のHou Tingjun氏のチームは、単一ステップの逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案した。そして、高品質かつ多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。広範な実験により、このモデルが標準ベンチマーク データ セット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度が 60.8% であることが示されました。

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。
