ホームページ

テクノロジー周辺機器

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2024 am 07:16 AM

理論

著者 | Bai Fan、香港中文大学

編集者 | ScienceAI

最近、香港中文大学と知源は、M3D-Data、M3D-LaMed、M3D を含む一連の研究を共同提案しました。 -ベンチは、データセットからモデル、評価まであらゆる面から3D医用画像解析の開発を推進します。

(1) M3D-Data は現在最大の 3D 医療画像データセットであり、M3D-Cap (120K 3D 画像とテキストのペア)、M3D-VQA (510K の質問と回答のペア)、M3D-Seg (150K 3D マスク) が含まれます。 , M3D-RefSeg (3K 推論セグメンテーション) には 4 つのサブデータセットがあります。

(2) M3D-LaMed は現在最も汎用性の高い 3D 医療マルチモーダル大型モデルであり、テキスト (疾患診断、画像検索、視覚的な質疑応答、レポート生成など)、位置決め (ターゲット検出、視覚的) を解決できます。ポジショニングなど) とセグメンテーション (セマンティックセグメンテーション、参照セグメンテーション、推論セグメンテーションなど) の 3 種類の医療分析タスク。

(3) M3D-Bench は、テキスト、位置決め、セグメンテーションの 3 つの側面をカバーする 8 つのタスクを包括的かつ自動的に評価でき、手動で検証されたテストデータを提供します。

データセット、モデル、コードは早ければ 2024 年 4 月にリリースされる予定です。

最近、より小型で強力な M3D-LaMed-Phi-3-4B モデルを提供し、誰もが体験できるオンラインデモを追加しました。

最新の進捗状況については、GitHub ライブラリの更新にご注意ください。ご質問やご提案がございましたら、いつでもお気軽にご連絡ください。

ペーパーリンク:https://arxiv.org/abs/2404.00578
コード:https://github.com/BAAI-DCAI/M3D
モデル:https:// hackgingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
データセット:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
オンラインデモ: https://baai.rpailab.xyz/

医療画像に関連する研究者に何を提供できるでしょうか?

M3D-Seg、ほぼすべてのオープンソース 3D 医療セグメンテーションデータセット、合計 25 を統合します。ほとんどの機能を備えたセグメント化された 3D 医療マルチモーダル大規模モデルは、簡潔で明確なコードフレームワークを提供し、研究者は M3D-Cap 3D 画像とテキストのペアに基づいて各モジュールの設定を簡単に変更できます。画像とテキストの対比学習用の M3D-CLIP モデルを開発し、視覚的な事前トレーニング重み 3DViT
M3D-Bench、包括的で明確な評価計画とコードを提供します。
この記事に含まれるすべてのリソースは、研究者が共同で 3D 医用画像解析の開発を促進するのに役立つことを期待して一般に公開されています。

オンラインデモビデオ。テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

医療画像分析は臨床診断と治療に不可欠であり、マルチモーダル大規模言語モデル (MLLM) がこれをサポートするようになっています。しかし、これまでの研究は主に 2D 医用画像に焦点を当てており、3D 画像はより豊富な空間情報を持っているにもかかわらず、十分な研究と探索が行われていませんでした。

この記事は、MLLM を使用した 3D 医療画像解析を進歩させることを目的としています。この目的を達成するために、我々は大規模な 3D マルチモーダル医療データセット M3D-Data を提案します。これには、120K の画像とテキストのペアと 662K の命令と応答のペアが含まれており、画像とテキストの検索、レポートの生成、視覚的な質問応答、ローカリゼーション、セグメンテーション。

さらに、3D 医用画像解析のための多用途マルチモーダル大規模言語モデルである M3D-LaMed を提案します。

また、8 つのタスクの自動評価を容易にする、新しい 3D マルチモーダル医療ベンチマーク M3D-Bench も導入します。包括的な評価を通じて、当社のアプローチは既存のソリューションを上回る堅牢な 3D 医用画像解析モデルであることが証明されています。すべてのコード、データ、モデルは、次の場所で公開されています。

データセット

M3D-Data には、M3D-Cap (画像とテキストのペア)、M3D-VQA (視覚的な質問と回答のペア)、M3D-RefSeg (推論セグメンテーション)、および M3D の合計 4 つのサブデータセットが含まれています。 -Seg (25 の 3D セグメンテーションデータセットを統合)。

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

モデル

M3D-LaMed モデルの構造を下の図に示します。 (a) 3D 画像エンコーダは、クロスモーダル対比学習損失を通じて画像およびテキストデータから事前にトレーニングされており、画像およびテキストの検索タスクに直接適用できます。 (b) M3D-LaMed モデルでは、3D 医療画像が事前トレーニング済み 3D 画像エンコーダと効率的な 3D 空間プーリングパーセプトロンに入力され、ビジュアルトークンが LLM に挿入され、出力 [SEG] がセグメンテーションモジュールを駆動するよう求めるプロンプトが表示されます。

実験

グラフィックとテキストの取得

3D グラフとテキストの取得では、モデルは類似性に基づいてデータセットから画像とテキストを照合することを目的とし、通常は次の 2 つのタスクを伴います: テキストから画像の取得 (TR) ) および画像からテキストへの検索 (IR)。

レポート生成

レポート生成では、モデルは 3D 医用画像から抽出された情報に基づいてテキストレポートを生成します。

クローズドビジュアル質問応答

クローズドビジュアル質問応答では、A、B、C、Dなどのクローズド回答候補をモデルに提供する必要があり、モデルは選択する必要があります候補者からの正解。

オープンビジュアルな質問と回答

オープンなビジュアルな質問と回答では、モデルは回答のヒントや候補なしで自由回答を生成します。

M3D-LaMedは医療分野において一般的なGPT-4Vよりも優れた性能を発揮することがわかりました。ただし、GPT-4V では現在、回答が医療関連の質問に限定されていることに注意してください。

ポジショニング

視覚言語タスク、特に入力ボックスと出力ボックスが関係するタスクでは、位置決めが重要です。指示表現理解 (REC) などの出力ボックス内のタスクは、指示表現に基づいて画像内のターゲットオブジェクトを特定することを目的としています。対照的に、参照式生成 (REG) などの入力ボックスタスクでは、モデルが画像とロケーションボックスに基づいて特定の領域の記述を生成する必要があります。

セグメンテーション

セグメンテーションタスクは、その認識機能と位置特定機能により、3D 医用画像解析において非常に重要です。さまざまなテキストの手がかりに対処するために、セグメンテーションは意味セグメンテーションと指示表現セグメンテーションに分割されます。セマンティックセグメンテーションの場合、モデルはセマンティックラベルに基づいてセグメンテーションマスクを生成します。参照表現のセグメンテーションには、自然言語表現の記述に基づいたターゲットのセグメンテーションが必要であり、これにはモデルが特定の理解および推論能力を備えていることが必要です。

配布外 (OOD) 問題のケーススタディ

OOD 会話で M3D-LaMed モデルをテストしました。これは、すべての問題がトレーニングデータに関連していないことを意味します。 M3D-LaMed には強力な一般化機能があり、OOD の問題に対して意味不明な回答ではなく合理的な回答を生成できることがわかりました。各会話セットでは、左側のアバターと質問はユーザーからのもので、右側のアバターと回答は M3D-LaMed からのものです。

最新のトレーニング済み小型 M3D-LaMed-Phi-3-4B モデルはパフォーマンスが向上しており、どなたでもご利用いただけます。 GoodBaiBai88/M3D-LaMed-Phi-3-4B · ハグフェイス

クローズドVQAテスト結果

概要

当社の M3D シリーズの研究は、3D 医用画像解析における MLLM の使用を促進します。具体的には、3D 医療タスクに合わせて調整された、120,000 の 3D 画像とテキストのペアと 662,000 の命令と応答のペアが含まれる大規模な 3D マルチモーダル医療データセット M3D-Data を構築します。さらに、画像テキストの検索、レポート生成、視覚的な質問応答、位置特定、およびセグメンテーションを処理する一般的なモデルである M3D-LaMed を提案します。さらに、8 つのタスク向けに慎重に設計された包括的なベンチマークである M3D-Bench を紹介します。

私たちのアプローチは、MLLM が 3D 医療現場のビジョンと言語を理解するための強固な基盤を築きます。当社のデータ、コード、モデルは、将来の研究における 3D 医療 MLLM のさらなる探索と応用を促進します。私たちの研究がこの分野の研究者に役立つことを願っています。誰もがそれを使用し、議論することを歓迎します。

以上がテキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1672

CakePHP チュートリアル

1428

Laravel チュートリアル

1332

PHP チュートリアル

1277

C# チュートリアル

1256

Related knowledge

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データセットと比較して、「DefectSpectrum」データセットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープンモデルが開発されています。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラルネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ～ 20% に相当します。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか？ MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージビジョンモデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバーニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データセットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データセットがありますが、これらのデータセットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。 Aug 06, 2024 pm 07:34 PM

編集者 | KX 逆合成は創薬や有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴う局所的な分子変化を引き起こします。これに触発されて、浙江大学のHou Tingjun氏のチームは、単一ステップの逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案した。そして、高品質かつ多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。広範な実験により、このモデルが標準ベンチマークデータセット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度が 60.8% であることが示されました。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビンシン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージデータを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

See all articles

テキスト、位置決め、セグメンテーションのタスクをカバーし、Zhiyuan と香港華人が共同で初の多機能 3D 医療マルチモーダル大型モデルを提案しました

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック