Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama-AI-php.cn

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

Pengarang |. Bai Fan, The Chinese University of Hong Kong

Editor |. -Bench, daripada set data dan model serta penilaian untuk menggalakkan pembangunan analisis imej perubatan 3D dalam semua aspek.

(1) M3D-Data ialah set data imej perubatan 3D terbesar pada masa ini, termasuk M3D-Cap (120K pasangan imej dan teks 3D), M3D-VQA (510K pasangan soalan dan jawapan), M3D-Seg (150K 3D Mask) , M3D- RefSeg (pembahagian inferens 3K) mempunyai empat sub-set data.

(2) M3D-LaMed kini merupakan model besar berbilang modal perubatan 3D yang paling serba boleh, yang boleh menyelesaikan teks (diagnosis penyakit, pengambilan imej, soal jawab visual, penjanaan laporan, dll.), kedudukan (pengesanan sasaran, visual penentududukan, dsb.) dan pembahagian (Pembahagian semantik, pembahagian rujukan, pembahagian inferens, dsb.) tiga jenis tugasan analisis perubatan.

(3) M3D-Bench boleh menilai secara menyeluruh dan automatik 8 tugasan, meliputi tiga aspek teks, kedudukan dan pembahagian, serta menyediakan data ujian yang disahkan secara manual.

Kami akan mengeluarkan set data, model dan kod seawal April 2024.

Baru-baru ini, kami telah menyediakan model M3D-LaMed-Phi-3-4B yang lebih kecil dan kukuh, dan menambah demo dalam talian untuk pengalaman semua orang!

Sila beri perhatian kepada kemas kini pustaka GitHub untuk kemajuan terkini Jika anda mempunyai sebarang soalan atau cadangan, anda boleh menghubungi kami dengan segera. Semua orang dialu-alukan untuk berbincang dan menyokong kerja kami.

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

Pautan kertas:

Kod:
Model huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
Dataset:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
Demo Dalam Talian: https://baai.rpailab.xyz/

M3D-Data, set data berbilang mod perubatan 3D terbesar; kedudukan dan Model besar berbilang mod perubatan 3D bersegmen dengan fungsi terbanyak menyediakan rangka kerja kod yang ringkas dan jelas, dan penyelidik boleh mengubah suai tetapan setiap modul

M3D-Bench, pelan dan kod penilaian yang komprehensif dan jelas.
Semua sumber yang terlibat dalam artikel ini terbuka kepada orang ramai, dengan harapan dapat membantu penyelidik bersama-sama mempromosikan pembangunan analisis imej perubatan 3D.

Video Demo dalam talian.

Analisis imej perubatan adalah penting untuk diagnosis dan rawatan klinikal, dan model bahasa besar multimodal (MLLM) semakin menyokong perkara ini. Walau bagaimanapun, penyelidikan terdahulu tertumpu terutamanya pada imej perubatan 2D, dan walaupun imej 3D mempunyai maklumat spatial yang lebih kaya, ia belum cukup dikaji dan diterokai. Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

Artikel ini bertujuan untuk memajukan analisis imej perubatan 3D menggunakan MLLM. Untuk tujuan ini, kami mencadangkan satu set data perubatan multimodal 3D berskala besar M3D-Data, yang mengandungi pasangan teks imej 120K dan pasangan tindak balas arahan 662K, khusus disesuaikan untuk pelbagai tugas perubatan 3D, seperti Pengambilan semula teks imej, penjanaan laporan, jawapan soalan visual, penyetempatan dan pembahagian.

Selain itu, kami mencadangkan M3D-LaMed, model bahasa besar multimodal serba boleh untuk analisis imej perubatan 3D.

Kami juga memperkenalkan penanda aras perubatan multimodal 3D baharu, M3D-Bench, yang memudahkan penilaian automatik dalam lapan tugasan. Melalui penilaian menyeluruh, pendekatan kami terbukti sebagai model analisis imej perubatan 3D yang mantap yang mengatasi penyelesaian sedia ada. Semua kod, data dan model tersedia secara umum di.

Dataset

M3D-Data merangkumi sejumlah 4 sub-dataset, iaitu M3D-Cap (pasangan imej dan teks), M3D-VQA (pasangan soalan dan jawapan visual), M3D-RefSeg (segmentasi inferens) dan M3D -Seg ( Mengintegrasikan 25 set data segmentasi 3D).

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

Model

Struktur model M3D-LaMed ditunjukkan dalam rajah di bawah. (a) Pengekod imej 3D dilatih terlebih dahulu daripada data imej dan teks melalui kehilangan pembelajaran kontrastif silang dan boleh digunakan secara langsung pada tugas mendapatkan imej dan teks. (b) Dalam model M3D-LaMed, imej perubatan 3D dimasukkan ke dalam pengekod imej 3D yang telah terlatih dan perceptron pengumpulan ruang 3D yang cekap, dan token visual dimasukkan ke dalam LLM, dan output [SEG] digunakan sebagai gesaan untuk memacu modul segmentasi.

Eksperimen

Pengambilan semula grafik dan teks

Dalam graf 3D dan perolehan teks, model bertujuan untuk memadankan imej dan teks daripada set data berdasarkan persamaan, biasanya melibatkan dua tugasan: retrie text ) dan Pengambilan semula imej-ke-teks (IR).

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

Penjanaan Laporan

Dalam penjanaan laporan, model menjana laporan teks berdasarkan maklumat yang diekstrak daripada imej perubatan 3D.

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

Jawapan soalan visual tertutup

Dalam menjawab soalan visual tertutup, model perlu disediakan dengan calon jawapan tertutup, seperti A, B, C, D, dan model dikehendaki memilih jawapan yang betul daripada calon.

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

Soalan dan jawapan visual terbuka

Dalam soal jawab visual terbuka, model menjana jawapan terbuka tanpa sebarang pembayang jawapan dan calon.

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

Kami mendapati bahawa M3D-LaMed mengatasi prestasi GPT-4V am dalam bidang perubatan. Walau bagaimanapun, perlu diingatkan bahawa GPT-4V pada masa ini mengehadkan jawapan kepada soalan berkaitan perubatan.

Kedudukan

Penempatan adalah penting dalam tugasan bahasa visual, terutamanya yang melibatkan kotak input dan output. Tugas dalam kotak output, seperti pemahaman ungkapan rujukan (REC), bertujuan untuk mencari objek sasaran dalam imej berdasarkan perwakilan rujukan. Sebaliknya, tugas kotak input, seperti penjanaan ungkapan rujukan (REG), memerlukan model menjana penerangan wilayah tertentu berdasarkan imej dan kotak lokasi.

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

Segmentasi

Tugas segmentasi adalah penting dalam analisis imej perubatan 3D kerana keupayaan pengecaman dan penyetempatannya. Untuk menangani pelbagai isyarat teks, segmentasi dibahagikan kepada segmentasi semantik dan segmentasi ungkapan rujukan. Untuk segmentasi semantik, model menghasilkan topeng segmentasi berdasarkan label semantik. Pembahagian ungkapan rujukan memerlukan pembahagian sasaran berdasarkan perihalan ungkapan bahasa semula jadi, yang memerlukan model mempunyai keupayaan pemahaman dan penaakulan tertentu.

Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama

Kajian Kes Masalah Out-of-Distribution (OOD)

Kami menguji model M3D-LaMed pada perbualan OOD, yang bermaksud bahawa semua masalah tidak berkaitan dengan data latihan kami. Kami mendapati bahawa M3D-LaMed mempunyai keupayaan generalisasi yang kukuh dan boleh menghasilkan jawapan yang munasabah kepada masalah OOD dan bukannya omong kosong. Dalam setiap set perbualan, avatar dan soalan di sebelah kiri datang daripada pengguna, dan avatar serta jawapan di sebelah kanan datang daripada M3D-LaMed.

Model M3D-LaMed-Phi-3-4B terlatih kami yang lebih kecil mempunyai prestasi yang lebih baik, semua orang dialu-alukan untuk menggunakannya! GoodBaiBai88/M3D-LaMed-Phi-3-4B · Muka Berpeluk

Disemak pada Dadu Segmentasi Semantik TotalSegmentator Keputusan

Ringkasan

Siri kajian M3D kami menggalakkan penggunaan MLLM untuk analisis imej perubatan 3D. Khususnya, kami membina set data perubatan multimodal 3D berskala besar M3D-Data, yang mengandungi pasangan teks imej 3D 120K dan pasangan tindak balas arahan 662K, disesuaikan untuk tugas perubatan 3D. Tambahan pula, kami mencadangkan M3D-LaMed, model umum yang mengendalikan pengambilan teks imej, penjanaan laporan, jawapan soalan visual, penyetempatan dan pembahagian. Tambahan pula, kami memperkenalkan penanda aras komprehensif, M3D-Bench, yang direka bentuk dengan teliti untuk lapan tugasan. 🎜🎜Pendekatan kami meletakkan asas yang kukuh untuk MLLM memahami visi dan bahasa adegan perubatan 3D. Data, kod dan model kami akan memudahkan penerokaan dan penggunaan MLLM perubatan 3D selanjutnya dalam penyelidikan masa depan. Kami berharap kerja kami dapat membantu penyelidik di lapangan, dan semua orang dialu-alukan untuk menggunakan dan membincangkannya. 🎜

Atas ialah kandungan terperinci Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!