Pengarang |. Bai Fan, The Chinese University of Hong Kong
Editor |. -Bench, daripada set data dan model serta penilaian untuk menggalakkan pembangunan analisis imej perubatan 3D dalam semua aspek.
(1) M3D-Data ialah set data imej perubatan 3D terbesar pada masa ini, termasuk M3D-Cap (120K pasangan imej dan teks 3D), M3D-VQA (510K pasangan soalan dan jawapan), M3D-Seg (150K 3D Mask) , M3D- RefSeg (pembahagian inferens 3K) mempunyai empat sub-set data.
(2) M3D-LaMed kini merupakan model besar berbilang modal perubatan 3D yang paling serba boleh, yang boleh menyelesaikan teks (diagnosis penyakit, pengambilan imej, soal jawab visual, penjanaan laporan, dll.), kedudukan (pengesanan sasaran, visual penentududukan, dsb.) dan pembahagian (Pembahagian semantik, pembahagian rujukan, pembahagian inferens, dsb.) tiga jenis tugasan analisis perubatan.
(3) M3D-Bench boleh menilai secara menyeluruh dan automatik 8 tugasan, meliputi tiga aspek teks, kedudukan dan pembahagian, serta menyediakan data ujian yang disahkan secara manual.
Kami akan mengeluarkan set data, model dan kod seawal April 2024.
Baru-baru ini, kami telah menyediakan model M3D-LaMed-Phi-3-4B yang lebih kecil dan kukuh, dan menambah demo dalam talian untuk pengalaman semua orang!
Sila beri perhatian kepada kemas kini pustaka GitHub untuk kemajuan terkini Jika anda mempunyai sebarang soalan atau cadangan, anda boleh menghubungi kami dengan segera. Semua orang dialu-alukan untuk berbincang dan menyokong kerja kami.
Pautan kertas:M3D-Data, set data berbilang mod perubatan 3D terbesar; kedudukan dan Model besar berbilang mod perubatan 3D bersegmen dengan fungsi terbanyak menyediakan rangka kerja kod yang ringkas dan jelas, dan penyelidik boleh mengubah suai tetapan setiap modul
Analisis imej perubatan adalah penting untuk diagnosis dan rawatan klinikal, dan model bahasa besar multimodal (MLLM) semakin menyokong perkara ini. Walau bagaimanapun, penyelidikan terdahulu tertumpu terutamanya pada imej perubatan 2D, dan walaupun imej 3D mempunyai maklumat spatial yang lebih kaya, ia belum cukup dikaji dan diterokai.
Artikel ini bertujuan untuk memajukan analisis imej perubatan 3D menggunakan MLLM. Untuk tujuan ini, kami mencadangkan satu set data perubatan multimodal 3D berskala besar M3D-Data, yang mengandungi pasangan teks imej 120K dan pasangan tindak balas arahan 662K, khusus disesuaikan untuk pelbagai tugas perubatan 3D, seperti Pengambilan semula teks imej, penjanaan laporan, jawapan soalan visual, penyetempatan dan pembahagian.Dataset
M3D-Data merangkumi sejumlah 4 sub-dataset, iaitu M3D-Cap (pasangan imej dan teks), M3D-VQA (pasangan soalan dan jawapan visual), M3D-RefSeg (segmentasi inferens) dan M3D -Seg ( Mengintegrasikan 25 set data segmentasi 3D).Model
Struktur model M3D-LaMed ditunjukkan dalam rajah di bawah. (a) Pengekod imej 3D dilatih terlebih dahulu daripada data imej dan teks melalui kehilangan pembelajaran kontrastif silang dan boleh digunakan secara langsung pada tugas mendapatkan imej dan teks. (b) Dalam model M3D-LaMed, imej perubatan 3D dimasukkan ke dalam pengekod imej 3D yang telah terlatih dan perceptron pengumpulan ruang 3D yang cekap, dan token visual dimasukkan ke dalam LLM, dan output [SEG] digunakan sebagai gesaan untuk memacu modul segmentasi.
Eksperimen
Pengambilan semula grafik dan teks
Dalam graf 3D dan perolehan teks, model bertujuan untuk memadankan imej dan teks daripada set data berdasarkan persamaan, biasanya melibatkan dua tugasan: retrie text ) dan Pengambilan semula imej-ke-teks (IR).
Penjanaan Laporan
Dalam penjanaan laporan, model menjana laporan teks berdasarkan maklumat yang diekstrak daripada imej perubatan 3D.
Jawapan soalan visual tertutup
Dalam menjawab soalan visual tertutup, model perlu disediakan dengan calon jawapan tertutup, seperti A, B, C, D, dan model dikehendaki memilih jawapan yang betul daripada calon.
Soalan dan jawapan visual terbuka
Dalam soal jawab visual terbuka, model menjana jawapan terbuka tanpa sebarang pembayang jawapan dan calon.
Kedudukan
Penempatan adalah penting dalam tugasan bahasa visual, terutamanya yang melibatkan kotak input dan output. Tugas dalam kotak output, seperti pemahaman ungkapan rujukan (REC), bertujuan untuk mencari objek sasaran dalam imej berdasarkan perwakilan rujukan. Sebaliknya, tugas kotak input, seperti penjanaan ungkapan rujukan (REG), memerlukan model menjana penerangan wilayah tertentu berdasarkan imej dan kotak lokasi.
Segmentasi
Tugas segmentasi adalah penting dalam analisis imej perubatan 3D kerana keupayaan pengecaman dan penyetempatannya. Untuk menangani pelbagai isyarat teks, segmentasi dibahagikan kepada segmentasi semantik dan segmentasi ungkapan rujukan. Untuk segmentasi semantik, model menghasilkan topeng segmentasi berdasarkan label semantik. Pembahagian ungkapan rujukan memerlukan pembahagian sasaran berdasarkan perihalan ungkapan bahasa semula jadi, yang memerlukan model mempunyai keupayaan pemahaman dan penaakulan tertentu.
Kajian Kes Masalah Out-of-Distribution (OOD)
Kami menguji model M3D-LaMed pada perbualan OOD, yang bermaksud bahawa semua masalah tidak berkaitan dengan data latihan kami. Kami mendapati bahawa M3D-LaMed mempunyai keupayaan generalisasi yang kukuh dan boleh menghasilkan jawapan yang munasabah kepada masalah OOD dan bukannya omong kosong. Dalam setiap set perbualan, avatar dan soalan di sebelah kiri datang daripada pengguna, dan avatar serta jawapan di sebelah kanan datang daripada M3D-LaMed.
Model M3D-LaMed-Phi-3-4B terlatih kami yang lebih kecil mempunyai prestasi yang lebih baik, semua orang dialu-alukan untuk menggunakannya! GoodBaiBai88/M3D-LaMed-Phi-3-4B · Muka Berpeluk
Disemak pada Dadu Segmentasi Semantik TotalSegmentator Keputusan
Ringkasan
Siri kajian M3D kami menggalakkan penggunaan MLLM untuk analisis imej perubatan 3D. Khususnya, kami membina set data perubatan multimodal 3D berskala besar M3D-Data, yang mengandungi pasangan teks imej 3D 120K dan pasangan tindak balas arahan 662K, disesuaikan untuk tugas perubatan 3D. Tambahan pula, kami mencadangkan M3D-LaMed, model umum yang mengendalikan pengambilan teks imej, penjanaan laporan, jawapan soalan visual, penyetempatan dan pembahagian. Tambahan pula, kami memperkenalkan penanda aras komprehensif, M3D-Bench, yang direka bentuk dengan teliti untuk lapan tugasan. 🎜🎜Pendekatan kami meletakkan asas yang kukuh untuk MLLM memahami visi dan bahasa adegan perubatan 3D. Data, kod dan model kami akan memudahkan penerokaan dan penggunaan MLLM perubatan 3D selanjutnya dalam penyelidikan masa depan. Kami berharap kerja kami dapat membantu penyelidik di lapangan, dan semua orang dialu-alukan untuk menggunakan dan membincangkannya. 🎜Atas ialah kandungan terperinci Meliputi tugasan teks, kedudukan dan pembahagian, Zhiyuan dan Cina Hong Kong bersama-sama mencadangkan model besar pelbagai mod perubatan 3D pelbagai fungsi yang pertama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!