ホームページ テクノロジー周辺機器 AI 復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化

復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化

Sep 05, 2023 pm 12:01 PM
理論 医療モデル 復旦大学

#遠隔医療の台頭により、患者は便利で効率的な医療サポートを求めてオンライン診察や診察を選択する傾向が高まっています。最近、大規模言語モデル (LLM) は強力な自然言語対話機能を実証し、医療アシスタントが人々の生活に参入するという希望をもたらしています


医療および健康相談のシナリオは通常複雑であるため、パーソナルアシスタントには豊富な医療知識と、複数回の対話を通じて患者の意図を理解し、専門的かつ詳細な対応を行う能力が必要です。医療や健康に関する相談に直面した場合、一般言語モデルは、医療知識の不足のために会話を避けたり、質問されていない質問に答えたりすることがよくありますが、同時に、現在の一連の質問で相談を完了する傾向があり、満足のいく回答能力を欠いています。複数回の質問をフォローアップします。さらに、現在、高品質の中国の医療データセットは非常に希少であるため、医療分野で強力な言語モデルをトレーニングすることが課題となっています。

復丹大学データ インテリジェンスおよびソーシャル コンピューティング研究所 (FudanDISC) は、中国の医療および健康パーソナル アシスタント DISC-MedLLM をリリースしました。単一ラウンドの質疑応答および複数ラウンドの対話の医療および健康相談評価において、モデルのパフォーマンスは、既存の大規模な医療対話モデルと比較して明らかな利点を示します。研究チームはまた、470,000 人を含む高品質の教師あり微調整 (SFT) データセット DISC-Med-SFT をリリースし、モデル パラメーターと技術レポートもオープンソースとして公開しています。

  • ホームページアドレス: https://med.fudan-disc.com
  • Github アドレス: https://github.com/FudanDISC/DISC-MedLLM
  • 技術レポート: https://arxiv.org/abs/2308.14346

#1. 表示例

復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化

##図 1 : ダイアログ例

患者が気分が悪くなった場合、モデルに相談して症状を説明すると、モデルは考えられる原因や推奨される治療計画などを提示します。情報が不足している場合は、症状の詳細な説明を積極的に求めました。

復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化

#図 2: 相談現場での対話

ユーザーは自分の健康状態に基づいてモデル固有の相談質問をすることもできます。モデルは詳細で役立つ回答を返し、情報が不足している場合は積極的に質問して、回答の適切性と正確性を高めます。

復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化#図 3: 自分の健康状態についての相談に基づく対話

##ユーザーは、自分とは関係のない医学知識について質問することもできますが、その際、ユーザーが総合的かつ正確に理解できるよう、モデルは可能な限り専門的に回答します。

図 4: 自分とは関係のない医療知識の問い合わせダイアログ

#2. DISC-MedLLM の概要

DISC-MedLLM は、当社が構築した高品質データセット DISC-Med-SFT に基づいて、一般領域の中国の大型モデル Baichuan-13B でトレーニングされた大規模な医療モデルです。 。私たちのトレーニング データとトレーニング方法は、あらゆる基本的な大規模モデルに適応できることは注目に値します。

DISC-MedLLM には 3 つの重要な特徴があります:

  • 信頼性と豊富な専門知識。医療知識グラフを情報源として使用し、トリプルをサンプルし、一般的な大規模モデルの言語機能を使用して対話サンプルを構築します。
  • 複数ラウンドの対話のための調査能力。実際の診療対話記録を情報源として使用し、大規模なモデルを使用して対話を再構築しますが、その構築プロセスでは、対話内の医療情報を完全に整合させるモデルが必要です。
  • 人間の好みに合わせて応答を調整します。患者は、診察の過程でより豊富な裏付け情報や背景知識を得ることを望んでいますが、人間の医師の回答は簡潔であることが多いため、手動スクリーニングを通じて、患者のニーズに合わせた高品質で小規模な指示サンプルを構築します。
モデルとデータ構築フレームワークの利点を図 5 に示します。データセットのサンプル構築をガイドするために、実際の診察シナリオから患者の実際の分布を計算しました。医療知識グラフと実際の診察データに基づいて、大規模なモデルインザループとピープルインザループという 2 つのアイデアを使用しました。データセットを構築するためのループ。

復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化

図 5: DISC-Med-SFT の構造

3. 方法: データセット DISC-Med-SFT の構築

モデルのトレーニングの過程で、DISC-Med-SFT に質問しました。 Med-SFT は、既存のコーパスからの一般的なドメイン データセットとデータ サンプルで補足されて DISC-Med-SFT-ext を形成します。詳細は表 1 に示されています。

復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化

表 1: DISC-Med-SFT-ext データ内容の紹介
##AI 医師と患者の対話の再構築
データセット。 SFT データセット構築のためのソース サンプルとして、2 つの公開データ セット MedDialog と cMedQA2 からそれぞれ 400,000 サンプルと 20,000 サンプルがランダムに選択されました。

リファクタリング。実際の医師の回答を必要な高品質で統一された形式の回答に調整するために、GPT-3.5 を利用してこのデータセットの再構成プロセスを完了しました。プロンプトは、次の原則に従うように書き直す必要があります:


口頭表現を削除し、統一された表現を抽出し、医師の言語使用箇所の不一致を修正します。
  • 元の医師の回答の重要な情報にこだわり、より徹底的かつ論理的になるように適切な説明を提供します。
  • 患者に予約を求めるなど、AI 医師が送信すべきではない応答を書き換えるか削除します。
# 図 6 は、リファクタリングの例を示しています。調整された医師の回答は AI 医療アシスタントのアイデンティティと一致しており、元の医師から提供された重要な情報を遵守しながら、より豊富で包括的な支援を患者に提供します。


#図 6: ダイアログの書き換えの例

ナレッジ グラフの質問と回答のペア

医療ナレッジ グラフには、よく整理された医療専門知識が大量に含まれており、これに基づいてノイズの少ない QA トレーニング サンプルを生成できます。 CMeKGに基づいて、疾患ノードの部門情報に従ってナレッジグラフにサンプリングし、適切に設計されたGPT-3.5モデルプロンプトを使用して、合計50,000を超える多様な医療現場の対話サンプルを生成しました。

#行動嗜好データセット

トレーニングの最終段階で、モデルをさらに改善する パフォーマンスを向上させるために、人間の行動の好みとより一貫性のあるデータセットを二次教師付き微調整に使用します。 MedDialog と cMedQA2 の 2 つのデータセットから約 2000 の高品質で多様なサンプルを手動で選択し、いくつかのサンプルを書き換えて GPT-4 に手動で修正した後、小サンプル法を使用してそれらを GPT-3.5 に提供し、高品質のサンプルを生成しました-質の高い行動嗜好データセット。

#その他

一般データ。トレーニング セットの多様性を高め、SFT トレーニング段階でのモデルの基本機能の低下のリスクを軽減するために、2 つの一般的な教師あり微調整データセット、moss-sft-003 および alpaca gpt4 データからランダムにいくつかのサンプルを選択しました。 zh.
MedMCQA。モデルの Q&A 機能を強化するために、英語の医療分野の多肢選択式質問データ セットである MedMCQA を選択し、GPT-3.5 を使用して多肢選択式質問の質問と正解を最適化し、約 8,000 の専門的な中国語を生成しました。医療Q&Aのサンプルです。

4. 実験
トレーニング。以下の図に示すように、DISC-MedLLM のトレーニング プロセスは 2 つの SFT ステージに分かれています。

図 7: 2 段階のトレーニング プロセス復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化

## ##レビュー。医療 LLM のパフォーマンスは、1 ラウンドの QA と複数ラウンドの対話という 2 つのシナリオで評価されます。

単一ラウンド QA 評価: 医学知識の観点からモデルの精度を評価するために、中国国家医療機関からデータを収集しました。医師資格試験 (NMLEC) および国立修士入学試験 (NEEP) の西洋医学 306 専攻では、1 回の QA でモデルのパフォーマンスを評価するために 1,500 の多肢選択問題が選択されました。
  1. 複数ラウンドの対話評価: モデルの対話能力を系統的に評価するために、中国医学ベンチマーク評価 (CMB-Clin)、中国医学対話という 3 つの公開データセットを使用します。データセット (CMD) と中国医療意図データセット (CMID) を統合し、GPT-3.5 は患者の役割とモデルとの対話を担うサンプルをランダムに選択し、主体性、正確さ、有用性、言語品質の 4 つの評価指標を提案しています。 3.5 4 個の評価。
  2. 結果の確認

##モデルを比較します。私たちのモデルは、3 つの一般的な LLM と 2 つの中国医学会話 LLM と比較されます。 OpenAI の GPT-3.5、GPT-4、Baichuan-13B-Chat、BianQue-2、および HuatuoGPT-13B を含みます。


単一ラウンドの QA 結果。多肢選択式評価の全体的な結果を表 2 に示します。 GPT-3.5 が明確なリードを示しています。 DISC-MedLLM はサンプル数が少ない設定では 2 位を達成し、サンプル数がゼロの設定では Baichuan-13B-Chat に次いで 3 位にランクされました。特に、強化学習設定でトレーニングされた HuatuoGPT (13B) のパフォーマンスを上回っています。

#表 2: 多肢選択評価結果

復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化

#複数ラウンドの対話の結果。 CMB-Clin の評価では、DISC-MedLLM が最高の総合スコアを達成し、僅差で HuatuoGPT がそれに続きました。私たちのモデルは陽性基準で最高のスコアを獲得し、医療行動パターンに偏りをもたらすトレーニングアプローチの有効性を浮き彫りにしました。結果を表3に示す。

表 3: CMB-clin の結果

図 8 に示すように、CMD サンプルでは、​​GPT-4 が最高のスコアを獲得しました。次はGPT-3.5です。医療分野のモデルである DISC-MedLLM と HuatuoGPT は総合的なパフォーマンス スコアが同じであり、さまざまな部門でのパフォーマンスが優れています。

復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化

#図 8: CMD の結果

CMID の状況は CMD の状況と似ており、図 9 に示すように、GPT-4 と GPT-3.5 がリードを維持しています。 GPT シリーズを除いて、DISC-MedLLM が最も優れたパフォーマンスを示しました。状態、治療計画、投薬という 3 つの目的で HuatuoGPT を上回りました。

復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化

#図 9: CMID の結果

CMB-Clin と CMD/CMID の間で各モデルのパフォーマンスが一貫していないのは、3 つのデータセット間のデータ分布の違いが原因である可能性があります。 CMD と CMID には、より明確な質問のサンプルが含まれており、患者は診断を受け、症状を説明する際に明確なニーズを表明している可能性があり、患者の質問やニーズは個人の健康状態とはまったく関係がない場合もあります。多くの点で優れている汎用モデル GPT-3.5 および GPT-4 は、この状況に対処するのに優れています。

5. 概要

DISC-Med-SFT データセットは、現実世界の会話と一般的なドメイン LLM の利点と機能、および 3 つの側面におけるターゲットを絞った強化: ドメイン知識、医療会話スキル、人間の好み、高品質のデータセットが優れた大規模医療モデル DISC-MedLLM をトレーニングし、医療相互作用の観点から大幅な改善が行われました。を実現し、高いユーザビリティを実証し、大きな応用可能性を実証しました。

この分野の研究は、オンライン医療費の削減、医療リソースの促進、バランスの達成について、より多くの見通しと可能性をもたらすでしょう。 DISC-MedLLM は、より多くの人々に便利で個別化された医療サービスを提供し、健康全般の推進に貢献します。

以上が復旦大学チームが中国の医療・健康パーソナルアシスタントをリリース、47万件の高品質データセットをオープンソース化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品​​質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? 自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

最適な分子を自動的に特定し、合成コストを削減する MIT は、分子設計の意思決定アルゴリズム フレームワークを開発します。 最適な分子を自動的に特定し、合成コストを削減する MIT は、分子設計の意思決定アルゴリズム フレームワークを開発します。 Jun 22, 2024 am 06:43 AM

編集者 | 創薬の合理化における Ziluo AI の利用は爆発的に増加しています。新薬の開発に必要な特性を備えている可能性のある候補分子を数十億個スクリーニングします。材料の価格からエラーのリスクまで、考慮すべき変数が非常に多いため、たとえ科学者が AI を使用したとしても、最適な候補分子の合成コストを秤量することは簡単な作業ではありません。ここで、MIT の研究者は、最適な分子候補を自動的に特定する定量的意思決定アルゴリズム フレームワークである SPARROW を開発しました。これにより、合成コストを最小限に抑えながら、候補が望ましい特性を持つ可能性を最大限に高めることができます。このアルゴリズムは、これらの分子を合成するために必要な材料と実験手順も決定しました。 SPARROW では、複数の候補分子が入手可能な場合が多いため、分子のバッチを一度に合成するコストが考慮されます。

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性​​を実証しています。 「S」で始まる関連研究

See all articles