AI史上最高スコア! Googleの大型モデルは米国の医師免許試験問題の新記録を打ち立て、科学的知識のレベルは人間の医師のレベルに匹敵する
史上最高の AI スコアを誇る Google の新しいモデルが、米国医師免許試験の検証に合格しました。
さらに、科学的知識、理解、検索、推論などの能力においては、人間の医師のレベルに直接匹敵します。一部の臨床質疑応答のパフォーマンスでは、元の SOTA モデルを 17% 以上上回りました。
この開発結果が発表されるとすぐに、学術コミュニティで激しい議論が巻き起こり、業界の多くの人がため息をつきました。 、 ここです。
Med-PaLMと人間の医師との比較を見た多くのネチズンは、AI医師がその職に就くことをすでに楽しみにしていると表明しました。
このタイミングの正確さを嘲笑する人もいます。このタイミングは、ChatGPT のせいで Google が「死ぬ」だろうと誰もが思っていた時期と一致していました。
これがどのような研究なのか見てみましょう。
史上最高の AI スコア
医療の専門的な性質により、今日の AI モデルは、言語をほとんど使用せずにこの分野に適用されています。これらのモデルは便利ですが、単一タスク システム (分類、回帰、セグメンテーションなど) に焦点を当てていること、表現力や対話機能が不足していることなどの問題があります。
大規模モデルの進歩により、AI医療に新たな可能性がもたらされましたが、この分野の特殊性から、虚偽の医療情報の提供など潜在的な危害についても考慮する必要があります。
この背景に基づいて、Google Research と DeepMind チームは医療 Q&A を研究対象とし、次の貢献を行いました:
- 医療検査を含む医療 Q&A ベンチマーク MultiMedQA を提案しました。医学研究と消費者向け医薬品の問題;
- PaLM と微調整されたバリアント Flan-PaLM を MultiMedQA で評価;
- Flan-PaLM を医薬品とさらに統合するためのコマンド プロンプト x 調整を提案し、結果として Med -PaLM。
彼らは、「医療上の質問に答える」というタスクは非常に難しいと考えています。質の高い回答を提供するには、AI が医学的背景を理解し、適切に思い出す必要があるからです。医学知識を理解し、専門家の情報から推論を行います。
既存の評価ベンチマークは、多くの場合、分類精度や自然言語生成指標の評価に限定されており、実際の臨床応用の詳細な分析は提供できません。
まず、チームは 7 つの医療質問応答データ セットで構成されるベンチマークを提案しました。
MedQA (USMLE、米国医師免許試験の問題) も含む 6 つの既存のデータセットが含まれており、検索された健康に関する質問で構成される独自の新しいデータセット HealthSearchQA も導入されています。
これには、健康診断、医学研究、消費者医療の問題が含まれます。
その後、チームは MultiMedQA を使用して、PaLM (5,400 億パラメーター) と、微調整された指示を備えたバリアント Flan-PaLM を評価しました。たとえば、タスクの数、モデルのサイズ、思考連鎖データの使用戦略を拡張します。
FLAN は、Google Research によって昨年提案された微調整された言語ネットワークです。一般的な NLP タスクにより適したものになるようにモデルを微調整し、命令調整を使用してモデルをトレーニングします。
Flan-PaLM は、MedQA、MedMCQA、PubMedQA、MMLU などのいくつかのベンチマークで最適なパフォーマンスを達成したことがわかりました。特に、MedQA (USMLE) データセットは、以前の SOTA モデルを 17% 以上上回りました。
この研究では、異なるサイズの 3 つの PaLM モデルおよび Flan-PaLM モデルのバリアント (80 億パラメータ、620 億パラメータ、5,400 億パラメータ) が検討されました。
ただし、Flan-PaLM には依然として一定の制限があり、消費者の医療問題への対処では十分なパフォーマンスを発揮できません。
この問題を解決し、Flan-PaLM を医療現場により適したものにするために、指示プロンプトを調整し、Med-PaLM モデルが誕生しました。
△例: 新生児黄疸が消えるまでどれくらい時間がかかりますか?
チームはまず、MultiMedQA の自由回答データセット (HealthSearchQA、MedicationQA、LiveQA) からいくつかの例をランダムに選択しました。
次に、5 人の臨床医のグループに模範解答を提示してもらいます。これらの臨床医は米国と英国に拠点を置き、プライマリケア、外科、内科、小児科の専門知識を持っています。最後に、指示プロンプト調整トレーニング用に 40 個の例が HealthSearchQA、MedicationQA、LiveQA に残されました。
複数のタスクは人間の医師のレベルに近い
Med-PaLM の最終的な効果を検証するために、研究者らは組織から 140 個のサンプルを抽出しました。 MultiMedQA は消費者の医療問題について言及しました。
そのうち 100 件は HealthSearchQA データ セットから、20 件は LiveQA データ セットから、20 件は MedicationQA データ セットからのものです。
これには、Med-PaLM を生成するための指示プロンプトを調整するために元々使用されていた問題は含まれていないことに注意してください。
彼らは、Flan-PaLM と Med-PaLM にこれら 140 の質問に対する回答を作成するよう依頼し、その後、専門の臨床医のグループに回答を求めました。
例として、「激しい耳の痛みとはどういう意味ですか?」と尋ねられた場合、Med-PaLM は、患者が感染している可能性のある病気を列挙するだけでなく、次のような現象があるかどうかも提案します。 :医者に行ったほうがいいよ。
耳の痛みは、中耳感染症 (中耳炎)、外耳感染症 (耳感染症)、耳垢の停滞など、いくつかの基礎疾患の兆候である可能性があります。また、脳腫瘍や脳卒中など、より深刻な病気の兆候である可能性もあります。
重度の耳の痛みが数日以上続く場合、または耳の痛みに伴うめまい、発熱、顔の脱力感、しびれなどの他の症状がある場合は、医師の診察を受ける必要があります。評価。医師は痛みの原因を特定し、適切な治療を提供します。
このようにして、研究者らは、評価のためにこれら 3 セットの回答を米国、英国、インドの臨床医 9 名に匿名で提供しました。
結果は、科学的常識の観点から、Med-PaLM と人間の医師の両方が 92% 以上の精度を達成したのに対し、Flan-PaLM の対応する数値は 61.9% であったことを示しています。
一般に、理解、検索、および推論能力の点で、Med-PaLM は人間の医師のレベルにほぼ達しており、両者にほとんど違いはありませんが、Flan- PaLM も同じボトムを実行します。
回答の完全性に関しては、Flan-PaLM の回答は重要な情報の 47.2% を見逃していたと考えられていますが、Med-PaLM の回答はわずか 15.1% で大幅に改善されました。回答のうち情報が不足していると考えられ、人間の医師との距離がさらに縮まりました。
ただし、情報の欠落は少なくなりますが、回答が長くなると、不正確な内容が混入するリスクも高まります。Med-PaLM の回答に含まれる不正確な内容の割合は 18.7% に達しました。 , 3つの中で最も高い。
回答の有害性の可能性を考慮すると、Flan-PaLM の回答の 29.7% が潜在的に有害であると考えられましたが、Med-PaLM では、この数字は 5.9% に低下しました。 . 人間の医師は5.7%で最も低かった。
これに加えて、Med-PaLM は医療人口統計における偏見に関して人間の医師を上回りましたが、Med-PaLM の回答の中に唯一偏見があった例は 0.8% でした。人間の医師では 1.4%、Flan-PaLM では 7.9% になります。
最後に、研究者らは 5 人の非専門ユーザーに、これら 3 つの回答セットの実用性を評価してもらいました。 Flan-PaLM の回答のうち役立つと考えられたのはわずか 60.6% でしたが、その数は Med-PaLM では 80.3% に増加し、最も高いのは人間の医師の 91.1% でした。
上記の評価をすべて要約すると、指示プロンプトの調整がパフォーマンスの向上に大きな効果をもたらしていることがわかります。140 件の消費者医療問題のうち、Med-PaLM のパフォーマンスはほぼ人間の医師のレベルに追いついた。
背後のチーム
この論文の研究チームは Google と DeepMind から構成されています。
Google Health は昨年、大規模な人員削減と組織再編にさらされましたが、これは医療分野への主要な立ち上げと言えるでしょう。
Google AI の責任者である Jeff Dean さえも立ち上がり、強い推薦を表明しました。
業界関係者の中には、次の記事を読んで賞賛する人もいます。
臨床知識は複雑な分野であり、明確な正解がないことがよくあります。そして患者さんとの会話も必要です。
今回の Google DeepMind の新しいモデルは、LLM の完璧な応用です。
#別のチームが少し前に USMLE に合格したばかりであることは言及する価値があります。
今年はさらに先を見据えて、PubMed GPT、DRAGON、Meta’s Gaoptica などの大型モデルの波が出現し、専門試験で繰り返し新記録を樹立しました。
#医療 AI は非常に繁栄しており、昨年それが悪いニュースだったとは想像するのが難しいほどです。当時、Google の医療 AI に関する革新的なビジネスはまだ始まっていませんでした。
昨年6月、同社が経営危機に陥り、大規模な人員削減と組織再編を余儀なくされていることが米メディアBIによって暴露された。 2018 年 11 月に Google Health 部門が初めて設立されたとき、部門は非常に繁盛していました。
Google だけではなく、他の有名テクノロジー企業の医療 AI ビジネスも再編や買収を経験しています。
Google DeepMind がリリースした大規模な医療モデルを読んだ後、医療 AI の開発について楽観的ですか?
論文アドレス: https://arxiv.org/abs/2212.13138
参考リンク: https://twitter.com/vivnat/status/1607609299894947841
以上がAI史上最高スコア! Googleの大型モデルは米国の医師免許試験問題の新記録を打ち立て、科学的知識のレベルは人間の医師のレベルに匹敵するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。

Centosシステムの下でのGitlabのバックアップと回復ポリシーデータセキュリティと回復可能性を確保するために、Gitlab on Centosはさまざまなバックアップ方法を提供します。この記事では、いくつかの一般的なバックアップ方法、構成パラメーター、リカバリプロセスを詳細に紹介し、完全なGitLabバックアップと回復戦略を確立するのに役立ちます。 1.手動バックアップGitlab-RakeGitlabを使用:バックアップ:コマンドを作成して、マニュアルバックアップを実行します。このコマンドは、gitlabリポジトリ、データベース、ユーザー、ユーザーグループ、キー、アクセスなどのキー情報をバックアップします。デフォルトのバックアップファイルは、/var/opt/gitlab/backupsディレクトリに保存されます。 /etc /gitlabを変更できます

CENTOSシステムでHDFS構成をチェックするための完全なガイドこの記事では、CENTOSシステム上のHDFSの構成と実行ステータスを効果的に確認する方法をガイドします。次の手順は、HDFSのセットアップと操作を完全に理解するのに役立ちます。 Hadoop環境変数を確認します。最初に、Hadoop環境変数が正しく設定されていることを確認してください。端末では、次のコマンドを実行して、Hadoopが正しくインストールおよび構成されていることを確認します。HDFS構成をチェックするHDFSファイル:HDFSのコア構成ファイルは/etc/hadoop/conf/ディレクトリにあります。使用

CENTOSでのZookeeperパフォーマンスチューニングは、ハードウェア構成、オペレーティングシステムの最適化、構成パラメーターの調整、監視、メンテナンスなど、複数の側面から開始できます。特定のチューニング方法を次に示します。SSDはハードウェア構成に推奨されます。ZookeeperのデータはDISKに書き込まれます。十分なメモリ:頻繁なディスクの読み取りと書き込みを避けるために、Zookeeperに十分なメモリリソースを割り当てます。マルチコアCPU:マルチコアCPUを使用して、Zookeeperが並行して処理できるようにします。

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

CentOSにMySQLをインストールするには、次の手順が含まれます。適切なMySQL Yumソースの追加。 yumを実行して、mysql-serverコマンドをインストールして、mysqlサーバーをインストールします。ルートユーザーパスワードの設定など、MySQL_SECURE_INSTALLATIONコマンドを使用して、セキュリティ設定を作成します。必要に応じてMySQL構成ファイルをカスタマイズします。 MySQLパラメーターを調整し、パフォーマンスのためにデータベースを最適化します。

SSHサービスを再起動するコマンドは次のとおりです。SystemCTL再起動SSHD。詳細な手順:1。端子にアクセスし、サーバーに接続します。 2。コマンドを入力します:SystemCtl RestArt SSHD; 3.サービスステータスの確認:SystemCTLステータスSSHD。
