目次
INDUS: LLM の包括的なセット
ドメイン固有でない LLM よりも優れたパフォーマンスを発揮
ホームページ テクノロジー周辺機器 AI 5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

Jun 27, 2024 pm 08:28 PM
AI 言語モデル 科学 物理 理論 生物学


5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発
INDUS は、南の星座にちなんで名付けられ、5 つの科学分野をサポートする大規模な言語モデルの包括的なセットです。 (出典: NASA)

Editor | KX

大量のデータでトレーニングされた大規模言語モデル (LLM) は、自然言語の理解と生成のタスクで優れたパフォーマンスを発揮します。最も一般的な LLM は、Wikipedia などの一般的なコーパスを使用してトレーニングされますが、語彙の分布変化により、特定のドメインでのパフォーマンスの低下につながります。

これに触発されて、NASA は IBM と協力して、地球科学、生物学、物理学、太陽物理学、惑星科学、天体物理学の分野に合わせて使用​​される包括的な LLM セットである INDUS を開発しました。さまざまなデータ ソースから厳選された科学コーパスをトレーニングします。

INDUS には、エンコーダーとセンテンストランスフォーマーの 2 種類のモデルが含まれています。エンコーダーは、自然言語テキストを、LLM が処理できる数値エンコードに変換します。 INDUS エンコーダーは、天体物理学、惑星科学、地球科学、太陽物理学、生物および物理科学のデータを含む 600 億トークンのコーパスでトレーニングされています。

INDUS: 科学アプリケーションのための効果的かつ効率的な言語モデル」というタイトルの関連研究が、arXiv プレプリント プラットフォームで公開されました。

5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

論文リンク: https://arxiv.org/abs/2405.10725

一般的なドメイン コーパスでトレーニングされた LLM は、自然言語処理 (NLP) タスクで良好に実行します。ただし、これまでの研究では、ドメイン固有のコーパスを使用してトレーニングされた LLM は、特殊なタスクでより優れたパフォーマンスを発揮することが示されています。

たとえば、一部の研究者は、現場での NLP タスクの精度を向上させることを目的として、SCIBERT、BIOBERT、MATBERT、BATTERYBERT、SCHOLARBERT など、いくつかの特定の分野で LLM を開発しました。

INDUS: LLM の包括的なセット

この研究では、研究者たちは、物理学、地球科学、天体物理学、太陽物理学、惑星科学、生物学などの学際的な分野に特に焦点を当てました。

5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

図: INDUS モデルの概要。 (出典: 論文)

INDUS は、これらの関心領域に焦点を当てたエンコーダーベースの LLM のセットであり、さまざまなソースから慎重に厳選されたコーパスを使用してトレーニングされています。 INDUS に含まれる 50,000 語のうち半分以上は、トレーニングに使用される特定の科学分野に固有の単語です。 INDUS Encoder モデルは、タイトル/概要、質問/回答を含む約 2 億 6,800 万のテキスト ペアに対して Sentence Transformer モデルを微調整します。

具体的には:

1. カスタム トークナイザー INDUSBPE は、バイト ペア エンコーディング アルゴリズムを使用して厳選された科学コーパスから構築されました。

2. 選択された科学コーパスと INDUSBPE タガーを使用して、複数のエンコーダー専用 LLM を事前トレーニングしました。さらに、「普遍的な」文埋め込みを学習するという対照的な学習目標を使用してエンコーダのみのモデルを微調整することにより、文埋め込みモデルを作成します。これらのモデルのより小規模で効率的なバージョンは、知識抽出技術を使用してトレーニングされました。

3. この学際的な分野の研究をさらに加速するために、CLIMATE-CHANGE NER (エンティティ認識タスク)、NASA-QA (抽出質問応答タスク)、NASA-IR (検索タスク) という 3 つの新しい科学ベンチマーク データセットを作成しました。

4. 実験結果を通じて、これらのベンチマーク タスクおよび既存のドメイン固有のベンチマークでモデルの優れたパフォーマンスが証明され、RoBERTa などの一般的なモデルや SCIBERT などの科学ドメイン エンコーダーを上回ります。

ドメイン固有でない LLM よりも優れたパフォーマンスを発揮

INDUS にドメイン固有の語彙を提供することにより、研究チームは生物医学的タスクのベンチマーク、科学的質問応答ベンチマーク、および地球科学エンティティにおいて、オープンな非ドメイン固有の LLM を上回りました。認識テストの精度が向上します。

INDUS モデルを、同様のサイズのオープンソース モデル RoBERTaBASE、SCIBERT、MINIMLM、TINYBERT と比較しました。

自然言語理解タスクでは、基本モデルの中で、INDUSBASE はミクロ/マクロ平均で一般的な RoBERTa モデルを大幅に上回り、生物学的ドメイン固有の対応モデル SCIBERT でも競合するパフォーマンスを達成しました。

表: BLURB の評価結果。 (出典: 論文)

5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

BLURB は、気候変動 NER タスクにおいて対応するベースライン モデルを大幅に上回り、大規模なドメイン固有データに対するトレーニングの有効性を示しています。

表: 気候変動NERベンチマーク結果。 (出典: 論文)

5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

NASA-QA (抽出質問応答タスク) では、関連する SQuAD を使用して拡張トレーニング セットを微調整します。すべてのモデルは 15 エポックにわたって微調整され、INDUSSMALL が比較的強力なパフォーマンスを示したのに対し、INDUSBASE は同様のサイズのすべてのモデルよりも優れたパフォーマンスを示したことが観察されました。

表: NASA-QA ベンチマーク結果。 (出典: 論文)

5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

検索タスクでは、NASA-IR データセットと BEIR ベンチマークで INDUS モデルが評価されます。これは、さまざまなドメインをカバーする 12 の検索タスクで構成されます。

以下の表に示すように、どちらの文埋め込みモデルも、NASA-IR タスクではベースラインよりも大幅に優れたパフォーマンスを示し、同時にいくつかの BEIR タスクでは良好なパフォーマンスを維持しています。

表: NASA-IR と BEIR の評価結果。 (出典: 論文)

5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発

研究者らはまた、単一の A100 GPU 上で BEIR 自然問題セットに対する 4,202 のテスト クエリのそれぞれの平均取得時間を測定しました。この時間には、クエリ、コーパスをコーディングする時間、および関連ドキュメントを取得する時間が含まれます。特に、INDUS-RETRIEVERSMALL は、NASA-IR と BEIR の両方で INDUS-RETRIEVERBASE よりも優れたパフォーマンスを示し、約 4.6 倍高速です。

IBM 研究者の Bishwaranjan Bhattacharjee 氏は全体的なアプローチについて次のようにコメントしました:「カスタム語彙を持っているだけでなく、エンコーダー モデルをトレーニングするための大規模な専門的コーパスと優れたトレーニング戦略もあり、それが優れたパフォーマンスにつながります。小規模の場合、より高速なバージョンでは、ニューラル アーキテクチャ検索を使用してモデル アーキテクチャを取得し、より大きなモデルを監視しながら知識の蒸留を使用してそれをトレーニングします。」

NASA 生物物理科学 (BPS) 部門のシルヴァン・コステス博士が説明しました。 : 「INDUS を Open Science Data Repository (OSDR) アプリケーション プログラミング インターフェイス (API) と統合することで、個々のデータセットを閲覧するためのより直感的な検索機能を提供するチャットボットを開発および試験的に使用できるようになります。現在、OSDR の内部キュレーション データ システムを改善する方法を検討しています。 INDUS を使用してキュレーションチームの効率を高め、毎日必要な手作業の量を削減します。」

参考コンテンツ:https://techxplore.com/news/2024-06. -nasa-ibm-collaboration-indus-ラージ.html

以上が5 つの主要な科学分野向けに特別にカスタマイズされた、NASA と IBM が協力して大規模な言語モデル INDUS を開発の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品​​質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。 Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。 Aug 06, 2024 pm 07:34 PM

編集者 | KX 逆合成は創薬や有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴​​う局所的な分子変化を引き起こします。これに触発されて、浙江大学のHou Tingjun氏のチームは、単一ステップの逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案した。そして、高品質かつ多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。広範な実験により、このモデルが標準ベンチマーク データ セット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度が 60.8% であることが示されました。

See all articles