Interspeech 2023 にはいくつかの論文が選ばれ、Huoshan Speech は多くの種類の実際的な問題を効果的に解決しました-AI-php.cn

ホームページ

テクノロジー周辺機器

Interspeech 2023 にはいくつかの論文が選ばれ、Huoshan Speech は多くの種類の実際的な問題を効果的に解決しました

王林

Sep 18, 2023 am 11:09 AM

理論

最近、Volcano Voice チームからのいくつかの論文が Interspeech 2023 に選ばれ、短いビデオの音声認識、言語を超えた音色とスタイル、口頭流暢さの評価が取り上げられました。、など。アプリケーションの方向における革新的なブレークスルー。 Interspeech は、国際音声通信協会 ISCA が主催する音声研究分野のトップカンファレンスの 1 つであり、世界最大の総合的な音声信号処理イベントとしても知られ、世界の言語分野の人々から広く注目されています。。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

Interspeech2023イベントサイト

ランダムな文の連結に基づくデータ拡張による短いビデオの改善音声認識 (ランダム発話連結ベースのデータ拡張によるショートビデオ音声認識の改善)

一般的に言えば、エンドツーエンドの自動音声認識 ( ASR) フレームワークの制限の 1 つは、トレーニングステートメントとテストステートメントの長さが一致しない場合にパフォーマンスが低下する可能性があることです。この論文では、Huoshan Speech チームは、短いビデオ ASR タスクにおけるトレーニングとテスト文の長さの不一致の問題を軽減するフロントエンドデータ拡張として、インスタントランダムセンテンス連結 (RUC) に基づくデータ拡張方法を提案しています。

具体的には、チームは、次の観察が革新的な実践において大きな役割を果たしたことを発見しました: 通常、短いビデオの自発的な発話のトレーニング文は、人間が書き起こした文よりもはるかに短いです (平均約3 秒）、音声アクティビティ検出フロントエンドから生成されたテストセンテンスははるかに長かった（平均約 10 秒）。したがって、この不一致によりパフォーマンスの低下が生じる可能性があります。

Volcano Speech チームは、実証作業の目的で 15 の言語のマルチクラス ASR モデルを使用したと述べました。これらの言語のデータセットは 1,000 ～ 30,000 時間の範囲にあります。モデルの微調整フェーズでは、複数のデータからサンプリングして結合したデータもリアルタイムで追加しました。強化されていないデータと比較して、この方法では、すべての言語で平均相対単語誤り率 5.72% の減少が達成されます。テストセットに合格した長文の WER は、RUC が大幅に低下しました。トレーニング後 (青と赤)

実験的観察によると、RUC メソッドは長文の認識能力を大幅に向上させましたが、短文のパフォーマンスは低下しませんでした。さらなる分析により、提案されたデータ拡張手法により、長さの正規化の変更に対する ASR モデルの感度が低下することがわかりました。これは、ASR モデルが多様な環境においてより堅牢であることを意味する可能性があります。要約すると、RUC データ強化方法は操作が簡単ですが、効果は顕著です。多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

音声と韻律を意識した自己監視方法に基づく流暢性スコアリング

(音声と韻律を意識した自己監視方法に基づく流暢性スコアリング)非母国語の流暢性スコアリングのための韻律を意識した自己教師あり学習アプローチ)

第二言語学習者の言語能力を評価するための重要な要素の 1 つは口頭流暢さです。流暢な発音の主な特徴は、話すときに一時停止、ためらい、または自己修正などの多くの異常現象を起こすことなく、簡単かつ正常に音声を発する能力によって特徴付けられます。ほとんどの第二言語学習者は通常、ネイティブスピーカーよりもゆっくり話し、頻繁に休憩します。話し言葉の流暢さを評価するために、Volcano Speech チームは、音声と韻律の相関に基づく自己教師ありモデリング手法を提案しました。具体的には、事前トレーニング段階で、モデルの入力シーケンスの特徴 (音響特徴、音響特徴) 、音素 ID、音素継続時間) がマスクされ、マスクされた特徴がモデルに送信されます。コンテキスト関連エンコーダーを使用して、タイミング情報に基づいてマスクされた部分の音素 ID と音素継続時間情報を復元します。より強力な音声と韻律表現能力を備えています。このソリューションは、シーケンスモデリングフレームワークで元の継続時間、音素、音響情報の 3 つの特徴をマスクして再構築し、機械がコンテキストの音声と継続時間表現を自動的に学習できるようにし、流暢さのスコアリングに適しています。

#音声と韻律に基づくこの自己教師あり学習方法は、この分野の他の方法よりも優れており、機械の結果と社内の人間の専門家を予測します。テストセットスコア間の相関は

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题 0.833

に達し、これは専門家と専門家の間の相関と同じ 0.831 です。オープンソースデータセットでは、機械の予測結果と人間の専門家のスコア間の相関関係は 0.835 に達し、そのパフォーマンスはこのタスクに関して過去に提案された一部の自己教師あり手法を上回りました。アプリケーションシナリオに関しては、この方法は、口頭試験やさまざまなオンライン口頭演習など、自動流暢性評価が必要なシナリオに適用できます。自動発音評価における非ネイティブ音声の寄与を解きほぐす

非母語話者の発音評価の基本的な考え方は、学習者の発音と母語話者の発音の間の偏差を定量化することです。したがって、発音評価に使用される初期の音響モデルは、通常、トレーニングにターゲット言語データのみを使用しますが、最近の研究では、非母語の発音データをトレーニングに使用し始めており、母語の音声データがモデルのトレーニングに組み込まれています。非ネイティブ音声を L2 ASR に組み込む目的と、非ネイティブ評価または発音エラー検出の間には根本的な違いがあります。前者の目的は、最適な ASR を達成するためにモデルを可能な限り非ネイティブデータに適応させることです。非母語音声のより高い認識精度と非母語発音の発音レベルの客観的な評価という、一見相反する要件が求められます。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

Volcano Speech チームは、発音評価における非母語音声の寄与を、アライメント精度と評価パフォーマンスという 2 つの異なる観点から研究することを目的としています。この目的を達成するために、音響モデルをトレーニングする際に、上の図に示すように、さまざまなデータの組み合わせとテキスト転写フォームを設計しました。上の 2 つの表はそれぞれ、アライメント精度と評価における音響モデルのさまざまな組み合わせのパフォーマンスを示しています。実験結果は、音響モデルのトレーニング中に手動で注釈が付けられた音素シーケンスを持つ非母国語データのみを使用すると、非母語音声の位置合わせが可能になり、発音評価で最高の精度が得られることを示しています。具体的には、トレーニングでネイティブ言語データと非ネイティブデータ (人間が注釈を付けた音素シーケンス) を半分ずつ混合すると、若干悪くなる可能性がありますが、人間が注釈を付けた音素シーケンスを持つ非ネイティブデータのみを使用する場合と同等です。

さらに、母国語データの発音を評価する場合、上記の混合ケースのパフォーマンスが向上します。リソースが限られている中で、10 時間の非母語データを追加すると、使用するテキスト転写タイプに関係なく、母語データのみを使用した音響モデルのトレーニングと比較して、位置合わせの精度と評価パフォーマンスが大幅に向上しました。この研究は、音声評価の分野におけるデータアプリケーションにとって重要な指針となる重要な意味を持ちます。多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

ノンスパイクによるフレーム分類の最適化多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

CTC

プロセッサーがタイムスタンプの問題を解決します。 (

エンドツーエンドの自動音声認識におけるピーキーでない CTC による単語タイミングのフレームレベル分類器の改善)

自動音声認識 (ASR) エンドツーエンドこのドメイン内のシステムは、ハイブリッドシステムに匹敵するパフォーマンスを実証しました。 ASR の副産物として、タイムスタンプは多くのアプリケーション、特に字幕生成や計算支援による発音トレーニングなどのシナリオで重要です。このペーパーでは、タイムスタンプを取得するためにエンドツーエンドシステムのフレームレベル分類器を最適化することを目的としています。。この点で、チームは、フレームレベルの分類器をトレーニングするために CTC (コネクショニスト時間分類) 損失の使用を導入し、CTC のスパイク現象を緩和するためにラベル事前情報を導入し、メルフィルターの出力と ASR を組み合わせました。エンコーダーを入力機能として使用します。中国語社内の実験では、この方法は単語タイムスタンプ 200ms で 95.68%/94.18% の精度を達成しましたが、従来のハイブリッドシステムは 93.0%/90.22% にすぎませんでした。さらに、以前のエンドツーエンドのアプローチと比較して、チームは 7 つの内部言語で 4.80%/8.02% の絶対的なパフォーマンス向上を達成しました。この実験は LibriSpeech に対してのみ行われましたが、単語のタイミングの精度もフレームごとの知識蒸留アプローチによってさらに向上しました。この研究の結果は、ラベル事前分布を導入し、さまざまなレベルの特徴を融合することによって、エンドツーエンドの音声認識システムにおけるタイムスタンプのパフォーマンスを効果的に最適化できることを示しています。社内の中国語実験では、この方法はハイブリッドシステムや以前のエンドツーエンド方法と比較して大幅な改善を達成しました。さらに、この方法は複数の言語に対して明らかな利点も示しています。知識蒸留方法の適用により、単語の精度がさらに向上しました。タイミングの正確さ。これらの結果は、字幕生成や発音トレーニングなどのアプリケーションにとって非常に重要なだけでなく、自動音声認識技術の開発に有用な探索の方向性を提供します。

北京語と英語のコードスイッチング音声認識のための言語固有の音響境界学習

書き直された内容: 誰もが知っているように、主な目標はコードスイッチング (CS) の目的は、異なる言語または技術分野間の効果的なコミュニケーションを促進することです。 CS では、文内で 2 つ以上の言語を交互に使用する必要がありますが、複数の言語の単語やフレーズを結合すると、音声認識でエラーや混乱が生じる可能性があり、コード交換音声認識 (CSSR) がより困難になります。ミッション＃＃＃

通常のエンドツーエンド ASR モデルは、エンコーダー、デコーダー、およびアライメントメカニズムで構成されます。既存のエンドツーエンド CSASR モデルのほとんどは、エンコーダーとデコーダーの構造の最適化のみに焦点を当てており、言語関連のアライメントメカニズムの設計が必要かどうかについてはほとんど議論されていません。既存の研究のほとんどは、中国語と英語が混在するシナリオのモデリング単位として、北京語の文字と英語のサブワードを組み合わせて使用しています。通常、中国語の文字は中国語の単一音節を表し、明確な音響境界を持っていますが、英語のサブワードは音響知識をまったく参照せずに取得されるため、音響境界があいまいになる場合があります。 CSASR システムで中国語と英語の間の良好な音響境界 (整合) を取得するには、言語関連の音響境界学習が非常に必要です。そこで、我々は CIF モデルを改良し、CSASR タスク用の言語区別音響境界学習法を提案しました。モデルアーキテクチャの詳細については、以下の図を参照してください。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

モデルは 6 つのコンポーネント、つまりエンコーダー、言語区別重み推定器 (LSWE)、 CIF モジュール、自動回帰 (AR) デコーダ、非自己回帰 (NAR) デコーダ、および言語変更検出 (LCD) モジュール。エンコーダ、自己回帰デコーダ、および CIF の計算プロセスは、元の CIF ベースの ASR メソッドと同じです。言語固有の重み推定器は、言語に依存しない音響境界のモデリングを完了する役割を果たします。非自己回帰 (NAR) デコーダ言語変更検出 (LCD) モジュールはモデルのトレーニングを支援するように設計されており、デコード段階では保持されません。

実験結果は、この方法がオープンソース中国語の 2 つのテストセットで有効であることを示しています。英国混合データセット SEAME 多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题とで新しい SOTA 効果が得られ、MER はそれぞれ 16.29% と 22.81% でした。より大きなデータ量に対するこの方法の効果をさらに検証するために、チームは 9,000 時間の内部データセットで実験を実施し、最終的に 7.9% の相対的な MER 向上を達成しました。この論文は、CSASR タスクにおける言語区別のための音響境界学習に関する最初の研究でもあることが理解されています。

USTR: 統一表現とプレーンテキストに基づく ASR ドメインアダプテーション (テキスト専用ドメイン)トランスデューサでの統一音声テキスト表現を使用した適応）

ご存知のとおり、ASR ではドメイン移行は常に非常に重要なタスクでしたが、ターゲットでペアの音声データを取得することは重要でした。ドメインは非常に時間とコストがかかるため、認識効果を高めるために対象ドメインに関連するテキストデータを使用することが多くあります。従来の手法のうち、TTS はトレーニングサイクルと関連データのストレージコストを増加させますが、ILME や Shallow fusion などの手法は推論の複雑さを増加させます。

このタスクに基づいて、チームはエンコーダを RNN-T に基づくオーディオエンコーダと共有エンコーダに分割し、音声信号に類似した表現を学習するためにテキストエンコーダを導入しました。音声とテキストの表現は共有エンコーダ、RNN を介して行われます。 -T loss は、USTR (Unified Speech-Text Representation) と呼ばれるトレーニングに使用されます。「テキストエンコーダ部分については、文字シーケンス、電話シーケンス、サブワードシーケンスなど、さまざまなタイプの表現を検討しました。最終結果では、電話シーケンスが最も効果的であることがわかりました。トレーニング方法については、この記事でその方法を検討します。」指定された RNN に基づいています。T モデルのマルチステップトレーニングメソッドと、完全にランダムな初期化によるシングルステップトレーニングメソッドです。」

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

# 具体的には、チームは LibriSpeech データセットを使用しました。 SPGISpeech の注釈付きテキストは、ドメイン移行実験のプレーンテキストとして使用されます。実験の結果、対象フィールドにおけるこの方法の効果は基本的にTTSと同じであることが示され、シングルステップトレーニングの効果がより高く、効果は基本的にマルチステップと同じであることがわかりました。 USTR メソッドは、LM が同じテキストトレーニングコーパスを使用する場合でも、ILME などのプラグイン言語モデルのパフォーマンスをさらに向上させることができます。最後に、ターゲットドメインテストセットでは、外部言語モデルを組み合わせずに、この方法はベースライン WER の 23.55% -> 13.25% と比較して 43.7% の相対的な減少を達成しました。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

#知識蒸留に基づく効率的な内部言語モデル推定手法 (効率的な内部言語モデル推定のための知識蒸留アプローチ)

Internal Language Model Estimation (ILME) は、エンドツーエンドの ASR 言語モデル融合においてその有効性が証明されていますが、従来の Shallow fusion と比較して、ILME では内部言語モデルの計算が追加で導入されるため、推論のコストが増加します。内部言語モデルを推定するには、ASR デコーダーに基づいて追加の前方計算が必要になるか、内部言語として密度比法に基づく ASR トレーニングセットテキストを使用して独立言語モデル (DR-LM) がトレーニングされます。モデルの近似値。 ASR デコーダに基づく ILME 法は、ASR パラメータを直接推定に使用するため、通常、密度比法よりも優れた性能を達成できますが、その計算量は ASR デコーダのパラメータ量に依存し、密度比法の利点は次のとおりです。 DR-LM のサイズにより、効率的な内部言語モデルの推定が可能になります。

このため、Volcano Voice チームは、密度比法のフレームワークの下で、ASR デコーダに基づく ILME 法を教師として使用し、DR-LM を抽出して学習することを提案しました。これにより、DR-LM の計算を大幅に削減できます。 ILMEのパフォーマンスを維持しながらILMEのコストを削減します。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

実験結果は、この方法が内部言語モデルのパラメータの 95% を削減でき、ASR ベースの方法とパフォーマンスが同等であることを示しています。デコーダ ILME メソッドも非常に似ています。より優れたパフォーマンスの ILME メソッドを教師として使用すると、対応する生徒モデルもより良い結果を達成できます。同等の計算量を伴う従来の密度比手法と比較して、この手法は高リソースシナリオでのパフォーマンスがわずかに優れています。低リソースのクロスドメイン移行シナリオでは、CER ゲインが 8% に達する可能性があり、より堅牢です。融合重み

GenerTTS:クロス言語音声合成における音色とスタイルの一般化のための発音のもつれの解消 (GenerTTS: クロス言語での音色とスタイルの一般化のための発音のもつれの解消) - 言語テキスト読み上げ）

言語の音色やスタイルにまたがる汎用音声合成 (TTS) は、音声を合成することを目的としています。ターゲット言語で訓練されていない特定の参照音色またはスタイルを使用します。特定話者の多言語音声データの取得が困難なことが多いため、音色と発音の分離が困難であること、話法には言語に依存しない部分と言語に依存する部分が混在しているため、文体と発音が混在することなどの課題に直面している。

これらの課題に対処するために、Volcano Voice チームは GenerTTS を提案しました。彼らは、音色と発音/スタイルの関係を解きほぐすために、HuBERT ベースの情報ボトルネックを慎重に設計しました。同時に、スタイルと言語の間の相互情報を最小限に抑えることで、スタイル内の言語固有の情報も排除します。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

実験的証明, GenerTTS は、文体の類似性と発音の正確さの点でベースラインシステムを上回っており、言語の音色やスタイル全体での汎用性を実現しています。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

Huoshan Voice チームは常に、高品質の音声 AI テクノロジー機能とフルスタックの音声製品ソリューションを ByteDance の社内ビジネスラインに提供し、これらを外部の世界に輸出してきました。 Volcano エンジンのサービスを提供します。 2017 年の設立以来、チームは業界をリードする AI インテリジェント音声テクノロジーの研究開発に注力し、より大きなユーザー価値を達成するために AI とビジネスシナリオの効率的な組み合わせを常に模索してきました。

以上がInterspeech 2023 にはいくつかの論文が選ばれ、Huoshan Speech は多くの種類の実際的な問題を効果的に解決しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7469

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データセットと比較して、「DefectSpectrum」データセットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープンモデルが開発されています。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビンシン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージデータを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラルネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ～ 20% に相当します。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データセットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データセットがありますが、これらのデータセットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

最適な分子を自動的に特定し、合成コストを削減する MIT は、分子設計の意思決定アルゴリズムフレームワークを開発します。 Jun 22, 2024 am 06:43 AM

編集者 | 創薬の合理化における Ziluo AI の利用は爆発的に増加しています。新薬の開発に必要な特性を備えている可能性のある候補分子を数十億個スクリーニングします。材料の価格からエラーのリスクまで、考慮すべき変数が非常に多いため、たとえ科学者が AI を使用したとしても、最適な候補分子の合成コストを秤量することは簡単な作業ではありません。ここで、MIT の研究者は、最適な分子候補を自動的に特定する定量的意思決定アルゴリズムフレームワークである SPARROW を開発しました。これにより、合成コストを最小限に抑えながら、候補が望ましい特性を持つ可能性を最大限に高めることができます。このアルゴリズムは、これらの分子を合成するために必要な材料と実験手順も決定しました。 SPARROW では、複数の候補分子が入手可能な場合が多いため、分子のバッチを一度に合成するコストが考慮されます。

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンションメカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。「S」で始まる関連研究

See all articles

Interspeech 2023 にはいくつかの論文が選ばれ、Huoshan Speech は多くの種類の実際的な問題を効果的に解決しました

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック