中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。-AI-php.cn

データセット構築プロセス

一般的に使用されるモデルの実験結果

データセット公開チームの紹介

ホームページ

テクノロジー周辺機器

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 22, 2023 pm 08:22 PM

インターネットデータ

段落の並べ替えは、情報検索の分野において非常に重要かつ困難なトピックであり、学術界や産業界から広く注目されています。段落ランキングモデルの有効性により、検索エンジンのユーザー満足度が向上し、質疑応答システムや読解などの情報検索関連アプリケーションに役立ちます。これに関連して、MS-MARCO、DuReader_retrieval などのいくつかのベンチマークデータセットは、段落並べ替えに関する関連研究作業をサポートするために構築されました。ただし、一般的に使用されるデータセットのほとんどは英語のシーンに焦点を当てており、中国語のシーンについては、既存のデータセットではデータ規模、きめ細かいユーザーアノテーション、および偽陰性例の問題の解決策に制限があります。これに関連して、実際の検索ログに基づいて、新しい中国語段落ランキングベンチマークデータセット T^{2Ranking を構築しました。}

##T2^{ランキングは、300,000 を超える実際のクエリと 200 万のインターネットの段落で構成されており、プロのアノテーターによって提供された情報が含まれています。粒度の高い相関アノテーション。現在のデータといくつかのベースラインモデルは Github で公開されており、関連する研究成果は SIGIR 2023 のリソースペーパーとして承認されました。}

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

論文情報: Xiaohui Xie、Qian Dong、Bingning Wang、Feiyang Lv 、Ting Yao、Weinan Gan、Zhijing Wu、Xiangsheng Li、Haitao Li、Yiqun Liu、Jin Ma. T2Ranking: 大規模な中国ベンチマーク . SIGIR 2023.
#紙のアドレス: https://arxiv.org/abs/2304.03679
Github アドレス: https://github.com/THUIR/T2Ranking

段落ランキングタスクの目標は、指定されたクエリ用語に基づいて大規模な段落コレクションを呼び出して並べ替えることです。候補段落を選択し、関連性の高い段落から低い段落の順に段落のリストを取得します。段落の並べ替えは通常、段落の呼び出しと段落の並べ替えという 2 つの段階で構成されます。

段落並べ替えタスクをサポートするために、段落並べ替えアルゴリズムのトレーニングとテスト用に複数のデータセットが構築されます。広く使用されているデータセットのほとんどは英語のシーンに焦点を当てています。たとえば、最も一般的に使用されているデータセットは MS-MARCO データセットで、これには 500,000 以上のクエリ用語と 800 万以上の段落が含まれています。各クエリ用語には質問属性があります。 MS-MARCO データ公開チームは、クエリ用語ごとに標準回答を提供するアノテーターを募集し、その段落に手動で提供された標準回答が含まれているかどうかに基づいて、その段落がクエリ用語に関連しているかどうかを判断します。

中国語のシナリオでは、段落並べ替えタスクをサポートするために構築されたデータセットもいくつかあります。たとえば、mMarco- Chinese は MS-MARCO データセットの中国語翻訳バージョンであり、DuReader_retrieval データセットは MS-MARCO と同じパラダイムを使用して段落ラベルを生成します。つまり、クエリ単語と段落のペアの相関関係は次のとおりです。人間が提供した標準的な回答から得られるスコア。マルチ CPR モデルには、3 つの異なるドメイン (電子商取引、エンターテイメントビデオ、医療) からの段落検索データが含まれています。 Sogou 検索のログデータに基づいて、Sogou-SRR、Sogou-QCL、Tiangong-PDR などのデータセットも提案されています。

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

#図 1: 段落並べ替えタスクで一般的に使用されるデータセットの統計既存のデータセットは段落並べ替えアプリケーションの開発を促進してきましたが、いくつかの制限にも注意する必要があります:

1) これらのデータセットは、段落並べ替えアプリケーションの開発を促進するものではありません。大規模な場合、特に中国のシナリオでは、ラベルまたは関連性ラベルに手動で注釈が付けられません。 Sogou-SRR と Tiangong-PDR には少量のクエリデータしか含まれていません。 mMarco- Chinese と Sogou-QCL は規模が大きいですが、前者は機械翻訳に基づいており、後者は関連性ラベルをユーザーのクリックデータとして使用します。最近、Multi-CPR と DuReader_retrieval という 2 つの比較的大規模なデータセットが構築され、リリースされました。

2) 既存のデータセットには、詳細な相関アノテーション情報がありません。ほとんどのデータセットは、バイナリ相関アノテーション (粒度の粗い)、つまり関連性があるか無関係であるかを使用します。既存の研究では、きめ細かい相関アノテーション情報が、さまざまなエンティティ間の関係をマイニングし、より正確なランキングアルゴリズムを構築するのに役立つことが示されています。また、マルチレベルのきめ細かいアノテーションを提供しないか、少量しか提供しない既存のデータセットもあります。たとえば、Sogou-SRR または Tiangong-PDR は、100,000 以下のきめ細かいアノテーションのみを提供します。

3) 偽陰性例の問題は、評価の精度に影響します。既存のデータセットは、多数の関連ドキュメントが無関係としてマークされる、偽陰性例の問題の影響を受けます。この問題は、大規模なデータにおける手動のアノテーションの数が少ないことが原因で発生し、評価の精度に大きな影響を与えます。たとえば、マルチ CPR では、各クエリ用語に対して 1 つの段落のみが関連するとマークされ、他の段落は無関係とマークされます。 DuReader_retrieval は、アノテーターが手動で最上位の段落セットを検査して再アノテーションを付けられるようにすることで、偽陰性の問題を軽減しようとします。

高品質のトレーニングと評価のための段落ランキングモデルをより適切にサポートするために、新しい中国語段落検索ベンチマークデータセット - T²Ranking を構築してリリースしました。。

データセット構築プロセス

データセット構築プロセスには、クエリ単語のサンプリング、文書の想起、段落の抽出、およびきめ細かい相関アノテーションが含まれます。同時に、データセットの品質を向上させるための複数の方法も設計しました。これには、段落のセマンティックな整合性と多様性を確保するためのモデルベースの段落分割方法とクラスタリングベースの段落重複排除方法の使用、およびアクティブラーニングの使用が含まれます。アノテーションベースのアノテーション、アノテーションの効率や品質を向上させる方法など。

1) 全体の流れ

クエリワードサンプリング：総合検索の検索ログよりサンプリングします。エンジン実際のユーザーによって送信されたクエリワードがサンプリングされ、重複排除と正規化後に最初のクエリワードセットが取得されました。次に、意図分析アルゴリズムを使用して、ポルノクエリ、非質問クエリ、リソースアプリケーションクエリ、およびユーザー情報を含む可能性のあるクエリを削除し、最終的なクエリデータセットには質問属性を持つ高品質のクエリのみが含まれるようにします。
ドキュメントのリコール: サンプリングされたクエリ用語に基づいて、Sogou、Baidu、Google などの複数の主流検索エンジンからドキュメント候補セットをリコールし、インデックス作成とドキュメントの並べ替え機能を完全に統合しました。これらの検索エンジンはインターネットデータのさまざまな部分をカバーし、多様なドキュメント結果を返すことができるため、ドキュメント候補コレクションの完全性を向上させ、偽陰性の問題をある程度軽減できます。
段落抽出: 段落抽出ステップには、段落の分割と重複排除が含まれます。ドキュメント内の段落をセグメント化するヒューリスティックな方法 (従来のように改行によって段落の始まりと終わりを決定するなど) を使用する代わりに、段落セマンティックモデルをトレーニングして段落分割を実行し、各段落の意味論的な整合性を可能な限り確保します。さらに、アノテーションの効率を向上させ、アノテーションが付けられた段落の多様性を確保するために、クラスタリングベースの技術を導入し、類似性の高い段落を効果的に削除します。
きめ細かい相関アノテーション: 採用されたアノテーターは、関連するアノテーションタスクを検索する専門家であり、アノテーション作業に長年従事しています。クエリと段落のペアごとに、少なくとも 3 人のアノテーターがアノテーションを提供します。 3 人のアノテーターのアノテーション結果に一貫性がない場合、追加のアノテーターを導入してアノテーションを行います。4 人のアノテーターの結果に一貫性がない場合、クエリの単語と段落のペアが曖昧すぎて品質が低く、一貫性がないと考えてしまう傾向があります。必要な情報を判断する能力が高すぎるため、クエリ用語と段落のペアがデータセットから除外されます。最終的な関連ラベルは多数決によって決定されます。当社が採用するレベル 4 関連性アノテーションガイドラインは、TREC ベンチマークと一致しています。
レベル 0: クエリ用語は段落の内容とまったく無関係です。
レベル 1: 段落のコンテンツはクエリ用語に関連しています。しかし、クエリ用語の情報要件とは一致しません
レベル 2: 段落の内容はクエリ用語に関連しており、クエリ用語の情報要件を部分的に満たすことができます
レベル 3: 段落の内容はクエリ用語の情報ニーズを完全に満たしており、正確な回答が含まれています。

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

図 2: Wikipedia ページの例。提示された文書には、明確に定義された段落が含まれています。

#2) モデルベースの段落分割方法

既存のデータセットでは、段落通常、自然な段落 (改行) に基づいて、または固定長のスライディングウィンドウによってドキュメントから分割されます。ただし、どちらの方法でも、段落が意味的に不完全になったり、長すぎて複数の異なるトピックが含まれたりする可能性があります。この作業では、モデルベースの段落分割手法を採用しました。具体的には、文書のこの部分の構造が比較的明確であり、自然な段落も取得できるため、総合百科事典、百度百科事典、中国語版ウィキペディアを学習データとして使用しました。より良い定義。特定の単語をセグメンテーションポイントにする必要があるかどうかを判断するために、セグメンテーションモデルをトレーニングしました。私たちはシーケンスラベル付けタスクのアイデアを使用し、モデルをトレーニングするための肯定的な例として各自然セグメントの最後の単語を使用しました。

3) クラスタリングベースの段落重複排除手法

類似性の高い段落に注釈を付けるのは冗長であり、意味がありません。段落ランキングモデルでは、類似性の高い段落コンテンツによってもたらされる情報獲得は限られているため、注釈の効率を向上させるためにクラスタリングベースの段落重複排除方法を設計しました。具体的には、階層的クラスタリングアルゴリズムである Ward を使用して、類似したドキュメントの教師なしクラスタリングを実行します。同じクラス内の段落は非常に類似していると見なされ、関連性の注釈のために各クラスから 1 つの段落がサンプリングされます。この操作はトレーニングセットに対してのみ実行することに注意してください。テストセットの場合は、抽出されたすべての段落に完全に注釈を付けて、偽陰性例の影響を軽減します。

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

#図 3: アクティブラーニングに基づくサンプリングアノテーションプロセス

4) アクティブラーニングに基づくデータサンプリングアノテーション方法##実際には、すべてのトレーニングサンプルのパフォーマンスをさらに改善できるわけではないことが観察されています。ランキングモデル。モデルが正確に予測できるトレーニングサンプルの場合、後続のモデルのトレーニングヘルプは制限されます。したがって、アクティブラーニングのアイデアを借用して、モデルがさらに注釈を付けるためにより有益なトレーニングサンプルを選択できるようにしました。具体的には、まず既存のトレーニングデータに基づくクロスエンコーダーフレームワークに基づいてクエリ単語と段落の並べ替えモデルをトレーニングし、次にこのモデルを使用して他のデータを予測し、過剰な信頼スコア (情報コンテンツ) を削除しました。信頼性スコアが低い (ノイズの多いデータ)、保持された段落にさらに注釈を付け、このプロセスを繰り返します。

データセット統計

T

ランキングは、300,000 を超える実際のクエリと 200 万のインターネットパラグラフで構成されています。このうち、トレーニングセットには約 250,000 のクエリワードが含まれ、テストセットには約 50,000 のクエリワードが含まれます。クエリ用語の長さは最大 40 文字で、平均長は約 11 文字です。同時に、データセット内のクエリ単語は、医療、教育、電子商取引などを含む複数の分野をカバーしており、クエリ単語の多様性スコア (ILS) も計算しました。のほうが高いです。 175 万の文書から 230 万以上の段落がサンプリングされ、各文書は平均 1.3 段落に分割されました。トレーニングセットでは、クエリ用語あたり平均 6.25 段落に手動で注釈が付けられましたが、テストセットでは、クエリ用語あたり平均 15.75 段落に手動で注釈が付けられました。

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

#図 4: データセット内のクエリワードのドメイン分布

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

図 5: 相関アノテーションの分布

一般的に使用されるモデルの実験結果

取得したデータセットに対して、一般的に使用されるいくつかの段落ランク付けモデルのパフォーマンスをテストしました。また、段落想起と段落強調における既存の手法も評価しました。ソートの両方の段階。

1) 段落再現実験

既存の段落再現モデルは、疎再現モデルと密再現モデルに大別できます。リコールモデル。

スパースリコールモデルは、正確に一致する信号に焦点を当て、関連性スコアリング関数を設計します。たとえば、BM25 は最も代表的なベンチマークモデルです。

高密度リコールモデルは、ディープニューラルネットワークを使用して、クエリの単語と段落を表す低次元の密ベクトルを学習します。

次の再現モデルのパフォーマンスをテストしました。

QL (クエリ尤度): QL は代表的な A です。段落が特定のクエリ用語を生成する確率に基づいて関連性を評価する統計的言語モデル。

BM25: 一般的に使用されるスパースリコールベンチマークモデル。

DE w/ BM25 Neg: DPR モデル、デュアルタワーエンコーダー構造 (デュアルエンコーダー)、このモデルは、事前トレーニングされた言語モデルをバックボーンとして使用する最初の段落呼び出しです。フレームワークモデル。

DE w/Mined Neg: 完全なコーパスからハードネガティブサンプルを呼び出すことで、DPR モデルのパフォーマンスを向上させるデュアルエンコーダー構造。

DPTDR: プロンプトチューニングを使用した最初の段落想起モデル。

これらのモデルのうち、QL と BM25 は疎再現モデルであり、その他のモデルは密再現モデルです。これらのモデルのパフォーマンスを評価するには、MRR やリコールなどの一般的な指標を使用します。実験結果を次の表に示します。 # 図 6: テストセットでの再現モデルの段落パフォーマンス

実験結果から、密検索モデルは従来の疎ソートよりも優れたパフォーマンスを達成することがわかります。モデル。同時に、否定しにくい例の導入もモデルのパフォーマンスを向上させるのに役立ちます。私たちのデータセットにおけるこれらの実験モデルの再現率は、他のデータセットよりも悪いことに言及する価値があります。たとえば、このデータセットの BM25 の再現率 @50 は 0.492 ですが、MS-Marco と Dureader_retrieval 上記では 0.601 と 0.700 です。。これは、手動で注釈が付けられた段落が多いことが原因である可能性があります。テストセットでは、クエリ用語ごとに平均 4.74 の関連文書があり、再現タスクがより困難になり、偽陰性がある程度減少します。。問題。これは、T2Ranking が挑戦的なベンチマークデータセットであり、将来のリコールモデルには改善の余地が大きいことも示しています。
2) 段落の並べ替えの実験

##段落想起段階と比較して、並べ替え段階は考慮する必要があります。段落サイズが小さいため、ほとんどのメソッドはモデルフレームワークとしてインタラクティブエンコーダー (クロスエンコーダー) を使用する傾向があります。この研究では、段落並べ替えタスクでインタラクティブエンコーダーモデルのパフォーマンスをテストします。MRR と nDCG を採用します。評価指標の実験結果は次のとおりです。

## 図 7: 段落並べ替えタスクの対話型エンコーダーのパフォーマンス既存の研究の実験結果と一致する、より良い結果を達成できます。再現実験と同様に、私たちのデータセットの再ランキングモデルのパフォーマンスは、他のデータセットのパフォーマンスよりも悪いです。これは、私たちのデータセットのきめ細かいアノテーションとより高いクエリ単語の多様性が原因である可能性があり、さらに、私たちのデータセットが挑戦的であり、モデルのパフォーマンスをより正確に反映できます。

データセット公開チームの紹介

このデータセットは、清華大学コンピューターサイエンス学部の情報検索研究グループ (THUIR) と QQ ブラウザ検索技術センターによって共同リリースされました。 Tencent のチームによるもので、清華大学 Tian の承認、人工知能コンピューティング研究所の支援を受けています。 THUIR研究グループは、検索・推薦手法の研究に注力しており、ユーザー行動モデリングや説明可能な学習手法において典型的な成果を上げており、その研究成果はWSDM2022最優秀論文賞、SIGIR2020最優秀論文ノミネート賞、CIKM2018最優秀論文賞を受賞しています。 2020 年中国情報学会「銭維昌中国情報処理科学技術賞」一等賞をはじめ、数々の学術賞を受賞。 QQ ブラウザ検索技術センターチームは、テンセント PCG 情報プラットフォームとサービスラインの検索技術研究開発を担当するチームであり、テンセントのコンテンツエコシステムに依存し、ユーザー調査を通じて製品革新を推進し、ユーザーにグラフィック、情報、小説、長文コンテンツを提供します。オリエンテーション情報のニーズは満たされます。

以上が中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7742

Java チュートリアル

1643

CakePHP チュートリアル

1397

Laravel チュートリアル

1291

PHP チュートリアル

1234

Related knowledge

ddrescue を使用して Linux 上のデータを回復する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハードドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージデバイスなどのファイルデバイスまたはブロックデバイスからデータを回復するためのツールです。あるブロックデバイスから別のブロックデバイスにデータをコピーし、破損したデータブロックを残して正常なデータブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Excelのフィルター機能を複数条件で使う方法 Feb 26, 2024 am 10:19 AM

Excel で複数の条件によるフィルタリングを使用する方法を知る必要がある場合は、次のチュートリアルで、データを効果的にフィルタリングおよび並べ替えできるようにするための手順を説明します。 Excel のフィルタリング機能は非常に強力で、大量のデータから必要な情報を抽出するのに役立ちます。設定した条件でデータを絞り込み、条件に合致した部分のみを表示することができ、データ管理を効率化できます。フィルター機能を利用すると、目的のデータを素早く見つけることができ、データの検索や整理の時間を節約できます。この機能は、単純なデータリストに適用できるだけでなく、複数の条件に基づいてフィルタリングすることもできるため、必要な情報をより正確に見つけることができます。全体として、Excel のフィルタリング機能は非常に実用的です。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

柔軟かつ高速な 5 本の指を備え、人間のタスクを自律的に完了する初のロボットが登場、大型モデルが仮想空間トレーニングをサポート Mar 11, 2024 pm 12:10 PM

今週、OpenAI、Microsoft、Bezos、Nvidiaが投資するロボット企業FigureAIは、7億ドル近くの資金調達を受け、来年中に自立歩行できる人型ロボットを開発する計画であると発表した。そしてテスラのオプティマスプライムには繰り返し良い知らせが届いている。今年が人型ロボットが爆発的に普及する年になることを疑う人はいないだろう。カナダに拠点を置くロボット企業 SanctuaryAI は、最近新しい人型ロボット Phoenix をリリースしました。当局者らは、多くのタスクを人間と同じ速度で自律的に完了できると主張している。人間のスピードでタスクを自律的に完了できる世界初のロボットである Pheonix は、各オブジェクトを優しくつかみ、動かし、左右にエレガントに配置することができます。自律的に物体を識別できる

See all articles

中国語段落並べ替えベンチマーク データ セットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

データセット構築プロセス

T

一般的に使用されるモデルの実験結果

データセット公開チームの紹介

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。