言語モデルは独自に検索エンジンの使い方を学習しましたか?メタAIがAPI呼び出し自己教師あり学習手法を提案 Toolformer
自然言語処理タスクでは、大規模な言語モデルがゼロショット学習と少数ショット学習で素晴らしい結果を達成しました。ただし、すべてのモデルには固有の制限があり、多くの場合、さらなる拡張によって部分的にしか対処できません。具体的には、モデルの限界には、最新の情報にアクセスできないこと、事実の「情報幻覚」、低リソース言語を理解することの難しさ、正確な計算のための数学的スキルの欠如などが含まれます。
これらの問題を解決する簡単な方法は、モデルに検索エンジン、計算機、カレンダーなどの外部ツールを装備することです。ただし、既存の方法では、大規模な手動の注釈に依存したり、ツールの使用を特定のタスク設定に制限したりすることが多く、外部ツールと組み合わせた言語モデルの使用を一般化することが困難です。
このボトルネックを打破するために、Meta AI は最近、Toolformer と呼ばれる新しいメソッドを提案しました。これにより、言語モデルがさまざまな外部ツールの「使い方」を学習できるようになります。
論文アドレス: https://arxiv.org/pdf/2302.04761v1.pdf
Toolformer はすぐに大きな注目を集め、この論文が現在の大規模言語モデルの多くの問題を解決したと信じ、「これはここ数週間で最も重要な論文だ。論文」と称賛する人もいました。
Toolformer は自己教師あり学習を使用して、大規模な言語モデルがいくつかの API の使い方を学習できるようにしていると指摘する人もいます。非常に柔軟で効率的なツール:
Toolformer が私たちを一般的な人工知能から遠ざけてしまうと考える人さえいます ( AGI)また一歩近づいた。
- 大規模な言語モデルは、人間による広範な注釈を必要とせずに、自己教師付きの方法でツールの使用法を学習する必要があります。人間によるアノテーションのコストは高いため、これは重要ですが、さらに重要なのは、人間が有用だと考えるものは、モデルが有用だと考えるものと異なる可能性があることです。
- 言語モデルでは、特定のタスクに限定されないツールをより包括的に使用する必要があります。
- #これにより、上記のボトルネックが明らかに解消されます。 Toolformer の手法と実験結果を詳しく見てみましょう。
方法
Toolformer は、コンテキスト内学習 (ICL) を備えた大規模な言語モデルに基づいてデータセットを最初から生成します (Schick and Schütze、2021b; Honovich et al. 、2022; Wang et al.、2022) のアイデア: API を使用する人間のサンプルをいくつか挙げるだけで、LM に潜在的な API 呼び出しを含む巨大な言語モデリング データセットに注釈を付けさせ、その後、自己教師あり損失関数を使用して次のことを決定できます。どの API 呼び出しが実際にモデルが将来のトークンを予測するのに役立つか、そして最終的には LM 自体に役立つ API 呼び出しに基づいて微調整します。
Toolformer は使用されるデータセットに依存しないため、モデルが事前トレーニングされたのとまったく同じデータセットで使用できます。これにより、モデルの一般性が失われず、言語モデリング機能。
具体的には、この研究の目標は、言語モデル M に API 呼び出しを通じてさまざまなツールを使用できる機能を装備することです。これには、各 API の入力と出力が一連のテキストとして特徴付けられることが必要です。これにより、各呼び出しの開始と終了をマークするために特別なトークンを使用して、API 呼び出しを任意のテキストにシームレスに挿入できるようになります。
調査では、各 API 呼び出しをタプルとして表します
、ここで、a_c は API の名前、i_c は対応する入力です。 API 呼び出し c と対応する結果 r が与えられた場合、この研究では、その結果を除外および含む API 呼び出しの線形化シーケンスを次のように表します。
このうち、
#指定されたデータセット
、調査ではまず、API 呼び出しを追加して、このデータ セットをデータ セット C* に変換しました。これは、以下の図 2 に示すように 3 つのステップで行われます。まず、この研究では M のコンテキスト内学習機能を活用して、多数の潜在的な API 呼び出しをサンプリングし、次にこれらの API 呼び出しを実行して、得られた応答が予測に役立つかどうかを確認します。フィルタリング基準として使用される将来のトークン。フィルタリング後、研究では API 呼び出しをさまざまなツールにマージし、最終的にデータセット C* を生成し、このデータセット上で M 自体を微調整します。
研究は、さまざまな下流タスクについて実施されました。実験結果は次のことを示しています: 6.7B パラメーターで事前トレーニングされた GPT-J モデル (さまざまな API とツールの使用を学習した) に基づく Toolformer は、さまざまなタスクにおいて、より大きな GPT-3 モデルや他のいくつかのベースラインよりも大幅に優れたパフォーマンスを発揮します。
この研究では、LAMA ベンチマークの SQuAD、GoogleRE、および T-REx サブセットに関するいくつかのモデルを評価しました。実験結果を以下の表 3 に示します。
#Toolformer の数学的推論機能をテストするために、この研究では ASDiv、SVAMP、および MAWPS ベンチマークで実験を実施しました。実験によると、Toolformer はほとんどの場合に計算ツールを使用しており、OPT (66B) や GPT-3 (175B) よりも大幅に優れています。
#質問応答の観点から、この研究では 3 つの質問応答データ セット (Web 質問、自然な質問、およびトリビアQA 。 Toolformer は、同じサイズのベースライン モデルよりも大幅に優れたパフォーマンスを発揮しますが、GPT-3 (175B) には劣ります。
言語をまたいだタスクに関して、この調査では Toolformer と MLQA のすべてのベースライン モデルを比較しました。結果は次のとおりです。表 6 に示すように、
##カレンダー API の有効性を調査するために、調査は次のように行われました。 TEMPLAMA と DATESET と呼ばれる新しい API 実験は、データセット上のいくつかのモデルで実施されました。 Toolformer はすべてのベースラインを上回っていますが、TEMPLAMA カレンダー ツールは使用しません。
この研究では、さまざまなダウンストリーム タスクのパフォーマンス向上を検証することに加えて、Toolformer の言語モデリングのパフォーマンスが API 呼び出しの微調整によって低下しないことを確認したいと考えています。この目的を達成するために、この研究では 2 つの言語モデリング データセットで実験を行って評価します。モデルの複雑度は以下の表 8 に示されています。
API 呼び出しを行わない言語モデリングの場合、API 呼び出しを追加するコストはかかりません。
最後に、研究者らは、外部ツールに助けを求める機能が、言語のサイズに応じてモデルにどのような影響を与えるかを分析しました。パフォーマンスの影響、分析結果を以下の図 4 に示します
興味のある読者は原文を読むことができます詳細については、論文を参照してください。詳細を調べてください。
以上が言語モデルは独自に検索エンジンの使い方を学習しましたか?メタAIがAPI呼び出し自己教師あり学習手法を提案 Toolformerの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









この記事では、DebianシステムのOpenSSL構成を確認して、システムのセキュリティステータスをすばやく把握できるように、いくつかの方法を紹介します。 1.最初にOpenSSLバージョンを確認し、OpenSSLがインストールされているかどうかを確認し、バージョン情報を確認します。端末に次のコマンドを入力します。OpenSSlversionがインストールされていない場合、システムはエラーを促します。 2。構成ファイルを表示します。 OpenSSLのメイン構成ファイルは、通常/etc/ssl/openssl.cnfにあります。テキストエディター(Nanoなど)を使用して、次のように表示できます。sudonano/etc/ssl/openssl.cnfこのファイルには、キー、証明書、暗号化アルゴリズムなどの重要な構成情報が含まれています。 3。OPEを利用します

DebiansNifferは、ネットワークパケットタイムスタンプをキャプチャして分析するために使用されるネットワークスニファーツールです。通常、数秒でパケットキャプチャの時間を表示します。ソースIPアドレス(SourceIP):パケットを送信したデバイスのネットワークアドレス。宛先IPアドレス(DestinationIP):データパケットを受信するデバイスのネットワークアドレス。ソースポート:パケットを送信するデバイスで使用されるポート番号。 Destinatio

DebiantomCatログのセキュリティを改善するには、次の重要なポリシーに注意する必要があります。1。許可制御とファイル管理:ログファイル許可:デフォルトのログファイル許可(640)はアクセスを制限します。 Catalina.shスクリプト(たとえば、0027から0022に変更)のUMASK値を変更するか、LOG4J2構成ファイルにFilePermissionsを直接設定して、適切な読み取り許可を確保することをお勧めします。ログファイルの場所:Tomcatログは通常、/opt/tomcat/logs(または同様のパス)にあり、このディレクトリの許可設定を定期的にチェックする必要があります。 2。ログの回転と形式:ログ回転:server.xmlを構成します

Tomcatログは、メモリリークの問題を診断するための鍵です。 Tomcatログを分析することにより、メモリの使用状況とガベージコレクション(GC)の動作に関する洞察を得ることができ、メモリリークを効果的に見つけて解決できます。 Tomcatログを使用してメモリリークをトラブルシューティングする方法は次のとおりです。1。GCログ分析最初に、詳細なGCロギングを有効にします。 Tomcatの起動パラメーターに次のJVMオプションを追加します:-xx:printgcdetails-xx:printgcdateStamps-xloggc:gc.logこれらのパラメーターは、GCタイプ、リサイクルオブジェクトサイズ、時間などの情報を含む詳細なGCログ(GC.log)を生成します。分析GC.LOG

この記事では、ネットワーク分析ツールのWiresharkとDebian Systemsの代替案について説明します。 「debiansniffer」と呼ばれる標準的なネットワーク分析ツールがないことは明らかです。 Wiresharkは業界をリードするネットワークプロトコルアナライザーであり、Debian Systemsは同様の機能を備えた他のツールを提供しています。機能的特徴の比較Wireshark:これは、リアルタイムネットワークデータキャプチャとデータパケットコンテンツの詳細な表示をサポートする強力なネットワークプロトコルアナライザーであり、ネットワークの問題の診断を促進するためのリッチなプロトコルサポート、フィルタリング、および検索機能を提供します。 Debianシステムの代替ツール:Debianシステムには、TCPDumpやTsharkなどのネットワークが含まれています

この記事では、DDOS攻撃検出方法について説明します。 「DebiansNiffer」の直接的なアプリケーションのケースは見つかりませんでしたが、次の方法はDDOS攻撃検出に使用できます:効果的なDDOS攻撃検出技術:トラフィック分析に基づく検出:突然のトラフィックの成長、特定のポートの接続の急増などのネットワークトラフィックの異常なパターンの識別。たとえば、PysharkライブラリとColoramaライブラリと組み合わせたPythonスクリプトは、ネットワークトラフィックをリアルタイムで監視し、アラートを発行できます。統計分析に基づく検出:データなどのネットワークトラフィックの統計的特性を分析することにより

この記事では、Debianシステムの下でApacheログを分析することにより、Webサイトのパフォーマンスを改善する方法について説明します。 1.ログ分析の基本Apacheログは、IPアドレス、タイムスタンプ、リクエストURL、HTTPメソッド、応答コードなど、すべてのHTTP要求の詳細情報を記録します。 Debian Systemsでは、これらのログは通常、/var/log/apache2/access.logおよび/var/log/apache2/error.logディレクトリにあります。ログ構造を理解することは、効果的な分析の最初のステップです。 2。ログ分析ツールさまざまなツールを使用してApacheログを分析できます。コマンドラインツール:GREP、AWK、SED、およびその他のコマンドラインツール。

この記事では、Debianシステム上のNginxサーバーのSSLパフォーマンスを効果的に監視する方法について説明します。 Nginxexporterを使用して、NginxステータスデータをPrometheusにエクスポートし、Grafanaを介して視覚的に表示します。ステップ1:NGINXの構成最初に、NGINX構成ファイルのSTUB_STATUSモジュールを有効にして、NGINXのステータス情報を取得する必要があります。 NGINX構成ファイルに次のスニペットを追加します(通常は/etc/nginx/nginx.confにあるか、そのインクルードファイルにあります):location/nginx_status {stub_status
