ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露-AI-php.cn

ホームページ

テクノロジー周辺機器

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

王林

Jan 29, 2024 am 09:03 AM

ai モデル

数日前、OpenAI はメジャーアップデートを行い、2 つの新しいテキスト埋め込みモデルを含む 5 つの新しいモデルを一度に発表しました。

埋め込みとは、自然言語やコードなどで概念を表すために数値シーケンスを使用することです。これらは、機械学習モデルやその他のアルゴリズムがコンテンツ間の関係をより深く理解し、クラスタリングや検索などのタスクを実行しやすくするのに役立ちます。

一般に、より大きな埋め込みモデル (取得のためにベクトルメモリに保存されたものなど) を使用すると、より多くのコスト、計算能力、メモリ、およびストレージリソースが消費されます。ただし、OpenAI によって開始された 2 つのテキスト埋め込みモデルは、異なるオプションを提供します。まず、text-embedding-3-small モデルは小さいですが効率的なモデルです。リソースが限られた環境でも使用でき、テキスト埋め込みタスクを処理するときに優れたパフォーマンスを発揮します。一方、text-embedding-3-large モデルはより大きく、より強力です。このモデルは、より複雑なテキスト埋め込みタスクを処理し、より正確で詳細な埋め込み表現を提供できます。ただし、このモデルを使用するには、より多くのコンピューティングリソースとストレージスペースが必要になります。したがって、特定のニーズとリソースの制約に応じて、コストとパフォーマンスの関係のバランスをとるために適切なモデルを選択できます。

両方の新しい埋め込みモデルは、開発者が埋め込みのパフォーマンスとコストをトレードオフできるトレーニング手法を使用して実行されます。具体的には、開発者は、埋め込みを次元 API パラメーターに渡すことで、概念的表現のプロパティを失うことなく、埋め込みのサイズを短縮できます。たとえば、MTEB ベンチマークでは、text-embedding-3-large はサイズ 256 に短縮できますが、それでも短縮されていない text-embedding-ada-002 埋め込み (サイズ 1536) よりも優れたパフォーマンスを発揮します。このようにして、開発者は特定のニーズに基づいて適切な埋め込みモデルを選択でき、パフォーマンス要件を満たすだけでなくコストも制御できます。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

#このテクノロジーのアプリケーションは非常に柔軟です。たとえば、最大 1024 次元の埋め込みのみをサポートするベクターデータストアを使用する場合、開発者は最適な埋め込みモデル text-embedding-3-large を選択し、次元 API に値 1024 を指定することで埋め込み次元を 3072 から変更できます。パラメータ。1024 に短縮されます。これを行うとある程度の精度が犠牲になる可能性がありますが、より小さいベクトルサイズを取得できます。

OpenAI が使用する「短縮エンベディング」手法は、その後、研究者の間で広く注目を集めました。

この手法は、2022年5月の論文で提案された「マトリョーシカ表現学習」手法と同じであることが判明しました。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

OpenAI の新しい埋め込みモデルの更新の背後に、@adityakusupati らが提案したクールな埋め込み表現が隠されています。テクノロジー。

そして、MRL の作成者の 1 人である Aditya Kusupati 氏も次のように述べています。「OpenAI は、検索と RAG 用の v3 組み込み API でデフォルトで MRL を使用します! 他のモデルやサービスもすぐに追いつくはずです」 ."

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

それでは、MRL とは一体何でしょうか?効果はどうですか？すべては以下の 2022 年の論文に記載されています。

#MRL 論文紹介

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

##論文タイトル: マトリョーシカ表現学習
論文リンク: https://arxiv.org/pdf/2205.13147.pdf

研究者が提起した疑問は、異なるコンピューティングリソースを使用する複数の下流タスクに適応するように柔軟な表現方法を設計できるかということです。

MRL は、O (log (d)) 個の低次元ベクトルをネストされた方法で明示的に最適化することで、同じ高次元ベクトル内の異なる容量の表現を学習します。そのため、マトリョーシカ「ロシア語」という名前が付けられました。マトリョーシカ人形」。 MRL は既存の表現パイプラインに適応でき、コンピュータービジョンや自然言語処理の多くの標準タスクに簡単に拡張できます。

図 1 は、MRL の中心的なアイデアと、学習されたマトリョーシカ表現の適応展開セットアップを示しています。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

最初のm 次元 (m∈[d]) は、追加のトレーニングコストを必要とせず、独立してトレーニングされた m 次元表現と同じくらい正確な、情報が豊富な低次元ベクトルです。 Matryoshka 表現の情報内容は次元の増加とともに増加し、大規模なトレーニングや追加の展開オーバーヘッドを必要とせずに、粗い表現から細かい表現までを形成します。 MRL は、ベクトルの特性評価に必要な柔軟性と多重忠実度を提供し、精度と計算量の間で最適に近いトレードオフを保証します。これらの利点により、MRL は精度と計算上の制約に基づいて適応的に導入できます。

この作業では、現実世界の ML システムの 2 つの主要な構成要素である大規模な分類と検索に焦点を当てます。

研究者らは分類のために適応カスケードを使用し、MRL によってトレーニングされたモデルによって生成された可変サイズ表現を使用したため、特定の精度を達成するのに必要な時間が大幅に短縮されました。たとえば、ImageNet-1K では、MRL 適応分類により、ベースラインと同じ精度で表現サイズが最大 14 倍削減されます。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

同様に、研究者は適応検索システムでも MRL を使用しています。クエリが与えられると、クエリ埋め込みの最初のいくつかの次元が検索候補をフィルタリングするために使用され、その後、さらに多くの次元が検索セットの順序を変更するために使用されます。このアプローチの簡単な実装では、標準の埋め込みベクトルを使用した単一検索システムと比較して、FLOPS で理論上の速度の 128 倍、実測時間の 14 倍を達成します。MRL の検索精度は単一検索の精度に匹敵することに注意することが重要です (セクション 4.3.1)。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

最後に、MRL は表現ベクトルを粗いものから細かいものまで明示的に学習するため、直感的には異なる次元間で共有される必要があります。より多くの意味情報 (図 5) 。これはロングテール連続学習設定に反映されており、元の埋め込みと同じくらい堅牢でありながら、精度を最大 2% 向上させることができます。さらに、MRL は粒度が粗いため、粒度が細かいため、インスタンスの分類のしやすさや情報のボトルネックを分析する方法としても使用できます。

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

研究の詳細については、論文の原文を参照してください。

以上がネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7478

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合（ポート占有率をチェックして構成の変更）、許可の問題（ユーザー許可を実行するサービスを確認）、構成ファイルエラー（パラメーター設定のチェック）、データディレクトリの破損（テーブルスペースの復元）、INNODBテーブルスペースの問題（IBDATA1ファイルのチェック）、プラグインロード障害（エラーログのチェック）が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

mysqlはjsonを返すことができますか Apr 08, 2025 pm 03:09 PM

MySQLはJSONデータを返すことができます。 json_extract関数はフィールド値を抽出します。複雑なクエリについては、Where句を使用してJSONデータをフィルタリングすることを検討できますが、そのパフォーマンスへの影響に注意してください。 JSONに対するMySQLのサポートは絶えず増加しており、最新バージョンと機能に注意を払うことをお勧めします。

酸性特性を理解する：信頼できるデータベースの柱 Apr 08, 2025 pm 06:33 PM

データベース酸属性の詳細な説明酸属性は、データベーストランザクションの信頼性と一貫性を確保するための一連のルールです。データベースシステムがトランザクションを処理する方法を定義し、システムのクラッシュ、停電、または複数のユーザーの同時アクセスの場合でも、データの整合性と精度を確保します。酸属性の概要原子性：トランザクションは不可分な単位と見なされます。どの部分も失敗し、トランザクション全体がロールバックされ、データベースは変更を保持しません。たとえば、銀行の譲渡が1つのアカウントから控除されているが別のアカウントに増加しない場合、操作全体が取り消されます。 TRANSACTION; updateaccountssetbalance = balance-100wh

マスターSQL制限条項：クエリの行数を制御する Apr 08, 2025 pm 07:00 PM

sqllimit句：クエリ結果の行数を制御します。 SQLの制限条項は、クエリによって返される行数を制限するために使用されます。これは、大規模なデータセット、パジネートされたディスプレイ、テストデータを処理する場合に非常に便利であり、クエリ効率を効果的に改善することができます。構文の基本的な構文：SelectColumn1、column2、... FromTable_nameLimitnumber_of_rows; number_of_rows：返された行の数を指定します。オフセットの構文：SelectColumn1、column2、... FromTable_nameLimitoffset、number_of_rows; offset：skip

高負荷アプリケーションのMySQLパフォーマンスを最適化する方法は？ Apr 08, 2025 pm 06:03 PM

MySQLデータベースパフォーマンス最適化ガイドリソース集約型アプリケーションでは、MySQLデータベースが重要な役割を果たし、大規模なトランザクションの管理を担当しています。ただし、アプリケーションのスケールが拡大すると、データベースパフォーマンスのボトルネックが制約になることがよくあります。この記事では、一連の効果的なMySQLパフォーマンス最適化戦略を検討して、アプリケーションが高負荷の下で効率的で応答性の高いままであることを保証します。実際のケースを組み合わせて、インデックス作成、クエリ最適化、データベース設計、キャッシュなどの詳細な主要なテクノロジーを説明します。 1.データベースアーキテクチャの設計と最適化されたデータベースアーキテクチャは、MySQLパフォーマンスの最適化の基礎です。いくつかのコア原則は次のとおりです。適切なデータ型を選択し、ニーズを満たす最小のデータ型を選択すると、ストレージスペースを節約するだけでなく、データ処理速度を向上させることもできます。

MySQLの主な鍵はヌルにすることができます Apr 08, 2025 pm 03:03 PM

MySQLプライマリキーは、データベース内の各行を一意に識別するキー属性であるため、空にすることはできません。主キーが空になる可能性がある場合、レコードを一意に識別することはできません。これにより、データの混乱が発生します。一次キーとして自己挿入整数列またはUUIDを使用する場合、効率やスペース占有などの要因を考慮し、適切なソリューションを選択する必要があります。

MongoDBデータベースパスワードを表示するNAVICATの方法 Apr 08, 2025 pm 09:39 PM

Hash値として保存されているため、Navicatを介してMongoDBパスワードを直接表示することは不可能です。紛失したパスワードを取得する方法：1。パスワードのリセット。 2。構成ファイルを確認します（ハッシュ値が含まれる場合があります）。 3.コードを確認します（パスワードをハードコードできます）。

Prometheus MySQL ExporterでMySQLおよびMariadb液滴を監視します Apr 08, 2025 pm 02:42 PM

MySQLおよびMariaDBデータベースの効果的な監視は、最適なパフォーマンスを維持し、潜在的なボトルネックを特定し、システム全体の信頼性を確保するために重要です。 Prometheus MySQL Exporterは、プロアクティブな管理とトラブルシューティングに重要なデータベースメトリックに関する詳細な洞察を提供する強力なツールです。

See all articles

ネットユーザーが OpenAI の新モデルで使用されている埋め込みテクノロジーを暴露

#MRL 論文紹介

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック