ナレッジ グラフ: 大規模モデルの理想的なパートナー
大規模言語モデル (LLM) は、滑らかで一貫したテキストを生成する機能を備えており、人工知能の対話や創造的な文章などの分野に新たな可能性をもたらします。ただし、LLM にはいくつかの重要な制限もあります。まず、彼らの知識はトレーニング データから認識されたパターンに限定されており、世界に対する真の理解が欠けています。第 2 に、推論スキルには限界があり、論理的な推論を行ったり、複数のデータ ソースからの事実を融合したりすることができません。より複雑で自由回答の質問に直面すると、LLM の答えは「幻想」として知られる不条理または矛盾したものになる場合があります。したがって、LLM はいくつかの面では非常に便利ですが、複雑な問題や現実世界の状況を扱う場合には、依然として一定の制限があります。
これらのギャップを埋めるために、検索拡張生成 (RAG) システムが近年登場しました。中心となるアイデアは、関連する知識を外部ソースから取得して LLM にコンテキストを提供することです。より多くの情報に基づいた意思決定を行うことができます。現在のシステムは主にベクトル埋め込みの意味的類似性を使用してパッセージを取得しますが、このアプローチには、真の相関関係の欠如、事実を集約できないこと、推論チェーンの欠如など、独自の欠点があります。ナレッジグラフの応用分野はこれらの問題を解決できます。ナレッジ グラフは、現実世界のエンティティと関係を構造化して表現したものです。文脈上の事実間の相互接続をエンコードすることにより、ナレッジ グラフは純粋なベクトル検索の欠点を克服し、グラフ検索により複数の情報ソースにわたる複雑なマルチレベル推論が可能になります。
ベクトル埋め込みとナレッジ グラフを組み合わせることで、LLM の推論能力が向上し、その精度と解釈可能性が向上します。このパートナーシップにより、表面セマンティクスと構造化された知識およびロジックが完全に融合され、LLM が統計学習と記号表現を同時に適用できるようになります。
図
1. ベクトル検索の制限
ほとんどの RAG システムは、ドキュメント コレクション内の段落全体を検索します。 LLM のコンテキストを見つけるためのベクトル検索。このプロセスにはいくつかの重要な手順があります。
- #テキスト エンコーディング: システムは BERT のような埋め込みモデルを使用して、コーパス内の段落のテキストをベクトル表現にエンコードします。各記事はセマンティクスを捕捉するために高密度ベクトルに圧縮されます。
- インデックス付け: これらのチャネル ベクトルは高次元ベクトル空間でインデックス付けされ、高速な最近傍検索が可能になります。一般的な方法には、ファイスや松ぼっくりなどが含まれます。
- クエリ エンコード: ユーザーのクエリ ステートメントも、同じ埋め込みモデルを使用してベクトル表現にエンコードされます。
- 類似性検索: 最近傍検索はインデックス付き段落全体で実行され、距離メトリック (コサイン距離など) に基づいてクエリ ベクトルに最も近い段落を見つけます。
- 段落結果を返す: 最も類似した段落ベクトルを返し、元のテキストを抽出して LLM のコンテキストを提供します。
このパイプラインにはいくつかの大きな制限があります:
- チャネル ベクトルはクエリのセマンティクスを完全にはキャプチャしない可能性があります。埋め込みは特定の推論的な接続を表すことができず、重要なコンテキストが無視されてしまいます。
- 段落全体を 1 つのベクトルに圧縮するとニュアンスが失われ、文に埋め込まれた重要な関連詳細がぼやけてしまいます。
- マッチングは段落ごとに独立して行われ、異なる段落にまたがる共同分析は行われず、事実を結び付けて要約する必要のある答えに到達することができません。
- ランク付けと照合のプロセスは不透明であり、特定の文章がより関連性が高いとみなされる理由を説明する透明性はありません。
- 意味上の類似性のみがエンコードされ、関係、構造、ルール、およびそれらの間のその他の異なる接続を表す内容はエンコードされません。
- 意味ベクトルの類似性だけに焦点を当てると、検索における真の理解の欠如につながります。
#クエリがより複雑になるにつれて、何が取得されるかを推論することができないという制限がますます明らかになります。
2. ナレッジ グラフの統合
ナレッジ グラフはエンティティと関係に基づいており、相互接続されたネットワークを通じて情報を送信し、パフォーマンスを向上させます。複雑な推論 検索機能。
- 明示的なファクト。ファクトは不透明なベクトルに圧縮されるのではなく、ノードとエッジとして直接キャプチャされ、重要な詳細が保持されます。
- コンテキストの詳細、エンティティには、主要なコンテキストを提供する説明、エイリアス、メタデータなどの豊富な属性が含まれています。
- ネットワーク構造は、リレーションシップ モデリング エンティティ間の実際の接続、キャプチャ ルール、階層、タイムラインなどを表します。
- マルチレベル推論は、リレーションシップのトラバースと、さまざまなソースからの事実の結合に基づいて、複数のステップにわたる推論を必要とする答えを導き出します。
- フェデレーション推論は、エンティティ解決を通じて同じ現実世界のオブジェクトにリンクし、集合的な分析を可能にします。
- 解釈可能な相関関係、グラフ トポロジは、特定の basedonconnected ファクトが相関している理由を説明できる透明性を提供します。
- パーソナライゼーション、ユーザー属性、コンテキスト、および過去のインタラクションをキャプチャして結果を調整します。
#ナレッジ グラフは、単なる一致ではなく、グラフを走査してクエリに関連するコンテキスト上の事実を収集するプロセスです。解釈可能なランキング手法は、グラフのトポロジを利用して、構造化された事実、関係、コンテキストをエンコードすることで検索機能を向上させ、それによって正確な複数ステップの推論を可能にします。このアプローチは、純粋なベクトル検索と比較して、より優れた相関性と説明力を提供します。
3. 単純な制約を使用してナレッジ グラフの埋め込みを改善する
連続ベクトル空間へのナレッジ グラフの埋め込みは、現在の研究のホットスポットです。ナレッジ グラフはベクトル埋め込みを使用してエンティティと関係を表現し、数学的演算をサポートします。さらに、制約を追加すると、表現をさらに最適化できます。
- 非負性制約、つまりエンティティの埋め込みを 0 から 1 の間の正の値に制限すると、スパース性が生じ、その正のプロパティが明示的にモデル化され、解釈可能性が向上します。
- 含意制約は、対称性、反転、合成などの論理ルールを関係に埋め込まれた制約に直接エンコードして、これらのパターンを強制します。
- 信頼モデリング、スラック変数を使用したソフト制約は、証拠に基づいて論理ルールの信頼をエンコードできます。
- 有用な帰納的バイアスを課す正則化は、最適化をより複雑にすることなく、射影ステップを追加するだけです。
- 解釈可能性、構造化制約により、モデルによって学習されたパターンが透明になり、推論プロセスが説明されます。
- 精度と制約は、仮説空間を要件を満たす表現に縮小することで一般化を向上させます。
シンプルで普遍的な制約がナレッジ グラフの埋め込みに追加され、より最適化され、解釈が容易になり、論理的に互換性のある表現が得られます。埋め込みにより、より正確で解釈可能な推論を実現するために、さらなる複雑さを導入することなく、現実世界の構造とルールを模倣する帰納的バイアスが得られます。
4. 複数の推論フレームワークを統合する
ナレッジ グラフでは、新しい事実を導き出し、質問に答え、予測を行うための推論が必要です。さまざまなテクノロジーには、補完的な利点があります。:
論理ルールは知識を論理公理とオントロジーとして表現し、定理の証明を通じて合理的かつ完全な推論を実行し、限定的な不確実性の処理を実現します。グラフ埋め込みは、ベクトル空間演算に使用される埋め込みナレッジ グラフ構造であり、不確実性を処理できますが、表現力に欠けます。ベクトル ルックアップと組み合わせたニューラル ネットワークは適応的ですが、推論は不透明です。ルールはグラフの構造やデータを統計的に解析することで自動的に作成できますが、その品質は不確実です。ハイブリッド パイプラインは論理ルールを通じて明示的な制約をエンコードし、エンベディングはベクトル空間操作を提供し、ニューラル ネットワークは共同トレーニングを通じて融合の利点を獲得します。ケースベース、ファジー論理、または確率論的論理手法を使用して、透明性を高め、ルールの不確実性と信頼性を表現します。推論された事実と学習したルールをグラフに具体化し、フィードバック ループを提供することで知識を拡張します。
重要なのは、必要な推論のタイプを特定し、それらを適切な手法にマッピングすることです。論理形式、ベクトル表現、ニューロン コンポーネントを組み合わせた構成可能なパイプラインにより、堅牢性とスケーラビリティが提供されます。 。
4.1 LLM の情報フローの維持
LLM のナレッジ グラフでファクトを取得すると、情報のボトルネックが発生し、関連性を維持するための設計が必要になります。コンテンツを小さなチャンクに分割すると、分離性は向上しますが、周囲のコンテキストが失われるため、チャンク間の推論が妨げられます。ブロックの概要を生成すると、意味を強調するために重要な詳細が凝縮され、より簡潔なコンテキストが提供されます。概要、タイトル、タグなどをメタデータとして添付して、ソース コンテンツに関するコンテキストを維持します。元のクエリをより詳細なバージョンに書き直すと、LLM のニーズに合わせて取得をより適切に行うことができます。ナレッジ グラフのトラバーサル機能は、事実間のつながりを維持し、コンテキストを維持します。時系列または関連性によって並べ替えることで、LLM の情報構造を最適化でき、暗黙の知識を LLM について述べられた明示的な事実に変換することで、推論が容易になります。
目標は、取得した知識の関連性、コンテキスト、構造、および明示的な表現を最適化し、推論能力を最大化することです。粒度と凝集性の間でバランスを取る必要があります。ナレッジ グラフの関係は、孤立した事実のコンテキストを構築するのに役立ちます。
4.2 推論機能のロックを解除する
ナレッジ グラフと組み込みテクノロジを組み合わせると、互いの弱点を克服できるという利点があります。
ナレッジ グラフは、エンティティと関係の構造化された表現を提供します。トラバーサル関数を通じて複雑な推論機能を強化し、マルチレベルの推論を処理します。埋め込みにより、ベクトル空間での類似性に基づく操作の情報をエンコードし、特定のスケールでの効果的な近似検索をサポートし、潜在的なパターンを明らかにします。ジョイント エンコーディングは、ナレッジ グラフ内のエンティティと関係の埋め込みを生成します。グラフ ニューラル ネットワークは、微分可能なメッセージ パッシングを介してグラフ構造と埋め込み要素に対して動作します。
ナレッジ グラフは最初に構造化された知識を収集し、次に関連コンテンツに焦点を当てた検索と取得を埋め込みます。明示的なナレッジ グラフの関係により、推論プロセスに解釈可能性が提供されます。推論された知識はグラフに拡張でき、GNN は連続表現の学習を提供します。
#このパートナーシップはパターンによって認識できます。力とニューラル ネットワークの拡張性により、構造化された知識の表現が強化されます。これは、言語 AI を進歩させるための統計学習と記号ロジックの必要性の鍵となります。
4.3 協調フィルタリングを使用して検索を向上させる協調フィルタリングでは、エンティティ間の接続を使用して検索を強化します。一般的なプロセスは次のとおりです:
- ノードがエンティティを表し、エッジが関係を表すナレッジ グラフを構築します。
- 特定の主要なノード属性 (タイトル、説明など) の埋め込みベクトルを生成します。
- Vector Index - ノード埋め込みのベクトル類似性インデックスを構築します。
- 最近傍検索 - 検索クエリの場合、最も類似した埋め込みを持つノードを検索します。
- 協調調整 — ノード接続に基づいて、PageRank などのアルゴリズムを使用して類似性スコアが伝播および調整されます。
- エッジの重み - エッジのタイプ、強度、信頼度などに応じて重みを調整します。
- スコアの正規化 - 相対的なランキングを維持するために、調整されたスコアを正規化します。
- 結果の並べ替え - 調整されたコラボレーション スコアに基づいて、最初の結果が並べ替えられました。
- ユーザー コンテキスト - ユーザー プロファイル、履歴、および設定に基づいてさらに調整されます。
写真
継続的な改善を構築する高性能の検索拡張生成 (RAG) システムでは、データ フライホイールの実装が必要になる場合があります。ナレッジ グラフは、構造化された世界の知識を提供することで、言語モデルの新しい推論機能を解き放ちます。ただし、高品質のマップを構築することは依然として困難です。ここでデータ フライホイールが登場し、システムの相互作用を分析することでナレッジ グラフを継続的に改善します。
すべてのシステム クエリ、応答、スコア、ユーザー アクション、その他のデータを記録し、ナレッジ グラフの使用方法を可視化し、データ集約を使用して悪い応答を明らかにし、これらの応答をクラスター化して分析します、知識のギャップを示すパターンを特定します。問題のあるシステム応答を手動で確認し、マップ内の欠落または不正確な事実に問題を追跡します。次に、グラフを直接変更して、欠落している事実データを追加し、構造を改善し、明確さを高めます。上記のステップは連続ループで完了し、各反復でナレッジ グラフがさらに強化されます。
ニュースやソーシャル メディアなどのストリーミング リアルタイム データ ソースは、ナレッジ グラフを最新の状態に保つために新しい情報を継続的に提供します。クエリ生成を使用して重大な知識のギャップを特定し、埋めることは、ストリーミングが提供する範囲を超えています。グラフの穴を見つけて質問し、欠落している事実を検索して追加します。サイクルごとに、ナレッジ グラフは使用パターンの分析とデータの問題の修正によって徐々に強化され、改善されたグラフによってシステムのパフォーマンスが向上します。
このフライホイール プロセスにより、実際の使用からのフィードバックに基づいてナレッジ グラフと言語モデルを共進化させることができます。マップはモデルのニーズに合わせて積極的に変更されます。
つまり、データ フライホイールは、システムの相互作用を分析することにより、ナレッジ グラフを継続的かつ自動的に改善するための足場を提供します。これにより、グラフ依存言語モデルの精度、関連性、適応性が強化されます。
6. 概要
人工知能は外部の知識と推論を組み合わせる必要があり、そこでナレッジ グラフが登場します。ナレッジ グラフは、現実世界のエンティティと関係を構造化して表現し、世界とそれらの間のつながりに関する事実をコード化します。これにより、相互に関連する事実をたどることにより、複雑な論理的推論が複数のステップにまたがることが可能になります。
ただし、ナレッジ グラフには、スパース性や不確実性の欠如などの独自の制限があります。ここで、グラフの埋め込みが役立ちます。 。ナレッジ グラフ要素をベクトル空間でエンコードすることにより、埋め込みにより、大規模なコーパスから潜在パターンの表現までの統計的学習が可能になり、効率的な類似性に基づく操作も可能になります。
ナレッジ グラフもベクトル埋め込みも、それ自体では人間のような言語知能を形成するには十分ではありませんが、これらを組み合わせることで、構造化された知識表現、論理的推論、統計的学習の効果的な組み合わせが提供されます。グラフは、ニューラル ネットワークのパターン認識機能を超えた記号ロジックと関係をカバーしており、グラフ ニューラル ネットワークのようなテクノロジーは、情報転送グラフの構造と埋め込みを通じてこれらの方法をさらに統合します。この共生関係により、システムは統計学習と記号ロジックの両方を利用でき、ニューラル ネットワークと構造化された知識表現の利点を組み合わせることになります。
高品質のナレッジ グラフの構築、ベンチマーク テスト、ノイズ処理などにはまだ課題があります。ただし、シンボリック ネットワークとニューラル ネットワークにわたるハイブリッド テクノロジは依然として有望です。ナレッジ グラフと言語モデルが発展し続けるにつれて、それらの統合により説明可能な AI の新しい領域が開かれることになります。
以上がナレッジ グラフ: 大規模モデルの理想的なパートナーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究

7月5日のこのウェブサイトのニュースによると、グローバルファウンドリーズは今年7月1日にプレスリリースを発行し、自動車とインターネットでの市場シェア拡大を目指してタゴール・テクノロジーのパワー窒化ガリウム(GaN)技術と知的財産ポートフォリオを買収したことを発表した。モノと人工知能データセンターのアプリケーション分野で、より高い効率とより優れたパフォーマンスを探求します。生成 AI などのテクノロジーがデジタル世界で発展を続ける中、窒化ガリウム (GaN) は、特にデータセンターにおいて、持続可能で効率的な電力管理のための重要なソリューションとなっています。このウェブサイトは、この買収中にタゴール・テクノロジーのエンジニアリングチームがGLOBALFOUNDRIESに加わり、窒化ガリウム技術をさらに開発するという公式発表を引用した。 G
