GenAI および LLM の技術面接に関する 7 つのクールな質問-AI-php.cn

Sklearn などの標準 Python ライブラリは、階層クラスタリングとも呼ばれる凝集クラスタリングを提供します。ただし、この例では、通常、1 億 x 1 億の距離行列が必要です。これは明らかに機能しません。実際には、ランダムな単語 A と B が同時に出現することはほとんどないため、距離行列は非常に離散的になります。解決策には、質問 1 で説明したネストされたハッシュの使用など、離散グラフに適した方法の使用が含まれます。そのようなアプローチの 1 つは、基礎となるグラフ内の接続コンポーネントのクラスタリングの検出に基づいています。

4. コンテキストトークンを使用して LLM 埋め込みを強化するにはどうすればよいですか?

6. ベクトル検索の速度を数桁向上させるにはどうすればよいですか?

7. モデルから最良の結果を得る理想的な損失関数は何ですか?

ホームページ

テクノロジー周辺機器

GenAI および LLM の技術面接に関する 7 つのクールな質問

PHPz

Jun 07, 2024 am 10:06 AM

AI llm 大規模な言語モデル

七个很酷的GenAI & LLM技术性面试问题

AIGC について詳しく知りたい場合は、

51CTO AI を参照してください。これらの質問は、インターネット上のどこにでもある従来の質問バンクとは異なります。 -ボックス思考。

大規模言語モデル (LLM) は、データサイエンス、生成人工知能 (GenAI)、人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は、大量のデータから学習することで、テキストを生成して質問に答え、人間と会話して、正確で価値のある情報を提供することができます。 GenAI は、さまざまなクリエイティブな機能を生成できる LLM アルゴリズムとモデルに依存しています。ただし、GenAI と LLM はますます一般的になりつつありますが、その複雑さを深く理解できる詳細なリソースがまだ不足しています。職場に新しく入社した人は、GenAI や LLM の機能や実際の応用について面接を行うと、未知の領域に行き詰まっていると感じることがよくあります。

この目的のために、GenAI と LLM に関する技術面接の質問を記録するこのガイドブックを作成しました。詳細な回答を備えたこのガイドは、面接の準備をし、自信を持って課題に取り組み、AI とデータサイエンスの未来を形作る上での GenAI と LLM の影響と可能性をより深く理解できるように設計されています。

1. Python で埋め込み辞書を使用してナレッジグラフを構築するにはどうすればよいですか?

1 つの方法は、キーが単語、トークン、概念であるハッシュ (Python の辞書、キー値テーブルとも呼ばれます) を使用することです。または「数学」などのカテゴリ。各キーは値に対応し、それ自体がハッシュ、つまりネストされたハッシュです。ネストされたハッシュのキーは、「微積分」のような単語など、親ハッシュの親キーに関連する単語でもあります。値は重みです。「微積分」と「数学」は関連しており、一緒に現れることが多いため、「微積分」の値は高くなります。逆に、「レストラン」と「数学」が一緒に現れることはほとんどないため、「レストラン」の値は低くなります。

LLM では、ネストされたハッシュが埋め込み (高次元データを低次元空間にマッピングする方法。通常、コンピューター処理を容易にするために、離散的で非連続なデータを連続ベクトル表現に変換するために使用されます) である可能性があります。ネストされたハッシュには固定数の要素がないため、ベクトルデータベースや行列よりもはるかに適切に離散グラフを処理できます。アルゴリズムが高速化され、必要なメモリが少なくなります。

2. データに 1 億個のキーワードが含まれている場合に階層的クラスタリングを実行するにはどうすればよいですか?

キーワードをクラスター化したい場合は、キーワード {A, B} の各ペアについて、学習する 2 つの単語間の A と B の類似度を計算できます。どれだけ似ているか。目標は、類似したキーワードのクラスターを生成することです。

Sklearn などの標準 Python ライブラリは、階層クラスタリングとも呼ばれる凝集クラスタリングを提供します。ただし、この例では、通常、1 億 x 1 億の距離行列が必要です。これは明らかに機能しません。実際には、ランダムな単語 A と B が同時に出現することはほとんどないため、距離行列は非常に離散的になります。解決策には、質問 1 で説明したネストされたハッシュの使用など、離散グラフに適した方法の使用が含まれます。そのようなアプローチの 1 つは、基礎となるグラフ内の接続コンポーネントのクラスタリングの検出に基づいています。

3. Wikipedia のような大規模なリポジトリをクロールして、個々のエントリだけでなく、基礎となる構造を取得するにはどうすればよいですか?

これらのリポジトリはすべて、構造化された要素を Web ページに埋め込んでおり、一見したところよりも興味深いコンテンツになっています。メタデータなど、一部の構造要素は肉眼では見えません。インデックス、関連項目、ブレッドクラム、カテゴリなど、一部の項目は表示され、クロールされたデータにも存在します。これらの要素を個別に検索して、適切なナレッジグラフや分類法を構築できます。ただし、Beautiful Soup のようなツールに頼るのではなく、独自のクローラーを最初から作成することもできます。構造情報が豊富な LLM (xLLM など) により、より良い結果が得られます。さらに、リポジトリに構造が不足している場合は、外部ソースから取得した構造を使用してスクレイピングしたデータを拡張できます。このプロセスは「構造拡張」と呼ばれます。

4. コンテキストトークンを使用して LLM 埋め込みを強化するにはどうすればよいですか?

埋め込みは、あらゆるドキュメント内で見つかる最小のテキスト要素で構成されます。「data」と「science」のように必ずしも 2 つのトークンを持つ必要はなく、「data^science」、「data」、「science」、「data~science」の 4 つのトークンを持つことができます。最後のものは、「データサイエンス」という用語の発見を表しています。 1 つ目は、「データ」と「サイエンス」の両方が、隣接する位置ではなく、特定の段落内のランダムな位置に存在することを意味します。このようなトークンは、マルチトークンまたはコンテキストトークンと呼ばれます。これらはある程度の優れた冗長性を提供しますが、注意しないと巨大な埋め込みが発生する可能性があります。解決策には、不要なトークンを削除する (最も長いトークンを保持する) ことや、可変サイズの埋め込みを使用することが含まれます。コンテキストに応じたコンテンツは、LLM の錯覚を軽減するのに役立ちます。

5. モデルの評価とトレーニングに関連する多くの問題を解決するための自己調整を実装するにはどうすればよいですか?

これは、ニューラルネットワークのブラックボックスではなく、説明可能な AI に基づくシステムに適用されます。アプリケーションのユーザーがハイパーパラメータを選択し、気に入ったパラメータをマークできるようにします。この情報を使用して、理想的なハイパーパラメータを見つけ、デフォルト値に設定します。これは、ユーザー入力に基づいた自動強化学習です。また、ユーザーが希望する結果に基づいてお気に入りのスーツを選択できるため、アプリケーションをカスタマイズできるようになります。 LLM 内では、ユーザーが特定のサブ LLM を選択できるようにすることで (検索タイプやカテゴリに基づいて)、パフォーマンスをさらに向上させることができます。出力内の各項目に関連性スコアを追加すると、システムを微調整するのにも役立ちます。

6. ベクトル検索の速度を数桁向上させるにはどうすればよいですか?

LLM では、可変長の埋め込みを使用すると、埋め込みのサイズが大幅に削減されます。したがって、フロントエンドプロンプトでキャプチャされたものと同様のバックエンド埋め込みの検索が高速化されます。ただし、キーと値のテーブルなど、異なるタイプのデータベースが必要になる場合があります。トークンのサイズと埋め込みテーブルを減らすことも別の解決策です。1 兆トークンのシステムでは、プロンプトに答えるためにトークンの 95% が抽出されることはありません。ただのノイズなので取り除きましょう。コンテキストトークンの使用 (質問 4 を参照) は、情報をよりコンパクトな方法で保存するもう 1 つの方法です。最後に、圧縮された埋め込みに対して近似最近傍 (ANN) 検索が実行されます。確率的バージョン (pANN) ははるかに高速に実行できます。以下の図を参照してください。最後に、キャッシュメカニズムを使用して、最も頻繁にアクセスされる埋め込みまたはクエリを保存し、リアルタイムパフォーマンスを向上させます。

七个很酷的GenAI & LLM技术性面试问题

確率的近似最近傍探索 (pANN)

経験によれば、トレーニングセットのサイズを 50% 削減するとより良い結果が得られ、過学習効果は大幅に減少します。 LLM では、インターネット全体を検索するよりも、いくつかの適切な入力ソースを選択する方が良いでしょう。万能ではなく、トップレベルカテゴリごとに専用の LLM を使用すると、埋め込みの数がさらに削減されます。各チップは、データベース全体ではなく、特定のサブ LLM をターゲットにします。

7. モデルから最良の結果を得る理想的な損失関数は何ですか?

最良の解決策は、モデル評価メトリクスを損失関数として使用することです。これがめったに行われない理由は、ニューラルネットワーク内でニューロンが活性化されるたびに非常に迅速に更新できる損失関数が必要であるためです。ニューラルネットワークのコンテキストでは、別の解決策は、各エポックの後に評価メトリックを計算し、損失が最小のエポック生成ソリューションではなく、最良の評価スコアを持つエポック生成ソリューションに留まるというものです。

私は現在、評価指標と損失関数が同じであるシステムに取り組んでいます。ニューラルネットワークに基づいていません。当初、私の評価指標は多変量コルモゴロフ-スミルノフ距離 (KS) でした。しかし、多くの計算を行わないと、ビッグデータの KS でアトミックな更新を実行することは非常に困難です。これにより、何十億ものアトミックな更新が必要になるため、KS は損失関数としては不適切になります。しかし、累積分布関数を数百万のビンを含む確率密度関数に変更することで、損失関数としても機能する優れた評価指標を思いつくことができました。

原題: 7 Cool Technical GenAI & LLM Job Interviewquestions、著者: Vincent Granville

リンク: https://www.datasciencecentral.com/7-cool-technical-genai-llm-job-interview-questions/。

AIGC について詳しくは、こちらをご覧ください:

51CTO AI.x コミュニティ

https://www.51cto.com/aigc/

以上がGenAI および LLM の技術面接に関する 7 つのクールな質問の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1672

CakePHP チュートリアル

1428

Laravel チュートリアル

1332

PHP チュートリアル

1276

C# チュートリアル

1256

Related knowledge

Bytedance Cutting が SVIP スーパーメンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティングシステム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元（当サイト注：月額49.9元に相当）、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元（月額41.6元に相当）です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

Groq Llama 3 70B をローカルで使用するためのステップバイステップガイド Jun 10, 2024 am 09:16 AM

翻訳者 | Bugatti レビュー | Chonglou この記事では、GroqLPU 推論エンジンを使用して JanAI と VSCode で超高速応答を生成する方法について説明します。 Groq は AI のインフラストラクチャ側に焦点を当てているなど、誰もがより優れた大規模言語モデル (LLM) の構築に取り組んでいます。これらの大型モデルがより迅速に応答するためには、これらの大型モデルからの迅速な応答が鍵となります。このチュートリアルでは、GroqLPU 解析エンジンと、API と JanAI を使用してラップトップ上でローカルにアクセスする方法を紹介します。この記事では、これを VSCode に統合して、コードの生成、コードのリファクタリング、ドキュメントの入力、テストユニットの生成を支援します。この記事では、独自の人工知能プログラミングアシスタントを無料で作成します。 GroqLPU 推論エンジン Groq の概要

Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディングアシスタント Jun 10, 2024 am 11:08 AM

検索強化生成およびセマンティックメモリを AI コーディングアシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミングアシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディングアシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

Plaud、NotePin AI ウェアラブルレコーダーを 169 ドルで発売 Aug 29, 2024 pm 02:37 PM

Plaud Note AI ボイスレコーダー (Amazon で 159 ドルで購入可能) を開発した企業 Plaud が新製品を発表しました。 NotePin と呼ばれるこのデバイスは AI メモリカプセルとして説明されており、Humane AI Pin と同様にウェアラブルです。ノートピンは

ナレッジグラフ検索用に強化された GraphRAG (Neo4j コードに基づいて実装) Jun 12, 2024 am 10:32 AM

Graph Retrieval Enhanced Generation (GraphRAG) は徐々に普及しており、従来のベクトル検索方法を強力に補完するものとなっています。この方法では、グラフデータベースの構造的特徴を利用してデータをノードと関係の形式で編成し、それによって取得された情報の深さと文脈の関連性が強化されます。グラフには、相互に関連する多様な情報を表現および保存するという自然な利点があり、異なるデータ型間の複雑な関係やプロパティを簡単に把握できます。ベクトルデータベースはこの種の構造化情報を処理できず、高次元ベクトルで表される非構造化データの処理に重点を置いています。 RAG アプリケーションでは、構造化グラフデータと非構造化テキストベクトル検索を組み合わせることで、両方の利点を同時に享受できます。これについてこの記事で説明します。構造

微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります Jun 11, 2024 pm 03:57 PM

大規模言語モデル (LLM) は巨大なテキストデータベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマンアノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

GenAI および LLM の技術面接に関する 7 つのクールな質問 Jun 07, 2024 am 10:06 AM

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データサイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。