顔のテキスト生成推論(TGI)を抱き締める力を活用:あなたのローカルLLMサーバー

大規模な言語モデル(LLM)は、特にテキスト生成においてAIに革命をもたらしています。 これにより、LLMの展開を簡素化するために設計されたツールが急増しました。 Faceのテキスト生成の推論(TGI)を抱きしめることは際立っており、LLMをサービスとしてローカルに実行するための強力で制作可能なフレームワークを提供します。 このガイドでは、TGIの機能を調査し、洗練されたAIテキスト生成のためにそれを活用する方法を示しています。
顔を抱きしめることを理解するtgi
RustおよびPythonフレームワークであるTGIは、ローカルマシンでのLLMの展開とサービングを可能にします。 hfoilv1.0の下でライセンスされているため、補足ツールとして商業使用に適しています。 その重要な利点には、次のことが含まれます

高性能テキスト生成:
TGIは、スターコダー、ブルーム、GPT-Neox、Llama、T5などのモデルのテンソル並列性と動的バッチを使用してパフォーマンスを最適化します。
-
効率的なリソースの使用量:継続的なバッチと最適化コードは、複数のリクエストを同時に処理しながらリソース消費を最小限に抑えます。
- 柔軟性:透かし、バイアス制御のためのロジットワーピング、停止シーケンスなどの安全性とセキュリティ機能をサポートします。
TGIは、LLAMA、FALCON7B、MISTRALなどのLLMをより高速に実行するための最適化されたアーキテクチャを誇っています(完全なリストのドキュメントを参照)。
- なぜ抱きしめる顔tgi?を選ぶのか
顔は、オープンソースLLMSの中央のハブです。 以前は、多くのモデルがローカルで使用するにはリソースが集中しすぎており、クラウドサービスが必要でした。 ただし、QloraやGPTQの量子化などの進歩により、ローカルマシンでいくつかのLLMが管理可能になりました。
TGIは、LLMスタートアップ時間の問題を解決します。 モデルの準備を整えることで、即時の応答を提供し、長い待ち時間を排除します。 エンドポイントが一流の言語モデルの範囲に簡単にアクセスできることを想像してください。
TGIのシンプルさは注目に値します。 合理化されたモデルアーキテクチャをシームレスに展開するために設計されており、次のようないくつかのライブプロジェクトを強化します。
ハグチャット
openAssistant
nat.dev

重要なメモ:
TGIは現在、ARMベースのGPU Mac(M1以降)と互換性がありません。
- 顔を抱きしめるセットアップtgi
- 2つの方法が表示されます:ゼロからDockerの使用(簡単にするために推奨)。
方法1:ゼロから(より複雑)
- rust:
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
のインストール
- Python仮想環境を作成:
conda create -n text-generation-inference python=3.9 && conda activate text-generation-inference
- インストールprotoc(バージョン21.12の推奨):(
sudo
)簡潔に省略された手順は、元のテキストを参照してください。
githubリポジトリをクローンします:-
git clone https://github.com/huggingface/text-generation-inference.git
- をインストールします
cd text-generation-inference/ && BUILD_EXTENSIONS=False make install
メソッド2:Docker(推奨)の使用
Dockerがインストールされて実行されていることを確認してください
(互換性を最初にチェック)Dockerコマンドを実行します(Falcon-7Bを使用した例):- 単一のgpuを使用している場合は
を- に置き換えます。
volume=$PWD/data && sudo docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:0.9 --model-id tiiuae/falcon-7b-instruct --num-shard 1 --quantize bitsandbytes
アプリケーションでTGIを使用する"all"
"0"
TGIを起動した後、POSTリクエストを使用して
エンドポイント(またはストリーミングの場合は)を使用して対話します。 PythonとCurlを使用した例は、元のテキストに記載されています。
pythonライブラリ()は、相互作用を簡素化します
実用的なヒントとさらなる学習/generate
/stream
text-generation
pip install text-generation
LLMの基礎を理解する:
トークン化、注意メカニズム、トランスアーキテクチャに精通してください。
モデルの最適化:適切なモデルの選択、トークナーのカスタマイズ、微調整など、モデルを準備して最適化する方法を学びます。
-
生成戦略:さまざまなテキスト生成戦略(貪欲な検索、ビーム検索、トップKサンプリング)を探索します。
- 結論
Face TGIのハグは、LLMをローカルに展開およびホストするユーザーフレンドリーな方法を提供し、データプライバシーやコスト制御などのメリットを提供します。強力なハードウェアを必要としますが、最近の進歩により多くのユーザーが実行可能にしています。 高度なLLMの概念とリソースのさらなる調査(元のテキストに記載)は、継続的な学習に強くお勧めします。
以上がLLMS用の顔のテキスト生成推論ツールキットを抱き締める-AIのゲームチェンジャーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。