ホームページ > テクノロジー周辺機器 > AI > 1分でLLMSをローカルに実行する方法は?

1分でLLMSをローカルに実行する方法は?

Jennifer Aniston
リリース: 2025-03-11 09:42:13
オリジナル
237 人が閲覧しました

1分でLLMSをローカルに実行する方法は?

GPTやLlamaなどの大規模な言語モデル(LLM)は、スマートチャットボットの作成から複雑なコードスニペットの生成まで、言語タスクの処理方法に革命をもたらしました。顔を抱きしめるなどのクラウドプラットフォームは、これらのモデルの使用を簡素化しますが、場合によっては、独自のコンピューターでLLMをローカルに実行することがより賢明な選択です。なぜ?プライバシーが大きくなるため、特定のニーズに合わせてカスタマイズを可能にし、コストを大幅に削減できます。 LLMをローカルに実行すると、完全なコントロールが得られ、自分の条件でその力を活用できます。

いくつかの簡単なステップで、OllamaとHugging Faceを使用してシステムでLLMを実行する方法を見てみましょう!

次のビデオでは、プロセスを段階的に説明しています。

1分でローカルにLLMを実行する方法[初心者フレンドリー]

OllamaとHugging Faceビデオリンクを使用します

- ディラン(@Dylan Ebert )2025年1月6日

LLMをローカルに実行する手順

ステップ1:オラマをダウンロードします

まず、ブラウザで「Ollama」を検索し、システムにダウンロードしてインストールします。

ステップ2:最高のオープンソースLLMを見つけます

次に、「Face LLMランキング」を検索して、トップオープンソース言語モデルのリストを見つけます。

ステップ3:デバイスに基づいてモデルをフィルタリングします

リストが表示されたら、フィルターを適用して、セットアップに最適なモデルを見つけます。例えば:

  • 家庭用消費者グレードのデバイスを選択してください。
  • 非公式または未検証のモデルを避けるために、公式プロバイダーのみを選択します。
  • ラップトップにローエンドGPUが付属している場合は、エッジデバイス用に設計されたモデルを選択してください。

QWEN/QWEN2.5-35Bなどのトップランクモデルをクリックします。画面の右上隅で、[このモデルを使用]をクリックします。ただし、ここではオプションとしてオラマを見つけることができません。

これは、OllamaがGGUFと呼ばれる特別な形式を使用しているためです。これは、モデルのより小さく、高速で定量的なバージョンです。

(注:量子化は品質をわずかに低下させますが、現地での使用に適しています。)

GGUF形式でモデルを取得します。

  • ランキングの「定量化された」セクションに移動します。ここに約80のモデルがあります。これらのモデルをほとんどのダウンロードで並べ替えます。

Bartowskiなどの名前に「GGUF」のモデルを探してください。これは良い選択です。

  • このモデルを選択し、[Ollamaでこのモデルを使用]をクリックします。
  • 定量設定の場合は、GPU RAMよりも1〜2GB小さいファイルサイズを選択するか、Q5_K_Mなどの推奨オプションを選択します。

ステップ5:ダウンロードしてモデルの使用を開始します

お好みのモデルに提供されているコマンドをコピーし、端末に貼り付けます。 「Enter」キーを押して、ダウンロードが完了するのを待ちます。

ダウンロードが完了したら、他のLLMと同じようにモデルとのチャットを開始できます。シンプルで楽しい!

それでおしまい!これで、デバイスでローカルで強力なLLMを実行しています。これらの手順が以下のコメントセクションで機能するかどうかを教えてください。

以上が1分でLLMSをローカルに実行する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート