ホームページ > テクノロジー周辺機器 > AI > Scikit-llmを使用したゼロショットと少数のテキスト分類

Scikit-llmを使用したゼロショットと少数のテキスト分類

Jennifer Aniston
リリース: 2025-03-10 11:08:08
オリジナル
791 人が閲覧しました

Zero-Shot and Few-Shot Text Classification with SCIKIT-LLM

顧客フィードバックの分析とテキストデータの主要なテーマの特定は、伝統的に面倒なプロセスです。 データ収集、手動ラベル付け、および特殊なモデルの微調整が含まれます。 ただし、ゼロショットテキスト分類は、大規模な言語モデル(LLM)の力を活用して、広範なモデルトレーニングの必要性をバイパスする合理化されたアプローチを提供します。この記事では、ゼロショット分類がSKLLMライブラリ(SCIKIT-LEARNとLLMSを組み合わせた)を使用して感情分析を簡素化し、Kaggle Womenのeコマース衣料品レビューデータセットに関するアプリケーションを実証する方法を説明します。

重要な学習成果

このチュートリアルでは、

をカバーします

    従来のセンチメント分析ワークフローとその制限。
  • LLMSによるゼロショットテキスト分類の原則と利点。
  • 女性のeコマース衣料品レビューデータセットへのゼロショット分類の実用的なアプリケーション。 実世界のシナリオのゼロショット分類の実践的なエクスペリエンス。
  • *この記事は、***
  • データサイエンスブログソンの一部です
  • 目次

ゼロショットテキスト分類とは? ゼロショットが非常に効率的なのはなぜですか?

データセットの概要

ステップバイステップガイド
  • 潜在的な欠点
  • 少数のテキスト分類
  • 考えされたテキスト分類
  • 要約
  • よくある質問
  • ゼロショットテキスト分類とは?
  • オンライン小売業者が受け取った大量の顧客レビューを分析することは、効率的な感情分析とテーマの識別に大きな課題を提示します。 従来の方法は次のとおりです
  • レビューデータの収集とクリーニング。
  • 数千のサンプルに手動でラベルを付けます(例:「ポジティブ」、「ネガティブ」、「ニュートラル」) このラベル付きデータを使用して、特殊な分類モデルを微調整します

このプロセスは時間がかかり、リソース集約型です。ゼロショットテキスト分類にはソリューションが提供されます。LLMSを直接使用して、カスタムトレーニングを必要とせずにテキストを分類します。 記述ラベル(「ポジティブ」、「ネガティブ」、「ニュートラル」など)を提供することにより、モデルは正しいクラスを推進します。

ゼロショットが非常に効率的なのはなぜですか?

ゼロショット分類の効率は次のとおりです
  • 微調整の排除:GPT-4のような微調整LLMの費用のかかるプロセスは回避されます。 事前に訓練されたLLMは直接使用され、即時の高品質の分類を提供します
  • 簡単なラベルの適応:ラベルセットの変更(たとえば、一般的な感情からより具体的なものへ)の変更には、ラベルリストの更新が必要です。モデル再訓練は必要ありません
  • データ要件の削減:
  • 監視された学習とは異なり、ゼロショット分類には記述ラベルのみが必要であり、限られたデータまたは非標識データを持つ状況に適しています。 展開の高速:
  • データアノテーションとモデルトレーニングをスキップすることにより、展開が大幅に加速されます。
  • データセットの概要
  • このチュートリアルでは、女性のeコマース衣料品レビューデータセットが使用されています。
[データセットへのリンク]

キーデータセットの特性:

婦人服に関する数千の顧客レビューが含まれています。

「レビューテキスト」列には、メインテキストデータが含まれています

追加のメタデータ( "Title、" "lating、" "推奨Ind、"など)は利用可能ですが、ゼロショット分類には不可欠ではありません。
  • ステップバイステップガイド
  • このセクションでは、LLMSおよびSKLLMライブラリを使用したゼロショット分類を使用して、感情分析とテーマ検出を実行する方法について詳しく説明しています。
  • ステップ1:インストールとセットアップ
  • Python 3.7がインストールされていることを確認し、SKLLM:
  • をインストールします

LLMプロバイダーの有効なAPIキー(Openaiなど)を取得し、環境に設定してください。

ステップ2:ライブラリをインポートし、データをロードします

ステップ3:ラベルを定義します

センチメント分類の場合、使用:

。 これは、必要に応じてカスタマイズできます。
pip install scikit-llm
ログイン後にコピー
ログイン後にコピー

ステップ4:ゼロショット分類

from skllm.config import SKLLMConfig

# Replace with your OpenAI API key
SKLLMConfig.set_openai_key("your_openai_api_key")
ログイン後にコピー
ログイン後にコピー
instantiate

または別の適切なモデルを使用):
import pandas as pd
from skllm.models.gpt.classification.zero_shot import ZeroShotGPTClassifier

# Load dataset
df = pd.read_csv("Womens Clothing E-Commerce Reviews.csv")

# Handle missing review texts
df = df.dropna(subset=["Review Text"]).reset_index(drop=True)
X = df["Review Text"].tolist()
ログイン後にコピー

トレーニングデータが不要であることを示します。分類器は、ラベルセットで初期化されています ["positive", "negative", "neutral"]ステップ5:レビューを分類

これは、最初の5つのレビューとそれらの予測された感情を表示します。

結果の比較ZeroShotGPTClassifier gpt-4o従来のMLアプローチでは、ラベル付け、モデルトレーニング、検証、および継続的な更新が必要です。 Zero-Shotはこのオーバーヘッドを大幅に削減し、ラベル付きデータと簡単なラベルの改良なしで即座に結果を提供します。

潜在的な欠点

  • 精度の変動:精度は、テキストの複雑さとドメイン固有の専門用語を解釈するモデルの能力によって異なります。
  • コストに関する考慮事項: GPT-4のような強力なモデルの使用API​​コストが発生します。
  • データのプライバシー:
  • 外部APIにデータを送信する際にデータプライバシー規制のコンプライアンスを確保します。 少数のテキスト分類
少数のショット分類では、クラスごとに少数のラベル付けされた例を使用して、モデルをガイドします。 SKLLM推定器は、トレーニングセット全体を使用して、少数のショットの例を作成します。 大規模なデータセットについては、データの分割と小さなトレーニングサブセット(クラスごとに10の例以下)を使用して、例をシャッフルすることを検討してください。

考えされたテキスト分類

考え方の分類は、中間推論の手順を生成し、正確性を改善する可能性がありますが、トークンの使用とコストが増加します。
pip install scikit-llm
ログイン後にコピー
ログイン後にコピー

少数のショットとチェーンのアプローチを実験すると、ベースラインゼロショットメソッドよりも良い結果が得られる可能性があります。

要約

SKLLMライブラリは、カスタムセンチメント分析パイプラインを構築するための高速かつ効率的な代替品を提供します。 ゼロショット分類により、手動のラベル付けやモデルトレーニングを必要とせずに、顧客フィードバックを迅速に分析できます。 これは、反復タスクやラベルの拡張に特に価値があります。
from skllm.config import SKLLMConfig

# Replace with your OpenAI API key
SKLLMConfig.set_openai_key("your_openai_api_key")
ログイン後にコピー
ログイン後にコピー
キーポイント

ゼロショット分類は、手動のラベル付けやモデルトレーニングなしで感情分析を簡素化します。

SKLLMは、SCIKIT-LEARNをLLMSと統合して、効率的なテキスト分類を統合します GPT-4のような

llmsは、すぐに高品質の分類結果を提供します。

ゼロショット分類は高速で適応性があり、最小限のデータが必要です

    よくある質問
  • Q1。ゼロショット、少数のショット、およびチェーンの選択を選択する:
  • ゼロショットは、迅速なプロトタイピングと限られたデータに最適です。少数のショットは、小さなラベル付きデータセットで精度を向上させます。考え方はパフォーマンスを向上させますが、コストが増加します
  • q2。少数のショットの例の数:クラスごとに最大10の例をお勧めします。バイアスを避けるためのシャッフルの例
  • q3。精度へのチェーンの影響:
精度を改善することは保証されていません。有効性は、タスクの複雑さと迅速な明確さに依存します

Q4。大規模なコスト:

コストは、トークンの使用、モデルの選択、プロンプトの長さ、およびデータセットサイズに依存します。 考え方のチェーンは、より長いプロンプトのためにコストを増加させます。

メモ:

この記事で使用されている画像は、著者が所有しておらず、許可を得て使用されます。

以上がScikit-llmを使用したゼロショットと少数のテキスト分類の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート