翻訳者 | Li Rui
査読者 | Sun Shujuan
テキスト分類は、テキストを 1 つ以上の異なるカテゴリに分類し、整理、構造化し、任意のパラメータにフィルタリングするプロセスです。たとえば、テキスト分類は、法律文書、医学研究および文書、または単に製品レビューで使用されます。データの重要性はこれまで以上に高まっており、多くの企業ができる限り多くの洞察を得るために巨額の資金を費やしています。
テキスト/ドキュメント データが他のデータ タイプよりもはるかに豊富になっているため、新しいメソッドの使用が不可欠です。データは本質的に構造化されておらず、非常に豊富であるため、データを理解できるようにわかりやすい方法で整理することで、その価値を大幅に高めることができます。テキスト分類と機械学習を使用して、関連するテキストをより迅速かつコスト効率よく自動的に構築します。
以下では、テキスト分類、その仕組み、最もよく知られているアルゴリズムのいくつかを定義し、テキスト分類の取り組みを開始する際に役立つデータセットを提供します。
いくつかの基本的な方法では、さまざまなテキスト ドキュメントをある程度まで分類できますが、最も一般的に使用される方法は機械学習です。テキスト分類モデルは、展開する前に 6 つの基本的な手順を実行する必要があります。
データセットは、モデルのデータ ソースとして使用される生のデータ ブロックです。テキスト分類の場合、教師あり機械学習アルゴリズムが使用され、ラベル付きデータが機械学習モデルに提供されます。ラベル付きデータは、アルゴリズムに対して事前定義され、情報のラベルが付けられたデータです。
機械学習モデルは数値のみを理解できるため、モデルがデータを正しく識別できるように、提供されたテキストをトークン化してテキストを埋め込む必要があります。
トークン化は、テキスト ドキュメントをトークンと呼ばれる小さな部分に分割するプロセスです。トークンは、単語全体、サブワード、または個々の文字として表すことができます。たとえば、次のように作品をよりインテリジェントにタグ付けできます。
なぜトークン化が重要なのでしょうか?テキスト分類モデルはトークンベースのレベルでしかデータを処理できず、完全な文を理解して処理できないためです。このモデルでは、指定されたデータを簡単に消化するために、指定された生データ セットをさらに処理する必要があります。不要な機能を削除したり、null 値や無限値を除外したりできます。データセット全体を再構成すると、トレーニング段階での偏りを防ぐことができます。
データ セットの 80% でデータをトレーニングし、データ セットの 20% をテスト用に保持したいと考えています。アルゴリズムの精度。
トレーニング データセットを使用してモデルを実行すると、アルゴリズムは隠れたパターンと洞察を特定して、提供されたテキストをさまざまなカテゴリに分類できます。
次に、ステップ 3 で説明したテスト データ セットを使用してモデルの整合性をテストします。実際の結果に対してモデルの精度をテストするために、テスト データセットにはラベルが付けられません。モデルを正確にテストするには、モデルの過剰適合を避けるために、テスト データ セットに新しいテスト ケース (以前のトレーニング データ セットとは異なるデータ) が含まれている必要があります。
過剰適合したり、大きな分散を生成したりすることなく、モデルのさまざまなハイパーパラメーターを調整することで、機械学習モデルをチューニングします。ハイパーパラメータは、その値がモデルの学習プロセスを制御するパラメータです。これで、デプロイする準備が整いました。
上記のフィルタリング プロセス中、機械学習アルゴリズムと深層学習アルゴリズムは数値しか理解できないため、開発者はデータ セットに対していくつかの単語埋め込み手法を実行する必要があります。単語の埋め込みは、特定の単語の意味をエンコードする実数値ベクトルとして単語を表すプロセスです。
次に、最も有名で効果的な 3 つのテキスト分類アルゴリズムを示します。各メソッドにはさらに定義されたアルゴリズムが埋め込まれていることに留意することが重要です。
線形サポート ベクター マシン アルゴリズムは、現時点で最高のテキスト分類アルゴリズムの 1 つであると考えられており、指定された特徴に従って指定されたデータ ポイントを描画します。次に、データをカテゴリに分割して並べ替える最適な線を描きます。
ロジスティック回帰は回帰のサブカテゴリであり、主に分類問題に焦点を当てています。決定境界、回帰、距離を使用してデータセットを評価および分類します。
ナイーブ ベイズ アルゴリズムは、オブジェクトによって提供される特徴に基づいてさまざまなオブジェクトを分類します。次に、さらなる解決と分類のためにこれらのグループ分類を推測するためにグループの境界が描かれます。
低品質のデータをアルゴリズムに提供する不適切な将来予測につながります。機械学習の実践者にとってよくある問題は、トレーニング モデルに供給されるデータセットが多すぎて、不要な特徴が含まれていることです。無関係なデータを過度に使用すると、モデルのパフォーマンスの低下につながります。データセットの選択と整理に関しては、少ないほど良いのです。
トレーニング データとテスト データの比率が正しくないと、モデルのパフォーマンスに大きな影響を及ぼし、データのシャッフルやフィルタリングに影響を与える可能性があります。正確なデータ ポイントは他の望ましくない要因によって干渉されず、トレーニングされたモデルはより効率的に実行されます。
モデルをトレーニングするときは、モデルの要件を満たすデータ セットを選択し、不要な値をフィルターし、データ セットをシャッフルして、最終モデルの精度をテストします。アルゴリズムが単純であればあるほど、必要な計算時間とリソースが少なくなり、複雑な問題を解決できる最も単純なモデルが最適なモデルとなります。
トレーニングがピークに達すると、トレーニングが継続するにつれてモデルの精度が徐々に低下します。これは過学習と呼ばれます。トレーニングが長すぎるため、モデルは予期しないパターンを学習し始めます。主な目標は、精度がテスト セット (モデルがこれまでに見たことのないデータ) に根ざしたモデルを開発することであるため、トレーニング セットで高い精度を達成する場合は注意してください。
一方、アンダーフィッティングとは、トレーニング モデルにまだ改善の余地があり、その可能性がまだ最大に達していないことを意味します。モデルのトレーニングが不十分な場合は、トレーニングの長さまたはデータセットの過剰な正則化が原因で発生します。これは、簡潔で正確なデータを持つことが何を意味するかを例示しています。
モデルをトレーニングする場合、スイート スポットを見つけることが重要です。データセットを 80/20 に分割するのは良いスタートですが、特定のモデルが最適に実行するために必要なのはパラメーターの調整かもしれません。
この記事では詳しく説明しませんが、テキスト分類問題に正しいテキスト形式を使用すると、より良い結果が得られます。テキスト データを表現する方法には、GloVe、Word2Vec、埋め込みモデルなどがあります。
正しいテキスト形式を使用すると、モデルがデータセットを読み取って解釈する方法が改善され、パターンを理解するのに役立ちます。
ラベル付きのすぐに使用できるデータセットが多数あるため、モデルの要件を満たす完璧なデータセットをいつでも検索できます。
どれを使用するかを決定するのに問題があるかもしれませんが、一般に公開されている最も有名なデータセットのいくつかを以下に推奨します。
Kaggle のような Web サイトには、すべてのトピックをカバーするさまざまなデータセットが含まれています。練習のために、上記のデータ セットのいくつかでモデルを実行してみることができます。
機械学習は過去 10 年間に多大な影響を及ぼしてきたため、企業は機械学習を活用してプロセスを自動化するためにあらゆる方法を試みています。レビュー、投稿、記事、日記、文書はすべてテキストに含まれており、非常に貴重です。また、テキスト分類をさまざまな創造的な方法で使用してユーザーの洞察やパターンを抽出することにより、企業はデータに基づいた意思決定を行うことができ、専門家はこれまでよりも迅速に貴重な情報にアクセスして学ぶことができます。
原題: テキスト分類とは? 、著者: Kevin Vu
以上がテキスト分類とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。