テキスト分類とは何ですか?
翻訳者 | Li Rui
査読者 | Sun Shujuan
テキスト分類とは何ですか?
テキスト分類は、テキストを 1 つ以上の異なるカテゴリに分類し、整理、構造化し、任意のパラメータにフィルタリングするプロセスです。たとえば、テキスト分類は、法律文書、医学研究および文書、または単に製品レビューで使用されます。データの重要性はこれまで以上に高まっており、多くの企業ができる限り多くの洞察を得るために巨額の資金を費やしています。
テキスト/ドキュメント データが他のデータ タイプよりもはるかに豊富になっているため、新しいメソッドの使用が不可欠です。データは本質的に構造化されておらず、非常に豊富であるため、データを理解できるようにわかりやすい方法で整理することで、その価値を大幅に高めることができます。テキスト分類と機械学習を使用して、関連するテキストをより迅速かつコスト効率よく自動的に構築します。
以下では、テキスト分類、その仕組み、最もよく知られているアルゴリズムのいくつかを定義し、テキスト分類の取り組みを開始する際に役立つデータセットを提供します。
なぜ機械学習テキスト分類を使用するのでしょうか?
- スケール: 手動でのデータ入力、分析、整理は面倒で時間がかかります。機械学習により、データセットのサイズに関係なく自動分析が可能になります。
- 一貫性: 人的エラーは、担当者の疲労やデータセット内の内容に対する鈍感によって発生します。機械学習は、アルゴリズムの偏りのない一貫した性質により、スケーラビリティを高め、精度を大幅に向上させます。
- スピード: データに素早くアクセスして整理する必要がある場合があります。機械学習アルゴリズムはデータを解析し、わかりやすい方法で情報を提供できます。
6 一般的な手順
いくつかの基本的な方法では、さまざまなテキスト ドキュメントをある程度まで分類できますが、最も一般的に使用される方法は機械学習です。テキスト分類モデルは、展開する前に 6 つの基本的な手順を実行する必要があります。
1. 高品質のデータ セットを提供する
データセットは、モデルのデータ ソースとして使用される生のデータ ブロックです。テキスト分類の場合、教師あり機械学習アルゴリズムが使用され、ラベル付きデータが機械学習モデルに提供されます。ラベル付きデータは、アルゴリズムに対して事前定義され、情報のラベルが付けられたデータです。
2. データのフィルタリングと処理
機械学習モデルは数値のみを理解できるため、モデルがデータを正しく識別できるように、提供されたテキストをトークン化してテキストを埋め込む必要があります。
トークン化は、テキスト ドキュメントをトークンと呼ばれる小さな部分に分割するプロセスです。トークンは、単語全体、サブワード、または個々の文字として表すことができます。たとえば、次のように作品をよりインテリジェントにタグ付けできます。
- タグ単語: Smarter
- タグサブワード: Smart-er
- タグ文字: S-m-a-r-t-e-r
なぜトークン化が重要なのでしょうか?テキスト分類モデルはトークンベースのレベルでしかデータを処理できず、完全な文を理解して処理できないためです。このモデルでは、指定されたデータを簡単に消化するために、指定された生データ セットをさらに処理する必要があります。不要な機能を削除したり、null 値や無限値を除外したりできます。データセット全体を再構成すると、トレーニング段階での偏りを防ぐことができます。
3. データ セットをトレーニング データ セットとテスト データ セットに分割します
データ セットの 80% でデータをトレーニングし、データ セットの 20% をテスト用に保持したいと考えています。アルゴリズムの精度。
4. トレーニング アルゴリズム
トレーニング データセットを使用してモデルを実行すると、アルゴリズムは隠れたパターンと洞察を特定して、提供されたテキストをさまざまなカテゴリに分類できます。
5. モデルのパフォーマンスをテストして確認する
次に、ステップ 3 で説明したテスト データ セットを使用してモデルの整合性をテストします。実際の結果に対してモデルの精度をテストするために、テスト データセットにはラベルが付けられません。モデルを正確にテストするには、モデルの過剰適合を避けるために、テスト データ セットに新しいテスト ケース (以前のトレーニング データ セットとは異なるデータ) が含まれている必要があります。
6. モデルのチューニング
過剰適合したり、大きな分散を生成したりすることなく、モデルのさまざまなハイパーパラメーターを調整することで、機械学習モデルをチューニングします。ハイパーパラメータは、その値がモデルの学習プロセスを制御するパラメータです。これで、デプロイする準備が整いました。
テキスト分類はどのように機能しますか?
単語埋め込み
上記のフィルタリング プロセス中、機械学習アルゴリズムと深層学習アルゴリズムは数値しか理解できないため、開発者はデータ セットに対していくつかの単語埋め込み手法を実行する必要があります。単語の埋め込みは、特定の単語の意味をエンコードする実数値ベクトルとして単語を表すプロセスです。
- Word2Vec: これは、Google が開発した教師なしの単語埋め込み手法です。ニューラル ネットワークを利用して大規模なテキスト データセットから学習します。名前が示すように、Word2Vec メソッドは各単語を指定されたベクトルに変換します。
- GloVe: グローバル ベクトルとしても知られ、単語のベクトル表現を取得するために使用される教師なし機械学習モデルです。 Word2Vec メソッドと同様に、GloVe アルゴリズムは単語を意味のある空間にマッピングします。単語間の距離は意味の類似性に関係します。
- TF-IDF: TF-IDF は、Term Frequency-Inverse Text Frequency の略称で、特定の文書内の単語の重要性を評価するために使用される単語埋め込みアルゴリズムです。 TF-IDF は、各単語に所定のスコアを割り当てて、一連の文書内でのその重要性を表します。
テキスト分類アルゴリズム
次に、最も有名で効果的な 3 つのテキスト分類アルゴリズムを示します。各メソッドにはさらに定義されたアルゴリズムが埋め込まれていることに留意することが重要です。
1. 線形サポート ベクター マシン
線形サポート ベクター マシン アルゴリズムは、現時点で最高のテキスト分類アルゴリズムの 1 つであると考えられており、指定された特徴に従って指定されたデータ ポイントを描画します。次に、データをカテゴリに分割して並べ替える最適な線を描きます。
2. ロジスティック回帰
ロジスティック回帰は回帰のサブカテゴリであり、主に分類問題に焦点を当てています。決定境界、回帰、距離を使用してデータセットを評価および分類します。
3. ナイーブ ベイズ
ナイーブ ベイズ アルゴリズムは、オブジェクトによって提供される特徴に基づいてさまざまなオブジェクトを分類します。次に、さらなる解決と分類のためにこれらのグループ分類を推測するためにグループの境界が描かれます。
テキスト分類を設定する際に避けるべき問題
1. 過密なトレーニング データ
低品質のデータをアルゴリズムに提供する不適切な将来予測につながります。機械学習の実践者にとってよくある問題は、トレーニング モデルに供給されるデータセットが多すぎて、不要な特徴が含まれていることです。無関係なデータを過度に使用すると、モデルのパフォーマンスの低下につながります。データセットの選択と整理に関しては、少ないほど良いのです。
トレーニング データとテスト データの比率が正しくないと、モデルのパフォーマンスに大きな影響を及ぼし、データのシャッフルやフィルタリングに影響を与える可能性があります。正確なデータ ポイントは他の望ましくない要因によって干渉されず、トレーニングされたモデルはより効率的に実行されます。
モデルをトレーニングするときは、モデルの要件を満たすデータ セットを選択し、不要な値をフィルターし、データ セットをシャッフルして、最終モデルの精度をテストします。アルゴリズムが単純であればあるほど、必要な計算時間とリソースが少なくなり、複雑な問題を解決できる最も単純なモデルが最適なモデルとなります。
2. 過学習と過小学習
トレーニングがピークに達すると、トレーニングが継続するにつれてモデルの精度が徐々に低下します。これは過学習と呼ばれます。トレーニングが長すぎるため、モデルは予期しないパターンを学習し始めます。主な目標は、精度がテスト セット (モデルがこれまでに見たことのないデータ) に根ざしたモデルを開発することであるため、トレーニング セットで高い精度を達成する場合は注意してください。
一方、アンダーフィッティングとは、トレーニング モデルにまだ改善の余地があり、その可能性がまだ最大に達していないことを意味します。モデルのトレーニングが不十分な場合は、トレーニングの長さまたはデータセットの過剰な正則化が原因で発生します。これは、簡潔で正確なデータを持つことが何を意味するかを例示しています。
モデルをトレーニングする場合、スイート スポットを見つけることが重要です。データセットを 80/20 に分割するのは良いスタートですが、特定のモデルが最適に実行するために必要なのはパラメーターの調整かもしれません。
3. 不適切なテキスト形式
この記事では詳しく説明しませんが、テキスト分類問題に正しいテキスト形式を使用すると、より良い結果が得られます。テキスト データを表現する方法には、GloVe、Word2Vec、埋め込みモデルなどがあります。
正しいテキスト形式を使用すると、モデルがデータセットを読み取って解釈する方法が改善され、パターンを理解するのに役立ちます。
テキスト分類アプリケーション
- スパムのフィルター: 特定のキーワードを検索することで、電子メールを有益なメールまたはスパムとして分類できます。
- テキスト分類: テキスト分類を使用すると、アプリケーションは関連するテキスト (項目名や説明など) を分類することで、さまざまな項目 (記事、書籍など) をさまざまなカテゴリに分類できます。これらの手法を使用すると、ユーザーがデータベース内を簡単に移動できるようになるため、エクスペリエンスが向上します。
- ヘイトスピーチの特定: 一部のソーシャルメディア企業は、テキスト分類を使用して攻撃的なコメントや投稿を検出し、禁止しています。
- マーケティングと広告: 企業は、特定の製品に対するユーザーの反応を理解することで、顧客を満足させるために具体的な変更を加えることができます。また、同様の製品のユーザーレビューに基づいて特定の製品を推奨することもできます。テキスト分類アルゴリズムは、リピート ビジネスを獲得するために多くのオンライン Web サイトで使用されるもう 1 つの深層学習アルゴリズムであるレコメンダー システムと組み合わせて使用できます。
人気のテキスト分類データセット
ラベル付きのすぐに使用できるデータセットが多数あるため、モデルの要件を満たす完璧なデータセットをいつでも検索できます。
どれを使用するかを決定するのに問題があるかもしれませんが、一般に公開されている最も有名なデータセットのいくつかを以下に推奨します。
- IMDB データセット
- Amazon レビュー データセット
- Yelp レビュー データセット
- SMS スパム コレクション
- Opin Rank レビュー データセット
- Twitter 米国航空会社感情データセット
- ヘイト スピーチおよび攻撃的言語データセット
- クリックベイト データセット
Kaggle のような Web サイトには、すべてのトピックをカバーするさまざまなデータセットが含まれています。練習のために、上記のデータ セットのいくつかでモデルを実行してみることができます。
機械学習におけるテキスト分類
機械学習は過去 10 年間に多大な影響を及ぼしてきたため、企業は機械学習を活用してプロセスを自動化するためにあらゆる方法を試みています。レビュー、投稿、記事、日記、文書はすべてテキストに含まれており、非常に貴重です。また、テキスト分類をさまざまな創造的な方法で使用してユーザーの洞察やパターンを抽出することにより、企業はデータに基づいた意思決定を行うことができ、専門家はこれまでよりも迅速に貴重な情報にアクセスして学ぶことができます。
原題: テキスト分類とは? 、著者: Kevin Vu
以上がテキスト分類とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由 信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

01 今後の概要 現時点では、検出効率と検出結果の適切なバランスを実現することが困難です。我々は、光学リモートセンシング画像におけるターゲット検出ネットワークの効果を向上させるために、多層特徴ピラミッド、マルチ検出ヘッド戦略、およびハイブリッドアテンションモジュールを使用して、高解像度光学リモートセンシング画像におけるターゲット検出のための強化されたYOLOv5アルゴリズムを開発しました。 SIMD データセットによると、新しいアルゴリズムの mAP は YOLOv5 より 2.2%、YOLOX より 8.48% 優れており、検出結果と速度のバランスがより優れています。 02 背景と動機 リモート センシング技術の急速な発展に伴い、航空機、自動車、建物など、地表上の多くの物体を記述するために高解像度の光学式リモート センシング画像が使用されています。リモートセンシング画像の判読における物体検出

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニング プロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニング プロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。

C++ では、機械学習アルゴリズムの実装には以下が含まれます。 線形回帰: 連続変数を予測するために使用されるステップには、データの読み込み、重みとバイアスの計算、パラメーターと予測の更新が含まれます。ロジスティック回帰: 離散変数の予測に使用されます。このプロセスは線形回帰に似ていますが、予測にシグモイド関数を使用します。サポート ベクター マシン: サポート ベクターの計算とラベルの予測を含む強力な分類および回帰アルゴリズム。

機械学習の分野における Go 言語の応用可能性は次のとおりです。 同時実行性: 並列プログラミングをサポートし、機械学習タスクにおける計算量の多い操作に適しています。効率: ガベージ コレクターと言語機能により、大規模なデータ セットを処理する場合でもコードの効率が保証されます。使いやすさ: 構文が簡潔なので、機械学習アプリケーションの学習と作成が簡単です。
