Nlpir Parser の 12 の機能検索およびマイニングインテリジェントプラットフォーム-ミニプログラム開発-php.cn

Nlpir Parser の 12 の機能検索およびマイニングインテリジェントプラットフォーム

phpcn_u1852

リリース： 2017-06-23 11:48:45

オリジナル

2180 人が閲覧しました

テキストマイニングは、データマイニングにおいてますます人気があり重要な研究分野となっています。データウェアハウス内の関係、トランザクション、構造化データに焦点を当てる一般的なデータマイニングとは異なり、テキストマイニングによって調査されるテキストデータベースは、さまざまなデータソースからの多数のドキュメントで構成されます。これらの文書には、タイトル、著者、発行日、長さなどの構造化データが含まれる場合もあれば、要約や内容などの非構造化テキストコンポーネントが含まれる場合もあります。さらに、これらの文書の内容は人間が使用する自然言語です。コンピュータがそのセマンティクスを処理するのは困難です。したがって、従来の情報検索テクノロジーは、大量のテキストデータを処理するという増大するニーズに対応できなくなり、さまざまなドキュメントを比較してドキュメントの重要性と関連性を整理したり、複数のドキュメントのパターンや傾向を見つけたりするためのテキストマイニング手法が提案されています。分析を待ちます。

Nlpir Parser 検索およびマイニングインテリジェントプラットフォームは、ネットワーク検索、自然言語理解、テキストマイニング技術開発のための基本的なツールセットです。開発プラットフォームは複数のミドルウェアで構成されており、各ミドルウェア API はさまざまなタイプの顧客にシームレスに統合できます。複雑なアプリケーションシステムでは、Windows、Linux、FreeBSD などのさまざまなオペレーティングシステムと互換性があり、Java、C、C# などのさまざまな開発言語で使用できます。

Nlpir Parserの検索およびマイニングインテリジェントプラットフォームは、オリジナルのテキストセットの処理と処理のために特別に設計されたソフトウェアのセットであり、ミドルウェアの処理効果を視覚的に表示し、小規模なデータ処理ツールとしても使用できます。ユーザーはこのソフトウェアを使用して自分のデータを処理できます。

Nlpir Parser検索およびマイニングインテリジェントプラットフォームの12の機能：

1. 正確な全文検索：テキスト、数値、日付、文字列などのさまざまなデータタイプをサポートし、複数のフィールドで効率的な検索をサポートし、AND/をサポートします。 OR/NOT NEAR 近接などのクエリ構文に加え、ウイグル語、チベット語、モンゴル語、アラビア語、韓国語、その他の少数言語での検索もサポートしています。既存のテキスト処理システムやデータベースシステムとシームレスに統合できます。

2. 新しい単語の発見: ファイルコレクションから発掘された含意のある新しい単語のリストを使用して、ユーザーの専門辞書を編集することもでき、注釈をさらに編集して単語分割辞書にインポートすることもでき、それによって単語の精度が向上します。単語分割システムと新しい言語の変更への適応。

3. 単語分割：元のコーパスに対して単語分割を行い、人名、地名、機関名などの未登録単語の自動識別、新語注釈、品詞タグ付けを行います。また、分析プロセス中にユーザー定義の辞書をインポートできます。

4. 統計分析と用語翻訳：セグメンテーションアノテーションの結果に基づいて、システムはユニグラム単語頻度統計とバイナリ単語遷移確率統計（2つの単語間の左右の接続の頻度をカウントする、つまり確率）を自動的に実行できます。。よく使われる用語については、対応する英語の説明が自動的に表示されます。

5. テキストクラスタリングとホットスポット分析: 大規模なデータからホットイベントを自動的に分析し、イベントトピックの主要な機能の説明を提供できます。テキストメッセージやWeiboなどの長文・短文のホットスポット分析にも適しています。

6.分類フィルタリング：事前に指定されたルールと例に基づいて、システムは大量の文書からニーズを満たすサンプルを自動的にフィルタリングします。

7. ポジティブ分析とネガティブ分析: 事前に指定された分析対象と例に基づいて、システムは大量のドキュメントからポジティブスコアとネガティブスコアと文サンプルを自動的にフィルタリングします。

8. 自動要約：単一または複数の記事の内容のエッセンスを自動的に抽出できるため、ユーザーがテキストの内容を素早く閲覧するのに便利です。

9. キーワード抽出: 単一の記事または記事の集合について、記事の中心的なアイデアを表す複数の単語またはフレーズを抽出でき、精緻な読み取り、意味論的なクエリ、および迅速なマッチングに使用できます。

10. ドキュメントの重複排除: ファイルコレクションまたはデータベース内に同じまたは類似した内容のレコードがあるかどうかを迅速かつ正確に判断し、すべての重複レコードを同時に見つけることができます。

11. HTML テキスト抽出: ナビゲーション Web ページを自動的に削除し、Web ページ内のナビゲーションや広告などの HTML タグと邪魔なテキストを削除し、貴重なテキストコンテンツを返します。大規模なインターネット情報の前処理や分析に適しています。

12. 自動エンコード認識と変換: コンテンツのエンコードを自動的に識別し、エンコードを GBK エンコードに均一に変換します。

ほとんどの場合、テキストマイニングのデータセットは非常に大きく成長し続けるため、これらのデータを1台のマシンに保存して計算することは不可能です。したがって、コンピュータクラスタ上でテキストマイニングタスクを並行して実行するには、並列実行可能なテキストマイニングアルゴリズムを研究する必要があります。これは明らかに、クラウドコンピューティングと、それ自体が成長分野でもあるデータ集約型コンピューティングのニーズを組み合わせたものです。

以上がNlpir Parser の 12 の機能検索およびマイニングインテリジェントプラットフォームの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。