ソーシャル ネットワーキング、ライブ ブロードキャスト、フォーラム、電子商取引などのさまざまなプラットフォームでは、毎日大量の UGC が生成され、必然的に大量のジャンク テキストが混在します。これらのコンテンツは、ユーザー エクスペリエンスに重大な影響を与えるだけでなく、違反という運用上のリスクを引き起こす可能性があります。
インターネット上で有害な情報をフィルタリングしたりコンテンツをレビューしたりすることの恥ずかしさは、インターネット技術の発展によってついに解決策の可能性をもたらしました。それが、サイバースペース局によって発行された「未成年者のインターネット保護に関する規則」です。 2016 年の中国は、成人向けのオンライン保護ソフトウェアの研究、開発、生産、宣伝を明確に奨励し、支援しています。技術開発と政策支援により、コンテンツレビュー技術の開発がいよいよ春を迎えました。
人工知能のコンテンツレビュー手法とは、一言で言えば、膨大な画像、テキスト、ビデオデータの下で機械に深く学習させ、システムの認識量と判断精度を継続的に向上させることです。深層学習をテキスト言語に適用する 情報技術。これまでのところ、国内の人工知能業界では、コア技術として「インテリジェントテキストマイニング」を使用している企業の数は数百社に達しており、ビジネスシナリオと密接に統合できる「悪質な情報フィルタリング」のリンクに細分化されています。 「暴力テロ」、「機密情報」、「小さな広告」などの違法なテキスト情報を識別してフィルタリングする国内システムは多くありませんが、Jiuyan インテリジェント フィルタリング システムはその 1 つであり、自然言語理解を完全に統合しています。人工知能、ビッグデータ解析などの最先端技術は、インテリジェンス、セマンティクス、リアルタイムという3つの特徴を備えています。
Jiuyan インテリジェント フィルタリング システムは、複雑なテキスト ビッグ データ用のコンテンツ インテリジェント フィルタリング システムで、発音、変形、単語の分割などのキーワードの一般的なバリエーションをリアルタイムでインテリジェントに識別し、正確な意味の曖昧性の解消を実現します。国内の包括的なリアルタイム知識ベースで、複数のシナリオにおける未開の情報コンテンツのインテリジェントなフィルタリングと発見に適しています。
Jiuyanインテリジェントフィルタリングの3つのコア技術:インテリジェントバリアント、意味論的曖昧さ回避、高速リアルタイム
1.インテリジェントバリアント識別:Juiuyanインテリジェントフィルタリングは、米国の二重配列TRIEツリー辞書管理および検索方法を使用し、システムは自動的に変形した単語、音声変化などのバリエーション、単語の分割、ノイズ、繁体字と簡体字、全角と半角、および中間のさまざまな干渉ノイズを識別すると同時に、システムはカスタム語彙をサポートし、段階的に追加します。何百万もの辞書。
2.意味上の曖昧さ回避:Jiuyanインテリジェントフィルタリングは、NLPIR意味上の正確な単語分割システムと感情分析システムを使用して、正確に識別してフィルタリングし、肯定的で無害な情報を除外し、誤判断率を大幅に削減します。
3. 高速かつリアルタイム: Jiuyan インテリジェント フィルタリングは、特許取得済みのアルゴリズムを使用して高速にスキャンし、単一マシンの速度 30MB/秒で、単一マシンのマルチスレッド、複数マシンの並列処理、および Hadoop クラウド サービスをサポートします。 PB レベルの情報コンテンツの並行かつ効率的なオンライン検証を実現するモード。
インターネットアプリケーションやプラットフォームの将来の開発方向として、コンテンツはあらゆる分野で重要な役割を果たしており、より良いレビューメカニズムを導入することで健全なコンテンツ環境が確立され、悪い情報が蔓延すると競争環境になる可能性もあります。現在、ブランドが独自の手段を講じることが急務となっており、そのためには、ニーズを満たすために、より高い精度を必要とする不適切な情報フィルタリング技術も必要となります。
以上がJiuyan インテリジェント情報フィルタリング: ビッグデータ技術が製品のアップグレードを促進の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。