単語が出現する回数を数える-PHPチュートリアル-php.cn

ディスカッションへの返信 (解決策)

ホームページ

バックエンド開発

PHPチュートリアル

単語が出現する回数を数える

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 23, 2016 pm 02:05 PM

非日常的な英単語のセットがあり、英語の記事で最も頻繁に出現する単語を計算する必要があります。
そこで、最初は配列を走査し、substr_count を使用して各単語の出現数を順番に数えることを考えましたが、これでは記事全体を複数回繰り返しスキャンすることになります。あるいは、記事を単語に分割し、配列関数を使用して交差の数を計算することもできますが、それでも理想的ではないと感じます。

何か考えはありますか？このアプリケーションは実際にはキーワードを抽出します。

ディスカッションへの返信 (解決策)

配列に分割するのはなぜ良くないのですか? 英語で配列を入力するのは非常に便利です、少なくとも中国語よりははるかに簡単です
実際、私はニーズをよく理解していません。純粋な統計情報の array_count_values は十分便利です

つまり、シソーラスがすでにあるので、記事内でシソーラスの単語の出現数を確認する必要があります
はいの場合、その後、トライアルゴリズムを使用できます (私が投稿しました)
もちろん、記事を一度スキャンするだけですまずシソーラスを構築します

つまり、シソーラスはすでにあります。記事内の類義語辞典の単語
「はい」の場合は、トライアルゴリズムを使用できます (私が投稿しました)
記事を一度スキャンするだけです。それだけです。もちろん、最初に語彙を構築する必要があります

なぜこの形式が保存に適しているのですか語彙？ mysql、json、xml、純粋な配列?

記事が 5kb で語彙が 1000 語ある場合、この記事に一致するようにこれら 1000 語を 1 つずつ処理します。

mysql_query、
json_decode()
simplexml_load_file()
配列

どれがより効率的ですか?もっとリソース (CPU、RAM) を節約しますか?

5kb に 1000 語があり、そのすべてが記事である可能性は低いでしょうか?

たとえ 1000 個あったとしても、その量はそれほど多くはなく、重複を削除するのは 1 つの配列交差で十分です

私のアイデアは、記事を単語の配列に分割することであり、array_count_values で実行できます。関数
次に、特定の回数 (意味を一致させるには少なすぎますよね?) で部分を抽出すると、残りはほとんどなくなり、既存の部分との交差を見つけるだけで十分です。語彙

ポスターは特に英語の語彙について言及していますが、アルゴリズムが英語の語彙に限定されている場合、意味がありません

5kb に 1000 語があり、そのすべてが記事である可能性は低いです。

たとえ 1,000 個あったとしても、その量はそれほど多くはありません。重複を削除するのは 1 つの配列の交差で十分です。私のアイデアは、記事を単語の配列に分割することであり、array_count_values は両方の役割を果たします。関数
次に、特定の回数 (意味をなすには少なすぎますよね?) で部分を抽出すると、残りはほとんどなくなり、既存の語彙との交差部分を見つけるだけで十分です

あなたの言ったことは理にかなっています

でも、それは単純な質問だと思います単純な処理、彼は英語を話すので、こう考えてください、アルゴリズムを考えるのにあまり時間をかける必要はありません

もし彼が混合言語と言ったら、私だったらこの投稿には返信せずに見るだけでしょうね、笑フロア：5kbに1000文字って、全部記事ということはまずないですよね？

たとえ 1,000 個あったとしても、その量はそれほど大きくはありません。重複を削除するのは 1 つの配列の交差で十分です。私のアイデアは、記事を単語の配列に分割することであり、array_count_values は両方の役割を果たします。統計と重複排除機能
次に、回数を抽出します...

バージョンによって提供されるプレフィックスツリーが理解できないので、とりあえず実装するために記事を複数回スキャンすることにしました

例

include 'TTrie.php';class wordkey extends TTrie {  function b() {    $t = array_pop($this->buffer);    $this->buffer[] = "<b>$t</b>";  }}$p = new wordkey;$p->set('秦始皇', 'b');$p->set('洛阳', 'b');$t = $p->match('秦始皇东巡洛阳');echo join('', $t);

ログイン後にコピー

秦始皇帝東部ツアー<洛陽

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7563

CakePHP チュートリアル

1385

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Alipay PHP SDK転送エラー：「クラスの看板を宣言できない」という問題を解決する方法は？ Apr 01, 2025 am 07:21 AM

Alipay Php ...

JSON Web Tokens（JWT）とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

確固たる原則と、それらがPHP開発にどのように適用されるかを説明してください。 Apr 03, 2025 am 12:04 AM

PHP開発における固体原理の適用には、次のものが含まれます。1。単一責任原則（SRP）：各クラスは1つの機能のみを担当します。 2。オープンおよびクローズ原理（OCP）：変更は、変更ではなく拡張によって達成されます。 3。Lischの代替原則（LSP）：サブクラスは、プログラムの精度に影響を与えることなく、基本クラスを置き換えることができます。 4。インターフェイス分離原理（ISP）：依存関係や未使用の方法を避けるために、細粒インターフェイスを使用します。 5。依存関係の反転原理（DIP）：高レベルのモジュールと低レベルのモジュールは抽象化に依存し、依存関係噴射を通じて実装されます。