目次
ディスカッションへの返信 (解決策)
ホームページ バックエンド開発 PHPチュートリアル 単語が出現する回数を数える

単語が出現する回数を数える

Jun 23, 2016 pm 02:05 PM

非日常的な英単語のセットがあり、英語の記事で最も頻繁に出現する単語を計算する必要があります。
そこで、最初は配列を走査し、substr_count を使用して各単語の出現数を順番に数えることを考えましたが、これでは記事全体を複数回繰り返しスキャンすることになります。あるいは、記事を単語に分割し、配列関数を使用して交差の数を計算することもできますが、それでも理想的ではないと感じます。

何か考えはありますか?このアプリケーションは実際にはキーワードを抽出します。


ディスカッションへの返信 (解決策)

配列に分割するのはなぜ良くないのですか? 英語で配列を入力するのは非常に便利です、少なくとも中国語よりははるかに簡単です
実際、私はニーズをよく理解していません。純粋な統計情報の array_count_values は十分便利です

つまり、シソーラスがすでにあるので、記事内でシソーラスの単語の出現数を確認する必要があります
はいの場合、その後、トライアルゴリズムを使用できます (私が投稿しました)
もちろん、記事を一度スキャンするだけです まずシソーラスを構築します

つまり、シソーラスはすでにあります。記事内の類義語辞典の単語
「はい」の場合は、トライ アルゴリズムを使用できます (私が投稿しました)
記事を一度スキャンするだけです。それだけです。もちろん、最初に語彙を構築する必要があります

なぜこの形式が保存に適しているのですか語彙? mysql、json、xml、純粋な配列?

記事が 5kb で語彙が 1000 語ある場合、この記事に一致するようにこれら 1000 語を 1 つずつ処理します。

mysql_query、
json_decode()
simplexml_load_file()
配列

どれがより効率的ですか?もっとリソース (CPU、RAM) を節約しますか?

5kb に 1000 語があり、そのすべてが記事である可能性は低いでしょうか?

たとえ 1000 個あったとしても、その量はそれほど多くはなく、重複を削除するのは 1 つの配列交差で十分です

私のアイデアは、記事を単語の配列に分割することであり、array_count_values で実行できます。関数
次に、特定の回数 (意味を一致させるには少なすぎますよね?) で部分を抽出すると、残りはほとんどなくなり、既存の部分との交差を見つけるだけで十分です。語彙

ポスターは特に英語の語彙について言及していますが、アルゴリズムが英語の語彙に限定されている場合、意味がありません


5kb に 1000 語があり、そのすべてが記事である可能性は低いです。

たとえ 1,000 個あったとしても、その量はそれほど多くはありません。重複を削除するのは 1 つの配列の交差で十分です。私のアイデアは、記事を単語の配列に分割することであり、array_count_values は両方の役割を果たします。関数
次に、特定の回数 (意味をなすには少なすぎますよね?) で部分を抽出すると、残りはほとんどなくなり、既存の語彙との交差部分を見つけるだけで十分です

あなたの言ったことは理にかなっています

でも、それは単純な質問だと思います 単純な処理、彼は英語を話すので、こう考えてください、アルゴリズムを考えるのにあまり時間をかける必要はありません

もし彼が混合言語と言ったら、私だったらこの投稿には返信せずに見るだけでしょうね、笑フロア:5kbに1000文字って、全部記事ということはまずないですよね?

たとえ 1,000 個あったとしても、その量はそれほど大きくはありません。重複を削除するのは 1 つの配列の交差で十分です。私のアイデアは、記事を単語の配列に分割することであり、array_count_values は両方の役割を果たします。統計と重複排除機能
次に、回数を抽出します...

バージョンによって提供されるプレフィックスツリーが理解できないので、とりあえず実装するために記事を複数回スキャンすることにしました

include 'TTrie.php';class wordkey extends TTrie {  function b() {    $t = array_pop($this->buffer);    $this->buffer[] = "<b>$t</b>";  }}$p = new wordkey;$p->set('秦始皇', 'b');$p->set('洛阳', 'b');$t = $p->match('秦始皇东巡洛阳');echo join('', $t);
ログイン後にコピー
秦始皇帝東部ツアー<洛陽

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

確固たる原則と、それらがPHP開発にどのように適用されるかを説明してください。 確固たる原則と、それらがPHP開発にどのように適用されるかを説明してください。 Apr 03, 2025 am 12:04 AM

PHP開発における固体原理の適用には、次のものが含まれます。1。単一責任原則(SRP):各クラスは1つの機能のみを担当します。 2。オープンおよびクローズ原理(OCP):変更は、変更ではなく拡張によって達成されます。 3。Lischの代替原則(LSP):サブクラスは、プログラムの精度に影響を与えることなく、基本クラスを置き換えることができます。 4。インターフェイス分離原理(ISP):依存関係や未使用の方法を避けるために、細粒インターフェイスを使用します。 5。依存関係の反転原理(DIP):高レベルのモジュールと低レベルのモジュールは抽象化に依存し、依存関係噴射を通じて実装されます。

システムの再起動後にUnixSocketの権限を自動的に設定する方法は? システムの再起動後にUnixSocketの権限を自動的に設定する方法は? Mar 31, 2025 pm 11:54 PM

システムが再起動した後、UnixSocketの権限を自動的に設定する方法。システムが再起動するたびに、UnixSocketの許可を変更するために次のコマンドを実行する必要があります:sudo ...

PHPにおける後期静的結合の概念を説明します。 PHPにおける後期静的結合の概念を説明します。 Mar 21, 2025 pm 01:33 PM

記事では、PHP 5.3で導入されたPHPの後期静的結合(LSB)について説明し、より柔軟な継承を求める静的メソッドコールのランタイム解像度を可能にします。 LSBの実用的なアプリケーションと潜在的なパフォーマ

PHPのCurlライブラリを使用してJSONデータを含むPOSTリクエストを送信する方法は? PHPのCurlライブラリを使用してJSONデータを含むPOSTリクエストを送信する方法は? Apr 01, 2025 pm 03:12 PM

PHP開発でPHPのCurlライブラリを使用してJSONデータを送信すると、外部APIと対話する必要があることがよくあります。一般的な方法の1つは、Curlライブラリを使用して投稿を送信することです。

フレームワークセキュリティ機能:脆弱性から保護します。 フレームワークセキュリティ機能:脆弱性から保護します。 Mar 28, 2025 pm 05:11 PM

記事では、入力検証、認証、定期的な更新など、脆弱性から保護するためのフレームワークの重要なセキュリティ機能について説明します。

phpstormでCLIモードをデバッグする方法は? phpstormでCLIモードをデバッグする方法は? Apr 01, 2025 pm 02:57 PM

phpstormでCLIモードをデバッグする方法は? PHPStormで開発するときは、PHPをコマンドラインインターフェイス(CLI)モードでデバッグする必要がある場合があります。

See all articles