単語が出現する回数を数える
非日常的な英単語のセットがあり、英語の記事で最も頻繁に出現する単語を計算する必要があります。
そこで、最初は配列を走査し、substr_count を使用して各単語の出現数を順番に数えることを考えましたが、これでは記事全体を複数回繰り返しスキャンすることになります。あるいは、記事を単語に分割し、配列関数を使用して交差の数を計算することもできますが、それでも理想的ではないと感じます。
何か考えはありますか?このアプリケーションは実際にはキーワードを抽出します。
ディスカッションへの返信 (解決策)
配列に分割するのはなぜ良くないのですか? 英語で配列を入力するのは非常に便利です、少なくとも中国語よりははるかに簡単です
実際、私はニーズをよく理解していません。純粋な統計情報の array_count_values は十分便利です
つまり、シソーラスがすでにあるので、記事内でシソーラスの単語の出現数を確認する必要があります
はいの場合、その後、トライアルゴリズムを使用できます (私が投稿しました)
もちろん、記事を一度スキャンするだけです まずシソーラスを構築します
つまり、シソーラスはすでにあります。記事内の類義語辞典の単語
「はい」の場合は、トライ アルゴリズムを使用できます (私が投稿しました)
記事を一度スキャンするだけです。それだけです。もちろん、最初に語彙を構築する必要があります
なぜこの形式が保存に適しているのですか語彙? mysql、json、xml、純粋な配列?
記事が 5kb で語彙が 1000 語ある場合、この記事に一致するようにこれら 1000 語を 1 つずつ処理します。
mysql_query、
json_decode()
simplexml_load_file()
配列
どれがより効率的ですか?もっとリソース (CPU、RAM) を節約しますか?
5kb に 1000 語があり、そのすべてが記事である可能性は低いでしょうか?
たとえ 1000 個あったとしても、その量はそれほど多くはなく、重複を削除するのは 1 つの配列交差で十分です
私のアイデアは、記事を単語の配列に分割することであり、array_count_values で実行できます。関数
次に、特定の回数 (意味を一致させるには少なすぎますよね?) で部分を抽出すると、残りはほとんどなくなり、既存の部分との交差を見つけるだけで十分です。語彙
ポスターは特に英語の語彙について言及していますが、アルゴリズムが英語の語彙に限定されている場合、意味がありません
5kb に 1000 語があり、そのすべてが記事である可能性は低いです。
たとえ 1,000 個あったとしても、その量はそれほど多くはありません。重複を削除するのは 1 つの配列の交差で十分です。私のアイデアは、記事を単語の配列に分割することであり、array_count_values は両方の役割を果たします。関数
次に、特定の回数 (意味をなすには少なすぎますよね?) で部分を抽出すると、残りはほとんどなくなり、既存の語彙との交差部分を見つけるだけで十分です
あなたの言ったことは理にかなっています
もし彼が混合言語と言ったら、私だったらこの投稿には返信せずに見るだけでしょうね、笑フロア:5kbに1000文字って、全部記事ということはまずないですよね?
たとえ 1,000 個あったとしても、その量はそれほど大きくはありません。重複を削除するのは 1 つの配列の交差で十分です。私のアイデアは、記事を単語の配列に分割することであり、array_count_values は両方の役割を果たします。統計と重複排除機能
次に、回数を抽出します...
バージョンによって提供されるプレフィックスツリーが理解できないので、とりあえず実装するために記事を複数回スキャンすることにしました
例
include 'TTrie.php';class wordkey extends TTrie { function b() { $t = array_pop($this->buffer); $this->buffer[] = "<b>$t</b>"; }}$p = new wordkey;$p->set('秦始皇', 'b');$p->set('洛阳', 'b');$t = $p->match('秦始皇东巡洛阳');echo join('', $t);

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

PHP開発における固体原理の適用には、次のものが含まれます。1。単一責任原則(SRP):各クラスは1つの機能のみを担当します。 2。オープンおよびクローズ原理(OCP):変更は、変更ではなく拡張によって達成されます。 3。Lischの代替原則(LSP):サブクラスは、プログラムの精度に影響を与えることなく、基本クラスを置き換えることができます。 4。インターフェイス分離原理(ISP):依存関係や未使用の方法を避けるために、細粒インターフェイスを使用します。 5。依存関係の反転原理(DIP):高レベルのモジュールと低レベルのモジュールは抽象化に依存し、依存関係噴射を通じて実装されます。

システムが再起動した後、UnixSocketの権限を自動的に設定する方法。システムが再起動するたびに、UnixSocketの許可を変更するために次のコマンドを実行する必要があります:sudo ...

記事では、PHP 5.3で導入されたPHPの後期静的結合(LSB)について説明し、より柔軟な継承を求める静的メソッドコールのランタイム解像度を可能にします。 LSBの実用的なアプリケーションと潜在的なパフォーマ

PHP開発でPHPのCurlライブラリを使用してJSONデータを送信すると、外部APIと対話する必要があることがよくあります。一般的な方法の1つは、Curlライブラリを使用して投稿を送信することです。

記事では、入力検証、認証、定期的な更新など、脆弱性から保護するためのフレームワークの重要なセキュリティ機能について説明します。

phpstormでCLIモードをデバッグする方法は? PHPStormで開発するときは、PHPをコマンドラインインターフェイス(CLI)モードでデバッグする必要がある場合があります。
