PHP およびシェルの大きなファイル データの統計と並べ替え方法
このセクションの内容: シェルとphpを使ってビッグデータを並べ替える方法 ビッグデータの問題、たとえば、4G ファイルがある場合、1G メモリしか搭載していないマシンを使用して、ファイル内の最頻値を計算する方法 (1 行が配列であると仮定します。QQ 番号など)。 ファイルがわずか 4B または数十メガバイトの場合、最も簡単な方法は、ファイルを直接読み取り、分析と統計を実行することです。ただし、これは 4G ファイルです。当然、数十 G、場合によっては数百 G になる可能性があります。これは直接読み込むことで解決できません。 このような大きなファイルの場合と同様に、PHP だけを使用するのは決して現実的ではありません。ファイルがどんなに大きくても、まず複数のアプリケーションで使用できる小さなファイルに分割し、次に小さなファイルに分割する必要があるということです。ファイルはバッチまたは順番に分析およびカウントでき、合計結果が要約され、要件を満たす最終結果が得られます。人気のある MapReduce モデルと同様に、その中心的な考え方は「Map (マッピング)」と「Reduce (簡略化)」であり、それに加えて分散ファイル処理は、もちろん、処理に使用できるのは Reduce だけです。 10 億行のファイルがあり、各行に 6 桁から 10 桁の QQ 番号があるとします。解決する必要があるのは、次の PHP を使用して、これらの 10 億 QQ 番号の中で最も頻繁に繰り返される上位 10 個の番号を計算することです。スクリプトはこのファイルを生成します。この乱数には重複はない可能性がありますが、重複する数字が存在すると想定されます。 例えば、
ファイル生成の世界は比較的長いです php-client を直接使用します。 Linux では PHP ファイルを実行すると時間を節約できます。もちろん、他の方法を使用してファイルを生成することもできます。生成されるファイルは約11Gです。 次に、Linux Split を使用してファイルを切り取ります。切り取りの標準は、データ 100 万行ごとに 1 ファイルです。 split -l 1000000 -a 3 qq.txt qqfile qq.txt は qqfileaaa から qqfilebml という名前の 1000 個のファイルに分割されており、各ファイルのサイズは 11MB です。現時点ではどのような処理方法を使用しても比較的簡単です。 分析と統計には PHP を使用します。
各サンプルには 11 位にランクされる数値が存在するが、合計の数値は間違いなく上位 10 位にあるため、後続の統計計算アルゴリズムを改善する必要があると除外されました。 Linux の awk や sort コマンドを使えばソートできるという人もいるかもしれないが、試してみたところ、小さいファイルならなんとかなるが、11G のファイルとなるとメモリも時間も耐えられない。 1 awk+sort スクリプト: awk -F '\@' '{name[$1]++ } END {for (名前の数) print name[count],count}' qq.txt |sort -n > 123.txt 大きなファイルの処理であれ、ビッグデータの可能性であれ、大きな需要があります。 |

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

記事では、PHP 5.3で導入されたPHPの後期静的結合(LSB)について説明し、より柔軟な継承を求める静的メソッドコールのランタイム解像度を可能にします。 LSBの実用的なアプリケーションと潜在的なパフォーマ

記事では、入力検証、認証、定期的な更新など、脆弱性から保護するためのフレームワークの重要なセキュリティ機能について説明します。

この記事では、フレームワークにカスタム機能を追加し、アーキテクチャの理解、拡張ポイントの識別、統合とデバッグのベストプラクティスに焦点を当てています。

PHP開発でPHPのCurlライブラリを使用してJSONデータを送信すると、外部APIと対話する必要があることがよくあります。一般的な方法の1つは、Curlライブラリを使用して投稿を送信することです。

PHP開発における固体原理の適用には、次のものが含まれます。1。単一責任原則(SRP):各クラスは1つの機能のみを担当します。 2。オープンおよびクローズ原理(OCP):変更は、変更ではなく拡張によって達成されます。 3。Lischの代替原則(LSP):サブクラスは、プログラムの精度に影響を与えることなく、基本クラスを置き換えることができます。 4。インターフェイス分離原理(ISP):依存関係や未使用の方法を避けるために、細粒インターフェイスを使用します。 5。依存関係の反転原理(DIP):高レベルのモジュールと低レベルのモジュールは抽象化に依存し、依存関係噴射を通じて実装されます。

ReactPhpの詳細な解釈の非ブロッキング機能の公式紹介は、多くの開発者の質問を呼び起こしました。
