PHP およびシェルの大きなファイルデータの統計と並べ替え方法-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP およびシェルの大きなファイルデータの統計と並べ替え方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 25, 2016 am 09:12 AM

このセクションの内容: シェルとphpを使ってビッグデータを並べ替える方法

ビッグデータの問題、たとえば、4G ファイルがある場合、1G メモリしか搭載していないマシンを使用して、ファイル内の最頻値を計算する方法 (1 行が配列であると仮定します。QQ 番号など)。ファイルがわずか 4B または数十メガバイトの場合、最も簡単な方法は、ファイルを直接読み取り、分析と統計を実行することです。ただし、これは 4G ファイルです。当然、数十 G、場合によっては数百 G になる可能性があります。これは直接読み込むことで解決できません。

このような大きなファイルの場合と同様に、PHP だけを使用するのは決して現実的ではありません。ファイルがどんなに大きくても、まず複数のアプリケーションで使用できる小さなファイルに分割し、次に小さなファイルに分割する必要があるということです。ファイルはバッチまたは順番に分析およびカウントでき、合計結果が要約され、要件を満たす最終結果が得られます。人気のある MapReduce モデルと同様に、その中心的な考え方は「Map (マッピング)」と「Reduce (簡略化)」であり、それに加えて分散ファイル処理は、もちろん、処理に使用できるのは Reduce だけです。

10 億行のファイルがあり、各行に 6 桁から 10 桁の QQ 番号があるとします。解決する必要があるのは、次の PHP を使用して、これらの 10 億 QQ 番号の中で最も頻繁に繰り返される上位 10 個の番号を計算することです。スクリプトはこのファイルを生成します。この乱数には重複はない可能性がありますが、重複する数字が存在すると想定されます。

例えば、

$fp = fopen('qq.txt','w+');
for( $i=0; $i<1000000000; $i++ ){
$str = mt_rand( 10000,9999999999)."n";
fwrite($fp,$str);
}
fclose($fp);

コードをコピー

ファイル生成の世界は比較的長いです php-client を直接使用します。 Linux では PHP ファイルを実行すると時間を節約できます。もちろん、他の方法を使用してファイルを生成することもできます。生成されるファイルは約11Gです。次に、Linux Split を使用してファイルを切り取ります。切り取りの標準は、データ 100 万行ごとに 1 ファイルです。 split -l 1000000 -a 3 qq.txt qqfile qq.txt は qqfileaaa から qqfilebml という名前の 1000 個のファイルに分割されており、各ファイルのサイズは 11MB です。現時点ではどのような処理方法を使用しても比較的簡単です。

分析と統計には PHP を使用します。

$results = array();
foreach( glob('/tmp/qq/*') as $file ){
$fp = fopen($file,'r') ;
$arr = array();
while( $qq = fgets($fp) ){
$qq = トリム($qq);
isset($arr[$qq]) $arr[$qq]+ ? + : $arr[$qq]=1;
}
arsort($arr);
//以下の処理方法に問題があります
do{
$i=0;
foreach( $arr as $qq= >$times ){
if( $i > 10 ){
isset($results[$qq]) $results[$qq]+=$times :$results[$qq]=$times;
$ i++;
} else {
Break;
}
}
} while(false);
fclose($fp);
}
if( $results ){
arsort($results);
do{
$i= 0;
foreach ( $results as $qq=>$times ){
if( $i > 10 ){
echo $qq . $times "n" ;
$i++;
} {
Break;
}
}
} while(false);
}

各サンプルの上位 10 個が取得され、最終的に分析と統計のためにまとめられるように、コードをコピーします

各サンプルには 11 位にランクされる数値が存在するが、合計の数値は間違いなく上位 10 位にあるため、後続の統計計算アルゴリズムを改善する必要があると除外されました。 Linux の awk や sort コマンドを使えばソートできるという人もいるかもしれないが、試してみたところ、小さいファイルならなんとかなるが、11G のファイルとなるとメモリも時間も耐えられない。

1 awk+sort スクリプト: awk -F '\@' '{name[$1]++ } END {for (名前の数) print name[count],count}' qq.txt |sort -n > 123.txt 大きなファイルの処理であれ、ビッグデータの可能性であれ、大きな需要があります。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7513

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Alipay PHP SDK転送エラー：「クラスの看板を宣言できない」という問題を解決する方法は？ Apr 01, 2025 am 07:21 AM

Alipay Php ...

JSON Web Tokens（JWT）とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

PHPにおける後期静的結合の概念を説明します。 Mar 21, 2025 pm 01:33 PM

記事では、PHP 5.3で導入されたPHPの後期静的結合（LSB）について説明し、より柔軟な継承を求める静的メソッドコールのランタイム解像度を可能にします。 LSBの実用的なアプリケーションと潜在的なパフォーマ

フレームワークセキュリティ機能：脆弱性から保護します。 Mar 28, 2025 pm 05:11 PM

記事では、入力検証、認証、定期的な更新など、脆弱性から保護するためのフレームワークの重要なセキュリティ機能について説明します。

フレームワークのカスタマイズ/拡張：カスタム機能を追加する方法。 Mar 28, 2025 pm 05:12 PM

この記事では、フレームワークにカスタム機能を追加し、アーキテクチャの理解、拡張ポイントの識別、統合とデバッグのベストプラクティスに焦点を当てています。

PHPのCurlライブラリを使用してJSONデータを含むPOSTリクエストを送信する方法は？ Apr 01, 2025 pm 03:12 PM

PHP開発でPHPのCurlライブラリを使用してJSONデータを送信すると、外部APIと対話する必要があることがよくあります。一般的な方法の1つは、Curlライブラリを使用して投稿を送信することです。

確固たる原則と、それらがPHP開発にどのように適用されるかを説明してください。 Apr 03, 2025 am 12:04 AM

PHP開発における固体原理の適用には、次のものが含まれます。1。単一責任原則（SRP）：各クラスは1つの機能のみを担当します。 2。オープンおよびクローズ原理（OCP）：変更は、変更ではなく拡張によって達成されます。 3。Lischの代替原則（LSP）：サブクラスは、プログラムの精度に影響を与えることなく、基本クラスを置き換えることができます。 4。インターフェイス分離原理（ISP）：依存関係や未使用の方法を避けるために、細粒インターフェイスを使用します。 5。依存関係の反転原理（DIP）：高レベルのモジュールと低レベルのモジュールは抽象化に依存し、依存関係噴射を通じて実装されます。