最適なヒストグラム ビン サイズの決定
データ分析において、ヒストグラムはデータの分布を視覚的に表すための貴重なツールです。スクリプト言語を使用してヒストグラムを生成することは可能ですが、このプロセスを SQL 内で直接実行できますか?答えは「はい」です。次の質問では、このトピックについて詳しく説明します。
主な課題は、ヒストグラム ビンのサイズを定義することにあります。ほとんどの場合、目標はデータを事前定義された範囲にグループ化し、より有益で包括的な表現を取得することです。提示された質問では、「total」と呼ばれる整数列でデータをグループ化する SQL クエリが提供されていますが、結果として得られる行が多すぎるため、分布の視覚化が困難であることも指摘されています。
解決策はデータをバケット化することです。大きなゴミ箱に入れます。元の SQL クエリを変更して、これを実現できます。
<code class="sql">SELECT ROUND(total, -2) AS bucket, COUNT(*) AS count FROM faults GROUP BY bucket;</code>
負の引数を指定した ROUND 関数は、「合計」値を最も近い事前定義された間隔に丸めます。この場合、間隔は -2 に設定されます。これは、最も近い 100 (-2) に四捨五入することを意味します。これにより、[0-99]、[100-199] などの範囲のビンが作成されます。
データを「バケット」列でグループ化すると、各間隔内に含まれる値のカウントが効果的に結合され、次のようになります。より簡潔で意味のあるヒストグラム。出力は、質問で提供されている例のようになります。
+------------+---------------+ | total | count(total) | +------------+---------------+ | 30 - 40 | 23 | | 40 - 50 | 15 | | 50 - 60 | 51 | | 60 - 70 | 45 | ------------------------------
この手法は、数値データを扱う場合でも、SQL でヒストグラムを作成する簡単な方法を提供します。適切なビン サイズを指定することで、アナリストはデータの分布をより明確に理解し、より多くの情報に基づいた意思決定を行うことができます。
以上がSQL でヒストグラムを視覚化するためにデータを意味のあるビンにグループ化するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。