基本技術には次のものが含まれます: 1. データ収集 データ収集の主なソースは、管理情報システム、Web 情報システム、物理情報システム、科学実験システムの 4 つです。 2. データアクセス。 3. クラウドストレージ、分散ファイルストレージなどのインフラストラクチャ4. データ処理: さまざまなデータ セットからデータを収集、整理、クリーニング、変換して、新しいデータ セットを生成します。 5. 統計分析。 6. データマイニング。 7. 予測モデル、機械学習、モデリング、シミュレーションなどのモデル予測。 8. クラウドコンピューティング、タグクラウド、関係図などの結果プレゼンテーション。
#この記事の動作環境: Windows 7 システム、Dell G3 コンピューター。
ビッグデータの基本テクノロジーには、データ収集、データ アクセス、インフラストラクチャ、データ処理、統計分析、データ マイニング、モデル予測、結果の表示が含まれます。
#1. データ収集: ビッグ データのライフ サイクルにおいて、データ収集は最初のステップです。 MapReduce からデータを生成するアプリケーション システムの分類によると、ビッグ データ収集の主なソースは、経営情報システム、Web 情報システム、物理情報システム、科学実験システムの 4 つです。
2. データ アクセス: ビッグ データ アクセスはさまざまな技術的ルートを採用しており、大きく 3 つのカテゴリに分類できます。カテゴリ 1 は主に大規模な構造化データに直面します。カテゴリ 2 は主に半構造化データと非構造化データに対応します。カテゴリ 3 は、構造化ビッグデータと非構造化ビッグデータの混合に直面します (
3)。インフラストラクチャ: クラウド ストレージ、分散ファイル ストレージなど。
4. データ処理: 収集されたデータ セットが異なると、ファイル、XML ツリー、リレーショナル テーブルなどの異なる構造やパターンが存在する可能性があり、これがデータの異種性に反映されます。複数の異種データ セットの場合、さらなる統合処理または統合処理が必要です。異なるデータ セットからデータを収集、並べ替え、クリーニング、変換した後、それらは新しいデータ セットに生成され、後続のクエリおよび分析処理を統合します。 。
5. 統計分析: 仮説検定、有意性検定、差分分析、相関分析、T 検定、分散分析、カイ二乗分析、偏相関分析、距離分析、回帰分析、単回帰分析、多重回帰分析、段階回帰、回帰予測および残差分析、リッジ回帰、ロジスティック回帰分析、曲線推定、因子分析、クラスター分析、主成分分析、因子分析、高速クラスタリング法およびクラスタリング法、判別分析、対応分析、多変量対応解析(最適規模解析)、ブートストラップ技術など
6. データマイニング: 現時点では、既存のデータマイニングおよび機械学習技術の改善、データネットワークマイニング、特殊グループマイニング、グラフマイニングなどの新しいデータマイニング技術の開発、オブジェクトのブレークスルーが依然として必要です。 -ベースのデータ接続、類似性接続などのビッグデータ融合テクノロジー、ユーザー関心分析、ネットワーク行動分析、感情意味分析などのフィールド指向のビッグデータマイニングテクノロジーのブレークスルー。
7. モデル予測: 予測モデル、機械学習、モデリング、シミュレーション。
8. 結果のプレゼンテーション: クラウド コンピューティング、タグ クラウド、関係図など。
以上がビッグデータの基礎技術とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。