BigData-09-Greenplum概述及架构-mysql チュートリアル-php.cn

0.写在前面: 0.1. 此笔记是参考《Greenplum企业应用实战》、《PostgreSQL8.2.3 中文文档》和《Getting Started with Greenplum for Big Data Analytics》整理； 0.2. 《Greenplum企业应用实战》购买地址：【京东商城】【当当网】 0.3.参考网页（持续更新）

0.写在前面:

0.1. 此笔记是参考《Greenplum企业应用实战》、《PostgreSQL8.2.3 中文文档》和《Getting Started with Greenplum for Big Data Analytics》整理；

0.2. 《Greenplum企业应用实战》购买地址：【京东商城】【当当网】

0.3.参考网页（持续更新）

1) Shared Disk VS Shared Nothing分布式架构

1. Greenplum概述及架构

1.1. 什么是Greenplum

1) 为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务，专注于OLAP系统数据引擎开发；

2) 海量并行处理(Massively Parallel Processing) DBMS:

Greenplum的架构采用了MPP(大规模并行处理)，在 MPP 系统中，每个 SMP节点也可以运行自己的操作系统、数据库等。换言之，每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的，这个过程一般称为数据重分配(Data Redistribution) 。

SMP（SymmetricMulti-Processing），对称多处理结构的简称，是指在一个计算机上汇集了一组处理器(多CPU),各CPU之间共享内存子系统以及总线结构。在这种技术的支持下，一个服务器系统可以同时运行多个处理器，并共享内存和其他的主机资源。传统的ORACLE和DB2均是此种类型，ORACLE RAC 是半共享状态；

与传统的SMP架构明显不同，通常情况下，MPP系统因为要在不同处理单元之间传送信息，所以它的效率要比SMP要差一点，但是这也不是绝对的，因为 MPP系统不共享资源，因此对它而言，资源比SMP要多，当需要处理的事务达到一定规模时，MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定，如果通信时间比较多，那MPP系统就不占优势了，相反，如果通信时间比较少，那MPP系统可以充分发挥资源的优势，达到高效率。

3) 基于PostgreSQL 8.2开源版本，具有相同的客户端功能，增加支持并行处理的技术，增加支持数据仓库和BI的特性；

4) 外部表(external tables)/并行加载(parallel loading)：外部表是指数据库可以直接使用操作系统中的数据文件，在Greenplum 4.2版本中支持对外部表的读写操作；

5) 资源管理：基于PostgreSQL增加了并行度的处理；

6) 查询优化器增强(query optimizer enhancements)：增加对分布式的支持，空间的回收和分析，不需要进行多方面的调优。

1.2. Greenplum 体系架构

图一

Greenplum是一种基于ProstgreSQL的分布式数据库，其采用Shared-Nothing架构、主机、操作系统、内存、存储都是自我控制的，不存在共享。

补充：SharedDisk与Shared Nothing介绍

图二

图三

比较事项	概述	优点	缺点	使用场景
Shared Disk	如图二所示，所有节点共享一份数据	只要有一个节点就可以访问所有数据	内存融合限制水平扩展能力	Oracle RAC，24*7的高可用性核心业务
Shared Nothing	如图三所示，数据和节点有一一对应关系	每个节点交互少，很容易扩展	如果需要访问所有数据，需要所有节点都可用	SQL Server、DB2、Hadoop以及Greenplum

1.2.1.Master Host

1) 建立与客户端的会话连接和管理；

2) SQL的解析并形成分布式的执行计划；

3) 将生成好的执行计划分发到每个Segment上执行；

4) 收集Segment的执行结果；

5) 不存储业务数据，只存储数据字典；

6) 可以一主一备，分布在两台机器上，为了提高性能，最好单独占用一台机器。

1.2.2.Segment Host

1) 业务数据的存储和存取；

2) 执行由Master分发的SQL语句；

3) 对于Master来说，每个Segment都是对等的，负责对应数据的存储和计算；

4) 每一台机器上可以配置一到多个Segment，因此建议采用相同的机器配置。

1.2.3.Interconnect

1) 是GP数据库的网络层，在每个Segment中起到一个IPC作用；

2) 推荐使用千兆以太网交换机做Interconnect；

3) 支持UDP和TCP两种协议，推荐使用UDP协议，因为其高可靠性、高性能以及可扩展性；而TCP协议最高只能使用1000个Segment实例。

1.3.网络配置示例

图四

图四显示一个常见的网络配置示例，其中X4200是主节点，X4500(Segment host1)是主从节点，当主节点宕机后会主节点服务切换到此节点上，X4500(Segment host2)是从节点。

每个网络接口对应不同的网口，隔离到独立网络，保证不会竞争其他端口的网络带宽，提高网络的可靠性；串口连接到交换机是管理员管理的窗口。

1.4.Greenplum 高可用性体系架构

图五

图五中显示高可用性体系的示例图，其中按照从左到右且从上到下依次是主从节点，主节点，客户端，私有局域网以及从节点集群，实现功能和图一基本一致。

1.5.Master/Standby 镜像保护

图六

图六说明：Standby 节点用于当 Master 节点损坏时提供 Master服务，Standby 实时与Master 节点的Catalog 和事务日志保持同步，确保系统的变更信息不会丢失，提升系统的健壮性。

1.6.数据冗余-Segment 镜像保护

图七

图七说明：

1) 当GP配置了镜像节点之后，主节点不可用时会自动切换到镜像节点，集群仍然保持可用状态。当主节点恢复并启动之后，主节点会自动恢复期间的变更；

2) 只要Master不能连接上Segment实例时，就会在系统表中将此实例标识为不可用，并用镜像节点来代替，一般需要和主节点位于不同的服务器上，当Primary Segment失败时，Mirror Segment将自动提供服务，Primary Segment恢复正常后，使用gprecoverseg –F 同步数据

1.7.Segment 主机硬件配置示例

图八

1.8.网络冗余

图九

图九说明：

1) 数据之间存在冗余，网络也存在冗余；

2) 公共网络连接到主节点，主节点通过一台或者多台交换机连接到子节点。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7563

CakePHP チュートリアル

1384

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

深層学習アーキテクチャの比較分析 May 17, 2023 pm 04:34 PM

深層学習の概念は人工ニューラルネットワークの研究に由来しており、複数の隠れ層を含む多層パーセプトロンが深層学習構造です。ディープラーニングは、低レベルの特徴を組み合わせて、データのカテゴリや特性を表すより抽象的な高レベルの表現を形成します。データの分散された特徴表現を検出できます。ディープラーニングは機械学習の一種であり、機械学習は人工知能を実現する唯一の方法です。では、さまざまな深層学習システムアーキテクチャの違いは何でしょうか? 1. 完全接続ネットワーク (FCN) 完全接続ネットワーク (FCN) は、一連の完全接続層で構成され、各層のすべてのニューロンが別の層のすべてのニューロンに接続されています。その主な利点は、「構造に依存しない」ことです。つまり、入力に関する特別な仮定が必要ありません。この構造にとらわれないことにより、完全な

Spring Data JPA のアーキテクチャと動作原理は何ですか? Apr 17, 2024 pm 02:48 PM

SpringDataJPA は JPA アーキテクチャに基づいており、マッピング、ORM、トランザクション管理を通じてデータベースと対話します。そのリポジトリは CRUD 操作を提供し、派生クエリによりデータベースアクセスが簡素化されます。さらに、遅延読み込みを使用して必要な場合にのみデータを取得するため、パフォーマンスが向上します。

マルチパス、マルチドメイン、すべてを網羅！ Google AI がマルチドメイン学習一般モデル MDL をリリース May 28, 2023 pm 02:12 PM

視覚タスク (画像分類など) の深層学習モデルは、通常、単一の視覚領域 (自然画像やコンピューター生成画像など) からのデータを使用してエンドツーエンドでトレーニングされます。一般に、複数のドメインのビジョンタスクを完了するアプリケーションは、個別のドメインごとに複数のモデルを構築し、それらを個別にトレーニングする必要があります。データは異なるドメイン間で共有されません。推論中、各モデルは特定のドメインの入力データを処理します。たとえそれらが異なる分野を指向しているとしても、これらのモデル間の初期層のいくつかの機能は類似しているため、これらのモデルの共同トレーニングはより効率的です。これにより、遅延と消費電力が削減され、各モデルパラメーターを保存するためのメモリコストが削減されます。このアプローチはマルチドメイン学習 (MDL) と呼ばれます。さらに、MDL モデルは単一モデルよりも優れたパフォーマンスを発揮します。

この「間違い」は実際には間違いではありません。Transformer アーキテクチャ図の何が「間違っている」のかを理解するには、4 つの古典的な論文から始めてください。 Jun 14, 2023 pm 01:43 PM

少し前に、Transformer のアーキテクチャ図と Google Brain チームの論文「Attending IsAllYouNeed」のコードとの間の矛盾を指摘したツイートが多くの議論を引き起こしました。セバスチャンの発見は意図せぬ間違いだったのではないかと考える人もいるが、これもまた驚くべきことである。結局のところ、Transformer 論文の人気を考慮すると、この矛盾については何千回も言及されるべきでした。 Sebastian Raschka氏はネチズンのコメントに答えて、「最もオリジナルな」コードは確かにアーキテクチャ図と一致していたが、2017年に提出されたコードバージョンは修正されたものの、アーキテクチャ図は同時に更新されていなかったと述べた。これが議論の「齟齬」の根本原因でもある。

1.3ミリ秒には1.3ミリ秒かかります。清華社の最新オープンソースモバイルニューラルネットワークアーキテクチャ RepViT Mar 11, 2024 pm 12:07 PM

論文のアドレス: https://arxiv.org/abs/2307.09283 コードのアドレス: https://github.com/THU-MIG/RepViTRepViT は、モバイル ViT アーキテクチャで優れたパフォーマンスを発揮し、大きな利点を示します。次に、この研究の貢献を検討します。記事では、主にモデルがグローバル表現を学習できるようにするマルチヘッドセルフアテンションモジュール (MSHA) のおかげで、軽量 ViT は一般的に視覚タスクにおいて軽量 CNN よりも優れたパフォーマンスを発揮すると述べられています。ただし、軽量 ViT と軽量 CNN のアーキテクチャの違いは十分に研究されていません。この研究では、著者らは軽量の ViT を効果的なシステムに統合しました。

機械学習システムアーキテクチャの 10 の要素 Apr 13, 2023 pm 11:37 PM

今は AI エンパワーメントの時代であり、機械学習は AI を実現するための重要な技術的手段です。では、普遍的な機械学習システムアーキテクチャは存在するのでしょうか?経験豊富なプログラマの認識範囲内では、特にシステムアーキテクチャに関しては何でもありません。ただし、ほとんどの機械学習駆動システムまたはユースケースに適用できる場合、スケーラブルで信頼性の高い機械学習システムアーキテクチャを構築することは可能です。機械学習のライフサイクルの観点から見ると、このいわゆるユニバーサルアーキテクチャは、機械学習モデルの開発から、トレーニングシステムやサービスシステムの運用環境への展開まで、主要な機械学習段階をカバーします。このような機械学習システムのアーキテクチャを 10 個の要素の次元から記述してみることができます。 1.

SOA におけるソフトウェアアーキテクチャ設計とソフトウェアとハードウェアの分離方法論 Apr 08, 2023 pm 11:21 PM

次世代の集中電子および電気アーキテクチャでは、セントラル + ゾーンの中央コンピューティングユニットと地域コントローラーレイアウトの使用が、さまざまな OEM または Tier1 プレーヤーにとって必須のオプションとなっています。中央コンピューティングユニットのアーキテクチャに関しては、3 つあります。方法: SOC の分離、ハードウェアの分離、ソフトウェアの仮想化。集中型の中央コンピューティングユニットは、自動運転、スマートコックピット、車両制御の 3 つの主要領域の中核となるビジネス機能を統合し、標準化された地域コントローラーは、配電、データサービス、地域ゲートウェイの 3 つの主要な役割を担います。したがって、中央演算装置には高スループットのイーサネットスイッチが統合されます。車両全体の統合度がますます高くなるにつれて、より多くの ECU 機能が徐々に地域コントローラーに吸収されるようになります。そしてプラットフォーム化

AI インフラストラクチャ: IT およびデータサイエンスチームのコラボレーションの重要性 May 18, 2023 pm 11:08 PM

人工知能 (AI) は多くの業界の状況を変え、企業の効率、意思決定、顧客エクスペリエンスの向上を可能にしました。 AI は進化し続け、より複雑になるため、企業はその開発と展開をサポートする適切なインフラストラクチャに投資することが重要です。このインフラストラクチャの重要な側面は、IT チームとデータサイエンスチームのコラボレーションであり、どちらも AI イニシアチブの成功を確実にする上で重要な役割を果たします。人工知能の急速な発展により、コンピューティング能力、ストレージ、ネットワーク機能に対する需要が増大しています。この需要により、AI に必要な複雑でリソースを大量に消費するワークロードを処理するように設計されていない従来の IT インフラストラクチャに圧力がかかります。その結果、企業は現在、AI ワークロードをサポートできるシステムの構築を検討しています。

See all articles

BigData-09-Greenplum概述及架构