> 웹 프론트엔드 > JS 튜토리얼 > 분산 시스템에서 샤딩된 데이터 처리: 조인, 브로드캐스트 및 쿼리 최적화에 대한 심층 분석

분산 시스템에서 샤딩된 데이터 처리: 조인, 브로드캐스트 및 쿼리 최적화에 대한 심층 분석

Patricia Arquette
풀어 주다: 2024-12-23 13:50:18
원래의
1032명이 탐색했습니다.

Handling Sharded Data in Distributed Systems: A Deep Dive into Joins, Broadcasts, and Query Optimization

현대 분산 데이터베이스에서는 데이터를 수평적으로 확장해야 하는 필요성으로 인해 샤딩이 널리 채택되었습니다. 샤딩은 여러 노드에 걸쳐 대규모 데이터 세트를 관리하는 데 도움이 되지만, 특히 조인을 수행하고 효율적인 데이터 검색을 보장할 때 문제가 발생합니다. 이 기사에서는 특히 브로드캐스트 조인, 샤드 키 정렬분산 쿼리 엔진에 중점을 두고 이러한 문제를 해결하는 다양한 개념과 기술을 살펴봅니다. >PrestoBigQuery. 또한 Node.jsExpress를 사용하여 실제 애플리케이션에서 이러한 문제를 처리하는 방법을 보여줍니다.


Express.js를 사용한 Node.js의 샤딩 예

Node.js와 Express.js를 사용하여

PostgreSQL에서 샤딩을 구현하는 방법은 다음과 같습니다.

PostgreSQL 샤딩 예시

Citus 또는 Node.js에서 수동 논리적 샤딩 사용:

논리적 샤딩의 예

  1. 샤드 설정 테이블: 샤드용 테이블을 사용합니다(shard1의 user_data 및 shard2의 user_data).

  2. Express.js API 만들기: 샤드 키(예: user_id)를 기반으로 쿼리를 배포합니다.

   const express = require('express');
   const { Pool } = require('pg');

   const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' });
   const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' });

   const app = express();
   app.use(express.json());

   const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2);

   app.post('/user', async (req, res) => {
       const { userId, data } = req.body;
       const pool = getShardPool(userId);
       try {
           await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]);
           res.status(200).send('User added successfully');
       } catch (err) {
           console.error(err);
           res.status(500).send('Error inserting user');
       }
   });

   app.get('/user/:userId', async (req, res) => {
       const userId = parseInt(req.params.userId, 10);
       const pool = getShardPool(userId);
       try {
           const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]);
           res.status(200).json(result.rows);
       } catch (err) {
           console.error(err);
           res.status(500).send('Error retrieving user');
       }
   });

   app.listen(3000, () => console.log('Server running on port 3000'));
로그인 후 복사
로그인 후 복사
로그인 후 복사
로그인 후 복사

1.

분산 데이터베이스의 샤딩

샤딩은 성능, 확장성, 가용성을 향상시키기 위해 여러 데이터베이스 인스턴스 또는 샤드에 데이터를 수평으로 분할하는 프로세스입니다. 단일 데이터베이스 인스턴스가 데이터 볼륨이나 트래픽을 처리할 수 없는 경우 샤딩이 필요한 경우가 많습니다.

샤딩 전략:

  • 범위 기반 샤딩: 데이터는 키 범위에 따라 샤드에 분산됩니다(예: 주문_날짜별로 주문 분할).
  • 해시 기반 샤딩: 데이터는 샤드 키(예: user_id)로 해시되어 데이터를 샤드 전체에 균등하게 배포합니다.
  • 디렉터리 기반 샤딩: 중앙 디렉터리는 시스템에서 데이터가 있는 위치를 추적합니다.
그러나 관련 테이블이 서로 다른 키로 샤딩되거나 테이블이 여러 샤드에 걸쳐 다른 테이블과 조인해야 하는 경우

분산-수집 작업이 필요하기 때문에 성능이 저하될 수 있습니다. 브로드캐스트 조인과 샤드 키 정렬을 이해하는 것이 중요합니다.


2. 샤딩 시스템 조인 관련 문제

데이터가 서로 다른 샤드에 있는 경우 해당 샤드 간의 조인을 수행하는 것이 복잡할 수 있습니다. 일반적인 과제는 다음과 같습니다.

1. 샤드 키 정렬 오류:

많은 시스템에서 테이블은 서로 다른 키로 분할됩니다. 예:

  • users 테이블은 user_id로 분할될 수 있습니다.
  • 주문 테이블은 지역별로 분할될 수 있습니다.

조인(예: Orders.user_id = users.user_id)을 수행할 때 관련 레코드가 동일한 샤드에 상주하지 않을 수 있으므로 시스템은 여러 샤드에서 데이터를 가져와야 합니다.

2. 분산-수집 조인:

분산-수집 조인에서 시스템은 다음을 수행해야 합니다.

  • 관련 데이터를 보유한 모든 샤드에 요청을 보냅니다.
  • 샤드 전체에서 결과를 집계합니다. 이는 특히 데이터가 여러 샤드에 분산되어 있는 경우 성능을 크게 저하시킬 수 있습니다.

3. 방송 참여:

브로드캐스트 조인은 조인되는 테이블 중 하나가 모든 샤드에 브로드캐스트될 만큼 작을 때 발생합니다. 이 경우:

  • 작은 테이블(예: 사용자)은 더 큰 샤딩 테이블(예: 주문)이 있는 모든 노드에 복제됩니다.
  • 그러면 각 노드는 로컬 데이터를 브로드캐스트된 데이터와 결합할 수 있으므로 샤드 간 통신이 필요하지 않습니다.

3. 샤딩된 데이터에 분산 쿼리 엔진 사용

PrestoBigQuery와 같은 분산 쿼리 엔진은 분할된 데이터를 처리하고 분산 시스템 전체에서 쿼리를 조인하도록 설계되었습니다.

프레스토/트리노:

Presto는 이기종 데이터 소스(예: 관계형 데이터베이스, NoSQL 데이터베이스, 데이터 레이크)에서 대규모 데이터 세트를 쿼리하도록 설계된 분산 SQL 쿼리 엔진입니다. Presto는 분산된 데이터 소스 전반에 걸쳐 조인을 수행하고 노드 간 데이터 이동을 최소화하여 쿼리를 최적화할 수 있습니다.

사용 사례 예: Presto를 사용하여 샤딩된 데이터 결합

주문이 지역별로 샤딩되고 사용자가 user_id로 샤딩되는 시나리오에서 Presto는 분산 실행 모델을 사용하여 여러 샤드에 걸쳐 조인을 수행할 수 있습니다.

쿼리:

   const express = require('express');
   const { Pool } = require('pg');

   const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' });
   const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' });

   const app = express();
   app.use(express.json());

   const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2);

   app.post('/user', async (req, res) => {
       const { userId, data } = req.body;
       const pool = getShardPool(userId);
       try {
           await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]);
           res.status(200).send('User added successfully');
       } catch (err) {
           console.error(err);
           res.status(500).send('Error inserting user');
       }
   });

   app.get('/user/:userId', async (req, res) => {
       const userId = parseInt(req.params.userId, 10);
       const pool = getShardPool(userId);
       try {
           const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]);
           res.status(200).json(result.rows);
       } catch (err) {
           console.error(err);
           res.status(500).send('Error retrieving user');
       }
   });

   app.listen(3000, () => console.log('Server running on port 3000'));
로그인 후 복사
로그인 후 복사
로그인 후 복사
로그인 후 복사

Presto는 다음을 수행합니다.

  1. scatter-gather를 사용하여 관련 사용자 기록을 가져옵니다.
  2. 노드 전체에서 데이터를 결합합니다.

Google BigQuery:

BigQuery는 대규모 분석 쿼리 실행에 탁월한 완전 관리형 서버리스 데이터 웨어하우스입니다. BigQuery는 샤딩 세부정보를 추상화하는 동시에 최적화된 쿼리를 위해 여러 노드에 데이터를 자동으로 분할하고 배포합니다. 대규모 데이터 세트를 쉽게 처리할 수 있으며 데이터가 시간이나 다른 차원으로 분할되는 분석 쿼리에 특히 효과적입니다.

사용 사례 예시: BigQuery에서 샤딩된 테이블 조인
   const express = require('express');
   const { Pool } = require('pg');

   const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' });
   const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' });

   const app = express();
   app.use(express.json());

   const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2);

   app.post('/user', async (req, res) => {
       const { userId, data } = req.body;
       const pool = getShardPool(userId);
       try {
           await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]);
           res.status(200).send('User added successfully');
       } catch (err) {
           console.error(err);
           res.status(500).send('Error inserting user');
       }
   });

   app.get('/user/:userId', async (req, res) => {
       const userId = parseInt(req.params.userId, 10);
       const pool = getShardPool(userId);
       try {
           const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]);
           res.status(200).json(result.rows);
       } catch (err) {
           console.error(err);
           res.status(500).send('Error retrieving user');
       }
   });

   app.listen(3000, () => console.log('Server running on port 3000'));
로그인 후 복사
로그인 후 복사
로그인 후 복사
로그인 후 복사

BigQuery는 분할과 배포를 자동으로 처리하므로 수동 분할의 필요성이 최소화됩니다.


4. Node.js 애플리케이션에서 잘못된 샤드 키 정렬 처리

Node.js 애플리케이션에서 분할된 데이터를 처리할 때 잘못 정렬된 분할 키분산-수집 조인의 필요성과 같은 문제가 자주 발생합니다. Node.jsExpress를 사용하여 이러한 과제에 접근하는 방법은 다음과 같습니다.

Node.js에서 브로드캐스트 조인 처리

조인에서 모든 샤드에 걸쳐 작은 테이블(예: 사용자)을 브로드캐스트해야 하는 경우 작은 테이블을 한 번 가져온 후 이를 사용하여 샤딩된 테이블의 데이터와 조인함으로써 애플리케이션 계층에서 조인을 구현할 수 있습니다.

SELECT o.order_id, u.user_name
FROM orders o
JOIN users u
ON o.user_id = u.user_id;
로그인 후 복사

Node.js에서 분산-수집 쿼리 처리

분산-수집 조인과 관련된 쿼리의 경우(예: 샤드 키가 잘못 정렬된 경우) 모든 샤드를 쿼리하고 애플리케이션 계층에서 결과를 집계해야 합니다.

SELECT o.order_id, u.user_name
FROM `project.dataset.orders` o
JOIN `project.dataset.users` u
ON o.user_id = u.user_id
WHERE o.order_date BETWEEN '2024-01-01' AND '2024-12-31';
로그인 후 복사

5. 샤딩된 데이터를 사용한 쿼리 최적화 모범 사례

샤딩된 데이터를 처리하고 조인을 수행할 때 다음 모범 사례를 고려하세요.

  1. 샤드 키 정렬: 가능하면 관련 테이블이 동일한 샤드 키를 사용하는지 확인하세요. 이렇게 하면 교차 샤드 조인의 필요성이 최소화되고 성능이 향상됩니다.

  2. 비정규화: 조인이 자주 발생하는 시나리오에서는 데이터를 비정규화하는 것이 좋습니다. 예를 들어, 사용자 정보를 게시물 테이블에 직접 저장하여 조인의 필요성을 줄일 수 있습니다.

  3. 작은 테이블에 브로드캐스트 조인 사용: 테이블 중 하나가 충분히 작은 경우 분산 수집 쿼리를 방지하기 위해 모든 노드에 이를 브로드캐스트합니다.

  4. 데이터 사전 조인: 자주 액세스하는 데이터의 경우 사전 조인을 고려하고 결과를 구체화된 뷰 또는 캐시에 저장하는 것이 좋습니다.

  5. 분산 쿼리 엔진 활용: 복잡한 분석 쿼리의 경우 분산 조인 및 최적화를 자동으로 처리하는 Presto 또는 BigQuery와 같은 시스템을 사용하세요.


6. 샤딩된 데이터를 사용한 커서 기반 페이지 매김 모범 사례

이러한 샤딩을 사용하는 분산 시스템에서는 커서 기반 페이지 매김을 신중하게 처리해야 합니다. 특히 데이터가 여러 샤드에 분산되어 있기 때문입니다. 핵심은 다음과 같습니다.

  1. 쿼리 분할: 관련 데이터에 대해 각 샤드를 독립적으로 쿼리합니다.
  2. 청크로 페이지 매김 처리: 샤드 데이터(게시물 또는 사용자)에서 페이지 매김 방법을 결정하고 관련 결과를 수집합니다.
  3. 애플리케이션 수준에서 조인: 각 샤드에서 결과를 가져와서 메모리에 데이터를 조인한 후 다음 페이지에 커서 로직을 적용합니다.

데이터가 서로 다른 샤드에 상주하고 애플리케이션 수준에서 가져오기 후 조인이 필요하다는 점을 고려하여 Node.jsExpress를 사용하여 이를 구현하는 방법을 살펴보겠습니다.

분할된 테이블의 페이지 매김 및 조인을 처리하는 방법

다음이 있다고 가정해 보겠습니다.

  • 게시물 user_id로 분할된 테이블.
  • users user_id로 분할된 테이블.

특정 사용자에 대해 페이지가 매겨진 게시물을 검색하고 싶지만 사용자와 게시물이 서로 다른 샤드에 있으므로 쿼리를 분할하고 페이지 매김을 처리한 다음 애플리케이션 수준에서 조인을 수행해야 합니다.

접근하다:

  1. 관련 샤드 쿼리:

    • 먼저 게시물을 가져오기 위해 샤드 전체에서 게시물 테이블을 쿼리해야 합니다.
    • 관련 게시물을 가져온 후 게시물의 user_id를 사용하여 (다시 샤드 전체에서) 사용자 테이블을 쿼리합니다.
  2. 페이지 매김 전략:

    • 게시물 페이지 매기기: Created_at, post_id 또는 다른 고유 필드를 사용하여 게시물 테이블에 페이지를 매길 수 있습니다.
    • 사용자 페이지 매기기: 사용자 데이터를 별도로 가져오거나 user_id를 커서로 사용하여 사용자 페이지를 매겨야 할 수도 있습니다.
  3. 애플리케이션 수준 조인:

    • 관련 샤드(게시물 및 사용자 모두)에서 데이터를 검색한 후 애플리케이션 수준에서 결합합니다.
  4. 커서 처리:

    • 첫 번째 페이지를 가져온 후 마지막으로 생성된_at 또는 post_id(게시물에서)를 다음 쿼리의 커서로 사용하세요.

구현 예

1. 샤드 전체에 대한 쿼리 게시물

여기서는 커서(예:created_at 또는 post_id)로 필터링하여 다양한 게시물 샤드에 걸쳐 쿼리를 실행합니다.

2. 게시 데이터를 사용하여 샤드 전체에서 사용자 쿼리

첫 번째 쿼리에서 관련 post_id와 user_id를 얻으면 관련 샤드에서 사용자 데이터를 가져옵니다.

   const express = require('express');
   const { Pool } = require('pg');

   const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' });
   const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' });

   const app = express();
   app.use(express.json());

   const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2);

   app.post('/user', async (req, res) => {
       const { userId, data } = req.body;
       const pool = getShardPool(userId);
       try {
           await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]);
           res.status(200).send('User added successfully');
       } catch (err) {
           console.error(err);
           res.status(500).send('Error inserting user');
       }
   });

   app.get('/user/:userId', async (req, res) => {
       const userId = parseInt(req.params.userId, 10);
       const pool = getShardPool(userId);
       try {
           const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]);
           res.status(200).json(result.rows);
       } catch (err) {
           console.error(err);
           res.status(500).send('Error retrieving user');
       }
   });

   app.listen(3000, () => console.log('Server running on port 3000'));
로그인 후 복사
로그인 후 복사
로그인 후 복사
로그인 후 복사

주요 세부정보:

  1. 게시물 페이지 매기기: 커서는 결과의 페이지를 매기는 데 사용되는 게시물의 create_at 필드 또는 다른 고유 필드를 기반으로 합니다.
  2. 샤드를 독립적으로 쿼리: 게시물과 사용자가 서로 다른 키로 샤딩되므로 각 샤드를 독립적으로 쿼리하여 애플리케이션 수준에서 조인을 수행하기 전에 모든 샤드에서 데이터를 수집합니다.
  3. 커서 처리: 결과를 검색한 후 게시물의 마지막 생성_at(또는 post_id)을 사용하여 다음 페이지에 대한 커서를 생성합니다.
  4. 애플리케이션 수준에서 조인: 해당 샤드에서 데이터를 가져온 후 메모리의 user_id를 기반으로 사용자 데이터와 게시물을 조인합니다.

결론

분산 시스템에서 샤딩된 데이터를 관리하는 것은 특히 효율적인 조인 수행과 관련하여 고유한 과제를 제시합니다. 브로드캐스트 조인, 분산-수집 조인과 같은 기술을 이해하고 분산 쿼리 엔진을 활용하면 쿼리 성능을 크게 향상시킬 수 있습니다. 또한 애플리케이션 수준 쿼리에서는 샤드 키 정렬, 비정규화 및 최적화된 쿼리 전략을 고려하는 것이 필수적입니다. 이러한 모범 사례를 따르고 올바른 도구를 활용함으로써 개발자는 애플리케이션이 분할된 데이터를 효과적으로 처리하고 규모에 맞게 성능을 유지하도록 할 수 있습니다.

위 내용은 분산 시스템에서 샤딩된 데이터 처리: 조인, 브로드캐스트 및 쿼리 최적화에 대한 심층 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:dev.to
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿