현대 분산 데이터베이스에서는 데이터를 수평적으로 확장해야 하는 필요성으로 인해 샤딩이 널리 채택되었습니다. 샤딩은 여러 노드에 걸쳐 대규모 데이터 세트를 관리하는 데 도움이 되지만, 특히 조인을 수행하고 효율적인 데이터 검색을 보장할 때 문제가 발생합니다. 이 기사에서는 특히 브로드캐스트 조인, 샤드 키 정렬 및 분산 쿼리 엔진에 중점을 두고 이러한 문제를 해결하는 다양한 개념과 기술을 살펴봅니다. >Presto 및 BigQuery. 또한 Node.js 및 Express를 사용하여 실제 애플리케이션에서 이러한 문제를 처리하는 방법을 보여줍니다.
PostgreSQL에서 샤딩을 구현하는 방법은 다음과 같습니다.
Citus 또는 Node.js에서 수동 논리적 샤딩 사용:
논리적 샤딩의 예샤드 설정 테이블:
샤드용 테이블을 사용합니다(shard1의 user_data 및 shard2의 user_data).
Express.js API 만들기:
샤드 키(예: user_id)를 기반으로 쿼리를 배포합니다.
const express = require('express'); const { Pool } = require('pg'); const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' }); const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' }); const app = express(); app.use(express.json()); const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2); app.post('/user', async (req, res) => { const { userId, data } = req.body; const pool = getShardPool(userId); try { await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]); res.status(200).send('User added successfully'); } catch (err) { console.error(err); res.status(500).send('Error inserting user'); } }); app.get('/user/:userId', async (req, res) => { const userId = parseInt(req.params.userId, 10); const pool = getShardPool(userId); try { const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]); res.status(200).json(result.rows); } catch (err) { console.error(err); res.status(500).send('Error retrieving user'); } }); app.listen(3000, () => console.log('Server running on port 3000'));
분산-수집 작업이 필요하기 때문에 성능이 저하될 수 있습니다. 브로드캐스트 조인과 샤드 키 정렬을 이해하는 것이 중요합니다.
데이터가 서로 다른 샤드에 있는 경우 해당 샤드 간의 조인을 수행하는 것이 복잡할 수 있습니다. 일반적인 과제는 다음과 같습니다.
많은 시스템에서 테이블은 서로 다른 키로 분할됩니다. 예:
조인(예: Orders.user_id = users.user_id)을 수행할 때 관련 레코드가 동일한 샤드에 상주하지 않을 수 있으므로 시스템은 여러 샤드에서 데이터를 가져와야 합니다.
분산-수집 조인에서 시스템은 다음을 수행해야 합니다.
브로드캐스트 조인은 조인되는 테이블 중 하나가 모든 샤드에 브로드캐스트될 만큼 작을 때 발생합니다. 이 경우:
Presto 및 BigQuery와 같은 분산 쿼리 엔진은 분할된 데이터를 처리하고 분산 시스템 전체에서 쿼리를 조인하도록 설계되었습니다.
Presto는 이기종 데이터 소스(예: 관계형 데이터베이스, NoSQL 데이터베이스, 데이터 레이크)에서 대규모 데이터 세트를 쿼리하도록 설계된 분산 SQL 쿼리 엔진입니다. Presto는 분산된 데이터 소스 전반에 걸쳐 조인을 수행하고 노드 간 데이터 이동을 최소화하여 쿼리를 최적화할 수 있습니다.
주문이 지역별로 샤딩되고 사용자가 user_id로 샤딩되는 시나리오에서 Presto는 분산 실행 모델을 사용하여 여러 샤드에 걸쳐 조인을 수행할 수 있습니다.
쿼리:
const express = require('express'); const { Pool } = require('pg'); const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' }); const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' }); const app = express(); app.use(express.json()); const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2); app.post('/user', async (req, res) => { const { userId, data } = req.body; const pool = getShardPool(userId); try { await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]); res.status(200).send('User added successfully'); } catch (err) { console.error(err); res.status(500).send('Error inserting user'); } }); app.get('/user/:userId', async (req, res) => { const userId = parseInt(req.params.userId, 10); const pool = getShardPool(userId); try { const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]); res.status(200).json(result.rows); } catch (err) { console.error(err); res.status(500).send('Error retrieving user'); } }); app.listen(3000, () => console.log('Server running on port 3000'));
Presto는 다음을 수행합니다.
BigQuery는 대규모 분석 쿼리 실행에 탁월한 완전 관리형 서버리스 데이터 웨어하우스입니다. BigQuery는 샤딩 세부정보를 추상화하는 동시에 최적화된 쿼리를 위해 여러 노드에 데이터를 자동으로 분할하고 배포합니다. 대규모 데이터 세트를 쉽게 처리할 수 있으며 데이터가 시간이나 다른 차원으로 분할되는 분석 쿼리에 특히 효과적입니다.
const express = require('express'); const { Pool } = require('pg'); const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' }); const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' }); const app = express(); app.use(express.json()); const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2); app.post('/user', async (req, res) => { const { userId, data } = req.body; const pool = getShardPool(userId); try { await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]); res.status(200).send('User added successfully'); } catch (err) { console.error(err); res.status(500).send('Error inserting user'); } }); app.get('/user/:userId', async (req, res) => { const userId = parseInt(req.params.userId, 10); const pool = getShardPool(userId); try { const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]); res.status(200).json(result.rows); } catch (err) { console.error(err); res.status(500).send('Error retrieving user'); } }); app.listen(3000, () => console.log('Server running on port 3000'));
BigQuery는 분할과 배포를 자동으로 처리하므로 수동 분할의 필요성이 최소화됩니다.
Node.js 애플리케이션에서 분할된 데이터를 처리할 때 잘못 정렬된 분할 키와 분산-수집 조인의 필요성과 같은 문제가 자주 발생합니다. Node.js 및 Express를 사용하여 이러한 과제에 접근하는 방법은 다음과 같습니다.
조인에서 모든 샤드에 걸쳐 작은 테이블(예: 사용자)을 브로드캐스트해야 하는 경우 작은 테이블을 한 번 가져온 후 이를 사용하여 샤딩된 테이블의 데이터와 조인함으로써 애플리케이션 계층에서 조인을 구현할 수 있습니다.
SELECT o.order_id, u.user_name FROM orders o JOIN users u ON o.user_id = u.user_id;
분산-수집 조인과 관련된 쿼리의 경우(예: 샤드 키가 잘못 정렬된 경우) 모든 샤드를 쿼리하고 애플리케이션 계층에서 결과를 집계해야 합니다.
SELECT o.order_id, u.user_name FROM `project.dataset.orders` o JOIN `project.dataset.users` u ON o.user_id = u.user_id WHERE o.order_date BETWEEN '2024-01-01' AND '2024-12-31';
샤딩된 데이터를 처리하고 조인을 수행할 때 다음 모범 사례를 고려하세요.
샤드 키 정렬: 가능하면 관련 테이블이 동일한 샤드 키를 사용하는지 확인하세요. 이렇게 하면 교차 샤드 조인의 필요성이 최소화되고 성능이 향상됩니다.
비정규화: 조인이 자주 발생하는 시나리오에서는 데이터를 비정규화하는 것이 좋습니다. 예를 들어, 사용자 정보를 게시물 테이블에 직접 저장하여 조인의 필요성을 줄일 수 있습니다.
작은 테이블에 브로드캐스트 조인 사용: 테이블 중 하나가 충분히 작은 경우 분산 수집 쿼리를 방지하기 위해 모든 노드에 이를 브로드캐스트합니다.
데이터 사전 조인: 자주 액세스하는 데이터의 경우 사전 조인을 고려하고 결과를 구체화된 뷰 또는 캐시에 저장하는 것이 좋습니다.
분산 쿼리 엔진 활용: 복잡한 분석 쿼리의 경우 분산 조인 및 최적화를 자동으로 처리하는 Presto 또는 BigQuery와 같은 시스템을 사용하세요.
이러한 샤딩을 사용하는 분산 시스템에서는 커서 기반 페이지 매김을 신중하게 처리해야 합니다. 특히 데이터가 여러 샤드에 분산되어 있기 때문입니다. 핵심은 다음과 같습니다.
데이터가 서로 다른 샤드에 상주하고 애플리케이션 수준에서 가져오기 후 조인이 필요하다는 점을 고려하여 Node.js 및 Express를 사용하여 이를 구현하는 방법을 살펴보겠습니다.
다음이 있다고 가정해 보겠습니다.
특정 사용자에 대해 페이지가 매겨진 게시물을 검색하고 싶지만 사용자와 게시물이 서로 다른 샤드에 있으므로 쿼리를 분할하고 페이지 매김을 처리한 다음 애플리케이션 수준에서 조인을 수행해야 합니다.
관련 샤드 쿼리:
페이지 매김 전략:
애플리케이션 수준 조인:
커서 처리:
여기서는 커서(예:created_at 또는 post_id)로 필터링하여 다양한 게시물 샤드에 걸쳐 쿼리를 실행합니다.
첫 번째 쿼리에서 관련 post_id와 user_id를 얻으면 관련 샤드에서 사용자 데이터를 가져옵니다.
const express = require('express'); const { Pool } = require('pg'); const poolShard1 = new Pool({ connectionString: 'postgresql://localhost/shard1' }); const poolShard2 = new Pool({ connectionString: 'postgresql://localhost/shard2' }); const app = express(); app.use(express.json()); const getShardPool = (userId) => (userId % 2 === 0 ? poolShard1 : poolShard2); app.post('/user', async (req, res) => { const { userId, data } = req.body; const pool = getShardPool(userId); try { await pool.query('INSERT INTO user_data (user_id, data) VALUES (, )', [userId, data]); res.status(200).send('User added successfully'); } catch (err) { console.error(err); res.status(500).send('Error inserting user'); } }); app.get('/user/:userId', async (req, res) => { const userId = parseInt(req.params.userId, 10); const pool = getShardPool(userId); try { const result = await pool.query('SELECT * FROM user_data WHERE user_id = ', [userId]); res.status(200).json(result.rows); } catch (err) { console.error(err); res.status(500).send('Error retrieving user'); } }); app.listen(3000, () => console.log('Server running on port 3000'));
분산 시스템에서 샤딩된 데이터를 관리하는 것은 특히 효율적인 조인 수행과 관련하여 고유한 과제를 제시합니다. 브로드캐스트 조인, 분산-수집 조인과 같은 기술을 이해하고 분산 쿼리 엔진을 활용하면 쿼리 성능을 크게 향상시킬 수 있습니다. 또한 애플리케이션 수준 쿼리에서는 샤드 키 정렬, 비정규화 및 최적화된 쿼리 전략을 고려하는 것이 필수적입니다. 이러한 모범 사례를 따르고 올바른 도구를 활용함으로써 개발자는 애플리케이션이 분할된 데이터를 효과적으로 처리하고 규모에 맞게 성능을 유지하도록 할 수 있습니다.
위 내용은 분산 시스템에서 샤딩된 데이터 처리: 조인, 브로드캐스트 및 쿼리 최적화에 대한 심층 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!