목차
1. 소개
3. 비용 최적화의 구체적인 구현 " >3. 비용 최적화의 구체적인 구현
(1) 전체 솔루션 소개 " > (1) 전체 솔루션 소개
(2) 자원 코로케이션 솔루션 " > (2) 자원 코로케이션 솔루션
온라인 유휴 자원 " >온라인 유휴 자원
조류 자원" >조류 자원
컴퓨팅 리소스" > 컴퓨팅 리소스
(3) 애플리케이션 계층 최적화 솔루션" >(3) 애플리케이션 계층 최적화 솔루션
비즈니스 내결함성" >비즈니스 내결함성
작업 조수 일정" >작업 조수 일정
핵심 과제:
솔루션:
4. 온라인 효과 및 향후 전망" >4. 온라인 효과 및 향후 전망
기술 주변기기 일체 포함 태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

Apr 14, 2023 pm 06:46 PM
빅데이터 AI 도메인 모델링

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

최근에는 빅데이터 증강 모델이 AI 분야 모델링의 표준 패러다임이 되었습니다. 광고 현장에서 대형 모델은 더 많은 모델 매개변수를 사용하고 더 많은 훈련 데이터를 사용합니다. 모델은 더 강력한 메모리 기능과 일반화 기능을 갖추고 있어 광고 효과를 향상할 수 있는 더 많은 공간을 확보합니다. 그러나 훈련 과정에서 대형 모델에 필요한 리소스도 기하급수적으로 증가했으며, 저장 및 컴퓨팅 부담은 머신러닝 플랫폼에 큰 과제입니다.

Tencent Taiji 기계 학습 플랫폼은 비용 절감 및 효율성 향상 솔루션을 지속적으로 탐색하고 있습니다. 오프라인 광고 교육 시나리오에서 하이브리드 배포 리소스를 사용하여 리소스 비용을 크게 절감할 수 있도록 매일 50W의 저렴한 코어 하이브리드 배포 리소스를 Tencent Advertising에 제공합니다. Tencent Advertising 오프라인 모델 교육은 리소스 비용을 30% 절감하고 일련의 최적화 방법을 통해 공동 배치된 리소스의 안정성을 일반 리소스와 동일하게 만듭니다.

1. 소개

최근에는 NLP 분야에서 대형 모델이 다양한 빅데이터 수주를 휩쓸면서 큰 성공을 거두면서 AI 분야에서도 빅데이터 플러스 모델이 모델링의 표준 패러다임으로 자리 잡았습니다. 검색, 광고 및 추천 모델링도 예외는 아닙니다. 수천억 개의 매개변수가 있는 T 크기 모델은 주요 예측 시나리오의 표준이 되었습니다. 또한 대규모 모델 기능은 주요 기술 간의 군비 경쟁의 초점이 되었습니다. 회사.

광고 장면에서 대형 모델은 더 많은 모델 매개변수를 사용하고 더 많은 훈련 데이터를 사용합니다. 모델은 더 강력한 기억력과 일반화 기능을 갖추고 있어 광고 효과를 향상할 수 있는 더 많은 공간이 확보됩니다. 그러나 훈련 과정에서 대형 모델에 필요한 리소스도 기하급수적으로 증가했으며, 저장 및 컴퓨팅 부담은 머신러닝 플랫폼에 큰 과제입니다. 동시에, 플랫폼이 지원할 수 있는 실험의 수는 알고리즘 반복 효율성에 직접적인 영향을 미칩니다. 어떻게 하면 더 낮은 비용으로 더 많은 실험 리소스를 제공할 수 있는지가 플랫폼의 노력의 초점입니다.

Tencent Taiji 기계 학습 플랫폼은 비용 절감 및 효율성 향상 솔루션을 지속적으로 탐색하고 있습니다. 오프라인 광고 교육 시나리오에서 하이브리드 배포 리소스를 사용하여 리소스 비용을 크게 절감할 수 있도록 매일 50W의 저렴한 코어 하이브리드 배포 리소스를 Tencent Advertising에 제공합니다. Tencent Advertising 오프라인 모델 교육은 리소스 비용을 30% 절감하고 일련의 최적화 방법을 통해 공동 배치된 리소스의 안정성을 일반 리소스와 동일하게 유지합니다.

2, Taiji 기계 학습 플랫폼 소개

Taiji 기계 학습 플랫폼은 사용자가 비즈니스 AI 문제 해결 및 응용에 더 집중할 수 있도록 최선을 다하고 있으며 원스톱 솔루션 알고리즘 엔지니어는 AI 응용 프로세스, 모델 교육, 모델 서비스 및 기타 엔지니어링 문제. 현재 사내 광고, 검색, 게임, 텐센트 컨퍼런스, 텐센트 클라우드 등 핵심 사업을 지원하고 있다.

Taiji Advertising Platform은 모델 훈련과 온라인 추론을 통합한 Taiji Advertising System이 설계한 고성능 기계 학습 플랫폼입니다. 이 플랫폼은 1000조 매개변수 모델의 훈련 및 추론 기능을 갖추고 있습니다. 현재 플랫폼은 Tencent 광고 회상, 대략적인 순위, 세부 순위, 수십 가지 모델 교육 및 온라인 추론을 동시에 지원하며 Taiji 플랫폼은 원스톱 기능 등록, 샘플 보충 녹음, 모델 교육, 모델 평가 및 온라인을 제공합니다. 테스트 기능이 크게 향상되어 개발자 효율성이 향상됩니다.

  • 훈련 플랫폼: 현재 모델 훈련은 CPU와 GPU의 두 가지 훈련 모드를 지원합니다. 자체 개발한 효율적인 연산자, 혼합 정밀도 훈련, 3D 병렬 처리 및 기타 기술을 사용하여 훈련 속도가 1배 향상됩니다. 업계의 오픈 소스 시스템 규모.
  • Inference Framework: Taiji가 자체 개발한 HCF(Heterogeneous Computing Framework) 이기종 컴퓨팅 프레임워크는 하드웨어 계층, 컴파일 계층 및 소프트웨어 계층의 공동 최적화를 통해 최고의 성능 최적화를 제공합니다.

3. 비용 최적화의 구체적인 구현

(1) 전체 솔루션 소개

Taiji 플랫폼의 지속적인 개발로 작업 수와 작업 유형이 증가하고 리소스 요구 사항이 증가합니다. 또한 증가하고 있습니다. 비용을 절감하고 효율성을 높이기 위해 태극권 플랫폼은 플랫폼 성능을 향상하고 훈련 속도를 높이는 한편, 증가하는 자원 수요를 충족하기 위해 더 저렴한 자원을 찾습니다.

Fengluan - Tencent의 내부 클라우드 네이티브 빅 데이터 플랫폼은 클라우드 네이티브 기술을 사용하여 회사의 전체 빅 데이터 아키텍처를 업그레이드합니다. 지속적으로 증가하는 빅 데이터 비즈니스의 리소스 수요를 충족하기 위해 Fengluan은 리소스 수요를 충족할 뿐만 아니라 리소스 비용을 크게 절감할 수 있는 코로케이션 리소스를 도입했습니다. Fengluan은 다양한 시나리오에서 코로케이션 리소스에 대한 일련의 솔루션을 제공하여 불안정한 코로케이션 리소스를 비즈니스에 투명한 안정적인 리소스로 전환합니다. Fengluan의 공동 배치 기능은 세 가지 유형의 공동 배치 리소스를 지원합니다.

  • 온라인 유휴 리소스를 재사용합니다. 온라인 리소스의 최고점과 최저점, 리소스 사용량의 과대평가, 클러스터 리소스 조각화로 인해 클러스터 리소스 활용도가 낮고 유휴 리소스가 많습니다. Fengluan은 이러한 임시 유휴 리소스를 활용하여 빅 데이터 작업을 실행하고 현재 이를 온라인 광고, 스토리지, 소셜 엔터테인먼트 및 게임과 같은 시나리오에 배포하고 있습니다.
  • 유연한 오프라인 리소스 대여. 빅 데이터 플랫폼의 일부 작업에는 낮 동안 빅 데이터 클러스터의 리소스 사용량이 적을 때 Fengluan은 일부 리소스의 일시적인 유연한 대출을 지원한 다음 이러한 리소스를 최고조에 도달하기 전에 회수합니다. 빅 데이터 클러스터가 도착합니다. 이 시나리오는 휴일 및 주요 프로모션 기간 동안 일시적으로 많은 양의 리소스가 필요한 온라인 작업 문제를 해결하는 데 매우 적합합니다. Fengluan은 현재 봄 축제 및 618과 같은 주요 휴일을 지원합니다.
  • 컴퓨팅 리소스를 재사용하세요. 컴퓨팅 리소스는 운모 머신의 유휴 리소스에서 저품질 ​​CVM 형태로 채굴됩니다. 소위 저품질 CVM은 운모 머신에서 더 낮은 CPU 우선 순위로 CVM 가상 머신을 시작하는 것을 의미합니다. 실시간으로 다른 가상 머신에 의해 선점됩니다. Fengluan은 기본 컴퓨팅 성능이 제공하는 리소스 정보를 기반으로 스케줄링, 과부하 보호 및 컴퓨팅 성능 마이그레이션과 같은 측면에서 많은 최적화를 수행했습니다. 현재 수백만 개의 코어가 있는 빅데이터 작업이 컴퓨팅 성능 리소스에서 안정적으로 실행되고 있습니다.

동시에 Fengluan은 클라우드 기반 가상 클러스터 기술을 도입하여 다양한 도시와 지역에서 오는 기본 공동 위치 리소스로 인해 발생하는 분산 특성을 보호합니다. Taiji 플랫폼은 다양한 기본 코로케이션 리소스에 해당하는 Fengluan 테넌트 클러스터에 직접 연결됩니다. 테넌트 클러스터는 독립적이고 완전한 클러스터 관점을 가지며 Taiji 플랫폼도 원활하게 연결될 수 있습니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

(2) 자원 코로케이션 솔루션

온라인 유휴 자원

Fengluan이 자체 개발한 Caelus의 전체 시나리오 오프라인 코로케이션 솔루션, 온라인 운영과 오프라인을 코로케이션 작업 이 방법은 온라인 시스템의 유휴 리소스를 완전히 활용하고, 온라인 시스템의 리소스 활용도를 향상시키며, 오프라인 작업의 리소스 비용을 줄입니다.

아래 그림과 같이 Caelus의 기본 아키텍처는 다양한 구성 요소와 모듈이 서로 협력하여 여러 측면에서 혼합 배포의 품질을 보장합니다.

먼저 Caelus는 온라인 운영의 서비스 품질을 전방위적으로 보장합니다. 이는 코로케이션의 중요한 전제 조건 중 하나이기도 합니다. 예를 들어 빠른 간섭 탐지 및 처리 메커니즘을 통해 적극적으로 감지합니다. 온라인 서비스의 품질을 적시에 처리하고 지원합니다. 플러그인 확장 방법은 전면적인 리소스 격리, 유연한 리소스 관리 전략 등을 통해 비즈니스의 특정 간섭 탐지 요구 사항을 지원하며 높은 수준을 보장합니다. 온라인 서비스 우선순위.

둘째, Caelus는 리소스 경쟁을 피하기 위해 공동 배치 리소스 및 오프라인 작업 초상화를 통해 적절한 리소스를 작업에 연결하고, 오프라인 작업 퇴거 전략을 최적화하고, 퇴거 우선 순위를 지정하고, 정상적인 종료를 지원하는 등 다양한 측면에서 오프라인 작업의 SLO를 보장합니다. , 전략은 유연하고 제어 가능합니다. 대부분 짧은 작업(몇 분 또는 몇 초)인 빅데이터 오프라인 작업과 달리 대부분의 태극권 작업은 실행하는 데 더 오랜 시간이 걸립니다(몇 시간 또는 며칠). 장기 리소스 예측 및 작업 초상화를 통해 실행 시간과 리소스 요구 사항이 서로 다른 작업에 적합한 리소스를 찾도록 일정을 더 잘 안내할 수 있으며 몇 시간 또는 며칠 동안 실행한 후 작업이 제거되어 작업 상태가 손실되는 것을 방지할 수 있습니다. 자원과 시간 낭비. 오프라인 작업을 제거해야 하는 경우 먼저 런타임 라이브 마이그레이션을 사용하여 작업 인스턴스를 한 시스템에서 다른 시스템으로 마이그레이션하는 동시에 메모리 상태와 IP를 변경하지 않고 작업에 거의 영향을 주지 않으므로 성능이 크게 향상됩니다. 작업 효율성. 코로케이션 리소스를 더 잘 활용하기 위해 Caelus는 더 많은 기능을 갖추고 있습니다. 자세한 내용은 Caelus의 전체 시나리오 오프라인 코로케이션 솔루션(​https://www.php.cn)을 참조하세요. /링크 /caaeb10544b465034f389991efc90877​).

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

조류 자원

빅 데이터 작업은 일반적으로 낮에는 상대적으로 적은 작업을 수행하고 밤에는 더 많은 작업을 수행합니다. Fengluan은 낮 동안 유휴 빅 데이터 리소스의 일부를 Taiji 플랫폼으로 전송합니다. 이 부분을 야간 자원으로 재활용하는데, 우리는 이 자원을 조수 자원이라고 부릅니다. Tidal 리소스의 특징은 노드의 빅데이터 작업이 거의 완전히 종료되었지만 빅데이터 저장 서비스인 HDFS는 여전히 노드에 유지되어 태극권 작업을 실행할 때 HDFS 서비스가 영향을 받지 않는다는 것입니다. Taiji 플랫폼이 조력 자원을 사용하는 경우 Fengluan 플랫폼과 합의해야 합니다. Fengluan 플랫폼은 고정된 시점의 과거 데이터를 기반으로 사전에 노드 배치를 검사하고 빅 데이터 작업이 정상적으로 종료됩니다. 새로운 노드가 합류했음을 Taiji 플랫폼에 알리면 Taiji 플랫폼이 시작됩니다. 테넌트 클러스터는 더 많은 작업을 제출합니다. 차용 시간이 도래하기 전에 Fengluan은 일부 노드를 재활용해야 한다고 Taiji 플랫폼에 알리고 Taiji 플랫폼은 순서대로 노드를 반환합니다.

아래 그림과 같이 조수자원의 발굴, 관리 및 이용에는 노동 분업과 여러 시스템의 협력이 필요합니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

  • 빅 데이터 자원 전송 시스템: 이 시스템은 각 기계의 다양한 작업 실행 조건과 과거 기간의 클러스터 운영 데이터를 기반으로 기계 학습 알고리즘을 기반으로 오프라인에 가장 적합한 기계 노드를 찾습니다. 특정 리소스 요구 사항을 충족하고 작업 실행에 미치는 영향을 최소화합니다. 그런 다음 이러한 노드에 대한 새 작업 예약을 금지하고 노드에서 실행 중인 작업의 실행이 완료될 때까지 기다려 빅 데이터 작업에 대한 영향을 최소화합니다.
  • Caelus 코로케이션 시스템: 전송 시스템에서 비워진 머신 리소스에서는 더 이상 빅데이터 작업이 실행되지 않지만 HDFS 서비스는 여전히 실행 중이며 데이터 읽기 및 쓰기 서비스가 제공됩니다. HDFS 서비스를 보호하기 위해 Caelus 코로케이션 시스템을 도입하여 HDFS를 온라인 서비스로 사용합니다. Caelus의 일련의 온라인 서비스 보증 방법(예: HDFS 핵심 지표를 통해 영향을 받는지 감지)을 통해 HDFS 서비스는 영향을 받지 않습니다.
  • 가상 클러스터를 통해 Tidal 리소스 사용: 이러한 전송된 기계 리소스는 Fengluan에 의해 균일하게 관리 및 예약되며 가상 클러스터 형태로 Taichi 플랫폼에 제공되어 K8S 기본 인터페이스를 제공합니다. 상위 플랫폼은 기본 리소스의 차이점을 보호하여 애플리케이션이 동일한 방식으로 리소스를 사용하도록 보장합니다.
  • 애플리케이션 계층 중단점 이력서 훈련과 연결: 조력 자원은 야간에 재활용되어 빅데이터 작업을 실행합니다. 재활용의 영향을 줄이기 위해 피크 및 응용 계층 중단점 이력서 교육 기능이 구현되었습니다. 교육을 중단하지 않고 자원 전환을 달성할 수 있으며 전환 후에도 비즈니스의 지속적인 운영은 영향을 받지 않습니다.

컴퓨팅 리소스

컴퓨팅 리소스의 특징은 비즈니스에 독점적인 CVM을 제공한다는 것입니다. 이는 비즈니스 측면에서 보다 친화적입니다. 그러나 컴퓨팅 리소스 사용의 어려움은 운모 머신 수준에서 품질이 낮은 CVM의 CPU 리소스가 언제든지 온라인 CVM에 의해 억제되어 컴퓨팅 리소스가 매우 불안정하다는 것입니다.

  • 컴퓨팅 머신이 불안정합니다. : 조각화로 인해 컴퓨팅 시스템이 불안정해집니다. 리소스 통합 및 컴퓨터실 전력 부족으로 인해 오프라인 상태가 되었습니다.
  • 컴퓨팅 리소스의 낮은 우선순위: 일반 CVM 머신의 서비스 품질이 영향을 받지 않도록 하기 위해 컴퓨팅 리소스에 대한 작업은 가장 낮은 우선순위를 가지며 무조건 고품질 리소스에 대한 작업을 제공하므로 결과적으로 극도로 불안정한 성능.
  • 높은 제거 빈도: 다양한 이유(컴퓨팅 리소스 성능 부족, 디스크 공간 부족, 디스크 정체 등)로 인해 포드의 활성 제거가 트리거되어 포드 실패 확률이 높아집니다.

컴퓨팅 파워 자원의 불안정성 문제를 해결하기 위해 피크 메인 제어 계층을 통해 다양한 기능을 확장하고, 컴퓨팅 파워 자원을 다방면에서 최적화하여 컴퓨팅 파워의 안정성을 향상시킵니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

① 리소스 초상화 및 예측: 다양한 기계 성능 지표를 탐색 및 수집하고, 집계 지표를 생성하고, 향후 최적 수준이 낮은 CVM의 사용 가능한 리소스를 예측합니다. 이 정보는 스케줄러에서 포드 및 일정을 예약하는 데 사용됩니다. 포드의 리소스 요구 사항을 충족하기 위해 포드를 제거하는 제거 구성 요소입니다.

② 일정 최적화: 태극권 운영의 서비스 품질을 보장하기 위해 작업 요구 사항과 리소스 특성을 기반으로 일정 전략에 많은 최적화가 있어 작업 성과가 향상됩니다. 2배 이상.

  • 도시 내 예약: 동일한 도시의 동일한 컴퓨터실에 PST 및 교육 작업을 예약하면 작업 인스턴스 간 네트워크 지연이 최소화되고, 동일한 도시 내 네트워크 대역폭 비용도 낮아져 비용이 절감됩니다.
  • 단일 머신 스케줄링 최적화: 리소스 예측 결과 및 CPU 스틸타임과 같은 지표를 결합하여 작업 성능이 더 나은 CPU를 선택하고 코어를 바인딩하여 작업 성능을 더 향상시킵니다.
  • 등급별 예약: 관리되는 모든 리소스에 자동으로 레이블을 지정하고 등급을 지정하며, Job Manager와 같이 재해 복구 요구 사항이 높은 작업을 비교적 안정적인 리소스로 자동 예약합니다.
  • 스케줄링 매개변수 조정: 리소스 초상화 및 예측 데이터를 기반으로 스케줄러는 작업에 대해 더 나은 성능과 안정성을 갖춘 노드의 우선 순위를 지정합니다. 또한, 일관성 없는 단계로 인한 계층 만료 문제를 해결하기 위해 동일한 작업의 인스턴스가 유사한 성능을 가진 머신에 예약됩니다

3 런타임 서비스 품질 보증

  • 런타임 열 도입 활성 퇴거 단계에서 마이그레이션, 비즈니스가 기본적으로 눈에 띄지 않도록: Pod 퇴거로 인한 리소스 불안정 및 애플리케이션 종료 문제를 처리하기 위해 런타임 핫 마이그레이션이 구현되고 다양한 핫 마이그레이션 전략이 제공됩니다. 다양한 시나리오의 요구 사항. 현재 온라인 데이터에 따르면 마이그레이션 우선 순위 전략을 사용할 때 메모리가 큰 컨테이너의 경우 실시간 마이그레이션 중단 시간이 10초 이상입니다. 또한 메모리 크기와 관계없이 일정한 인터럽트 시간을 구현했습니다(복구 우선 전략). 현재 매일 20,000개 이상의 Pod가 성공적으로 마이그레이션되고 있으며, 클러스터 간 핫 마이그레이션이 지원되어 제거로 인한 영향이 크게 줄어듭니다.
  • 제거 전략을 최적화하여 제거의 영향을 최소화합니다. 각 머신이 제거되면 이미 시작된 작업에 영향을 주지 않도록 제거 후에 시작된 포드에 우선순위가 부여됩니다. 단일 작업의 업스트림과 다운스트림이 동시에 제거되는 것을 방지하여 작업 수준 다시 시작을 유발하고 포드가 제거되면 상위 계층 Flink 프레임워크와 연결되어 빠른 단일 지점 복구를 위해 Flink에 사전에 알립니다.

4 셀프 피드백 최적화: 리소스 프로파일링을 통해 성능이 떨어지는 기계를 주기적으로 교체하고 기본 플랫폼과 연결하여 CVM을 원활하게 분리하여 봉우리와 산에 영향을 주지 않는 기회를 제공합니다. 비즈니스 애플리케이션 인스턴스를 하나씩 마이그레이션하여 인스턴스에 미치는 영향을 줄입니다.

⑤ Flink 레이어의 재해 복구 기능을 개선하고 단일 지점 재시작 및 계층적 스케줄링을 지원합니다.

TM(Task Manager) 단일 지점 재시작 기능은 전체 DAG 실패를 유발하는 작업 오류를 방지하고 더 나은 성능을 제공합니다. 컴퓨팅에 적응 강제 선점 기능이 있습니다. 계층적 스케줄링은 갱 스케줄링으로 인한 과도한 작업 대기를 방지하고 TM Pod의 과도한 적용 낭비를 방지합니다.

(3) 애플리케이션 계층 최적화 솔루션

비즈니스 내결함성

오프라인 교육 작업에 저렴한 리소스를 사용하기 위한 주요 전제 조건은 리소스에 대한 원래 작업의 정상적인 작동에 영향을 줄 수 없다는 것입니다. 코로케이션 리소스에는 다음과 같은 주요 과제가 있습니다.

  • 코로케이션 리소스의 대부분은 임시 리소스이며 자주 오프라인 상태가 됩니다.
  • 코로케이션 리소스는 무조건 고품질 리소스를 제공합니다. 결과적으로 머신 성능이 극도로 불안정해집니다.
  • 동일 배치 리소스 자동 제거 메커니즘은 노드와 포드의 실패 확률도 크게 높입니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

작업이 공동 배치된 리소스에서 안정적으로 실행될 수 있도록 하기 위해 플랫폼은 3단계 내결함성 전략을 사용합니다.

  • 핫 마이그레이션 기술: 작업 관리자가 제거되기 전에 미리 감지하여 해당 작업 관리자를 다른 포드로 마이그레이션하는 동시에 메모리 압축, 스트리밍 동시성, 클러스터 간 핫 마이그레이션 및 핫 마이그레이션의 성공을 지속적으로 최적화하는 기타 기능.
  • 작업 관리자 다시 시작: 작업의 작업 관리자가 예외 또는 제거로 인해 실패하면 전체 작업이 실패하지 않고 바로 종료됩니다. 대신 작업 관리자의 상태가 먼저 저장된 다음 작업 관리자가 저장됩니다. 다시 시작되므로 전체 작업이 실패할 확률이 줄어듭니다.
  • 작업 전체 복구: 비정상적인 Flink 상태로 인해 작업이 복구 불가능한 상태인 경우 Job Manager의 재시작이 트리거됩니다. Job Manager의 안정성을 보장하기 위해 플랫폼은 Job Manager를 다음 위치에 배포합니다. 안정성이 좋은 독립적인 위치. 리소스 측면에서 작업 상태가 정상인지 확인합니다.
  • 중단점에서 훈련 재개: 이전 내결함성 전략이 실패하면 플랫폼은 기록의 특정 ckpt를 기반으로 작업을 다시 시작합니다.

비즈니스 계층의 내결함성을 통해 코로케이션 리소스에서 실행되는 작업의 안정성이 초기 90% 미만에서 최종적으로 99.5%로 증가했습니다. 이는 기본적으로 실행 중인 작업의 안정성과 동일합니다. 일반 독점 자원에 대해.

작업 조수 일정

조수 자원 요구 사항에 따라 오프라인 훈련 작업은 낮에만 사용할 수 있고 밤에는 온라인 비즈니스용으로 제공되어야 합니다. 따라서 태극권 플랫폼은 자동으로 훈련을 시작해야 합니다. 낮에는 자원 가용성에 따라 작업을 수행하고, 밤에는 작업을 위해 대기 상태를 유지하고 동시에 해당 훈련 작업을 중지합니다. 동시에, 각 작업 스케줄링의 우선순위는 작업 관리 대기열을 통해 관리됩니다. 밤에 시작된 새로운 작업은 자동으로 대기열 상태로 들어가고 다음날 아침에 새로운 작업이 시작될 때까지 기다립니다.

태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습

핵심 과제:

  • 조수 현상: 낮에는 오프라인 작업을 위해 리소스를 제공할 수 있으며 밤에는 재활용해야 합니다.
  • 자원의 동적 변화: 낮에는 자원도 불안정하고 언제든지 변경됩니다. 일반적으로 아침에는 자원이 상대적으로 적다가 점차 증가하여 밤에 자원이 최고조에 이릅니다.

솔루션:

  • 리소스 인식 예약 전략: 아침에 리소스가 점차 증가함에 따라 조석 예약 서비스는 리소스 변경을 감지하고 리소스 상태에 대한 후속 조치를 취하여 지속적인 교육을 위한 작업을 시작해야 합니다.
  • 자동 모델 백업 기능: 밤에 리소스를 재활용하기 전에 현재 플랫폼에서 실행 중인 모든 작업을 점진적으로 백업해야 합니다. 이는 수백 가지 작업이 있기 때문에 플랫폼의 저장 공간과 대역폭에 큰 부담을 줍니다. 플랫폼에서 작업별 Cold Standby 크기는 수백 G에서 수 테라바이트에 이르며, 동시에 Cold Standby를 수행할 경우 수백 테라바이트의 데이터를 단시간에 전송하고 저장해야 합니다. 스토리지와 네트워크에 큰 어려움이 있으므로 합리적인 일정 계획 전략을 세우고 점진적으로 모델을 저장해야 합니다.
  • 지능형 리소스 예약 기능: 기존 교육과 비교하여 조석 예약은 밤에 자원 재활용을 위한 모델 백업과 작업이 매일 아침 새로 시작될 때 추가 오버헤드가 있습니다. 일정을 계획하려면 같은 날에 완료할 수 있는 작업과 여러 날 동안 실행해야 하는 작업을 평가해야 합니다. 당일 완료.

이러한 최적화를 통해 작업이 조력 자원에서 안정적으로 실행되고 기본적으로 비즈니스 계층을 인식하지 못하도록 할 수 있습니다. 동시에 작업 실행 속도는 크게 영향을 받지 않으며 작업 시작 및 중지 일정으로 인해 발생하는 추가 오버헤드는 10% 이내로 제어됩니다.

4. 온라인 효과 및 향후 전망

Tai Chi의 오프라인 하이브리드 배포 최적화 솔루션은 Tencent 광고 오프라인 모델 연구 및 30W 코어 전천후 하이브리드 배포 리소스와 20W 코어 조력 리소스를 제공합니다. 광고 회상, 대략적인 레이아웃, 미세 레이아웃 다중 시나리오 모델 교육을 지원하기 위해 매일 교육합니다. 리소스 비용 측면에서 동일한 계산 부하를 갖는 작업의 경우 하이브리드 배포의 리소스 비용은 일반 리소스의 70%입니다. 최적화 후 시스템 안정성과 물리적 클러스터 작업 성공률은 기본적으로 동일합니다.

향후에는 하이브리드 컴퓨팅 리소스의 사용, 특히 하이브리드 컴퓨팅 리소스의 적용을 계속 늘릴 예정이며, 다른 한편으로는 회사의 온라인 비즈니스가 GPU 기반으로 전환되고 있습니다. 기존 CPU 리소스 외에 혼합 리소스를 적용하여 오프라인 교육 중에 온라인 GPU 리소스도 사용하려고 합니다.

오늘의 나눔은 여기까지입니다. 모두 감사합니다.

위 내용은 태극권 기반 Tencent 광고 모델의 교육 비용 최적화 실습의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP의 빅데이터 구조 처리 능력 PHP의 빅데이터 구조 처리 능력 May 08, 2024 am 10:24 AM

빅 데이터 구조 처리 기술: 청킹(Chunking): 데이터 세트를 분할하고 청크로 처리하여 메모리 소비를 줄입니다. 생성기: 전체 데이터 세트를 로드하지 않고 데이터 항목을 하나씩 생성하므로 무제한 데이터 세트에 적합합니다. 스트리밍: 파일을 읽거나 결과를 한 줄씩 쿼리하므로 대용량 파일이나 원격 데이터에 적합합니다. 외부 저장소: 매우 큰 데이터 세트의 경우 데이터를 데이터베이스 또는 NoSQL에 저장합니다.

C++ 개발 경험 공유: C++ 빅데이터 프로그래밍 실무 경험 C++ 개발 경험 공유: C++ 빅데이터 프로그래밍 실무 경험 Nov 22, 2023 am 09:14 AM

인터넷 시대에 빅데이터는 새로운 자원으로 자리 잡았으며, 빅데이터 분석 기술의 지속적인 발전으로 인해 빅데이터 프로그래밍에 대한 수요가 더욱 절실해지고 있습니다. 널리 사용되는 프로그래밍 언어로서 빅 데이터 프로그래밍에서 C++의 고유한 장점은 점점 더 두드러지고 있습니다. 아래에서는 C++ 빅데이터 프로그래밍에 대한 실제 경험을 공유하겠습니다. 1. 적절한 데이터 구조 선택 적절한 데이터 구조를 선택하는 것은 효율적인 빅데이터 프로그램을 작성하는 데 중요한 부분입니다. C++에는 배열, 연결 목록, 트리, 해시 테이블 등과 같이 사용할 수 있는 다양한 데이터 구조가 있습니다.

2024년 AEC/O 산업의 5가지 주요 개발 동향 2024년 AEC/O 산업의 5가지 주요 개발 동향 Apr 19, 2024 pm 02:50 PM

AEC/O(Architecture, Engineering & Construction/Operation)는 건설 산업 분야에서 건축 설계, 엔지니어링 설계, 시공 및 운영을 제공하는 종합 서비스를 말합니다. 2024년 AEC/O 산업은 기술 발전으로 인해 변화하는 도전에 직면하게 될 것입니다. 올해는 첨단 기술이 집약되어 ​​설계, 시공, 운영의 패러다임 전환을 예고하는 해가 될 것으로 예상됩니다. 이러한 변화에 대응하여 업계에서는 빠르게 변화하는 세계의 요구 사항에 적응하기 위해 작업 프로세스를 재정의하고 우선 순위를 조정하며 협업을 강화하고 있습니다. AEC/O 산업의 다음 5가지 주요 트렌드는 2024년 핵심 주제가 될 것이며, 더욱 통합되고 대응력이 뛰어나며 지속 가능한 미래로 나아갈 것을 권장합니다. 통합 공급망, 스마트 제조

58 초상화 플랫폼 구축에 알고리즘 적용 58 초상화 플랫폼 구축에 알고리즘 적용 May 09, 2024 am 09:01 AM

1. 58초상화 플랫폼 구축 배경 먼저, 58초상화 플랫폼 구축 배경에 대해 말씀드리겠습니다. 1. 기존 프로파일링 플랫폼의 전통적인 사고로는 더 이상 충분하지 않습니다. 사용자 프로파일링 플랫폼을 구축하려면 여러 비즈니스 라인의 데이터를 통합하여 정확한 사용자 초상화를 구축하는 데이터 웨어하우스 모델링 기능이 필요합니다. 그리고 알고리즘 측면의 기능을 제공해야 하며, 마지막으로 사용자 프로필 데이터를 효율적으로 저장, 쿼리 및 공유하고 프로필 서비스를 제공할 수 있는 데이터 플랫폼 기능도 있어야 합니다. 자체 구축한 비즈니스 프로파일링 플랫폼과 중간 사무실 프로파일링 플랫폼의 주요 차이점은 자체 구축한 프로파일링 플랫폼이 단일 비즈니스 라인에 서비스를 제공하고 필요에 따라 사용자 정의할 수 있다는 것입니다. 모델링하고 보다 일반적인 기능을 제공합니다. 2.58 Zhongtai 초상화 구성 배경의 사용자 초상화

Go 언어에서 빅데이터 프레임워크가 부족한 이유와 해결 방법에 대한 토론 Go 언어에서 빅데이터 프레임워크가 부족한 이유와 해결 방법에 대한 토론 Mar 29, 2024 pm 12:24 PM

오늘날 빅데이터 시대에 데이터 처리 및 분석은 다양한 산업 발전에 중요한 지원 요소가 되었습니다. 개발 효율성이 높고 성능이 뛰어난 프로그래밍 언어로서 Go 언어는 점차 빅데이터 분야에서 주목을 받고 있습니다. 그러나 Go 언어는 Java, Python 등 다른 언어에 비해 빅데이터 프레임워크에 대한 지원이 상대적으로 부족하여 일부 개발자에게 어려움을 초래했습니다. 이 글에서는 Go 언어에서 빅데이터 프레임워크가 부족한 주된 이유를 살펴보고, 그에 따른 솔루션을 제안하고, 구체적인 코드 예제를 통해 이를 설명하겠습니다. 1. 언어로 이동

AI, 디지털 트윈, 시각화... 2023년 Yizhiwei 가을 제품 출시 컨퍼런스의 하이라이트! AI, 디지털 트윈, 시각화... 2023년 Yizhiwei 가을 제품 출시 컨퍼런스의 하이라이트! Nov 14, 2023 pm 05:29 PM

Yizhiwei의 2023년 가을 제품 출시가 성공적으로 마무리되었습니다! 컨퍼런스의 주요 내용을 함께 살펴보겠습니다! 1. 지능적 포용적 개방성, 디지털 트윈의 생산성 향상 Kangaroo Cloud의 공동 창업자이자 Yizhiwei의 CEO인 Ning Haiyuan은 개회 연설에서 다음과 같이 말했습니다. 올해 회사 전략 회의에서 우리는 제품 연구 개발의 주요 방향을 다음과 같이 정했습니다. '지능형 포괄 개방성' '3대 핵심역량', '지능형 포괄 개방성' 3대 핵심 키워드에 초점을 맞춰 '디지털 트윈을 생산력으로 만든다'는 개발 목표를 더 제시했다. 2. EasyTwin: 사용하기 쉬운 새로운 디지털 트윈 엔진 탐색 1. 0.1에서 1.0까지 디지털 트윈 퓨전 렌더링 엔진을 계속 탐색하여 성숙한 3D 편집 모드, 편리한 대화형 청사진 및 대규모 모델 자산을 갖춘 더 나은 솔루션을 제공합니다.

시작 가이드: Go 언어를 사용하여 빅 데이터 처리 시작 가이드: Go 언어를 사용하여 빅 데이터 처리 Feb 25, 2024 pm 09:51 PM

오픈 소스 프로그래밍 언어로서 Go 언어는 최근 몇 년 동안 점차적으로 광범위한 관심과 사용을 받아 왔습니다. 단순성, 효율성 및 강력한 동시 처리 기능으로 인해 프로그래머가 선호합니다. 빅데이터 처리 분야에서도 Go 언어는 강력한 잠재력을 갖고 있으며, 대용량 데이터를 처리하고 성능을 최적화하며 다양한 빅데이터 처리 도구 및 프레임워크와 잘 통합될 수 있습니다. 본 글에서는 Go 언어의 빅데이터 처리에 대한 몇 가지 기본 개념과 기법을 소개하고, 구체적인 코드 예시를 통해 Go 언어를 사용하는 방법을 보여드리겠습니다.

C++ 기술의 빅데이터 처리: 인메모리 데이터베이스를 사용하여 빅데이터 성능을 최적화하는 방법은 무엇입니까? C++ 기술의 빅데이터 처리: 인메모리 데이터베이스를 사용하여 빅데이터 성능을 최적화하는 방법은 무엇입니까? May 31, 2024 pm 07:34 PM

빅 데이터 처리에서 인메모리 데이터베이스(예: Aerospike)를 사용하면 컴퓨터 메모리에 데이터를 저장하고 디스크 I/O 병목 현상을 제거하며 데이터 액세스 속도를 크게 높이기 때문에 C++ 애플리케이션의 성능을 향상시킬 수 있습니다. 실제 사례에서는 인메모리 데이터베이스를 사용할 때의 쿼리 속도가 하드 디스크 데이터베이스를 사용할 때보다 몇 배 더 빠른 것으로 나타났습니다.

See all articles