대규모 AI 모델의 경우 Tencent Cloud가 자체 개발한 Xingmai 고성능 컴퓨팅 네트워크를 처음으로 완전히 공개했습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

대규모 AI 모델의 경우 Tencent Cloud가 자체 개발한 Xingmai 고성능 컴퓨팅 네트워크를 처음으로 완전히 공개했습니다.

王林

Jun 28, 2023 pm 02:19 PM

AI 대형 모델 고성능 컴퓨팅 자체 개발 네트워크

AIGC의 발생은 컴퓨팅 성능 문제를 가져올 뿐만 아니라 네트워크에 전례 없는 수요를 가져옵니다.

6월 26일 Tencent Cloud는 자체 개발한 Xingmai 고성능 컴퓨팅 네트워크를 처음으로 완전히 공개했습니다. Xingmai 네트워크는 업계 최고의 3.2T 통신 대역폭을 갖추고 있어 GPU 활용도를 40% 높이고 30%~60%를 절약할 수 있습니다. 훈련 비용으로 인해 대규모 AI 모델의 통신 성능이 10배 향상됩니다. Tencent Cloud의 차세대 컴퓨팅 클러스터 HCC는 100,000개 이상의 카드에 달하는 거대한 컴퓨팅 규모를 지원할 수 있습니다.

Tencent Cloud 부사장 Wang Yachen은 다음과 같이 말했습니다. "Xingmai Network는 대형 모델을 위해 탄생했습니다. Xingmai Network가 제공하는 넓은 대역폭, 높은 활용도 및 제로 패킷 손실을 갖춘 고성능 네트워크 서비스는 컴퓨팅 성능 병목 현상을 극복하고 추가 출시하는 데 도움이 될 것입니다. AI 잠재력을 활용하여 기업 대규모 모델의 교육 효율성을 종합적으로 향상하고 클라우드에서 대규모 모델 기술의 반복적 업그레이드 및 구현을 가속화합니다.”

대형 모델 전용 고성능 네트워크를 구축하고 GPU 활용도를 40% 높입니다

AIGC의 인기로 인해 대규모 AI 모델 매개변수의 수가 수억에서 수조로 급증했습니다. 대용량 데이터의 대규모 훈련을 지원하기 위해 다수의 서버가 고속 네트워크를 통해 컴퓨팅 클러스터를 형성하고 상호 연결되어 함께 훈련 작업을 완료합니다.

반대로, GPU 클러스터가 클수록 추가 통신 손실도 커집니다. 클러스터가 크다고 해서 컴퓨팅 파워가 크다는 의미는 아닙니다. AI 대형 모델의 시대는 높은 대역폭 요구 사항, 높은 활용도 및 정보 무손실을 포함하여 네트워크에 심각한 문제를 가져왔습니다.

기존의 저속 네트워크 대역폭은 훈련 과정에서 수천억 또는 수조 개의 매개변수가 있는 대형 모델을 만족시킬 수 없습니다. 통신 비율은 최대 50%에 달할 수 있습니다. 동시에 기존 네트워크 프로토콜은 쉽게 네트워크 정체, 높은 대기 시간 및 패킷 손실로 이어질 수 있으며, 네트워크 패킷 손실의 0.1%만으로도 컴퓨팅 성능이 50% 손실되어 궁극적으로 컴퓨팅 성능 리소스가 심각하게 낭비될 수 있습니다.

Tencent Cloud는 포괄적인 자체 연구 역량을 바탕으로 스위치, 통신 프로토콜, 통신 라이브러리 및 운영 체제 분야에서 소프트웨어 및 하드웨어 업그레이드와 혁신을 수행했으며 업계 최고의 대형 모델 전용 고성능 네트워크를 최초로 출시했습니다. 싱마이 네트워크.

대규모 AI 모델의 경우 Tencent Cloud가 자체 개발한 Xingmai 고성능 컴퓨팅 네트워크를 처음으로 완전히 공개했습니다.

하드웨어 측면에서 Xingmai Network는 Tencent의 네트워크 R&D 플랫폼을 기반으로 하며 모든 자체 개발 장비를 사용하여 상호 연결 기반을 구축하여 자동화된 배포 및 구성을 달성합니다.

소프트웨어 측면에서 Tencent Cloud가 자체 개발한 TiTa 네트워크 프로토콜은 고급 혼잡 제어 및 관리 기술을 채택하여 실시간으로 네트워크 혼잡을 모니터링 및 조정할 수 있고, 다수의 서버 노드 간의 통신 요구를 충족하며 원활한 데이터 교환을 보장합니다. 높은 부하에서 제로 패킷 손실을 달성하여 클러스터 통신 효율성을 90% 이상 달성합니다.

또한 Tencent Cloud는 Xingmai 네트워크용 고성능 집단 통신 라이브러리 TCCL을 설계하고 이를 맞춤형 솔루션에 통합하여 시스템이 마이크로초 수준의 네트워크 품질 인식을 실현할 수 있도록 했습니다. 동적 스케줄링 메커니즘을 사용하여 통신 채널을 합리적으로 할당함으로써 네트워크 문제로 인한 훈련 중단을 효과적으로 방지하고 통신 지연을 40%까지 줄일 수 있습니다.

네트워크 가용성도 전체 클러스터의 컴퓨팅 안정성을 결정합니다. Xingmai 네트워크의 고가용성을 보장하기 위해 Tencent Cloud는 엔드 투 엔드 풀 스택 네트워크 운영 시스템을 개발했습니다. 엔드 네트워크 3차원 모니터링 및 지능형 위치 확인 시스템을 통해 엔드 네트워크 문제를 자동으로 구분하고 분석하여 전반적인 장애 해결 시간을 일 단위로 단축할 수 있습니다. 개선 후 대규모 모델 훈련 시스템의 전체 배포 시간이 4.5일로 단축되어 기본 구성의 정확도가 100% 보장됩니다.

3세대에 걸친 기술 발전을 거쳐 소프트웨어와 하드웨어의 통합을 깊이 연구하고 육성해 왔습니다

Xingmai 네트워크의 전반적인 업그레이드 이면에는 Tencent 데이터 센터 네트워크의 3세대 기술 진화의 결과가 있습니다.

대규모 AI 모델의 경우 Tencent Cloud가 자체 개발한 Xingmai 고성능 컴퓨팅 네트워크를 처음으로 완전히 공개했습니다.

Tencent 개발 초기에는 데이터 센터 네트워크 트래픽은 주로 사용자가 데이터 센터 서버에 액세스하기 위한 남북 트래픽으로 구성되었습니다. 네트워크 아키텍처는 주로 액세스, 집계 및 송신을 기반으로 했습니다. 이 단계에서는 상용 네트워크 장비를 주로 사용하여 표준화된 데이터 센터 네트워크를 구축했으며, 이를 통해 QQ 온라인 사용자 수는 1억 명 이상 증가하고 서버 규모는 10만 개 이상 증가했습니다.

빅 데이터와 클라우드 컴퓨팅의 등장으로 서버 간의 동서 트래픽이 점차 증가했으며 클라우드 테넌트에서는 네트워크에 대한 가상화 및 격리 요구 사항이 생겼습니다. 데이터 센터 네트워크 아키텍처는 남북 및 동서 트래픽을 모두 전달하는 클라우드 네트워크 아키텍처로 점차 발전했습니다. Tencent Cloud는 초대형 데이터 센터 네트워크를 만들기 위해 완전히 자체 개발한 네트워크 장비 및 관리 시스템을 구축했습니다. 약 2백만 대의 서버를 보유하고 있습니다.

Tencent Cloud는 대규모 AI 모델의 요구 사항을 충족하기 위해 중국에서 최초로 고성능 컴퓨팅 네트워크를 출시했으며 동서 및 남북 트래픽을 위한 분리 아키텍처를 채택했습니다. AI 훈련 트래픽의 특성을 충족하는 초대형 대역폭의 독립적인 네트워크 아키텍처를 구축했으며, 자체 개발한 소프트웨어 및 하드웨어 시설과 협력하여 전체 시스템의 독립적인 제어 가능성을 달성하고 슈퍼 컴퓨팅의 새로운 네트워크 성능 요구를 충족합니다. 힘.

최근 Tencent Cloud는 Xingmai 고성능 네트워크를 기반으로 하는 차세대 HCC 고성능 컴퓨팅 클러스터를 출시했습니다. 이는 3.2T의 초고 상호 연결 대역폭을 달성할 수 있으며 컴퓨팅 성능은 이전보다 3배 더 높습니다. AI 대규모 모델 훈련을 위해 구축된 안정적인 고성능 네트워크 기반입니다.

앞으로도 Tencent Cloud는 다양한 산업의 디지털 및 지능적 변혁을 위한 강력한 기술 지원을 제공하기 위해 기본 기술의 연구 및 개발에 지속적으로 투자할 것입니다.

위 내용은 대규모 AI 모델의 경우 Tencent Cloud가 자체 개발한 Xingmai 고성능 컴퓨팅 네트워크를 처음으로 완전히 공개했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7569

Cakephp 튜토리얼

1386

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

107

Related knowledge

대형 AI 모델은 매우 비싸며 대기업과 슈퍼 부자만이 성공적으로 플레이할 수 있습니다. Apr 15, 2023 pm 07:34 PM

ChatGPT 화재는 또 다른 AI 열풍을 불러일으켰습니다. 그러나 업계에서는 일반적으로 AI가 대형 모델 시대에 진입하면 대형 AI 모델을 만드는 데 비용이 많이 들기 때문에 대기업과 슈퍼 부자만이 AI를 감당할 수 있다고 생각합니다. . 첫 번째는 계산 비용이 많이 든다는 것입니다. 토론토 대학교 마케팅 교수인 Avi Goldfarb는 "회사를 시작하고 대규모 언어 모델을 직접 개발하고 직접 계산하려면 비용이 너무 높습니다. OpenAI는 매우 비싸서 수십억 달러의 비용이 듭니다." ." 렌탈 컴퓨팅은 확실히 그럴 것입니다. 훨씬 저렴하지만 기업은 여전히 AWS와 다른 기업에 비싼 수수료를 지불해야 합니다. 둘째, 데이터 비용이 비싸다. 훈련 모델에는 엄청난 양의 데이터가 필요하며, 데이터를 쉽게 사용할 수 있는 경우도 있고 그렇지 않은 경우도 있습니다. CommonCrawl 및 LAION과 같은 데이터는 무료입니다.

AI 중심의 데이터 거버넌스 시스템을 구축하는 방법은 무엇입니까? Apr 12, 2024 pm 02:31 PM

최근에는 신기술 모델의 등장과 다양한 산업에서의 응용 시나리오의 가치가 연마되고, 대용량 데이터의 축적으로 인한 제품 효과가 향상되면서 소비, 인터넷 등의 분야에서 인공지능 응용이 방사되고 있습니다. 제조업, 에너지, 전기 등 전통산업에 설계, 조달, 생산, 관리, 판매 등 경제 생산 활동의 주요 연결고리에서 다양한 산업 분야 기업의 인공지능 기술 및 적용 성숙도가 지속적으로 향상되고 있으며, 모든 연결고리에서 인공지능의 구현 및 적용 범위가 가속화되고 있습니다. 산업 상태를 개선하거나 운영 효율성을 최적화하고 자체 장점을 더욱 확장하기 위해 점차적으로 주요 사업과 통합합니다. 인공 지능 기술의 혁신적인 응용 프로그램의 대규모 구현은 빅 데이터 지능 시장의 활발한 발전을 촉진했으며 기본 데이터 거버넌스 서비스에 시장 활력을 불어넣었습니다. 빅데이터, 클라우드 컴퓨팅, 컴퓨팅으로

대중 과학: AI 대형 모델이란 무엇입니까? Jun 29, 2023 am 08:37 AM

AI 대형 모델은 대규모 데이터와 강력한 컴퓨팅 능력을 활용해 훈련한 인공지능 모델을 말한다. 이러한 모델은 일반적으로 높은 정확도와 일반화 능력을 갖고 있어 자연어 처리, 이미지 인식, 음성 인식 등 다양한 분야에 적용될 수 있습니다. 대규모 AI 모델을 훈련하려면 많은 양의 데이터와 컴퓨팅 리소스가 필요하며 일반적으로 훈련 프로세스를 가속화하려면 분산 컴퓨팅 프레임워크를 사용해야 합니다. 이러한 모델의 훈련 과정은 매우 복잡하며 데이터 분포, 기능 선택, 모델 구조 등에 대한 심층적인 연구와 최적화가 필요합니다. AI 대형 모델은 광범위한 응용 분야를 갖추고 있으며 스마트 고객 서비스, 스마트 홈, 자율 주행 등 다양한 시나리오에서 사용할 수 있습니다. 이러한 애플리케이션에서 AI 대형 모델은 사람들이 다양한 작업을 보다 빠르고 정확하게 완료하고 작업 효율성을 향상시키는 데 도움이 될 수 있습니다.

Redis 및 TypeScript를 사용하여 고성능 컴퓨팅 기능을 개발하는 방법 Sep 20, 2023 am 11:21 AM

Redis 및 TypeScript를 사용하여 고성능 컴퓨팅 기능을 개발하는 방법 개요: Redis는 고성능과 확장성을 갖춘 오픈 소스 인메모리 데이터 구조 스토리지 시스템입니다. TypeScript는 유형 시스템과 더 나은 개발 도구 지원을 제공하는 JavaScript의 상위 집합입니다. Redis와 TypeScript를 결합하면 대규모 데이터 세트를 처리하고 Redis의 메모리 저장 및 컴퓨팅 기능을 최대한 활용할 수 있는 효율적인 컴퓨팅 기능을 개발할 수 있습니다. 이 기사에서는 다음 방법을 보여줍니다.

AI를 위해 탄생: 삼성은 2025년에 HBM4 비디오 메모리를 생산해 고성능 컴퓨팅 분야의 선두 자리를 놓고 경쟁할 것이라고 밝혔습니다. Oct 13, 2023 pm 02:17 PM

최근 몇 년 동안 AI 컴퓨팅 성능이 급격히 증가하면서 컴퓨팅 카드는 주요 하드웨어 제조업체의 새로운 인기 타깃이 되었습니다. 특히 NVIDIA가 삼성을 비롯한 강력한 GPU를 출시하는 것 외에도 NVIDIA와 같은 회사에서 출시한 컴퓨팅 카드는 공급이 부족합니다. 하이닉스, 하이닉스 등 스토리지 제조사들은 이번 AI 향연을 놓치고 싶지 않다. 특히 자사가 생산하는 고성능 그래픽 메모리를 필요로 하는 고성능 컴퓨팅 카드는 현재 삼성 스토리지 분야 고위 간부가 다음과 같은 문건을 내놨다. 삼성전자는 2025년 최신 메모리를 양산할 예정이다. HBM4 비디오 메모리로 하이닉스를 제친다. 2016년 삼성은 공식적으로 HBM 비디오 메모리 양산을 시작했습니다. GDDR 비디오 메모리와 비교하여 HBM 비디오 메모리는 더 큰 대역폭을 가지므로 더 높은 성능의 전송을 달성합니다. 소비자 시장에서는 AMD의 라데온

대규모 AI 모델 시대, 새로운 데이터 저장 기반으로 교육, 과학 연구의 디지털 지능 전환 촉진 Jul 21, 2023 pm 09:53 PM

AIGC(Generative AI)는 일반 인공지능(AI)의 새로운 시대를 열었습니다. 대형 모델을 중심으로 한 경쟁은 더욱 치열해졌습니다. 컴퓨팅 인프라가 경쟁의 주요 초점이 되었으며, 권력의 각성은 점점 더 업계의 합의가 되었습니다. 새로운 시대에는 대규모 모델이 단일 양식에서 다중 양식으로 이동하고 매개변수 및 교육 데이터 세트의 크기가 기하급수적으로 증가하며 동시에 대규모 비정형 데이터에는 고성능 혼합 로드 기능의 지원이 필요합니다. 데이터 집약적 새로운 패러다임이 인기를 얻고 있으며, 슈퍼컴퓨팅, 고성능 컴퓨팅(HPC)과 같은 애플리케이션 시나리오가 점점 더 심화되고 있습니다. 기존 데이터 스토리지 기반은 계속해서 업그레이드되는 요구 사항을 더 이상 충족할 수 없습니다. 컴퓨팅 파워, 알고리즘, 데이터가 인공지능 발전을 이끄는 '트로이카'라면, 외부 환경의 거대한 변화 속에서 이 세 가지가 시급히 역동성을 되찾아야 한다.

Vivo, 자체 개발한 범용 AI 모델 '블루 하트 모델' 출시 Nov 01, 2023 pm 02:37 PM

Vivo는 11월 1일 2023 개발자 컨퍼런스에서 자체 개발한 일반 인공지능 대형 모델 매트릭스인 Blue Heart 모델을 공개했습니다. Vivo는 Blue Heart 모델이 각각 서로 다른 매개변수 수준을 가진 5개 모델을 출시할 것이라고 발표했습니다. 여기에는 세 가지 수준의 매개변수가 포함되어 있습니다. : 10억, 수백억, 수천억의 핵심 시나리오를 다루며, 모델 역량은 업계 선두 위치에 있습니다. Vivo는 좋은 자체 개발 대형 모델은 대규모, 포괄적인 기능, 강력한 알고리즘, 안전하고 신뢰할 수 있는, 독립적인 진화라는 다섯 가지 요구 사항을 충족해야 하며 널리 오픈 소스여야 한다고 믿습니다. 그 중 내용은 다음과 같습니다. 첫 번째는 블루하트 모델인 모델 7B로, 이는 휴대폰과 클라우드의 듀얼 서비스를 제공하도록 설계된 70억대 모델이다. Vivo는 이 모델이 언어 이해, 텍스트 생성 등의 분야에 사용될 수 있다고 말했습니다.

인간의 두뇌와 관련하여, 망각하는 법을 배우면 대형 AI 모델이 더 좋아질까요? Mar 12, 2024 pm 02:43 PM

최근 컴퓨터 과학자 팀은 기존의 대규모 언어 모델에서는 볼 수 없는 기능인 알려진 정보를 주기적으로 잊어버리는 기능을 갖춘 보다 유연하고 탄력적인 기계 학습 모델을 개발했습니다. 실제 측정에 따르면 많은 경우 "망각 방법"이 훈련에 매우 효율적이며 망각 모델이 더 잘 수행되는 것으로 나타났습니다. 기초과학연구원의 권재아 AI 엔지니어는 “이번 연구는 AI 분야에서 상당한 진전을 의미한다”고 말했다. '망각법' 훈련 효율은 현재 주류 AI 언어 엔진의 대부분이 인공 신경망 기술을 사용하고 있다. 이 네트워크 구조의 각 "뉴런"은 실제로 수학적 기능으로 서로 연결되어 정보를 수신하고 전송합니다.

See all articles

대규모 AI 모델의 경우 Tencent Cloud가 자체 개발한 Xingmai 고성능 컴퓨팅 네트워크를 처음으로 완전히 공개했습니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제