ChatGPT의 천정부지 가격과 초계산 비결을 공개합니다! 수만 대의 Nvidia A100은 Microsoft에서 수억 달러의 비용을 발생시킵니다.

WBOY
풀어 주다: 2023-04-12 12:40:02
앞으로
1005명이 탐색했습니다.

ChatGPT는 오늘날 전 세계적으로 인기를 끄는 최고의 모델이 될 수 있으며, 그 뒤에는 슈퍼 컴퓨팅 파워가 필수적입니다.

데이터에 따르면 ChatGPT의 총 컴퓨팅 전력 소비량은 약 3640PF일입니다(즉, 초당 1000조 번 계산하면 계산하는 데 3640일이 걸립니다).

그렇다면 Microsoft가 OpenAI를 위해 특별히 제작한 슈퍼컴퓨터는 어떻게 탄생했을까요?

월요일, Microsoft는 공식 블로그에 두 개의 기사를 연속으로 게시했습니다. 이 기사는 초고가 슈퍼컴퓨터와 Azure의 주요 업그레이드를 개인적으로 해독하여 수천 개의 NVIDIA의 가장 강력한 H100 그래픽 카드와 더 빠른 InfiniBand 네트워크 상호 연결 기술을 추가했습니다.

이를 바탕으로 Microsoft는 최신 ND H100 v5 가상 머신도 공식 발표했습니다. 구체적인 사양은 다음과 같습니다.

  • 8 NVIDIA H100 Tensor Core GPU는 차세대 NVSwitch 및 NVLink 4.0을 통해 상호 연결됩니다.
  • 각 GPU에는 VM당 3.2Tb/s 비차단 팻 트리 네트워킹을 갖춘 400Gb/s NVIDIA Quantum-2 CX7 InfiniBand가 있습니다.
  • VM당 8개의 로컬 GPU 사이에 NVSwitch 및 NVLink 4.0 3.6TB/s 양방향 대역폭을 제공합니다.
  • 4세대 Intel Xeon 확장 가능 프로세서
  • GPU당 64GB/s 대역폭으로 GPU에 대한 PCIE Gen5 상호 연결
  • 16채널 4800MHz DDR5 DIMM
  • 수억 달러에 달하는 컴퓨팅 성능

약 5년 전 OpenAI는 인간과 컴퓨터의 상호 작용 방식을 영원히 바꿀 수 있는 인공 지능 시스템을 구축하겠다는 대담한 아이디어를 Microsoft에 제안했습니다.

당시에는 AI가 순수한 언어를 사용하여 인간이 설명하는 모든 그림을 만들 수 있고, 인간이 챗봇을 사용하여 시, 가사, 논문, 이메일, 메뉴 등을 작성할 수 있다는 뜻이라고는 누구도 생각하지 못했습니다. …

이 시스템을 구축하려면 OpenAI에 엄청난 규모의 컴퓨팅 성능, 즉 초대형 계산을 실제로 지원할 수 있는 컴퓨팅 성능이 필요합니다.

하지만 문제는 Microsoft가 그것을 할 수 있느냐는 것입니다.

결국 당시에는 OpenAI의 요구 사항을 충족할 수 있는 하드웨어가 없었고, Azure 클라우드 서비스에 이렇게 거대한 슈퍼컴퓨터를 구축하면 시스템이 직접 충돌할지도 확실하지 않았습니다.

이후 Microsoft는 어려운 탐색 기간을 시작했습니다.

ChatGPT의 천정부지 가격과 초계산 비결을 공개합니다! 수만 대의 Nvidia A100은 Microsoft에서 수억 달러의 비용을 발생시킵니다.

Microsoft의 Azure 고성능 컴퓨팅 및 인공 지능 제품 책임자인 Nidhi Chappell(왼쪽)과 Microsoft의 전략적 파트너십 수석 이사인 Phil Waymouth(오른쪽)

슈퍼컴퓨터 구축 OpenAI 프로젝트를 지원하는 이 회사는 Azure 클라우드 컴퓨팅 플랫폼에서 수만 개의 Nvidia A100 칩을 함께 연결하고 서버 랙을 개편하는 데 수억 달러를 지출했습니다.

또한 이 슈퍼컴퓨팅 플랫폼을 OpenAI에 맞게 조정하기 위해 Microsoft는 매우 헌신적이며 OpenAI의 요구 사항에 세심한 주의를 기울이고 AI 교육 시 가장 중요한 요구 사항을 파악하고 있습니다.

이런 큰 프로젝트의 비용은 얼마인가요? 마이크로소프트의 클라우드 컴퓨팅 및 인공지능 담당 부사장인 스캇 거스리(Scott Guthrie)는 정확한 금액을 공개하지 않았지만 “아마도 수억 달러 이상일 것”이라고 말했다.

OpenAI의 문제점

Microsoft의 전략적 파트너십 담당 임원인 Phil Waymouth는 OpenAI 훈련 모델에 필요한 클라우드 컴퓨팅 인프라의 규모가 업계에서 전례가 없는 수준이라고 지적했습니다.

업계의 어느 누구도 구축하려고 시도한 것 이상으로 네트워크 GPU 클러스터 크기가 기하급수적으로 증가하고 있습니다.

마이크로소프트가 OpenAI와 협력을 결정한 이유는 전례 없는 규모의 인프라가 역사를 바꾸고, 새로운 AI, 새로운 프로그래밍 플랫폼을 만들어 고객에게 실제로 존재하는 제품과 서비스를 제공할 것이라고 굳게 믿기 때문입니다. 그들의 이익을 위해 봉사하십시오.

이제 이 수억 달러가 분명히 낭비되지 않은 것 같습니다. 내기가 옳았습니다.

이 슈퍼컴퓨터에서 OpenAI가 훈련할 수 있는 모델은 점점 더 강력해지고 있으며, 이를 통해 인류의 4차 산업혁명을 거의 시작하게 된 ChatGPT가 탄생했습니다.

매우 만족한 Microsoft는 1월 초 OpenAI에 100억 달러를 추가로 투자했습니다.

ChatGPT의 천정부지 가격과 초계산 비결을 공개합니다! 수만 대의 Nvidia A100은 Microsoft에서 수억 달러의 비용을 발생시킵니다.

AI 슈퍼컴퓨팅의 한계를 뛰어넘으려는 마이크로소프트의 야심은 성과를 거두었다고 할 수 있습니다. 그 이면에는 실험실 연구에서 AI 산업화로의 전환이 반영된다.

현재 Microsoft의 사무용 소프트웨어 제국이 형성되기 시작했습니다.

ChatGPT 버전의 Bing은 휴가 계획을 검색하는 데 도움이 될 수 있습니다. Viva Sales의 챗봇은 마케팅 담당자가 이메일을 작성하는 데 도움이 될 수 있습니다. GitHub Copilot은 개발자가 계속해서 코드를 작성하는 데 도움이 되며 OpenAI의 대규모 언어 모델에 액세스하고 Azure의 엔터프라이즈급 기능에 액세스하세요.

ChatGPT의 천정부지 가격과 초계산 비결을 공개합니다! 수만 대의 Nvidia A100은 Microsoft에서 수억 달러의 비용을 발생시킵니다.

Nvidia와 협력

실제로 작년 11월 Microsoft는 Nvidia와 협력하여 "세계에서 가장 강력한 AI 슈퍼컴퓨터 중 하나"를 구축하겠다고 공식 발표했습니다. AI 훈련 및 확장.

이 슈퍼컴퓨터는 수만 개의 Nvidia H100 및 A100 Tensor Core GPU와 Quantum-2 InfiniBand 네트워크 플랫폼을 사용하는 Microsoft의 Azure 클라우드 인프라를 기반으로 합니다.

Nvidia는 성명에서 이 슈퍼컴퓨터를 사용하여 DALL-E 및 Stable Diffusion과 같은 생성 AI 모델을 연구하고 가속화할 수 있다고 밝혔습니다.

ChatGPT의 천정부지 가격과 초계산 비결을 공개합니다! 수만 대의 Nvidia A100은 Microsoft에서 수억 달러의 비용을 발생시킵니다.

AI 연구자들이 더 복잡한 AI 워크로드를 처리하기 위해 더 강력한 GPU를 사용하기 시작하면서 다양한 언어 작업을 동시에 처리할 수 있을 만큼 뉘앙스를 잘 이해할 수 있는 AI 모델의 더 큰 잠재력을 확인했습니다.

간단히 말하면, 모델이 클수록, 보유하는 데이터가 많을수록, 학습 기간이 길어질수록 모델의 정확도가 높아집니다.

그러나 이러한 더 큰 모델은 곧 기존 컴퓨팅 리소스의 한계에 도달하게 됩니다. 그리고 Microsoft는 OpenAI에 필요한 슈퍼컴퓨터가 어떤 모습이고 크기가 얼마나 커야 하는지 잘 알고 있습니다.

이것은 단순히 GPU를 여러 개 구입하여 함께 연결한 다음 함께 작업을 시작할 수 있다는 의미는 아닙니다.

Microsoft의 Azure 고성능 컴퓨팅 및 인공 지능 제품 책임자인 Nidhi Chappell은 다음과 같이 말했습니다. “우리는 더 큰 모델이 더 오랫동안 훈련할 수 있도록 해야 합니다. 즉, 가장 큰 인프라가 필요할 뿐만 아니라

Azure 글로벌 인프라 이사인 Alistair Speirs는 Microsoft가 모든 기계와 칩을 냉각할 수 있는지 확인해야 한다고 말했습니다. 예를 들어 더 시원한 기후에서는 외부 공기를 사용하고 더 더운 기후에서는 첨단 증발식 냉각기를 사용하는 것이 있습니다.

또한 모든 머신이 동시에 시작되기 때문에 Microsoft는 머신의 배치와 전원 공급 장치도 고려해야 합니다. 주방에서 전자레인지, 토스터기, 진공청소기를 동시에 켜면 일어날 수 있는 일과 같지만, 데이터센터 버전이다.

대규모 AI 훈련

이러한 혁신을 달성하는 열쇠는 무엇입니까?

과제는 처리량이 높고 대기 시간이 짧은 InfiniBand 네트워크에서 상호 연결된 수만 개의 공동 배치 GPU를 구축, 운영 및 유지 관리하는 방법입니다.

이 규모는 GPU 및 네트워크 장비 공급업체의 테스트 범위를 훨씬 뛰어넘은 것으로, 전혀 알 수 없는 영역입니다. 이 규모에서 하드웨어가 파손될지는 아무도 모릅니다.

Microsoft Azure의 고성능 컴퓨팅 및 인공 지능 제품 책임자인 Nidhi Chappell은 LLM의 교육 과정에서 관련된 대규모 계산이 일반적으로 클러스터의 수천 개의 GPU로 나누어진다고 설명했습니다.

allreduce라는 단계에서 GPU는 자신이 수행하는 작업에 대한 정보를 교환합니다. 이때 다음 계산 블록이 시작되기 전에 GPU가 계산을 완료할 수 있도록 InfiniBand 네트워크를 통해 가속을 수행해야 합니다.

Nidhi Chappell은 이러한 노력이 수천 개의 GPU에 걸쳐 있기 때문에 인프라의 안정성을 보장하는 것 외에도 최고의 성능을 달성하려면 수많은 시스템 수준 최적화가 필요하며 이는 여러 세대에 걸쳐 요약되었다고 말했습니다. 경험에서.

소위 시스템 수준 최적화에는 GPU 및 네트워크 장비를 효과적으로 활용할 수 있는 소프트웨어가 포함됩니다.

지난 몇 년 동안 Microsoft는 수십조 개의 매개변수를 사용하여 모델을 학습하는 능력을 향상시키는 동시에 프로덕션에서 이러한 모델을 교육하고 제공하는 데 드는 비용을 줄이기 위해 이 기술을 개발했습니다.

Waymouth는 Microsoft와 파트너도 점진적으로 GPU 클러스터의 용량을 늘리고 InfiniBand 네트워크를 개발하며 냉각 시스템, 무정전 전원을 포함하여 GPU 클러스터 실행을 유지하는 데 필요한 데이터 센터 인프라를 얼마나 멀리 밀어붙일 수 있는지 확인하고 있다고 지적했습니다. 공급 시스템 및 백업 생성기.

Microsoft AI Platform의 기업 부사장인 Eric Boyd는 대규모 언어 모델 훈련과 차세대 AI 혁신에 최적화된 이러한 종류의 슈퍼컴퓨팅 성능이 이미 Azure 클라우드 서비스에서 직접 사용 가능하다고 말했습니다.

그리고 Microsoft는 OpenAI와의 협력을 통해 많은 경험을 축적했습니다. 다른 파트너가 와서 동일한 인프라를 원할 경우 Microsoft에서도 이를 제공할 수 있습니다.

현재 Microsoft의 Azure 데이터 센터는 전 세계 60개 이상의 지역을 포괄하고 있습니다.

새로운 가상 머신: ND H100 v5

위 인프라에서 Microsoft는 지속적으로 개선해 왔습니다.

오늘 Microsoft는 최신 NVIDIA H100 Tensor Core GPU와 NVIDIA Quantum-2 InfiniBand 네트워크를 통합하는 대규모 확장이 가능한 새로운 가상 머신을 공식 발표했습니다.

가상 머신을 통해 Microsoft는 모든 AI 작업의 규모에 맞게 확장되는 인프라를 고객에게 제공할 수 있습니다. Microsoft에 따르면 Azure의 새로운 ND H100 v5 가상 머신은 개발자에게 수천 개의 GPU를 호출하면서 뛰어난 성능을 제공합니다.

참조: https://www.php.cn/link/a7bf3f5462cc82062e41b3a2262e1a21

위 내용은 ChatGPT의 천정부지 가격과 초계산 비결을 공개합니다! 수만 대의 Nvidia A100은 Microsoft에서 수억 달러의 비용을 발생시킵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿