저자: Chen Wei 박사, 스토리지 및 컴퓨팅/GPU 아키텍처 및 AI 전문가, 수석 전문직. 중관촌 클라우드 컴퓨팅 산업 연합, 중국 광학 공학 협회 전문가, 국제 컴퓨터 연맹(ACM) 회원, 중국 컴퓨터 연맹(CCF) 전문 회원. 그는 한때 AI 회사의 수석 과학자이자 주요 메모리 칩 제조업체의 3D NAND 설계 책임자를 역임했습니다. 그의 주요 업적에는 국내 최초의 고전력 재구성 가능한 스토리지 및 컴퓨팅 프로세서 제품 아키텍처(프로토타입 내부 테스트 완료)가 포함됩니다. 주요 인터넷 제조업체), 최초의 의료용 도메인별 AI 프로세서(이미 적용), 최초의 RISC-V/x86/ARM 플랫폼 호환 AI 가속 컴파일러(이미 Alibaba Pingtouge/Xinlai와 협력하여 적용), 중국 최초의 3D NAND 칩 아키텍처 및 디자인 팀이 설립되었고(삼성 벤치마킹) 중국 최초의 임베디드 플래시 메모리 컴파일러(TSMC 벤치마킹 및 플랫폼 수준에 적용됨)가 탄생했습니다.
2022년 9월 마지막 날, 테슬라의 인공지능의 날, 테슬라의 '옵티머스 프라임' 로봇이 공식 데뷔했습니다. Tesla 엔지니어에 따르면 2022년 인공지능의 날은 Tesla 로봇이 외부 지원 없이 '출시'된 첫 번째 사례입니다. "라며 늠름하게 걸으며 관객들에게 일대일로 인사를 건넸다. 약간의 움직임이 둔한 점을 제외하고는 모든 것이 매우 자연스럽습니다.
Tesla는 사무실 주변에서 로봇이 "일하는" 영상을 선보입니다. 옵티머스 프라임이라는 로봇은 물건을 나르고, 식물에 물을 주고, 한동안 공장에서 자율적으로 일하기도 했습니다. 테슬라는 "우리의 목표는 유용한 휴머노이드 로봇을 가능한 한 빨리 만드는 것"이라며 "로봇을 2만 달러 미만, 즉 테슬라의 전기차보다 저렴하게 만드는 것이 목표"라고 덧붙였다.
테슬라 로봇이 이렇게 강력한 이유는 테슬라 자체의 AI 기술 축적뿐만 아니라, 주로 테슬라가 자체 개발한 강력한 AI 칩 덕분입니다. 이 AI 칩은 GPU는 물론이고 전통적인 CPU도 아닌 복잡한 AI 계산에 더 적합한 형태다.
D1 프로세서와 기타 자율주행/로봇 프로세서 비교
테슬라가 자체 제작 칩을 사용하는 이유는 GPU가 딥 러닝 훈련을 처리하도록 특별히 설계되지 않았기 때문에 컴퓨팅 작업에서 GPU가 상대적으로 비효율적이기 때문입니다. Tesla와 Dojo(Dojo는 훈련 모듈의 이름이자 커널 아키텍처의 이름입니다)의 목표는 "최고의 AI 훈련 성능을 달성하는 것입니다. 더 크고 복잡한 신경망 모델을 활성화하여 높은 에너지 효율성과 비용을 달성합니다." 효율성." 컴퓨팅." 테슬라의 기준은 미래에 GPU를 사용할 필요가 없도록 다른 어떤 컴퓨터보다 인공지능 컴퓨팅에 뛰어난 컴퓨터를 만드는 것입니다.
슈퍼컴퓨터 구축의 핵심은 높은 대역폭(어려움)과 낮은 대기 시간(매우 어려움)을 유지하면서 컴퓨팅 성능을 확장하는 방법입니다. Tesla가 제공하는 솔루션은 강력한 칩과 고유한 그리드 구조로 구성된 분산형 2D 아키텍처(평면) 또는 데이터 흐름 Near-Memory 컴퓨팅 아키텍처입니다.
Tesla 컴퓨팅 장치의 계층적 구분
계층적 구분에 따르면 모든 354개의 Dojo 코어가 D1 칩을 형성하고 모든 25개의 칩이 훈련 모듈을 구성합니다. 최종 120개의 훈련 모듈은 총 3,000개의 D1 칩으로 구성된 ExaPOD 컴퓨팅 클러스터 세트를 구성합니다.
Tesla Dojo 칩 훈련 모듈은 6개 GPU 서버 그룹의 성능을 달성할 수 있지만 비용은 단일 GPU 서버 그룹보다 저렴합니다. 단일 Dojo 서버의 컴퓨팅 성능은 54PFLOPS에 달했습니다. 단 4개의 Dojo 캐비닛으로 4,000개의 GPU로 구성된 72개의 GPU 랙을 대체할 수 있습니다. Dojo는 일반적으로 몇 달이 걸리는 AI 컴퓨팅(훈련) 작업을 1주일로 줄여줍니다. 이런 '큰 컴퓨팅 파워가 기적을 낳을 수 있다'는 것은 테슬라의 자율주행 스타일과 일맥상통한다. 분명히 이 칩은 Tesla의 AI 기술 발전을 크게 가속화할 것입니다.
물론 이 칩 모듈은 아직 "완벽한" 수준에 도달하지 못했습니다. 데이터 흐름 근거리 컴퓨팅이라는 아이디어를 채택했지만 컴퓨팅 성능과 에너지 효율성 비율은 이를 초과하지 않습니다. GPU. 단일 서버는 전류가 2000A에 달할 정도로 막대한 전력을 소비하므로 특별히 맞춤화된 전원 공급 장치가 필요합니다. Tesla D1 칩은 이미 니어 메모리 컴퓨팅 아키텍처의 구조적 한계입니다. Tesla가 "인 메모리 컴퓨팅" 또는 "인 메모리 로직" 아키텍처를 채택한다면 아마도 칩 성능이나 에너지 효율성 비율이 크게 향상될 것입니다.
Tesla Dojo 칩 서버는 12개의 Dojo 교육 모듈(2개 레이어, 레이어당 6개)로 구성됩니다.
Dojo 코어는 높은 처리량과 4개의 디코딩 코어를 갖춘 8개의 디코딩 코어입니다. 웨이 매트릭스 컴퓨팅 장치(8x8) 및 1.25MB의 로컬 SRAM. 그러나 Dojo 코어의 크기는 크지 않습니다. 이에 비해 Fujitsu의 A64FX는 동일한 프로세스 노드에서 두 배 이상의 영역을 차지합니다.
Dojo 코어의 구조를 통해 일반 AI 프로세서에 대한 Tesla의 설계 철학을 볼 수 있습니다.
Tesla와 Musk에게 Dojo는 도장처럼 모양과 배치가 다를 뿐만 아니라 도장의 정신과도 밀접한 관련이 있는 디자인 철학으로 "적을수록 좋다"라는 프로세서 디자인 미학을 완벽하게 구현합니다.
먼저 각 도장의 구조와 특징을 살펴보겠습니다.
각 Dojo 코어는 벡터 계산/행렬 계산 기능을 갖춘 프로세서이며 완전한 명령 가져오기, 디코딩 및 실행 구성 요소를 갖추고 있습니다. Dojo 코어는 GPU보다 다양한 알고리즘과 분기 코드에 더 잘 적응할 수 있는 CPU와 유사한 스타일을 가지고 있습니다. D1의 명령어 세트는 RISC-V와 유사합니다. 프로세서는 2GHz에서 실행되며 4개의 8x8 행렬 곱셈 계산 장치 세트가 있습니다. 또한 AI 계산 가속화에 초점을 맞춘 사용자 정의 벡터 지침 세트도 있습니다.
RISC-V 분야에 익숙한 사람들은 아마도 Tesla의 Dojo 아키텍처 다이어그램의 색 구성표가 Berkeley의 BOOM 프로세서 아키텍처 다이어그램에 경의를 표하는 것처럼 보인다는 것을 알 수 있을 것입니다. 상단은 노란색, 하단은 녹색, 하단은 보라색입니다. 바닥. Tesla Dojo Core와 Berkeley Boom/IBM Cell Core
2.1 D1 Core 전체 아키텍처 핵심 구조 (파란색 부품이 추가/수정 됨) 세부 사항 간의 비교. )
현재 아키텍처 다이어그램으로 판단하면 Dojo 코어는 프런트 엔드, 실행 장치, SRAM 및 NoC 라우팅의 4개 부분으로 구성됩니다. CPU 및 GPU보다 제어 구성 요소가 적습니다. GPU와 유사한 아이디어입니다. Tensor 코어의 매트릭스 컴퓨팅 장치입니다.Dojo의 핵심 구조는 BOOM보다 더 간소화되어 실행 구성 요소의 활용도를 높이기 위한 Rename과 같은 구성 요소가 없으며 가상 메모리 지원도 어렵습니다. 그러나 이 설계의 장점은 제어부가 차지하는 면적을 줄이고, 칩 상의 계산 실행부에 더 많은 영역을 할당할 수 있다는 점이다. 각 Dojo 코어는 1.024TFLOPS의 컴퓨팅 성능을 제공합니다. 각각의 거의 모든 컴퓨팅 성능이 매트릭스 컴퓨팅 장치에 의해 제공된다는 것을 알 수 있습니다. 따라서 매트릭스 컴퓨팅 유닛과 SRAM은 D1 프로세서의 컴퓨팅 에너지 효율 비율을 공동으로 결정합니다.
Dojo 코어의 주요 매개변수
BTB는 성공한 분기 명령어의 주소와 분기 대상 주소를 버퍼에 저장합니다. 버퍼는 분기 명령어의 주소로 식별됩니다. 파이프라인 프로세서에서 분기의 성능 저하는 분기 경로를 예측하고 분기에서 사용하는 정보를 캐싱하여 줄일 수 있습니다.
일반 CPU가 다양한 작업을 수행할 때 메모리(또는 SRAM)에서 데이터를 가져오는 데 필요한 메모리 주소를 계산해야 합니다. 예를 들어, CPU 코어가 실제 메모리 위치에서 데이터를 가져오기 전에 배열 요소의 메모리 위치를 계산해야 합니다. 이러한 주소 생성 계산에는 덧셈, 뺄셈, 모듈로 산술 또는 비트 이동과 같은 다양한 정수 산술 연산이 포함됩니다. 메모리 주소 계산은 여러 일반 기계 명령어를 컴파일하거나 Tesla Dojo와 같은 AGU 하드웨어 회로를 통해 직접 실행할 수 있습니다. 이러한 방식으로 다양한 주소 생성 계산을 ALU에서 오프로드하여 AI 계산을 수행하는 데 필요한 CPU 사이클 수를 줄여 컴퓨팅 성능을 향상시킬 수 있습니다.
Intel Nehalem 아키텍처는 AGU를 사용하여 단일 주기 주소 액세스 효율성을 향상합니다.
Dojo 코어의 연결 방법은 IBM Cell 프로세서의 SPE 코어 연결 방법과 더 유사합니다. 주요 유사점은 다음과 같습니다.
2.2 컴퓨팅 코어 매트릭스 컴퓨팅 장치 및 온칩 스토리지
Dojo 아키텍처의 컴퓨팅 성능 향상의 핵심은 매트릭스 컴퓨팅 장치입니다. 매트릭스 컴퓨팅 장치와 코어 SRAM 간의 데이터 상호 작용은 주요 코어 데이터 전송 전력 소비를 구성합니다.테슬라 매트릭스 컴퓨팅 유닛의 해당 특허는 아래와 같습니다. 이 모듈의 핵심 구성 요소는 8x8 행렬-행렬 곱셈 장치(그림에서는 행렬 계산기라고 함)입니다. 입력은 데이터 입력 배열이고, 가중치 입력 배열은 행렬 곱셈을 계산한 후 직접 누적됩니다. 각 Dojo 코어에는 4방향 8x8 행렬 곱셈 장치가 포함되어 있습니다.
테슬라 매트릭스 컴퓨팅 장치 특허
아키텍처 다이어그램에는 L1 캐시와 SRAM이 하나만 있으므로 Tesla가 캐시 영역을 절약하고 대기 시간을 줄이기 위해 RISC-V 캐시 구조를 간소화했다는 것은 대담한 추측입니다. 코어당 1.25MB SRAM 블록은 SIMD 및 매트릭스 컴퓨팅 장치에 대한 2x512비트 읽기(AI 계산의 가중치 및 데이터에 해당) 및 512비트 쓰기 대역폭은 물론 정수에 대한 64비트 읽기 및 쓰기 기능을 제공할 수 있습니다. 등록 파일. 계산의 주요 데이터 흐름은 SRAM에서 SIMD 및 행렬 곱셈 장치로 이어집니다.
행렬 계산 장치의 주요 처리 흐름은 다음과 같습니다.
SRAM에서 멀티플렉서(Mux)를 통해 가중치 입력 배열(Weight 입력 배열)로 가중치를 로드하고, SRAM에서 데이터 입력 배열(데이터 입력)로 데이터를 로드합니다. 정렬).
입력 데이터와 가중치는 행렬 계산기(행렬 계산 장치)에서 곱해집니다(내적 또는 외부 곱?).
곱셈 계산 결과는 출력 누산기(Output 누산기)로 출력되어 누산됩니다. 여기서 계산할 때 8x8을 초과하는 행렬 계산은 행렬 분할 및 접합을 통해 수행할 수 있습니다.
누적된 출력은 캐시용 후처리기 레지스터 파일로 전달된 후 후처리됩니다(활성화, 풀링, 패딩 등의 작업 수행 가능).
전체 계산 과정은 CPU 개입 없이 컨트롤 유닛(Control Unit)에 의해 직접 제어됩니다.
실행 장치와 SRAM/NoC 간의 데이터 상호 작용
Dojo 코어 내의 SRAM은 읽기 및 쓰기 대역폭이 매우 크며 400GB/초로 로드하고 270GB/초로 로드할 수 있습니다. 쓰기 속도. Dojo 코어 명령어 세트에는 NoC를 통해 라우팅되는 전용 네트워크 전송 명령어가 있어 D1 칩 또는 Dojo 교육 모듈에 있는 다른 코어의 SRAM 메모리 안팎으로 데이터를 직접 이동할 수 있습니다.
일반 SRAM과 달리 Dojo의 SRAM에는 목록 파서 엔진과 수집 엔진이 포함되어 있습니다. 목록 구문 분석 기능은 D1 칩의 주요 기능 중 하나입니다. 목록 구문 분석 엔진은 전송 효율성을 향상시키기 위해 다양한 데이터 유형의 복잡한 전송 시퀀스를 패키징할 수 있습니다.
리스트 파싱 기능
작업 지연, 면적, 복잡성을 더욱 줄이기 위해 D1은 가상 메모리를 지원하지 않습니다. 일반 프로세서에서는 프로그램이 사용하는 메모리 주소가 물리 메모리 주소에 직접 접근하지 않고, 운영체제가 설정한 페이징 구조를 이용해 CPU에서 물리 주소로 변환된다.
D1 코어에서 4방향 SMT 기능은 계산에서 명시적인 병렬 처리를 허용하여 AGU를 단순화하고 Tesla가 충분히 짧은 지연 시간으로 SRAM에 액세스할 수 있도록 하는 계산 방법을 처리합니다. 장점은 중간 L1 데이터 캐싱을 피할 수 있다는 것입니다. 지연 시간.
D1 프로세서 명령어 세트
D1은 RISC-V 아키텍처의 명령어를 참조하고 일부 명령어, 특히 벡터 계산과 관련된 명령어를 사용자 정의합니다.
D1 명령어 세트는 64비트 스칼라 명령어 및 64바이트 SIMD 명령어, 동기화 프리미티브를 사용한 네트워크 전송 및 기계 학습/딥 러닝(예: 8x8 행렬 계산)과 관련된 특수 프리미티브를 지원합니다.
네트워크 데이터 전송 및 동기화 프리미티브 측면에서 로컬 스토리지(SRAM)에서 원격 스토리지로 데이터를 전송하기 위한 명령어 프리미티브(Primitives)는 물론 세마포어(Semaphore) 및 장벽 제약 조건(Barrier Constraints)을 지원합니다. 이를 통해 D1은 멀티스레딩을 지원할 수 있으며 메모리 작업 명령은 여러 D1 코어에서 실행될 수 있습니다.
기계 학습 및 딥 러닝을 위해 Tesla는 셔플, 전치, 변환과 같은 수학적 연산은 물론 확률론적 반올림 및 패딩 관련 지침을 포함한 지침을 정의합니다.
D1 코어에는 FP32와 FP16이라는 두 가지 표준 계산 형식이 있으며 추론에 더 적합한 BFP16 형식도 있습니다. 혼합 정밀도 컴퓨팅의 성능 향상을 달성하기 위해 D1은 낮은 정밀도와 높은 처리량을 위해 8비트 CFP8 형식도 사용합니다.
CFP8을 사용하면 더 많은 승수 공간을 절약하여 거의 동일한 컴퓨팅 성능을 얻을 수 있다는 점은 D1의 컴퓨팅 성능 밀도를 높이는 데 매우 유용합니다.
Dojo 컴파일러는 가수 정밀도를 슬라이드하여 더 넓은 범위와 정밀도를 포괄할 수 있습니다. 언제든지 최대 16개의 서로 다른 벡터 형식을 사용할 수 있어 컴퓨팅 성능을 높일 수 있는 유연성을 제공합니다.
D1 프로세서 데이터 형식
Tesla에서 제공한 정보에 따르면 CFP8은 행렬 곱셈 장치(CFP16 형식으로 저장됨) 내부 계산에 사용할 수 있습니다.
D1 프로세서는 TSMC에서 제조하며 7나노미터 제조 공정을 사용합니다. 500억 개의 트랜지스터와 645mm²의 칩 면적을 갖추고 있으며 이는 NVIDIA의 A100(826mm²) 및 AMD Arcturus(750mm²)보다 작습니다. .
D1 프로세서 구조
각 D1 프로세서는 18 x 20 Dojo 코어 스플라이싱으로 구성됩니다. 각 D1 프로세서에는 354개의 Dojo 코어가 있습니다. (360개의 코어 중 354개만 사용하는 이유는 수율 및 프로세서별 코어 안정성을 고려한 것입니다.) TSMC에서 7nm 제조 공정을 사용하여 500억 개의 트랜지스터와 645mm²의 칩 면적으로 제조됩니다.
각 Dojo 코어에는 기본 무게와 데이터 저장 장치로 1.25MB SRAM이 있습니다. 서로 다른 Dojo 코어는 온칩 네트워크 라우팅(NoC 라우팅)을 통해 연결되며, 서로 다른 Dojo 코어는 데이터 캐시를 공유하는 대신 복잡한 NoC 네트워크를 통해 데이터 동기화를 수행합니다. NoC는 각 방향에서 클록 주기당 64B로 노드 경계를 가로질러 4개 방향(남동쪽, 북서쪽)으로 8개의 패킷을 처리할 수 있습니다. 즉, 인접한 각 Dojo 코어의 네 방향 모두에서 메시로 들어오는 패킷 하나와 나가는 패킷 하나입니다. NoC 라우터는 또한 사이클당 한 번씩 코어 내의 SRAM에 64B 양방향 읽기 및 쓰기를 수행할 수 있습니다.
D1 프로세서 내의 교차 프로세서 전송 및 작업 분할
각 Dojo 코어는 매트릭스 컴퓨팅 기능을 갖춘 비교적 완전한 CPU와 유사한 클래스입니다(각 코어에는 별도의 매트릭스 컴퓨팅 장치가 있으므로) , 프론트엔드가 비교적 작기 때문에 여기서는 CPU와 유사하다고 합니다.) 데이터 흐름 아키텍처는 SambaNova의 2차원 데이터 흐름 그리드 구조와 다소 유사하며, 데이터는 메모리로 돌아가지 않고 직접 흐릅니다.
D1 칩은 2GHz에서 실행되며 440MB의 거대한 SRAM을 갖추고 있습니다. Tesla는 컴퓨팅 그리드의 분산 SRAM에 설계를 집중하여 더 빠르고 더 가까운 다수의 온칩 스토리지와 온칩 스토리지 간의 전송을 통해 메모리에 대한 액세스 빈도를 줄여 전체 시스템의 성능을 향상시킵니다. 데이터 흐름 저장 및 컴퓨팅 통합 아키텍처(데이터 흐름 근접 메모리 컴퓨팅)의 분명한 특징을 가지고 있습니다.
각 D1 칩에는 576개의 양방향 SerDes 채널이 분산되어 있으며 4TB/초의 단일 측 대역폭으로 다른 D1 칩에 연결할 수 있습니다.
D1 프로세서 칩의 주요 매개변수
각 D1 훈련 모듈은 5x5 D1 칩 배열로 배열됩니다. 차원 메쉬 구조. 온칩 크로스 코어 SRAM은 무려 11GB에 달하고, 전력 소모도 무려 15kW에 달합니다. 에너지 효율 비율은 0.6TFLOPS/W@BF16/CFP8입니다. (제가 잘못 계산했으면 좋겠습니다. 그렇지 않으면 이 에너지 효율 비율은 실제로 이상적이지 않습니다.) 외부 32GB 공유 HBM 메모리. (HBM2e 또는 HBM3)
테슬라 D1 프로세서의 특허받은 방열 구조
Tesla는 전용 전력 조절 모듈(VRM)과 방열 구조를 사용하여 전력 소비를 관리합니다. 여기에는 전력 소비 관리의 두 가지 주요 목적이 있습니다.
불필요한 전력 손실을 줄이고 에너지 효율을 향상시킵니다.
열 변형으로 인한 프로세서 모듈 고장을 줄입니다.
Tesla의 특허에 따르면 전력 조절 모듈이 칩 자체에 수직임을 알 수 있습니다. 이는 프로세서 평면이 차지하는 면적을 크게 줄이고 액체 냉각을 통해 프로세서 온도의 균형을 빠르게 맞출 수 있습니다.
Tesla D1 프로세서의 특허받은 방열 및 패키징 구조
트레이닝 모듈은 InFO_SoW(Silicon on Wafer) 패키징을 사용하여 칩 간의 상호 연결 밀도를 높입니다. 이 패키지는 TSMC의 INFO_SoW 기술 외에도 Tesla의 자체 기계 패키징 구조를 사용하여 프로세서 모듈의 오류를 줄입니다.
각 교육 모듈의 외부 가장자리에 있는 40개의 I/O 칩은 36TB/s의 총 대역폭 또는 10TB/s의 스팬 대역폭을 달성합니다. 교육 모듈의 각 레이어는 초고속 스토리지 시스템에 연결됩니다. 640GB의 실행 메모리는 18TB/s 이상의 대역폭과 1TB/s 이상의 네트워크 스위칭 대역폭을 제공할 수 있습니다.
데이터 전송 방향은 칩 평면과 평행하고, 전원 공급 장치와 액체 냉각 방향은 칩 평면과 수직입니다. 이것은 매우 아름다운 구조 설계이며 다양한 교육 모듈을 상호 연결할 수 있습니다. 3차원 구조를 통해 칩 모듈의 전원 공급 면적을 절약하고 컴퓨팅 칩 간의 거리를 최대한 줄인다.
A Dojo POD 캐비닛은 2개 층의 컴퓨팅 트레이와 보관 시스템으로 구성됩니다. 각 팔레트 레벨에는 6개의 D1 교육 모듈이 있습니다. 2층에 걸쳐 12개의 교육 모듈로 구성된 캐비닛은 108PFLOPS의 딥 러닝 컴퓨팅 성능을 제공할 수 있습니다.
Dojo 모듈 및 Dojo POD 캐비닛
슈퍼컴퓨팅 플랫폼의 열 방출은 항상 슈퍼컴퓨팅 시스템의 수준을 측정하는 중요한 차원이었습니다.
D1 칩의 열 설계 능력
Tesla는 Dojo POD에서 완전히 자체 개발한 VRM(전압 조절 모듈)을 사용합니다. 단일 VRM은 52V 전압과 1000A를 초과하는 엄청난 전류를 제공할 수 있으며 현재 목표는 0.86입니다. 총 12개의 독립적인 전원 공급 장치 위상을 갖춘 평방 밀리미터당 A입니다.
Tesla의 전력 조절 모듈
고밀도 칩 방열을 위해 열팽창 계수(CTE) 제어에 중점을 둡니다. Dojo 시스템의 칩 밀도는 매우 높으며 CTE가 약간 통제되지 않으면 구조적 변형/고장을 유발하여 연결 오류가 발생할 수 있습니다.
Tesla가 자체 개발한 VRM은 MEMS 발진기(MO)를 사용하여 전력 조절 모듈의 열 변형을 감지하여 지난 2년 동안 14개 버전을 반복했으며 마침내 CTE 표시기에 대한 내부 요구 사항을 완전히 충족했습니다. MEMS 기술을 통해 전원을 능동적으로 조절하는 방식은 로켓 본체의 진동을 제어하는 능동적인 조절 방식과 유사하다.
D1 프로세서 소프트웨어 스택
D1과 같은 AI 칩의 경우 컴파일 생태학은 칩 자체만큼 중요합니다.
D1 프로세서 플레인에서 D1은 매트릭스 컴퓨팅 장치로 구분됩니다. 컴파일 도구 체인은 작업 분할 및 데이터 저장소 구성을 담당하며 저장소 사용량을 줄이기 위해 다양한 방법으로 세분화된 병렬 컴퓨팅을 수행합니다.
Dojo 컴파일러가 지원하는 병렬 방법에는 데이터 병렬성, 모델 병렬성 및 그래프 병렬성이 포함됩니다. 지원되는 스토리지 할당 방법에는 분산 텐서, 다시 계산된 할당 및 분할 채우기가 포함됩니다.
컴파일러 자체는 루프 및 그래프 최적화 알고리즘을 포함하여 다양한 CPU에서 일반적으로 사용되는 동적 제어 흐름을 처리할 수 있습니다. Dojo 컴파일러를 사용하면 사용자는 Dojo 대규모 분산 시스템을 전체 설계 및 교육을 위한 가속기로 사용할 수 있습니다.
전체 소프트웨어 생태계의 최상위 레이어는 PyTorch를 기반으로 하고, 맨 아래 레이어는 Dojo 드라이버를 기반으로 하며, 중간에 Dojo 컴파일러와 LLVM을 사용하여 컴파일 레이어를 구성합니다. 여기에 LLVM을 추가한 후 Tesla는 컴파일 최적화를 위해 이미 LLVM에 있는 다양한 컴파일 생태계를 더 잘 활용할 수 있습니다.
Tesla Dojo Compiler
Tesla AI Day를 통해 우리는 Tesla 로봇의 진정한 본체와 그 강력한 "내부 코어"를 더 많은 인식과 함께 보았습니다.
Tesla의 Dojo 코어는 이전 CPU 및 GPU 아키텍처와 다릅니다. CPU의 특성을 결합한 유선형 GPU라고 할 수 있습니다. 그 컴파일도 CPU 및 GPU와 상당히 다를 것이라고 믿습니다. 컴퓨팅 밀도를 높이기 위해 Tesla는 매우 간소화된 최적화를 수행하고 적극적으로 조정된 전원 관리 메커니즘을 제공했습니다.
Tesla Dojo 아키텍처는 도장이라고 불릴 뿐만 아니라 그 디자인은 실제로 단순함과 덜함을 기반으로 합니다. 이 아키텍처는 CPU, GPU 다음으로 또 다른 전형적인 형태의 컴퓨팅 칩 아키텍처가 될까요? 기다려 보자.
위 내용은 Tesla 슈퍼컴퓨팅 칩이 GPGPU를 능가할 수 있을까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!