GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시-일체 포함-php.cn

집

기술 주변기기

일체 포함

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

王林

May 29, 2023 am 10:43 AM

nm 공정 GPU 효율성

머신 하트 리포트

Heart of Machine 편집부

최근 메타(Meta)는 인공지능 분야의 최신 성과를 공개했다.

사람들은 Meta를 생각할 때 일반적으로 Facebook, Instagram, WhatsApp 또는 곧 출시될 Metaverse를 포함한 해당 앱을 생각합니다. 그러나 많은 사람들이 모르는 것은 이 회사가 이러한 서비스를 운영하기 위해 매우 정교한 데이터 센터를 설계하고 구축한다는 것입니다.

AWS, GCP 또는 Azure와 같은 클라우드 서비스 제공업체와 달리 Meta는 OCP가 구매자에게 깊은 인상을 주도록 설계되었다는 점을 제외하고 실리콘 선택, 인프라 또는 데이터 센터 설계에 대한 세부 정보를 공개할 필요가 없습니다. Meta 사용자는 달성 방법에 관계없이 더 좋고 일관된 경험을 원합니다.

Meta에서 AI 워크로드는 어디에나 있으며 콘텐츠 이해, 정보 흐름, 생성 AI, 광고 순위 등 광범위한 사용 사례의 기반을 형성합니다. 이러한 워크로드는 동급 최고의 Python 통합, Eager 모드 개발 및 API 단순성을 갖춘 PyTorch에서 실행됩니다. 특히, DLRM(Deep Learning Recommendation Model)은 Meta의 서비스 및 애플리케이션 경험을 향상시키는 데 매우 중요합니다. 그러나 이러한 모델의 크기와 복잡성이 증가함에 따라 기본 하드웨어 시스템은 효율성을 유지하면서 메모리와 컴퓨팅 성능을 기하급수적으로 증가시키는 기능을 제공해야 합니다.

Meta는 현재 규모의 AI 작업 및 특정 워크로드의 경우 GPU가 비효율적이며 최선의 선택이 아니라는 사실을 발견했습니다. 따라서 회사는 AI 시스템을 더 빠르게 훈련하는 데 도움이 되는 추론 가속기 MTIA를 제안했습니다.

MTIA V1

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

MTIA v1(추론) 칩(다이)

2020년 Meta는 내부 워크로드를 위한 1세대 MTIA ASIC 추론 가속기를 설계했습니다. 추론 가속기는 실리콘, PyTorch 및 추천 모델을 포함하는 풀 스택 솔루션의 일부입니다.

MTIA 가속기는 TSMC 7nm 공정으로 제조되었으며 800MHz에서 실행되어 INT8 정밀도에서 102.4 TOPS, FP16 정밀도에서 51.2 TFLOPS를 제공합니다. 열설계전력(TDP)은 25W입니다.

MTIA 가속기는 처리 요소(PE), 온칩 및 오프칩 메모리 리소스, 상호 연결로 구성됩니다. 가속기에는 시스템 펌웨어를 실행하는 전용 제어 하위 시스템이 장착되어 있습니다. 펌웨어는 사용 가능한 컴퓨팅 및 메모리 리소스를 관리하고, 전용 호스트 인터페이스를 통해 호스트와 통신하며, 가속기에서 작업 실행을 조정합니다.

메모리 하위 시스템은 LPDDR5를 오프칩 DRAM 리소스로 사용하며 최대 128GB까지 확장 가능합니다. 또한 이 칩에는 모든 PE가 공유하는 128MB의 온칩 SRAM이 있어 자주 액세스하는 데이터 및 명령에 대해 더 높은 대역폭과 더 낮은 대기 시간을 제공합니다.

MTIA 가속기 그리드는 8x8 구성으로 구성된 64개의 PE로 구성되며 메시 네트워크를 통해 서로 연결되고 메모리 블록에 연결됩니다. 전체 그리드를 전체적으로 사용하여 작업을 실행할 수도 있고, 독립적인 작업을 실행할 수 있는 여러 하위 그리드로 나눌 수도 있습니다.

각 PE에는 2개의 프로세서 코어(그중 하나는 벡터 확장 기능 포함)와 행렬 곱셈, 누적, 데이터 이동 및 비선형 함수 계산과 같은 주요 작업을 수행하도록 최적화된 다수의 고정 기능 장치가 장착되어 있습니다. 프로세서 코어는 RISC-V 개방형 ISA(명령 집합 아키텍처)를 기반으로 하며 필요한 컴퓨팅 및 제어 작업을 수행하도록 맞춤화되었습니다.

각 PE에는 데이터의 빠른 저장 및 조작을 위한 128KB의 로컬 SRAM 메모리도 있습니다. 이 아키텍처는 워크로드를 효율적으로 실행하는 데 필수적인 병렬성과 데이터 재사용을 극대화합니다.

이 칩은 스레드 및 데이터 수준 병렬 처리(TLP 및 DLP)를 모두 제공하고 명령 수준 병렬 처리(ILP)를 활용하며 많은 수의 메모리 요청을 동시에 처리할 수 있도록 하여 대규모 메모리 수준 병렬 처리(MLP)를 지원합니다.

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

MTIA v1 시스템 디자인

MTIA 가속기는 서버에 더 쉽게 통합할 수 있도록 소형 듀얼 M.2 보드에 장착되어 있습니다. 보드는 PCIe Gen4 x8 링크를 사용하여 서버의 호스트 CPU에 연결하며 35W만 소비합니다.

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

MTIA를 사용한 샘플 테스트 보드

이러한 가속기를 호스팅하는 서버는 Open Compute Project의 Yosemite V3 서버 사양을 사용합니다. 각 서버에는 호스트 CPU에 연결되고 PCIe 스위치 계층 구조를 사용하여 서로 연결되는 12개의 가속기가 포함되어 있습니다. 따라서 서로 다른 가속기 간의 통신에는 호스트 CPU가 포함될 필요가 없습니다. 이 토폴로지를 사용하면 워크로드를 여러 가속기에 분산하고 병렬로 실행할 수 있습니다. 가속기의 수와 서버 구성 매개변수는 현재와 미래의 워크로드를 가장 잘 실행할 수 있도록 신중하게 선택됩니다.

MTIA 소프트웨어 스택

MTIA 소프트웨어(SW) 스택은 개발자에게 더 나은 개발 효율성과 고성능 경험을 제공하도록 설계되었습니다. PyTorch와 완전히 통합되어 사용자에게 친숙한 개발 경험을 제공합니다. MTIA와 함께 PyTorch를 사용하는 것은 CPU나 GPU와 함께 PyTorch를 사용하는 것만큼 쉽습니다. 또한 번성하는 PyTorch 개발자 에코시스템 및 도구 덕분에 MTIA SW 스택은 이제 PyTorch FX IR을 사용하여 모델 수준 변환 및 최적화를 수행하고 LLVM IR을 사용하여 낮은 수준 최적화를 수행하는 동시에 MTIA 가속기 사용자 지정 아키텍처 및 ISA도 지원할 수 있습니다.

아래 그림은 MTIA 소프트웨어 스택 프레임워크 다이어그램을 보여줍니다.

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

SW 스택의 일부로 Meta는 완전 연결형 및 임베디드 패키지 연산자와 같이 성능이 중요한 ML 커널을 위해 수동으로 조정되고 고도로 최적화된 커널 라이브러리도 개발했습니다. SW 스택의 상위 레벨에는 컴파일 및 코드 생성 중에 고도로 최적화된 커널을 인스턴스화하고 사용할 수 있는 옵션이 있습니다.

또한 MTIA SW 스택은 더 빠르고 더 파이썬적이면서도 그 어느 때보다 역동적인 PyTorch 2.0과의 통합을 통해 계속 발전하고 있습니다. 이를 통해 TorchDynamo 및 TorchInductor와 같은 새로운 기능이 활성화됩니다. Meta는 또한 MTIA 가속기를 지원하고 내부 표현 및 고급 최적화를 위해 MLIR을 사용하도록 Triton DSL을 확장하고 있습니다.

MTIA 공연

Meta는 MTIA의 성능을 다른 가속기와 비교한 결과는 다음과 같습니다.

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

Meta는 다섯 가지 DLRM(낮은 복잡성부터 높은 복잡성까지)을 사용하여 MTIA를 평가합니다

또한 Meta는 MTIA를 NNPI 및 GPU와 비교한 결과는 다음과 같습니다.

GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시

평가 결과 MTIA는 NNPI 및 GPU보다 낮은 복잡성(LC1 및 LC2) 및 중간 복잡성(MC1 및 MC2) 모델을 처리하는 데 더 효율적인 것으로 나타났습니다. 또한 Meta는 HC(고복잡도) 모델의 MTIA에 최적화되지 않았습니다.

참조 링크:

https://ai.facebook.com/blog/meta-training-inference-accelerator-AI-MTIA/

위 내용은 GPU보다 효율적인 7nm 공정, Meta, 1세대 AI 추론 가속기 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7517

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다! Mar 20, 2025 pm 03:34 PM

Vibe Coding은 끝없는 코드 라인 대신 자연 언어를 사용하여 애플리케이션을 생성함으로써 소프트웨어 개발의 세계를 재구성하고 있습니다. Andrej Karpathy와 같은 비전가들로부터 영감을 얻은이 혁신적인 접근 방식은 Dev가

2025 년 2 월 2 일 Genai 출시 : GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

2025 년 2 월은 Generative AI의 또 다른 게임 변화 달이었으며, 가장 기대되는 모델 업그레이드와 획기적인 새로운 기능을 제공합니다. Xai 's Grok 3 및 Anthropic's Claude 3.7 Sonnet, Openai 's G에 이르기까지

물체 감지에 Yolo V12를 사용하는 방법은 무엇입니까? Mar 22, 2025 am 11:07 AM

Yolo (한 번만 보이면)는 주요 실시간 객체 감지 프레임 워크였으며 각 반복은 이전 버전에서 개선되었습니다. 최신 버전 Yolo V12는 정확도를 크게 향상시키는 발전을 소개합니다.

chatgpt 4 o를 사용할 수 있습니까? Mar 28, 2025 pm 05:29 PM

ChatGpt 4는 현재 이용 가능하고 널리 사용되며 ChatGpt 3.5와 같은 전임자와 비교하여 상황을 이해하고 일관된 응답을 생성하는 데 상당한 개선을 보여줍니다. 향후 개발에는보다 개인화 된 인터가 포함될 수 있습니다

창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) Apr 02, 2025 pm 06:10 PM

이 기사는 최고의 AI 아트 생성기를 검토하여 자신의 기능, 창의적인 프로젝트에 대한 적합성 및 가치에 대해 논의합니다. Midjourney를 전문가에게 최고의 가치로 강조하고 고품질의 사용자 정의 가능한 예술에 Dall-E 2를 추천합니다.

O1 대 GPT-4O : OpenAI의 새로운 모델이 GPT-4O보다 낫습니까? Mar 16, 2025 am 11:47 AM

OpenAi의 O1 : 12 일 선물 Spree는 아직 가장 강력한 모델로 시작합니다. 12 월의 도착은 세계의 일부 지역에서 전 세계적으로 속도가 저하 된 눈송이를 가져 오지만 Openai는 막 시작되었습니다. Sam Altman과 그의 팀은 12 일 선물을 시작하고 있습니다.