그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째-일체 포함-php.cn

운영 효율성이 핵심입니다

효율적인 모델 아키텍처

교육 효율성

데이터 효율성

추론 효율성

요약

집

기술 주변기기

일체 포함

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

王林

Apr 12, 2023 pm 06:04 PM

모델 기차

구글의 바드(Bard)가 뒤집혔지만, 여전히 구글의 AI 강점은 과소평가할 수 없습니다.

제프 딘이 주도하는 구글 리서치 연말 요약 시리즈 "Google Research, 2022 & Beyond"가 연초부터 꾸준히 업데이트되어 최근 4호까지 업데이트 되었습니다.

이번 호의 주제는 "모델 효율성 향상"입니다. Google 엔지니어들이 어떤 아이디어를 생각해 냈는지 살펴보겠습니다!

운영 효율성이 핵심입니다

지난 10년 동안 딥 러닝은 새로운 알고리즘과 아키텍처의 통합, 데이터 볼륨의 상당한 증가, 컴퓨팅 성능의 향상으로 인해 폭발적인 발전을 경험했습니다.

10년 전과 비교하면 인공 지능과 기계 학습 모델은 더 깊고 복잡한 네트워크 구조, 더 많은 매개변수, 훈련에 사용되는 더 많은 데이터를 통해 더 크고 복잡해졌습니다. 이를 통해 함께 가장 혁신적인 결과를 얻을 수 있습니다. 머신러닝의 역사에서.

이러한 모델이 프로덕션 및 비즈니스 애플리케이션에 점점 더 많이 배포됨에 따라 모델의 추론 효율성과 운영 비용이 이차적 요소에서 주요 제한 요소로 바뀌었습니다.

이와 관련하여 Google의 대응은 주로 다음 네 가지 문제를 해결하기 위해 기계 학습 효율성에 집중적으로 투자하는 것입니다.

1. 효율적인 모델 아키텍처(Efficient Architecture)

2. 데이터 효율성

3. 훈련 효율성

4. 추론 효율성

효율성 외에도 모델은 신뢰성, 보안, 개인 정보 보호 및 신선도와 관련된 많은 문제에 직면합니다.

이 기사에서는 위의 문제를 해결하기 위해 Google Research에서 개발한 일련의 새로운 알고리즘에 중점을 둘 것입니다.

효율적인 모델 아키텍처

기본적인 질문은: 효율성을 향상시키기 위해 모델을 매개변수화하는 더 좋은 방법이 있습니까?

2022년 Google Research는 컨텍스트를 검색하고 전문가를 혼합하여 변환기(대부분의 대규모 기계 학습 모델의 핵심)를 더 효율적으로 만들어 외부 지식을 주입함으로써 모델을 향상시키는 새로운 기술에 중점을 두고 있습니다.

컨텍스트 증강 모델

더 높은 품질과 효율성을 추구하기 위해 신경 모델은 대규모 데이터베이스 또는 훈련 가능한 메모리의 외부 컨텍스트에서 향상될 수 있습니다.

검색된 컨텍스트를 활용함으로써 신경망은 내부 매개변수에 많은 양의 세계 지식을 기억할 필요가 없으며 더 나은 매개변수 효율성, 해석 가능성 및 현실성을 달성할 수 있습니다.

"컨텍스트 증강 언어 모델링을 위한 분리된 컨텍스트 처리" 기사에서 연구자들은 외부 컨텍스트를 언어 모델에 통합하기 위해 분리된 코덱 아키텍처를 기반으로 하는 간단한 아키텍처를 탐색합니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

문서 링크: https://arxiv.org/abs/2210.05758

이 모델은 자동 회귀 언어 모델링 영역을 열면서 계산 노력을 크게 절약할 수 있으며 경쟁 결과는 다음과 같습니다. 질의응답 과제에 주어졌습니다.

사전 훈련된 LLM(대형 언어 모델)은 대규모 훈련 세트의 자체 감독을 통해 많은 정보를 소비하지만 이러한 모델의 "세계 지식"이 입력 컨텍스트와 어떻게 상호 작용하는지 불분명합니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

연구원은 KAFT(지식 인식 미세 조정)를 통해 반사실적 컨텍스트와 관련 없는 컨텍스트를 표준 지도 데이터 세트에 결합하여 LLM 섹스의 제어 가능성과 견고성을 향상시킵니다.

모듈형 심층 네트워크를 탐색할 때의 문제점 중 하나는 해당 컴퓨팅 모듈로 개념 데이터베이스를 설계하는 방법입니다. 연구원들은 포인터 모듈을 포함하는 외부 LSH 테이블에 스케치 형식으로 "기억 이벤트"를 저장하는 이론적 아키텍처를 제안했습니다. 스케치를 처리합니다.

컨텍스트 증강 모델의 또 다른 퍼즐 조각은 대규모 데이터베이스에서 정보를 빠르게 검색하기 위한 가속기입니다.

연구원들은 TPU의 성능 모델과 일치하고 예상 재현율에 대한 분석적 보장을 제공하여 최적의 성능을 제공하는 TPU 기반 최근접 이웃 검색 알고리즘을 개발했습니다.

검색 알고리즘에는 일반적으로 많은 수의 하이퍼파라미터와 설계 선택이 포함되어 있어 새로운 작업에 대한 최적화가 어렵습니다. 따라서 연구원들은 하이퍼파라미터를 원하는 대로 자동으로 조정하는 새로운 제한된 최적화 알고리즘을 제안했습니다. 입력으로 알고리즘은 경험적으로 속도 재현의 파레토 경계에 매우 가까운 조정을 생성하고 표준 벤치마크에서 최고의 성능을 제공합니다.

전문가 혼합 모델

전문가 혼합(MoE, Mixture-of-experts) 모델은 과도하게 증가하지 않고 신경망 모델의 용량을 늘리는 효과적인 수단임이 입증되었습니다. 계산 비용. MoE의 기본 아이디어는 여러 전문가 하위 네트워크에서 네트워크를 구축하는 것입니다. 여기서 각 입력은 적절한 전문가 하위 네트워크에 의해 처리됩니다.

따라서 MoE는 표준 신경망에 비해 전체 모델의 작은 부분만 호출하므로 GLaM과 같은 언어 모델 응용 프로그램의 효율성이 향상됩니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

특정 입력에 참여하기 위해 어떤 전문가가 적극적으로 참여해야 하는지 결정하는 것은 라우팅 기능에 따라 다릅니다. 개발자는 각 전문가 모델이 적절하고 적합하지 않을 것이라고 기대하기 때문에 라우팅 설계는 매우 어렵습니다. 활용도가 낮거나 과도하게 활용됩니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

최근 연구에서 연구원들은 각 입력 토큰을 상위 k 전문가에게 할당하는 대신 각 전문가를 상위 k 토큰에 할당하는 새로운 라우팅 메커니즘인 전문가 선택 라우팅을 제안했습니다. 여러 전문가가 자연스럽게 입력 토큰을 처리하도록 허용하면서 전문가의 로드 밸런싱을 자동으로 조정할 수 있습니다

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

문서 링크: https: //openreview.net/pdf?id=jdJo1HIVinI

Efficient Transformers

Transformer는 현재 비전부터 자연어 이해까지 일련의 기능을 통해 가장 인기 있는 시퀀스-투-시퀀스 모델로, 까다로운 작업에서 매우 강력한 성능을 보여주었습니다.

이 유형의 모델의 핵심 구성 요소는 "쿼리"와 "키"(값) 가중치 조합 간의 유사성을 계산하여 적절한 "값"을 구성하는 주의 계층입니다. 성능은 강력하지만 Attention 메커니즘의 계산 효율성은 높지 않으며 복잡성은 일반적으로 입력 시퀀스 길이의 두 번째 거듭제곱입니다.

Transformer의 규모가 계속 확장됨에 따라 중요한 문제 중 하나에 대한 연구는 매우 중요합니다. 즉, 효과적인 주의 원리를 이해할 수 있는 자연 발생 구조나 패턴 학습 모델이 있는지 여부입니다.

이와 관련하여 Google Research에서는 중간 MLP 레이어의 학습 임베딩을 연구한 결과 매우 희소하다는 사실을 발견했습니다. 예를 들어 T5 대형 모델에는 0이 아닌 항목이 1% 미만이라는 사실도 추가로 나타납니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

의 경우 모델 성능에 영향을 주지 않고 FLOP를 줄일 수 있습니다. 문서 링크: https://arxiv.org/pdf/2210.06313.pdf

연구원들은 최근 의사결정 트리에 의존하는 표준 주의 계산의 대안인 Treeformer 모델을 제안했습니다. 이 모델은 쿼리와 관련된 작은 키 집합을 직관적으로 신속하게 식별하고 이 집합 강제 연산에만 주의를 기울일 수 있도록 해줍니다. 경험을 바탕으로 Treeformer는 Attention 레이어의 FLOP를 30배까지 줄일 수 있습니다.

동시에 연구자들은 Attention과 Greedy 알고리즘을 결합한 차별화 가능한 특징 선택 방법인 Sequential Attention을 도입했으며 이 기술은 대규모 모델에 직접적이고 원활하게 적용할 수 있음이 입증되었습니다.

Transformer의 효율성을 높이는 또 다른 방법은 Attention 레이어에서 소프트맥스 계산 속도를 높이는 것입니다.

소프트맥스 커널의 하위 순위 근사 연구를 기반으로 연구원들은 소프트맥스 커널의 최초의 "양수 및 경계가 있는" 무작위 특징 근사치를 제공하는 새로운 유형의 무작위 특징을 제안했으며, 시퀀스 길이는 선형적으로 계산됩니다. .

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

논문 링크: https://arxiv.org/abs/2205.15317

또한 인과 코딩 및 상대 위치 인코딩과 같은 다중 주의 마스킹을 다루는 첫 번째 메커니즘을 제안했습니다. .

교육 효율성

효과적인 최적화 방법은 최신 기계 학습 애플리케이션의 초석이며 대규모 환경에서 특히 중요합니다.

이 경우 Adam과 같은 1차 적응 방법이라도 계산이 많이 필요한 경향이 있어 훈련의 안정성이 매우 어려워집니다.

또한 이러한 방법은 신경망의 아키텍처와 관련이 없는 경우가 많으며 모델 아키텍처 내의 구조적 정보를 고려하지 않아 훈련 효율성이 낮습니다. 이는 또한 최신 신경망 모델을 보다 효과적으로 최적화하는 새로운 기술을 장려합니다. .

Google Research는 원래 확률론적 경사하강법(SGD)과 비교할 때 새로운 스케일 불변 Transofmre 네트워크 및 새로운 클리핑 방법을 포함하여 Transofmre 네트워크 교육을 위해 모델 아키텍처를 기반으로 한 몇 가지 새로운 교육 기술을 개발했습니다. ) 결합하면 훈련이 가속화될 수 있습니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

논문 링크: https://arxiv.org/pdf/2202.00980.pdf

이 방법을 사용하여 연구원들은 처음으로 간단한 SGD만을 사용하여 효율적으로 훈련하는 것을 달성했습니다. 적응성이 없는 BERT.

또한 연구진은 1차 최적화와 동일한 컴퓨팅 및 메모리 리소스를 사용하면서 2차 최적화와 유사한 성능을 얻기 위해 새로운 방법인 LocoProp을 제안했습니다.

LocoProp은 신경망을 레이어 조합으로 분해하여 신경망의 모듈식 보기를 얻습니다. 그런 다음 각 레이어는 자체 손실 함수와 출력 목표 및 가중치 조정자를 가질 수 있습니다. 이 설정을 사용하면 적절한 순방향 및 역방향 그래디언트 전달 후 LocoProp은 각 레이어의 "로컬 손실"에 대한 병렬 업데이트를 계속 수행합니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

논문 링크: https://proceedings.mlr.press/v151/amid22a.html

실제로 이러한 업데이트는 이론적, 경험적으로 High와 유사합니다. -차수 최적화 프로그램인 LocoProp은 딥 오토인코더 벤치마크에서 고차 최적화 프로그램과 비슷한 성능을 달성하면서 훨씬 더 빠릅니다.

SGD와 같은 옵티마이저의 주요 가정은 각 데이터 포인트가 분포에서 독립적이고 동일하게 샘플링된다는 것입니다. 그러나 강화 학습과 같은 실제 응용 설정에서는 모델( 또는 에이전트)는 자체 예측을 기반으로 생성된 데이터에서 학습해야 합니다.

연구원들은 이러한 상황에서 선형 동적 시스템, 비선형 동적 시스템 및 강화 학습의 Q-학습에 사용할 수 있는 역방향 경험 재생 기능을 갖춘 SGD라는 새로운 알고리즘 방법을 제안했습니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

논문 링크:https://arxiv.org/abs/2103.05896

또한 이 방법의 개선된 버전인 IER이 실험적으로 입증되었습니다. -the-art, 다양한 인기 RL 벤치마크에서 가장 안정적인 경험 재생 기술입니다.

데이터 효율성

심층 신경망은 대규모 데이터세트에 크게 의존하며 이로 인해 스토리지 비용과 잠재적인 보안/개인정보 보호 문제가 발생합니다.

이 문제를 해결하는 유망한 방법은 데이터 하위 집합 선택입니다. 여기서 학습자의 목표는 많은 훈련 샘플에서 가장 유익한 하위 집합을 찾아 전체 훈련 세트의 훈련에 접근(또는 개선)하는 것입니다. .

연구원들은 학습자가 한 번에 하나의 샘플을 샘플링하여 컨텍스트 및 정답 레이블에 액세스할 수 있지만 오버헤드를 제한하기 위해 임의의 모델 패밀리와 함께 작동하도록 설계된 하위 집합 선택 프레임워크를 분석했습니다. , 충분히 큰 샘플 배치가 선택되면 해당 상태만 업데이트될 수 있습니다. 즉, 모델 가중치를 추가로 훈련할 수 있습니다.

이를 기반으로 중요도 샘플링을 통해 샘플을 선택하는 IWeS라는 알고리즘을 개발했습니다. 여기서 각 샘플에 할당된 샘플링 확률은 이전에 선택한 배치에 대해 훈련된 모델의 엔트로피를 기반으로 합니다. 이 논문은 일반화 및 샘플링 속도의 한계를 보여주는 이론적 분석을 제공합니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

문서 링크: https://arxiv.org/pdf/2301.12052.pdf

대규모 네트워크 교육의 또 다른 문제는 그들이 수행하는 작업에 부정적인 영향을 미칠 수 있다는 것입니다. 훈련 데이터 및 데이터 간 분포 변경은 매우 민감하며, 특히 모든 배포 시간 시나리오를 포함하지 않을 수 있는 제한된 양의 훈련 데이터를 처리할 때 더욱 그렇습니다.

최근 연구에서는 "극단적인 단순 편향"이 신경망의 취약성 뒤에 있는 핵심 문제라는 가설을 세웠으며, 최신 연구에서는 이 가설을 실현 가능하게 하여 두 가지 새로운 보완 방법인 DAFT와 FRR을 개발했습니다. 이 조합은 훨씬 더 많은 것을 제공합니다. 강력한 신경망. 특히, 이 두 가지 방법은 학습 네트워크의 견고성을 향상시키기 위해 적대적인 미세 조정과 역 특징 예측을 사용합니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

논문 링크: https://arxiv.org/pdf/2006.07710.pdf

추론 효율성

신경망의 크기를 늘리면 성능이 향상되는 것으로 나타났습니다. 예측 정확도 그러나 실제 세계에서 이러한 장점을 활용하는 것은 대규모 모델에 대한 추론 비용이 엄청날 수 있기 때문에 어려운 일입니다. 이 문제는 정확도를 희생하지 않고 서비스 효율성을 향상시키는 전략을 촉발하기도 했습니다.

연구원들은 이 목표를 달성하기 위해 특히 지식 증류 및 적응형 컴퓨팅을 기반으로 하는 다양한 전략을 제안했습니다.

Distillation

Distillation은 대규모 신경 모델의 잠재적 적용 가능성을 크게 확장하는 간단하고 효과적인 모델 압축 방법이며, 광고 추천과 같은 일련의 실제 응용 분야에서 매우 효과적인 것으로 입증되었습니다.

대부분의 증류 사용 사례에는 기본 모델을 특정 도메인에 직접 적용하는 작업이 포함되며, 이 작업을 수행해야 하는 시기와 이유에 대한 이해가 제한되어 있습니다. Google의 연구에서는 특정 상황에 맞게 증류를 조정하는 방법을 살펴보고 증류 성공을 결정하는 요소를 체계적으로 조사합니다.

알고리즘 측면에서 연구원들은 교사 모델이 제공하는 레이블의 노이즈를 신중하게 모델링함으로써 교육 사례에 가중치를 다시 부여하는 원칙적인 방법과 교사 레이블을 사용하여 데이터의 하위 집합을 샘플링하는 강력한 방법을 개발했습니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

논문 링크: https://arxiv.org/abs/2210.06711

"교사 지도 교육" 과정에서 연구자들은 새로운 증류 프레임워크를 제안했습니다. 고정된 데이터 세트에 라벨을 지정하기 위해 교사를 수동적으로 사용하는 대신, 라벨링을 위한 정보 샘플 선택을 안내하는 데 교사가 적극적으로 사용됩니다. 제한된 데이터 또는 롱테일 설정에서 증류 공정이 더 효율적입니다. ㅋㅋㅋ 인코더는 (쿼리, 문서) 쌍의 관련성을 평가하는 중요한 설정이기도 합니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

논문 링크: https://proceedings.mlr.press/v162/menon22a/menon22a.pdf

논문에서는 크로스 엔코더와 듀얼 엔코더 간의 성능 격차를 연구한 이유가 있습니다. , 이는 듀얼 인코더의 용량 제한이라기보다는 일반화의 결과일 수 있다고 밝혔습니다.

신중하게 구성된 증류 손실 기능은 이러한 상황을 완화하고 크로스 인코더와 듀얼 인코더 간의 성능 격차를 줄일 수 있습니다. 그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

이어서 Teacher 모델의 임베딩 일치를 통한 이중 인코더 증류의 추가 개선이 EmbedDistil에서 추가로 연구되었습니다. 이 전략은 또한 교사 문서 임베딩을 상속하고 고정하는 것이 매우 효과적인 것으로 입증된 크고 작은 듀얼 인코더 모델에서 정보를 추출하는 데 사용될 수 있습니다.

논문 링크: https://arxiv.org/abs/2301.12005

학생들을 측정하기 위해 감독된 복잡성의 증류를 통해 이론에 대한 새로운 관점을 제공합니다. 교사 라벨을 예측할 수 있습니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

문서 링크: https://arxiv.org/abs/2301.12245

신경 접선 커널(NTK) 이론을 사용하여 다음과 같은 몇 가지 개념적 결론이 도출됩니다. 능력 격차는 증류에 영향을 미칠 수 있습니다. 교사의 라벨은 순전히 무작위 학생 라벨과 유사하게 나타날 수 있습니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

논문 링크: https://arxiv.org/abs/2301.12923

동시에 증류가 학생의 과소적합으로 이어지는 지점이 교사 모델에도 어려움 문제는 직관적으로 학생들이 합리적으로 모델링할 수 있는 샘플에 제한된 능력을 집중하는 데 도움이 될 수 있습니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째 적응형 계산

증류는 추론 비용을 줄이는 효과적인 방법이지만 그 효과는 모든 샘플에서 균일하게 나타납니다. 직관적으로 일부 "간단한" 샘플은 상대적으로 "더 어려운" 샘플보다 계산이 덜 필요할 수 있습니다. " 견본.

적응형 컴퓨팅의 목표는 이러한 샘플 종속 계산을 수행할 수 있는 메커니즘을 설계하는 것입니다.

CALM(Confident Adaptive Language Modeling)은 T5와 같은 Transformer 기반 텍스트 생성기에 대한 제어된 조기 종료 기능을 도입합니다.

문서 링크: https://arxiv.org/abs/2207.07061

이러한 형태의 적응형 계산에서 모델은 초기 종료가 발생하는 Transformer 레이어를 동적으로 수정합니다. 게이트는 통계적 성능 보장을 충족하도록 보정된 결정 임계값과 함께 신뢰도 측정항목을 사용합니다.

이렇게 하면 모델은 가장 어려운 예측을 위해 전체 디코더 레이어 스택만 계산하고, 더 간단한 예측을 위해서는 몇 개의 디코더 레이어만 계산하면 됩니다. 실제로 모델은 예측을 위해 평균적으로 약 1/3 많은 레이어를 사용하므로 동일한 수준의 발전 품질을 유지하면서 속도가 2~3배 향상됩니다.

일반적으로 사용되는 적응형 계산 메커니즘은 두 개 이상의 기본 모델로 구성됩니다. 핵심 문제는 단순히 현재 모델의 예측을 사용할지 아니면 예측을 다운스트림 모델로 연기할지 결정하는 것입니다. 결정을 연기하기 위한 감독으로 적절한 신호를 활용할 수 있는 적절한 손실 기능입니다.

Google Research는 기존 손실 함수를 체계적으로 연구했으며 레이블 평활화의 암시적 적용으로 인해 훈련 샘플에 적합하지 않을 수 있음을 입증했습니다. 또한 논문에서는 이러한 상황이 지연 규칙의 사후 훈련을 통해 완화될 수 있음을 보여주었습니다. 어떤 방식으로든 모델 내부를 수정할 필요가 없습니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

문서 링크: https://openreview.net/pdf?id=_jg6Sf6tuF7

검색 응용 프로그램의 경우 표준 의미 검색 기술은 대형 모델에서 생성된 각 임베딩에 사용됩니다. 고정 표현, 즉, 표현의 크기와 기능은 다운스트림 작업 및 관련 컴퓨팅 환경이나 제약 조건에 관계없이 대부분 고정되어 있습니다.

Matryoshka 표현 학습은 배포 환경에 따라 표현을 조정할 수 있는 유연성을 도입하여 표현이 좌표에서 자연스러운 순서를 가지도록 하여 리소스가 제한된 환경에서는 표현의 가장 높은 소수의 좌표만 사용합니다. 더 풍부하고 정밀성이 중요한 설정을 위해 더 많은 좌표를 사용할 수 있습니다.

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

문서 링크: https://openreview.net/pdf?id=9njZa1fm35

신경망 스캐닝과 같은 표준 근사 인접 이웃 검색 기술과 결합하면 MRL이 가능합니다. 최대 16배 더 낮은 수준을 제공하기 위해 동일한 재현율 및 정밀도 측정값을 계산합니다.

요약

대규모 기계 학습 모델은 여러 영역에서 혁신적인 결과를 보여주지만 이러한 모델을 현실 세계에서 실현하려면 훈련 및 추론의 효율성이 중요한 요구 사항이 되고 있습니다.

Google Research는 새로운 기본 기술을 개발하여 대규모 기계 학습 모델을 효율적으로 만드는 데 상당한 투자를 해 왔으며, 이를 위해서는 앞으로도 지속적인 노력이 필요하며 기계 학습 모델을 더욱 강력하고 효율적으로 만들기 위한 핵심 과제를 계속해서 탐구할 것입니다. .

위 내용은 그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7465

Cakephp 튜토리얼

1376

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! Apr 03, 2024 pm 12:04 PM

0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. May 07, 2024 pm 04:13 PM

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

MLP를 대체하는 KAN은 오픈소스 프로젝트를 통해 컨볼루션으로 확장되었습니다. Jun 01, 2024 pm 10:03 PM

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

안녕하세요, 일렉트릭 아틀라스입니다! 보스턴 다이나믹스 로봇 부활, 180도 이상한 움직임에 겁먹은 머스크 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

AI가 수학적 연구를 전복시킨다! 필즈상 수상자이자 중국계 미국인 수학자, Terence Tao가 좋아하는 11개 논문 발표 | Apr 09, 2024 am 11:52 AM

AI는 실제로 수학을 변화시키고 있습니다. 최근 이 문제에 주목하고 있는 타오저쉬안(Tao Zhexuan)은 '미국수학회지(Bulletin of the American Mathematical Society)' 최신호를 게재했다. '기계가 수학을 바꿀 것인가?'라는 주제를 중심으로 많은 수학자들이 그들의 의견을 표현했습니다. 저자는 필즈상 수상자 Akshay Venkatesh, 중국 수학자 Zheng Lejun, 뉴욕대학교 컴퓨터 과학자 Ernest Davis 등 업계의 유명 학자들을 포함해 강력한 라인업을 보유하고 있습니다. AI의 세계는 극적으로 변했습니다. 이 기사 중 상당수는 1년 전에 제출되었습니다.

Sora 'Ke Ling'의 Kuaishou 버전이 테스트용으로 공개되었습니다. 120초가 넘는 비디오를 생성하고 물리학을 더 잘 이해하며 복잡한 움직임을 정확하게 모델링할 수 있습니다. Jun 11, 2024 am 09:51 AM

무엇? 주토피아는 국내 AI로 현실이 되는 걸까? 영상과 함께 노출된 것은 '켈링'이라는 국산 대형 영상세대 신형 모델이다. Sora는 유사한 기술 경로를 사용하고 자체 개발한 여러 기술 혁신을 결합하여 크고 합리적인 움직임뿐만 아니라 물리적 세계의 특성을 시뮬레이션하고 강력한 개념적 결합 능력과 상상력을 갖춘 비디오를 제작합니다. 데이터에 따르면 Keling은 최대 1080p의 해상도로 30fps에서 최대 2분의 초장 영상 생성을 지원하며 다양한 화면비를 지원합니다. 또 다른 중요한 점은 Keling이 실험실에서 공개한 데모나 비디오 결과 시연이 아니라 단편 비디오 분야의 선두주자인 Kuaishou가 출시한 제품 수준 애플리케이션이라는 점입니다. 더욱이 백지 작성이 아닌 실용성에 중점을 두고, 출시되자마자 온라인에 진출하는 데 중점을 두고 있다. 콰이잉에서는 커링의 대형 모델이 출시됐다.

초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. Apr 29, 2024 pm 06:55 PM

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. May 07, 2024 pm 05:00 PM

최근 군계는 미군 전투기가 이제 AI를 활용해 완전 자동 공중전을 완수할 수 있다는 소식에 충격을 받았다. 네, 얼마 전 미군의 AI 전투기가 최초로 공개되면서 그 미스터리가 드러났습니다. 이 전투기의 정식 명칭은 VISTA(Variable Stability Flight Simulator Test Aircraft)로 미 공군 장관이 직접 조종해 일대일 공중전을 모의 실험한 것이다. 5월 2일, 미 공군 장관 프랭크 켄달(Frank Kendall)이 X-62AVISTA를 타고 에드워드 공군 기지에서 이륙했습니다. 1시간의 비행 동안 모든 비행 작업은 AI에 의해 자동으로 완료되었습니다. Kendall은 "지난 수십 년 동안 우리는 자율 공대공 전투의 무한한 잠재력에 대해 생각해 왔지만 항상 도달할 수 없는 것처럼 보였습니다."라고 말했습니다. 그러나 지금은,

See all articles

그 어느 때보다 빠르게 대형 모델을 훈련하고 추론할 수 있습니다! 구글의 2022년 연말 요약, 네 번째

운영 효율성이 핵심입니다

효율적인 모델 아키텍처

교육 효율성

데이터 효율성

추론 효율성

요약

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제