목차
방법 및 실험
모든 모델의 크기가 동일하게 조정되나요?
스케일마다 가장 좋은 모델이 다른가요?
모델별 스케일링 법칙
스케일링 프로토콜이 모델 아키텍처에 같은 방식으로 영향을 미치나요?
기술 주변기기 일체 포함 Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

Apr 09, 2023 pm 08:21 PM
Google 모델

Transformer 모델의 확장은 최근 몇 년간 많은 학자들의 연구 관심을 불러일으켰습니다. 그러나 모델 아키텍처에 의해 부과된 다양한 유도 바이어스의 스케일링 속성에 대해서는 알려진 바가 많지 않습니다. 특정 규모(계산, 크기 등)의 개선 사항이 다른 규모와 계산 영역으로 이전될 수 있다고 가정하는 경우가 많습니다.

그러나 아키텍처와 확장 법칙 간의 상호 작용을 이해하는 것이 중요하며 다양한 규모에서 잘 작동하는 모델을 설계하는 것은 연구에 큰 의미가 있습니다. 명확히 해야 할 몇 가지 질문이 남아 있습니다. 모델 아키텍처가 다르게 확장됩니까? 그렇다면 유도 바이어스는 스케일링 성능에 어떤 영향을 줍니까? 업스트림(사전 훈련) 및 다운스트림(전송) 작업에 어떤 영향을 미치나요?

최근 논문에서 Google 연구원들은 귀납적 편견(아키텍처)이 언어 모델 확장에 미치는 영향을 이해하려고 했습니다. 이를 위해 연구원들은 여러 계산 영역과 규모(1,500만 ~ 400억 개의 매개변수)에 걸쳐 10개의 서로 다른 모델 아키텍처를 사전 훈련하고 미세 조정했습니다. 전반적으로 그들은 다양한 아키텍처와 크기의 100개 이상의 모델을 사전 학습하고 미세 조정했으며 이러한 10가지 아키텍처를 확장하는 데 대한 통찰력과 과제를 제시했습니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

문서 링크: https://arxiv.org/pdf/2207.10551.pdf

그들은 또한 이러한 모델의 크기 조정이 보이는 것만큼 간단하지 않다는 사실도 알아냈습니다. 세부 사항은 이 기사에서 자세히 검토한 아키텍처 선택과 얽혀 있습니다. 예를 들어 Universal Transformers(및 ALBERT)의 기능은 매개변수 공유입니다. 이러한 아키텍처 선택은 성능 측면뿐만 아니라 FLOP, 속도, 매개변수 수와 같은 계산 지표 측면에서도 표준 Transformer와 비교하여 확장 동작을 크게 왜곡합니다. 대조적으로 Switch Transformer와 같은 모델은 완전히 다르며 FLOP와 매개변수 크기 사이의 특이한 관계가 있습니다.

구체적으로 이 논문의 주요 기여는 다음과 같습니다.

  • 다양한 귀납적 편향과 모델 아키텍처에 대한 스케일링 법칙이 처음으로 도출되었습니다 . 연구원들은 이 스케일링 요소가 모델에 따라 크게 다르다는 것을 발견했으며 이것이 모델 개발에서 중요한 고려 사항이라고 지적했습니다. 그들이 고려한 10가지 아키텍처 모두 바닐라 Transformer가 컴퓨팅 영역당 절대적인 측면에서 최고는 아니더라도 최고의 확장 성능을 가진 것으로 나타났습니다.
  • 연구원들은 한 계산 확장 영역에서 잘 작동하는 모델이 반드시 다른 계산 확장 영역에서 가장 좋은 모델은 아니라는 사실을 관찰했습니다. 또한 일부 모델은 낮은 계산 영역에서는 잘 작동하지만 확장하기 어렵다는 사실을 발견했습니다. 이는 특정 계산 영역에서 지점별로 비교하여 모델의 확장성에 대한 완전한 그림을 얻는 것이 어렵다는 것을 의미합니다.
  • 연구원들은 업스트림 사전 훈련의 복잡성이 다양한 모델 아키텍처를 확장할 때 다운스트림 전송과 덜 관련될 수 있다는 사실을 발견했습니다. 따라서 기본 아키텍처와 유도 바이어스도 다운스트림 마이그레이션에 중요합니다.
  • 연구원들은 특정 아키텍처에서 확장이 어렵다는 점을 강조하고 일부 모델이 확장되지 않음(또는 부정적인 추세로 확장됨)을 보여주었습니다. 그들은 또한 선형 시간 주의 모델(예: Performer)이 확장하기 어려운 경향을 발견했습니다.

방법 및 실험

논문의 세 번째 장에서 연구자는 전반적인 실험 설정을 개략적으로 설명하고 실험에서 평가된 모델을 소개합니다.

아래 표 1은 검증 난제(업스트림 사전 훈련) 외에도 훈련 가능한 매개변수 수, FLOP(단일 전달 패스), 속도(초당 단계) 등을 포함한 이 기사의 주요 결과를 보여줍니다. ) 및 17개 다운스트림 작업의 결과입니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

모든 모델의 크기가 동일하게 조정되나요?

아래 그림 2는 FLOP 수를 늘릴 때 모든 모델의 확장 동작을 보여줍니다. 모든 모델의 스케일링 동작은 매우 독특하고 다르다는 것을 알 수 있습니다. 즉, 대부분이 표준 Transformer와 다릅니다. 아마도 여기서 가장 큰 발견은 대부분의 모델(예: LConv, Evolution)이 표준 Transformer와 동등하거나 더 나은 성능을 보이는 것처럼 보이지만 더 높은 계산 예산으로 확장하지 못한다는 것입니다.

또 다른 흥미로운 추세는 Performer와 같은 "선형" Transformer가 확장되지 않는다는 것입니다. 그림 2i에서 볼 수 있듯이 기본 규모에서 대규모 규모에 비해 사전 훈련 당혹감은 2.7%만 감소했습니다. 바닐라 트랜스포머의 경우 이 수치는 8.4%입니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

아래 그림 3은 다운스트림 마이그레이션 작업에 대한 모든 모델의 스케일링 곡선을 보여줍니다. Transformer와 비교할 때 대부분의 모델은 다운스트림 작업에서 크게 변경되는 스케일링 곡선이 다릅니다. 대부분의 모델에는 서로 다른 업스트림 또는 다운스트림 스케일링 곡선이 있다는 점은 주목할 가치가 있습니다.

연구원들은 Funnel Transformer 및 LConv와 같은 일부 모델이 업스트림에서 상당히 좋은 성능을 보이는 것처럼 보였지만 다운스트림에 큰 영향을 미친다는 사실을 발견했습니다. Performer의 경우 업스트림과 다운스트림 간의 성능 격차가 더욱 넓어지는 것으로 보입니다. SuperGLUE의 다운스트림 작업에는 컨볼루션과 같은 모델이 처리할 수 없는 인코더에서 의사 교차 주의가 필요한 경우가 많다는 점은 주목할 가치가 있습니다(Tay et al., 2021a).

따라서 연구원들은 일부 모델이 좋은 업스트림 성능을 발휘하더라도 다운스트림 작업을 학습하는 데 여전히 어려움을 겪을 수 있다는 사실을 발견했습니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

스케일마다 가장 좋은 모델이 다른가요?

아래 그림 1은 업스트림 또는 다운스트림 성능 측면에서 계산된 파레토 프론티어를 보여줍니다. 플롯의 색상은 서로 다른 모델을 나타내며, 각 척도 및 계산 영역에 따라 가장 적합한 모델이 다를 수 있음을 관찰할 수 있습니다. 또한 이는 위의 그림 3에서도 볼 수 있습니다. 예를 들어, Evolved Transformer는 작은 영역에서 작은 영역(다운스트림)에서 표준 Transformer와 마찬가지로 성능을 발휘하는 것처럼 보이지만 모델을 확장할 때 이러한 변화는 빠르게 변합니다. 연구원들은 또한 MoS-Transformer에서도 이를 관찰했는데, 이는 일부 영역에서는 일반 Transformer보다 훨씬 더 나은 성능을 보였지만 다른 영역에서는 그렇지 않았습니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

모델별 스케일링 법칙

아래 표 2는 다양한 경우의 각 모델별로 피팅된 선형 직선 α의 기울기를 나타냅니다. 연구자들은 F(FLOP), U(업스트림 혼란), D(다운스트림 정확도) 및 P(매개변수 수)를 플로팅하여 α를 얻었습니다. 일반적으로 α는 모델의 확장성을 나타냅니다. 예를 들어 α_F,U는 업스트림 성능에 대해 FLOP를 표시합니다. 유일한 예외는 업스트림 및 다운스트림 성능을 측정하는 α_U,D입니다. α_U,D 값이 높을수록 모델이 다운스트림 작업에 더 잘 확장된다는 의미입니다. 전반적으로 알파 값은 확장에 비해 모델이 얼마나 잘 수행되는지를 측정한 것입니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

스케일링 프로토콜이 모델 아키텍처에 같은 방식으로 영향을 미치나요?

아래 그림 4는 네 가지 모델 아키텍처(MoS-Transformer, Transformer, Evolved Transformer, LConv)에서 확장 깊이의 영향을 보여줍니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

아래 그림 5는 동일한 4개 아키텍처에서 너비 확장의 영향을 보여줍니다. 첫째, 업스트림(음의 로그 복잡도) 곡선에서 서로 다른 아키텍처 간의 절대 성능에는 분명한 차이가 있지만 확장 추세는 매우 유사하다는 것을 알 수 있습니다. LConv를 제외한 다운스트림의 심층 확장(위 그림 4)은 대부분의 아키텍처에서 동일하게 작동하는 것으로 보입니다. 또한 Evolved Transformer는 너비 스케일링에 비해 너비 스케일링을 적용하는 데 약간 더 나은 것 같습니다. 깊이 스케일링은 너비 스케일링보다 다운스트림 스케일링에 훨씬 더 큰 영향을 미친다는 점에 주목할 가치가 있습니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

자세한 연구 내용은 원문을 참고해주세요.

위 내용은 Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DeepSeek에 의견을 말하는 방법 DeepSeek에 의견을 말하는 방법 Feb 19, 2025 pm 05:42 PM

DeepSeek은 강력한 정보 검색 도구입니다.이 장점은 정보가 느리고 결과 프레젠테이션 방법이 간단하며 데이터베이스 적용 범위는 제한되어 있다는 것입니다 .

DeepSeek을 검색하는 방법 DeepSeek을 검색하는 방법 Feb 19, 2025 pm 05:39 PM

DeepSeek은 특정 데이터베이스 나 시스템에서만 더 빠르고 정확한 독점 검색 엔진입니다. 이를 사용할 때 사용자는 문서를 읽고, 다양한 검색 전략을 시도하고, 사용자 경험에 대한 도움을 요청하고 사용자 경험에 대한 피드백을 최대한 활용하는 것이 좋습니다.

참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 Feb 28, 2025 am 11:06 AM

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Feb 21, 2025 pm 10:57 PM

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit은 사용자에게 거래 서비스를 제공하는 암호 화폐 거래소입니다. Exchange의 모바일 앱은 다음과 같은 이유로 AppStore 또는 GooglePlay를 통해 직접 다운로드 할 수 없습니다. 1. App Store Policy는 Apple과 Google이 App Store에서 허용되는 응용 프로그램 유형에 대한 엄격한 요구 사항을 갖지 않도록 제한합니다. Cryptocurrency Exchange 응용 프로그램은 금융 서비스가 포함되며 특정 규정 및 보안 표준이 필요하기 때문에 이러한 요구 사항을 충족하지 않습니다. 2. 법률 및 규정 준수 준수 많은 국가에서 암호 화폐 거래와 관련된 활동이 규제되거나 제한됩니다. 이러한 규정을 준수하기 위해 BYBIT 응용 프로그램은 공식 웹 사이트 또는 기타 공인 채널을 통해서만 사용할 수 있습니다.

참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 Feb 28, 2025 am 10:51 AM

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

참깨 오픈 도어 교환 웹 페이지 로그인 최신 버전 GATEIO 공식 웹 사이트 입구 참깨 오픈 도어 교환 웹 페이지 로그인 최신 버전 GATEIO 공식 웹 사이트 입구 Mar 04, 2025 pm 11:48 PM

로그인 단계 및 암호 복구 프로세스를 포함하여 참깨 오픈 exchange 웹 버전의 로그인 작업에 대한 자세한 소개는 로그인 실패, 페이지를 열 수 없으며 플랫폼에 부드럽게 로그인 할 수없는 일반적인 문제에 대한 솔루션을 제공합니다.

Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Mar 18, 2025 pm 12:15 PM

이 기사에서는 Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi 및 Xbit DencentRalized Exchanges를 포함하여주의를 기울여야 할 상위 10 개의 Cryptocurrency 거래 플랫폼을 권장합니다. 이 플랫폼은 거래 통화 수량, 거래 유형, 보안, 규정 준수 및 특수 기능 측면에서 고유 한 이점이 있습니다. 예를 들어 Binance는 전 세계 최대의 거래량과 풍부한 기능으로 유명합니다. 적절한 플랫폼을 선택하려면 자체 거래 경험, 위험 허용 범위 및 투자 선호도를 기반으로 포괄적 인 고려 사항이 필요합니다. 이 기사가 자신에게 가장 적합한 것을 찾는 데 도움이되기를 바랍니다.

Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Feb 21, 2025 pm 05:42 PM

Binance 웹 사이트 로그인 포털의 최신 버전에 액세스하려면 다음을 수행하십시오. 공식 웹 사이트로 이동하여 오른쪽 상단의 "로그인"버튼을 클릭하십시오. 기존 로그인 방법을 선택하십시오. 새 사용자 인 경우 "등록하십시오. 등록 된 휴대폰 번호 또는 이메일 및 비밀번호를 입력하고 완전한 인증 (예 : 모바일 확인 코드 또는 Google 인증 자). 성공적인 확인 후 Binance 공식 웹 사이트 로그인 포털의 최신 버전에 액세스 할 수 있습니다.

See all articles