목차
효과 표시
방법 개요
실험 결과
기술 주변기기 일체 포함 Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

May 08, 2023 pm 08:34 PM
액자 모델

GPT-4가 이번 주에 출시될 예정이며, 다중 모드가 그 하이라이트 중 하나가 될 것이라고 합니다. 현재의 대형 언어 모델은 다양한 양상을 이해하기 위한 보편적인 인터페이스가 되고 있으며 다양한 모달 정보를 기반으로 응답 텍스트를 제공할 수 있습니다. 그러나 대형 언어 모델에서 생성되는 콘텐츠는 텍스트로만 제한됩니다. 반면, 현재의 확산 모델인 DALL・E 2, Imagen, Stable Diffusion 등은 시각적 창작에 혁명을 일으켰으나 이들 모델은 텍스트에서 이미지까지 단일 크로스 모달 기능만 지원하며 아직까지는 갈 길이 멀다. 보편적인 생성 거리에서. 다중 모드 대형 모델은 다양한 양식의 기능을 개방하고 모든 양식 간의 전환을 실현할 수 있으며, 이는 범용 생성 모델의 향후 개발 방향으로 간주됩니다.

칭화대학교 컴퓨터과학과 Zhu Jun 교수가 이끄는 TSAIL 팀은 최근 "One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale"이라는 논문을 발표했습니다. 다중 모드 생성 모델은 모든 모드 간의 상호 변환을 실현합니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.


논문 링크: https://ml.cs.tsinghua.edu.cn/diffusion/unidiffuser.pdf

오픈 소스 코드: https://github .com/thu-ml/unidiffuser

본 논문은 멀티모달리티를 위해 설계된 확률론적 모델링 프레임워크인 UniDiffuser를 제안하고, 팀이 제안하는 Transformer 기반 네트워크 아키텍처 U-ViT를 오픈소스 대규모 환경에서 채택합니다. 축척 그래프 10억 개의 매개변수가 있는 모델이 문헌 데이터 세트 LAION-5B에서 훈련되어 기본 모델이 고품질로 다양한 생성 작업을 완료할 수 있게 되었습니다(그림 1). 간단히 말하면, 단방향 텍스트 생성 외에도 이미지 생성, 이미지와 텍스트 결합 생성, 무조건적인 이미지와 텍스트 생성, 이미지와 텍스트 재작성 등 다양한 기능을 실현할 수 있어 생산이 크게 향상됩니다. 텍스트 및 이미지 콘텐츠의 효율성을 높이고 텍스트 및 그래픽 생성을 더욱 향상시킵니다. 수식 모델의 응용 상상력.

이 논문의 첫 번째 저자인 Bao Fan은 현재 Analytic-DPM의 이전 제안자였습니다. 그는 ICLR 2022 우수 논문상을 수상했습니다(현재는 독립적으로 완성된 유일한 수상 논문). 본토 단위) 확산 모델 분야에서 뛰어난 성과를 거두었습니다.

또한, Machine Heart는 이전에 TSAIL 팀이 제안한 DPM-Solver 고속 알고리즘에 대해 보고했는데, 이는 여전히 확산 모델을 위한 가장 빠른 생성 알고리즘입니다. 다중 모드 대형 모델은 팀이 장기적으로 심층적으로 축적한 알고리즘과 심층 확률 모델의 원리를 집중적으로 표시한 것입니다. 이 작업의 공동 작업자로는 Renmin University Hillhouse 인공 지능 학교의 Li Chongxuan, Beijing Zhiyuan Research Institute의 Cao Yue 등이 있습니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

이 프로젝트의 논문과 코드가 오픈 소스라는 점은 주목할 가치가 있습니다.

효과 표시

다음 그림 8은 이미지와 텍스트의 공동 생성에 대한 UniDiffuser의 효과를 보여줍니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

다음 그림 9는 텍스트-이미지에 대한 UniDiffuser의 효과를 보여줍니다. 생성:

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

다음 그림 10은 이미지-텍스트 변환에 대한 UniDiffuser의 효과를 보여줍니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

다음 그림 11은 무조건적인 이미지 생성에 대한 UniDiffuser의 효과를 보여줍니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

다음 그림 12는 이미지 재작성에 대한 UniDiffuser의 효과를 보여줍니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

다음 그림 15는 UniDiffuser가 이미지와 텍스트의 두 가지 모드 사이를 앞뒤로 이동할 수 있음을 보여줍니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

아래 그림 16과 같이 UniDiffuser는 두 개의 실제 이미지를 보간할 수 있습니다.

방법 개요

연구팀은 일반 생성 모델의 설계를 두 가지 하위 문제로 나누었습니다.

  • 확률적 모델링 프레임워크: 한계 분포, 조건부 분포, 이미지와 텍스트 간의 결합 분포 등 모드 간 모든 분포를 동시에 모델링할 수 있는 확률적 모델링 프레임워크를 찾을 수 있습니까?
  • 네트워크 아키텍처: 다양한 입력 양식을 지원하도록 통합 네트워크 아키텍처를 설계할 수 있습니까?

확률적 모델링 프레임워크

확률적 모델링 프레임워크로 연구팀은 확산 모델 기반의 확률적 모델링 프레임워크인 UniDiffuser를 제안했습니다. UniDiffuser는 한계 분포, 조건 분포 및 결합 분포를 포함하여 다중 모드 데이터의 모든 분포를 명시적으로 모델링할 수 있습니다. 연구팀은 서로 다른 분포에 대한 확산 모델 학습이 하나의 관점으로 통합될 수 있다는 사실을 발견했습니다. 먼저 두 양식의 데이터에 일정 크기의 노이즈를 추가한 다음 두 양식의 데이터에 대한 노이즈를 예측하는 것입니다. 두 모달 데이터의 노이즈 양에 따라 특정 분포가 결정됩니다. 예를 들어, 텍스트의 노이즈 크기를 0으로 설정하는 것은 빈첸시안 다이어그램의 조건부 분포에 해당하고, 텍스트의 노이즈 크기를 최대값으로 설정하는 것은 이미지의 노이즈 크기를 무조건적으로 설정하는 것에 해당합니다. 동일한 값의 텍스트는 이미지와 텍스트의 공동 분포에 해당합니다. 이러한 통합된 관점에 따르면 UniDiffuser는 위의 모든 분포를 동시에 학습하기 위해 원래 확산 모델의 훈련 알고리즘을 약간 수정하기만 하면 됩니다. 아래 그림에 표시된 것처럼 UniDiffuser는 동시에 모든 모드에 노이즈를 추가합니다. 단일 모드 대신 모든 모드에 해당하는 노이즈 크기와 모든 모드에서 예상되는 노이즈를 입력합니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

바이모달 모드를 예로 들면, 최종 학습 목적 함수는 다음과 같습니다.

는 데이터를 나타냅니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

은 두 모드에 추가된 표준 가우스 노이즈를 나타내고,

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

은 두 모드에 추가된 노이즈의 크기(즉, 시간)를 나타내며, 두 개는 { 1, 2,…,T} 중간 샘플링,

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

은 두 가지 양식에 대한 잡음을 동시에 예측하는 잡음 예측 네트워크입니다.

훈련 후 UniDiffuser는 소음 예측 네트워크에 두 모드에 대한 적절한 시간을 설정하여 무조건, 조건부 및 공동 생성을 달성할 수 있습니다. 예를 들어, 텍스트 시간을 0으로 설정하면 텍스트-이미지 생성이 가능하며, 텍스트 시간을 최대값으로 설정하면 이미지와 텍스트의 시간을 동일한 값으로 설정하면 무조건 이미지 생성이 가능합니다. 이미지와 텍스트의 공동 생성.

UniDiffuser의 훈련 및 샘플링 알고리즘은 다음과 같습니다. 이러한 알고리즘은 원래 확산 모델에 비해 약간만 변경되었으며 구현하기 쉽다는 것을 알 수 있습니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

또한 UniDiffuser는 조건부 분포와 무조건 분포를 모두 모델링하기 때문에 UniDiffuser는 자연스럽게 분류자 없는 안내를 지원합니다. 아래 그림 3은 다양한 지침 규모에 따른 UniDiffuser의 조건부 생성과 결합 생성의 효과를 보여줍니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

Network Architecture

네트워크 아키텍처의 경우, 연구팀은 Transformer 기반 아키텍처를 사용할 것을 제안했습니다. 잡음 예측 네트워크를 매개변수화합니다. 구체적으로 연구팀은 최근 제안된 U-ViT 아키텍처를 채택했다. U-ViT는 모든 입력을 토큰으로 처리하고 변압기 블록 사이에 U자형 연결을 추가합니다. 연구팀은 또한 다양한 양식의 데이터를 잠재 공간으로 변환한 후 확산 모델을 모델링하기 위해 Stable Diffusion 전략을 채택했습니다. U-ViT 아키텍처도 이 연구팀에서 제공되었으며 https://github.com/baofff/U-ViT에서 오픈 소스로 공개되었다는 점은 주목할 가치가 있습니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

실험 결과

UniDiffuser는 먼저 Versatile Diffusion과 비교했습니다. Versatile Diffusion은 다중 작업 프레임워크를 기반으로 하는 과거의 다중 모드 확산 모델입니다. 먼저 UniDiffuser와 Versatile Diffusion의 텍스트-이미지 효과를 비교했습니다. 아래 그림 5에서 볼 수 있듯이 UniDiffuser는 다양한 분류 없는 안내 척도에서 CLIP 점수와 FID 측정 항목 모두에서 Versatile Diffusion보다 우수합니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

그런 다음 UniDiffuser와 Versatile Diffusion은 그림-텍스트 효과 비교를 수행했습니다. 아래 그림 6에서 볼 수 있듯이 UniDiffuser는 이미지-텍스트에서 더 나은 CLIP 점수를 갖습니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

UniDiffuser는 MS-COCO의 제로샷 FID를 위한 전용 텍스트-그래프 모델과도 비교됩니다. 아래 표 1에서 볼 수 있듯이 UniDiffuser는 전용 텍스트-그래프 모델과 비슷한 결과를 얻을 수 있습니다.

Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.

위 내용은 Zhu Jun 팀은 Tsinghua University에서 Transformer를 기반으로 한 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했으며 텍스트와 이미지 재작성 후 완전히 완성되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

OpenAI 데이터가 필요하지 않습니다. 대규모 코드 모델 목록에 참여하세요! UIUC, StarCoder-15B-Instruct 출시 OpenAI 데이터가 필요하지 않습니다. 대규모 코드 모델 목록에 참여하세요! UIUC, StarCoder-15B-Instruct 출시 Jun 13, 2024 pm 01:59 PM

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

Yolov10: 자세한 설명, 배포, 적용이 모두 한곳에! Yolov10: 자세한 설명, 배포, 적용이 모두 한곳에! Jun 07, 2024 pm 12:05 PM

1. 소개 지난 몇 년 동안 YOLO는 계산 비용과 감지 성능 간의 효과적인 균형으로 인해 실시간 객체 감지 분야에서 지배적인 패러다임이 되었습니다. 연구원들은 YOLO의 아키텍처 설계, 최적화 목표, 데이터 확장 전략 등을 탐색하여 상당한 진전을 이루었습니다. 동시에 사후 처리를 위해 NMS(비최대 억제)에 의존하면 YOLO의 엔드투엔드 배포가 방해되고 추론 대기 시간에 부정적인 영향을 미칩니다. YOLO에서는 다양한 구성 요소의 설계에 포괄적이고 철저한 검사가 부족하여 상당한 계산 중복이 발생하고 모델 기능이 제한됩니다. 이는 최적이 아닌 효율성을 제공하며 성능 향상을 위한 상대적으로 큰 잠재력을 제공합니다. 이 작업의 목표는 사후 처리와 모델 아키텍처 모두에서 YOLO의 성능 효율성 경계를 더욱 향상시키는 것입니다. 이를 위해

Tsinghua University가 인수하고 YOLOv10이 출시되었습니다. 성능이 크게 향상되어 GitHub 인기 목록에 올랐습니다. Tsinghua University가 인수하고 YOLOv10이 출시되었습니다. 성능이 크게 향상되어 GitHub 인기 목록에 올랐습니다. Jun 06, 2024 pm 12:20 PM

표적 탐지 시스템의 벤치마크 YOLO 시리즈가 다시 한 번 대대적인 업그레이드를 받았습니다. 올해 2월 YOLOv9이 출시된 이후 YOLO(YouOnlyLookOnce) 시리즈의 지휘봉은 칭화대학교 연구진의 손에 넘어갔다. 지난 주말 YOLOv10 출시 소식이 AI 커뮤니티의 관심을 끌었다. 컴퓨터 비전 분야의 획기적인 프레임워크로 간주되며 실시간 엔드투엔드 개체 감지 기능으로 유명하며 효율성과 정확성을 결합한 강력한 솔루션을 제공함으로써 YOLO 시리즈의 유산을 이어갑니다. 논문 주소: https://arxiv.org/pdf/2405.14458 프로젝트 주소: https://github.com/THU-MIG/yo

Google Gemini 1.5 기술 보고서: 수학 올림피아드 문제를 쉽게 증명할 수 있으며 Flash 버전은 GPT-4 Turbo보다 ​​5배 빠릅니다. Google Gemini 1.5 기술 보고서: 수학 올림피아드 문제를 쉽게 증명할 수 있으며 Flash 버전은 GPT-4 Turbo보다 ​​5배 빠릅니다. Jun 13, 2024 pm 01:52 PM

올해 2월 Google은 엔지니어링 및 인프라 최적화, MoE 아키텍처 및 기타 전략을 통해 성능과 속도를 크게 향상시킨 다중 모드 대형 모델 Gemini 1.5를 출시했습니다. 더 긴 컨텍스트, 더 강력한 추론 기능, 교차 모달 콘텐츠 처리 능력이 향상되었습니다. 이번 금요일에 Google DeepMind는 Flash 버전과 기타 최신 업그레이드를 다루는 Gemini 1.5의 기술 보고서를 공식적으로 발표했습니다. 이 문서의 길이는 153페이지입니다. 기술 보고서 ​​링크: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf 이 보고서에서 Google은 Gemini1을 소개합니다.

Java 프레임워크에 대한 상용 지원의 비용 효율성을 평가하는 방법 Java 프레임워크에 대한 상용 지원의 비용 효율성을 평가하는 방법 Jun 05, 2024 pm 05:25 PM

Java 프레임워크에 대한 상용 지원의 비용/성능 평가에는 다음 단계가 포함됩니다. 필요한 보증 수준과 SLA(서비스 수준 계약) 보장을 결정합니다. 연구지원팀의 경험과 전문성. 업그레이드, 문제 해결, 성능 최적화와 같은 추가 서비스를 고려하십시오. 위험 완화 및 효율성 향상을 기준으로 비즈니스 지원 비용을 평가합니다.

검토! 자율주행 촉진을 위한 기본 모델의 중요한 역할을 종합적으로 요약 검토! 자율주행 촉진을 위한 기본 모델의 중요한 역할을 종합적으로 요약 Jun 11, 2024 pm 05:29 PM

위 작성 및 저자 개인 이해: 최근 딥러닝 기술의 발전과 획기적인 발전으로 대규모 기반 모델(Foundation Models)이 자연어 처리 및 컴퓨터 비전 분야에서 상당한 성과를 거두었습니다. 자율주행에 기본 모델을 적용하는 것도 시나리오에 대한 이해와 추론을 향상시킬 수 있는 큰 발전 전망을 가지고 있습니다. 풍부한 언어와 시각적 데이터에 대한 사전 학습을 통해 기본 모델은 자율주행 시나리오의 다양한 요소를 이해하고 해석하고 추론을 수행할 수 있으며, 의사 결정 및 계획을 추진하기 위한 언어 및 동작 명령을 제공합니다. 기본 모델은 일상적인 운전 및 데이터 수집 중에 발생할 가능성이 없는 롱테일 분포에서 드물게 실행 가능한 기능을 제공하기 위해 운전 시나리오에 대한 이해를 통해 데이터를 보강할 수 있습니다.

PHP 프레임워크의 학습 곡선은 다른 언어 프레임워크와 어떻게 비교됩니까? PHP 프레임워크의 학습 곡선은 다른 언어 프레임워크와 어떻게 비교됩니까? Jun 06, 2024 pm 12:41 PM

PHP 프레임워크의 학습 곡선은 언어 숙련도, 프레임워크 복잡성, 문서 품질 및 커뮤니티 지원에 따라 달라집니다. PHP 프레임워크의 학습 곡선은 Python 프레임워크에 비해 높고 Ruby 프레임워크에 비해 낮습니다. Java 프레임워크에 비해 PHP 프레임워크는 학습 곡선이 적당하지만 시작하는 데 걸리는 시간이 더 짧습니다.

서로 다른 데이터 세트에는 서로 다른 스케일링 법칙이 있습니까? 그리고 압축 알고리즘으로 예측할 수 있습니다. 서로 다른 데이터 세트에는 서로 다른 스케일링 법칙이 있습니까? 그리고 압축 알고리즘으로 예측할 수 있습니다. Jun 07, 2024 pm 05:51 PM

일반적으로 신경망을 훈련하는 데 필요한 계산이 많을수록 성능이 향상됩니다. 계산을 확장할 때는 모델 매개변수 수를 늘리거나 데이터 세트 크기를 늘리는 것 중 하나를 결정해야 합니다. 이 두 가지 요소는 고정된 계산 예산 내에서 평가되어야 합니다. 모델 매개변수 수를 늘리는 것의 장점은 모델의 복잡성과 표현 능력을 향상시켜 훈련 데이터를 더 잘 맞출 수 있다는 것입니다. 그러나 매개변수가 너무 많으면 과적합이 발생하여 보이지 않는 데이터에 대한 모델 성능이 저하될 수 있습니다. 반면에 데이터 세트 크기를 확장하면 모델의 일반화 능력이 향상되고 과적합 문제가 줄어들 수 있습니다. 매개변수와 데이터를 적절하게 할당하는 한 고정된 컴퓨팅 예산 내에서 성능을 극대화할 수 있습니다. 이전의 많은 연구에서는 신경 언어 모델의 확장을 탐구했습니다.

See all articles