목차
이 논문 는 나와 Andrea Gesmundo의 공동 작업으로 함께 완성되었으며 Andrea Gesmundo가 논문 작업의 대부분을 수행했습니다.
기술 주변기기 일체 포함 연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

Apr 08, 2023 pm 04:21 PM
Google ai 종이

​어제 전체 커뮤니티에서 가장 인기 있었던 주제는 다름 아닌 Google AI 리더인 Jeff Dean의 논문 참여에 의문을 제기하는 Reddit의 기계 학습 연구원이었습니다. "대규모 다중 작업 학습 시스템에서 작업의 동적 도입에 대한 진화적 접근 방식"이라는 논문이 목요일 사전 인쇄 논문 플랫폼 arXiv에 제출되었습니다. 연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

논문에서 Jeff Dean 등은 대규모 다중 작업 모델을 생성하는 동시에 새로운 작업의 동적이고 지속적인 추가를 지원하는 진화적인 알고리즘을 제안했습니다. 생성된 다중 작업 모델은 드물게 활성화되고 통합됩니다. 작업 기반 라우팅. 새로운 방법은 공공 데이터로만 훈련된 모델에 대해 CIFAR-10에서 99.43%의 새로운 업계 최고 인식 정확도를 달성하는 등 69개 이미지 분류 작업에서 경쟁력 있는 결과를 달성합니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

의문이 제기된 것은 CIFAR-10에서 달성된 이 새로운 SOTA이며, 이전 SOTA는 99.40이었습니다. 그녀는 "이 결과를 생성하는 데 총 17,810 TPU 코어 시간이 필요했습니다. Google에서 일하지 않으면 시간당 $3.22의 주문형 결제를 사용해야 하고 훈련된 모델 비용은 $57,348입니다.

"라고 말했습니다. , 그녀는 "Jeff Dean은 5년 동안 4인 가족을 부양할 만큼 충분한 돈을 썼고, CIFAR-10에서 0.03% 개선을 달성하고, 새로운 SOTA를 만들었습니다. 다 그럴만한 가치가 있나요?"

이 질문은 현장의 많은 사람들에게 반향을 불러일으켰습니다. 일부 연구자들은 "딥러닝에 대한 관심이 거의 사라졌다. 소규모 실험실의 실무자로서 컴퓨팅 예산 측면에서 거대 기술 기업과 경쟁하는 것은 기본적으로 불가능하다. 좋은 이론적 아이디어를 갖고 있다고 해도, 또한 세상의 빛을 보기 어렵게 만드는 주류 환경의 편견일 수도 있습니다. 이는 불공평한 경쟁의 장을 만듭니다.” 그는 "우리 연구의 목표는 더 높은 품질의 cifar10 모델을 얻는 것이 아니며, 원저자의 비용 계산 방법에도 문제가 있다"고 말했습니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.Jeff Dean의 답변 전문

이 논문 는 나와 Andrea Gesmundo의 공동 작업으로 함께 완성되었으며 Andrea Gesmundo가 논문 작업의 대부분을 수행했습니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.논문 주소: https://arxiv.org/pdf/2205.12755.pdf

제가 말씀드리고 싶은 것은 이 연구의 목표는 고품질의 cifar10 모델을 얻는 것이 아니라는 것입니다. 오히려 본 연구에서는 실행 중인 시스템에 새로운 작업을 동적으로 도입하고 기존 모델의 표현을 재사용하고 드물게 새로운 매개변수를 도입하는 새로운 작업에 대한 고품질 모델을 성공적으로 얻을 수 있는 설정을 탐구합니다. 치명적인 망각 또는 부정적인 이주로.

이 연구의 실험은 여러 독립적인 시각화 작업 벤치마크에서 69개의 다양한 작업 흐름을 동적으로 도입하여 이러한 모든 작업에 대한 고품질 솔루션을 공동으로 생성할 수 있는 다중 작업 시스템으로 끝날 수 있음을 보여줍니다. 결과 모델은 주어진 작업에 대해 드물게 활성화되며 시스템은 새로운 작업에 대해 점점 더 적은 수의 새로운 매개변수를 도입합니다(아래 그림 2 참조). 멀티태스킹 시스템은 이 작업 흐름이 끝날 때 증분 작업에 대해 1.4%의 새로운 매개변수만을 도입했으며, 각 작업은 모델의 전체 매개변수의 평균 2.3%를 활성화했습니다. 작업 간에는 상당한 표현 공유가 있으며, 진화 프로세스는 그것이 타당한 시기와 새로운 훈련 가능한 매개변수가 새로운 작업에 도입되어야 하는 시기를 결정하는 데 도움이 됩니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다. 또한 원래 게시물의 작성자가 비용을 잘못 계산한 것 같습니다. 실험은 cifar10 모델을 훈련하는 대신 69개 작업을 공동으로 해결하는 다중 작업 모델을 훈련하는 것이었습니다. 아래 표 7에서 볼 수 있듯이 사용된 계산은 TPUv3 코어와 TPUv4 코어를 혼합하여 사용하므로 코어 시간은 가격이 다르기 때문에 단순히 계산할 수 없습니다.

특별히 긴급한 작업이 있거나 cifar10+68 작업을 신속하게 교육해야 하는 경우를 제외하고 이러한 유형의 연구에서는 선제적인 가격, 즉 $0.97/시간 TPUv4, $0.60/시간 TPUv3(그들이 말한 것과는 다름)로 리소스를 쉽게 사용할 수 있습니다. 온디맨드 가격은 시간당 $3.22입니다. 이러한 가정 하에서 표 7에 설명된 컴퓨팅 퍼블릭 클라우드 비용은 약 $13,960(12,861 TPUv4 칩 시간 및 2,474.5 TPUv3 칩 시간의 선점형 가격 사용) 또는 작업당 약 $202입니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

저는 활성화가 희박한 모델을 보유하고 (적절한 경우) 표현을 공유하고 치명적인 망각을 피할 수 있는 기존 시스템에 새로운 작업을 동적으로 도입할 수 있는 것이 중요하다고 생각합니다. 이러한 연구는 적어도 탐구할 가치가 있습니다. 이 시스템은 또한 특별히 공식화할 필요 없이 새로운 작업이 자동으로 시스템에 통합될 수 있다는 장점이 있는데(이것이 진화적 검색 프로세스가 수행하는 작업입니다), 이는 지속적으로 학습하는 시스템의 유용한 속성인 것 같습니다.

본 논문의 코드는 오픈소스이므로 직접 확인해 보실 수 있습니다.

코드 주소: https://github.com/google-research/google-research/tree/master/muNet

원본 게시물의 작성자가 Jeff Dean

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

님의 답변을 본 후, 원본 게시물 저자는 다음과 같이 말했습니다: 명확히 하기 위해 Jeff Dean의 이 논문(각 작업에서 모델 증강을 생성하는 데 사용되는 진화 패턴)이 정말 흥미롭다고 생각합니다. 다른 논문이 생각나지만 제목이 기억나지 않습니다. 다른 모듈의 숨겨진 상태를 각 레이어 입력의 일부로 사용하지만 기존 구성 요소의 가중치를 업데이트하지 않고 각 새 작업에 대해 전체 아키텍처에 새 모듈을 추가하는 방법에 대해 대략적으로 설명합니다.

각 작업에 대해 모델에 모듈을 구축하는 아이디어도 있습니다. 아기 사슴이 태어난 지 몇 분 만에 어떻게 걸을 수 있는지 아시나요? 이와 대조적으로 그 당시 갓 태어난 새끼 사슴은 움직임을 감지하거나 세상을 모델링하는 방법을 배우기 위한 "훈련 데이터"가 본질적으로 없었으며, 대신 새끼 사슴이 기본 기술을 갖기 위해 유전되어야 하는 뇌의 특수 구조를 활용해야 했습니다. . 이러한 구조는 매우 유용하므로 새롭지만 관련된 제어 작업으로 빠르게 일반화될 수 있습니다.

그래서 이 문서를 통해 저는 새로운 작업을 더 효율적으로 학습하는 데 사용할 수 있는 이미 존재하는 상속 가능한 구조의 개발에 대해 생각하게 되었습니다.

다른 연구실의 연구원도 같은 아이디어를 가지고 있을 수 있지만 기존 설정에서 대규모 클라우드 플랫폼으로 이동할 여유가 없기 때문에 훨씬 더 나쁜 결과를 얻을 수 있습니다. 그리고 커뮤니티가 이제 SOTA 결과에 지나치게 집중하고 있기 때문에 그들의 연구는 출판될 수 없습니다. 비용은 작업당 "고작" $202이지만, 문제를 해결하려면 많은 반복이 필요합니다.

따라서 큰 컴퓨팅 예산을 확보할 수 없는 사람들에게는 기본적으로 두 가지 옵션만 있습니다. 하나는 Google이 기존 모델을 공개적으로 배포하고 필요에 따라 이를 미세 조정할 수 있기를 기도하고 희망하는 것입니다. 그러나 모델은 우리가 제거할 수 없는 편견이나 적대적인 약점을 학습했을 수도 있다는 것이 밝혀졌습니다. 두 번째는 아무것도 하지 않고 누워 있는 것입니다.

그래서 내 문제는 이 연구에만 있는 것이 아닙니다. OpenAI가 GPT-4에 수천억 달러(비유적으로 말하면)를 지출하고 싶다면 더 많은 전력을 공급하십시오. 이것은 사람들이 실제 업무에서 더 나은 성과를 거두도록 돕기보다는 현란함, 큰 숫자, 사치에 지나치게 보상하는 과학 및 출판 문화입니다. 제가 가장 좋아하는 논문은 2019년 van der Oord가 쓴 "Representation Learning with Contrastive Predictive Coding"입니다. 이 논문에서는 감독되지 않은 사전 훈련 작업을 사용한 다음 작은 레이블 하위 집합에 대한 지도 훈련을 사용하여 복제본 레이블이 지정된 모든 데이터의 정확도 결과를 달성하고 이에 대해 논의합니다. 데이터 효율성 측면에서 이러한 개선이 이루어졌습니다. 나는 이러한 결과를 작업에 재현하고 사용하여 시간과 비용을 절약했습니다. 이 논문을 토대로 저는 그의 박사과정 학생이 되고 싶습니다.

그러나 OpenAI는 "Language Models are Few-Shot Learners"라는 논문에서 더 큰 변형 모델 GPT-3을 제안했으며, 이 논문은 거의 4,000회에 달하는 인용과 NeurIPS 2020 최우수 논문 상을 받았으며, 언론 전체의 주목도 받았습니다.

위 내용은 연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Centos HDFS 구성을 확인하는 방법 Centos HDFS 구성을 확인하는 방법 Apr 14, 2025 pm 07:21 PM

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

Centos Shutdown 명령 줄 Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Centos에서 Gitlab의 백업 방법은 무엇입니까? Centos에서 Gitlab의 백업 방법은 무엇입니까? Apr 14, 2025 pm 05:33 PM

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos 설치 MySQL Centos 설치 MySQL Apr 14, 2025 pm 08:09 PM

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Centos에서 Gitlab 로그를 보는 방법 Centos에서 Gitlab 로그를 보는 방법 Apr 14, 2025 pm 06:18 PM

Centos 시스템에서 Gitlab 로그를보기위한 완전한 안내서이 기사에서는 메인 로그, 예외 로그 및 기타 관련 로그를 포함한 CentOS 시스템에서 다양한 Gitlab 로그를 보는 방법을 안내합니다. 로그 파일 경로는 Gitlab 버전 및 설치 방법에 따라 다를 수 있습니다. 다음 경로가 존재하지 않으면 GitLab 설치 디렉토리 및 구성 파일을 확인하십시오. 1. 기본 gitlab 로그보기 다음 명령을 사용하여 Gitlabrails 응용 프로그램의 기본 로그 파일을 보려면 다음 명령 : 명령 : sudocat/var/log/gitlab/gitlab-rails/production.log이 명령은 제품을 표시합니다.

Centos에서 Pytorch의 분산 교육을 운영하는 방법 Centos에서 Pytorch의 분산 교육을 운영하는 방법 Apr 14, 2025 pm 06:36 PM

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소

Docker 원리에 대한 자세한 설명 Docker 원리에 대한 자세한 설명 Apr 14, 2025 pm 11:57 PM

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Apr 14, 2025 pm 06:48 PM

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

See all articles