DeepMind는 'Transformer는 사전 훈련 데이터 이상으로 일반화할 수 없다'고 지적했지만 일부 사람들은 이에 대해 의문을 제기했습니다.
Transformer는 "훈련 데이터" 이상의 새로운 문제를 해결할 수 없는 운명인가요?
대규모 언어 모델이 보여주는 인상적인 기능 중 하나는 상황에 맞는 샘플을 제공하고 제공된 최종 입력을 기반으로 모델에 응답을 생성하도록 요청하여 퓨샷 학습을 달성하는 기능입니다. 이는 기본 기계 학습 기술인 "Transformer 모델"에 의존하며, 언어 이외의 영역에서도 상황에 맞는 학습 작업을 수행할 수도 있습니다.
과거 경험에 따르면 사전 훈련된 혼합으로 잘 표현되는 작업군이나 기능 클래스의 경우 상황별 학습에 적합한 기능 클래스를 선택하는 데 비용이 거의 들지 않는다는 것이 입증되었습니다. 따라서 일부 연구자들은 Transformer가 훈련 데이터와 동일한 분포로 분포된 작업이나 기능에 대해 잘 일반화할 수 있다고 믿습니다. 그러나 일반적이지만 해결되지 않은 질문은 다음과 같습니다. 이러한 모델은 훈련 데이터 분포와 일치하지 않는 샘플에서 어떻게 작동합니까?
최근 연구에서 DeepMind의 연구원들은 실증적 연구의 도움을 받아 이 문제를 탐구했습니다. 그들은 일반화 문제를 다음과 같이 설명합니다. "모델이 기본에 속하지 않는 함수에서 사전 훈련된 데이터를 혼합하여 기본 함수 클래스에 속하지 않는 함수를 사용하여 상황 내 예제로 좋은 예측을 생성할 수 있습니까?" 사전 훈련 데이터 혼합에서 볼 수 있는 함수 클래스? )》
이 콘텐츠의 초점은 사전 훈련 과정에서 사용된 데이터가 결과 Transformer 모델의 퓨샷 학습 능력에 미치는 영향을 탐색하는 것입니다. 이 문제를 해결하기 위해 연구자들은 먼저 사전 훈련 과정에서 모델 선택을 위해 다양한 기능 계열을 선택하는 Transformer의 능력을 연구한 후(섹션 3) 여러 주요 사례의 OOD 일반화 문제에 답했습니다(섹션 4)
논문 링크: https://arxiv.org/pdf/2311.00871.pdf
다음은 연구에서 발견되었습니다. 첫째, 사전 훈련된 Transformer는 사전 훈련된 함수 클래스에서 추출된 함수를 예측하는 데 성능이 좋지 않습니다. 둘째, Transformer는 함수 클래스 공간의 희귀한 부분을 효과적으로 일반화할 수 있지만 작업이 분포 범위를 초과하면 여전히 오류가 발생합니다
Transformer는 사전 훈련 데이터 인식 이상으로 일반화할 수 없습니다. 인식 이상의 문제를 해결할 수 없습니다
일반적으로 이 기사의 기여는 다음과 같습니다.
컨텍스트 학습을 수행하고 설명하기 위해 다양한 함수 클래스를 혼합하여 Transformer 모델을 사전 훈련합니다. 모델 선택 동작의 특성
사전 훈련 데이터의 함수 클래스와 "일관되지 않는" 함수의 경우 컨텍스트 학습에서 사전 훈련된 Transformer 모델의 동작을 연구합니다.
Strong Strong 모델이 약간의 추가 통계 비용으로 상황 학습 중에 사전 훈련된 함수 클래스 중에서 모델 선택을 수행할 수 있다는 증거가 있지만 모델이 사전 훈련을 넘어 상황 학습 동작을 수행할 수 있다는 증거도 제한적입니다.
이 연구원은 이것이 보안에 좋은 소식일 수 있다고 믿습니다. 적어도 모델은 원하는 대로 작동하지 않을 것입니다
그러나 일부 사람들은 이 논문에서 사용된 모델이 적합하지 않다고 지적했습니다 ——"GPT -2 규모'는 이 기사의 모델이 약 15억 개의 매개변수로 구성되어 있다는 것을 의미하며 이는 실제로 일반화하기 어렵습니다.
다음으로 논문의 내용을 살펴보겠습니다.
모델 선택 현상
다양한 함수 클래스의 데이터 혼합을 사전 학습할 때 문제에 직면하게 됩니다. 모델이 사전 학습 혼합에서 지원하는 컨텍스트 샘플을 만날 때 다양한 함수 클래스 중에서 선택하는 방법을 선택해야 합니다. ?
연구에 따르면 모델은 사전 훈련 데이터의 함수 클래스와 관련된 상황별 샘플에 노출될 때 최상의(또는 최고에 가까운) 예측을 할 수 있는 것으로 나타났습니다. 또한 연구원들은 단일 구성요소 함수 클래스에 속하지 않는 함수에 대한 모델 성능을 살펴보고 섹션 4에서 사전 훈련 데이터와 전혀 관련이 없는 함수에 대해 논의했습니다.
우선 선형 함수에 대한 연구부터 시작하겠습니다. 선형 함수가 상황 학습 분야에서 폭넓은 관심을 끌고 있음을 알 수 있습니다. 작년에 스탠포드 대학의 Percy Liang과 다른 사람들은 "Transformers Learn in Context?"라는 논문을 발표했습니다. 간단한 함수 클래스에 대한 사례 연구에서는 사전 훈련된 변환기가 새로운 선형 함수 컨텍스트를 학습하는 데 매우 잘 수행되어 거의 최적 수준에 도달했음을 보여주었습니다.
그들은 특히 두 가지 모델을 고려했습니다. 하나는 조밀한 선형 함수(학습된 선형 A 모델)입니다. 희소 선형 함수(모델의 모든 계수가 0이 아님)와 다른 하나는 희소 선형 함수(20개의 계수 중 2개만 0이 아님)에 대해 훈련된 모델입니다. 각 모델은 각각 새로운 조밀 선형 함수 및 희소 선형 함수에 대한 선형 회귀 및 Lasso 회귀와 비슷하게 수행되었습니다. 또한 연구원들은 이 두 모델을 희소 선형 함수와 조밀 선형 함수의 혼합에 대해 사전 훈련된 모델과 비교했습니다.
그림 1에 표시된 것처럼 혼합에 대한 컨텍스트 학습에서 모델의 성능은 하나의 함수 클래스에서만 사전 학습된 모델과 유사합니다. 하이브리드 사전 훈련 모델의 성능은 Garg et al.[4]의 이론적 최적 모델과 유사하므로 연구자들은 모델도 최적에 가깝다고 추론합니다. 그림 2의 ICL 학습 곡선은 이 컨텍스트 모델 선택 능력이 제공된 컨텍스트 예제의 수와 상대적으로 일치함을 보여줍니다. 또한 그림 2에서는 특정 함수 클래스에 대해 다양한 중요 가중치
가 사용되는 것을 볼 수 있습니다.
ICL 학습 곡선은 최고의 기준 샘플 복잡성과 거의 동일합니다. 그림 1의 ICL 학습 곡선의 지점과 일치하여 ICL 샘플 수가 증가함에 따라 편차는 작고 급격히 감소합니다. 그림 2는 Transformer 모델의 ICL 일반화가 분포 외 효과의 영향을 받는 것을 보여줍니다. 조밀한 선형 클래스와 희소 선형 클래스는 모두 선형 함수이지만 그림 2a의 빨간색 곡선(희소 선형 함수에 대해서만 사전 훈련되고 조밀한 선형 데이터에 대해 평가되는 변환기에 해당)의 성능이 좋지 않음을 알 수 있습니다. , 반대로 그림 2b의 갈색 곡선의 성능도 좋지 않습니다. 연구자들은 다른 비선형 함수 클래스에서도 유사한 동작을 관찰했습니다.
그림 1의 실험으로 돌아가서 전체 가능한 범위에 걸쳐 0이 아닌 계수 수의 함수로 오류를 플로팅하면 결과는 다음과 같습니다. = . 5의 혼합물에 대해 사전 조건화된 모델,
실제로 그림 3b는 컨텍스트에 제공된 샘플이 매우 희소하거나 매우 조밀한 함수에서 나온 경우 예측이 희소 데이터 또는 조밀한 데이터만 사용하여 사전 훈련된 모델의 예측과 거의 동일하다는 것을 보여줍니다. 그러나 그 사이에서 0이 아닌 계수의 개수가 4개일 때 하이브리드 예측은 순전히 조밀하거나 순전히 희소한 사전 훈련된 Transformer의 예측과 다릅니다.
이는 혼합물에 대해 사전 훈련된 모델이 단순히 예측할 단일 함수 클래스를 선택하는 것이 아니라 그 사이의 결과를 예측한다는 것을 보여줍니다.
모델 선택 능력의 한계다음으로 연구진은 모델의 ICL 일반화 능력을 두 가지 관점에서 조사했습니다. 첫째, 모델이 훈련 중에 노출되지 않은 기능의 ICL 성능을 테스트하고, 두 번째로 사전 훈련 중에 모델이 노출된 기능의 극단적인 버전의 ICL 성능을 평가합니다. 분포 외 일반화에 대한 증거는 거의 발견되지 않았습니다. 함수가 사전 훈련 중에 나타난 함수와 크게 다르면 예측이 불안정해집니다. 함수가 사전 훈련 데이터에 충분히 가까우면 모델이 잘 근사될 수 있습니다
중간 희소성 수준(nnz = 3 ~ 7)에서 Transformer의 예측은 사전 훈련에서 제공되는 함수 클래스의 예측과 유사하지 않지만 그림 3a에 표시된 것처럼 그 사이 어딘가에 있습니다. 따라서 모델에는 사전 훈련된 함수 클래스를 간단하지 않은 방식으로 결합할 수 있는 일종의 귀납적 편향이 있다고 추론할 수 있습니다. 예를 들어, 모델이 사전 학습 중에 표시되는 기능 조합을 기반으로 예측을 생성할 수 있다고 의심할 수 있습니다. 이 가설을 테스트하기 위해 선형 함수, 정현파 및 두 가지의 볼록한 조합에 대해 ICL을 수행하는 기능을 조사했습니다. 그들은 비선형 함수 클래스를 더 쉽게 평가하고 시각화할 수 있도록 1차원 사례에 중점을 둡니다.
그림 4는 선형 함수와 정현파의 혼합(예: )에 대해 사전 훈련된 모델이 두 가지를 개별적으로 예측할 수 있음을 보여줍니다. 함수 중 하나가 좋은 예측을 하지만 둘 다의 볼록 결합 함수에 적합할 수 없습니다. 이는 그림 3b에 표시된 선형 함수 보간 현상이 Transformer 상황별 학습의 일반화 가능한 귀납적 편향이 아님을 시사합니다. 그러나 컨텍스트 샘플이 사전 훈련에서 학습된 함수 클래스에 가까울 때 모델이 예측을 위해 가장 적합한 함수 클래스를 선택할 수 있다는 더 좁은 가정을 계속해서 지원합니다.
자세한 연구 내용은 원문을 참고해주세요
위 내용은 DeepMind는 'Transformer는 사전 훈련 데이터 이상으로 일반화할 수 없다'고 지적했지만 일부 사람들은 이에 대해 의문을 제기했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제









현대 제조업에서 정확한 결함 검출은 제품 품질을 보장하는 열쇠일 뿐만 아니라 생산 효율성을 향상시키는 핵심이기도 합니다. 그러나 기존 결함 감지 데이터세트는 실제 적용에 필요한 정확성과 의미론적 풍부함이 부족한 경우가 많아 모델이 특정 결함 카테고리나 위치를 식별할 수 없게 됩니다. 이 문제를 해결하기 위해 광저우 과학기술대학교와 Simou Technology로 구성된 최고 연구팀은 산업 결함에 대한 상세하고 의미론적으로 풍부한 대규모 주석을 제공하는 "DefectSpectrum" 데이터 세트를 혁신적으로 개발했습니다. 표 1에서 볼 수 있듯이, 다른 산업 데이터 세트와 비교하여 "DefectSpectrum" 데이터 세트는 가장 많은 결함 주석(5438개의 결함 샘플)과 가장 상세한 결함 분류(125개의 결함 카테고리)를 제공합니다.

오픈 LLM 커뮤니티는 백개의 꽃이 피어 경쟁하는 시대입니다. Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 등을 보실 수 있습니다. 훌륭한 연기자. 그러나 GPT-4-Turbo로 대표되는 독점 대형 모델과 비교하면 개방형 모델은 여전히 많은 분야에서 상당한 격차를 보이고 있습니다. 일반 모델 외에도 프로그래밍 및 수학을 위한 DeepSeek-Coder-V2, 시각 언어 작업을 위한 InternVL과 같이 핵심 영역을 전문으로 하는 일부 개방형 모델이 개발되었습니다.

AI의 경우 수학 올림피아드는 더 이상 문제가 되지 않습니다. 목요일에 Google DeepMind의 인공 지능은 AI를 사용하여 올해 국제 수학 올림피아드 IMO의 실제 문제를 해결하는 위업을 달성했으며 금메달 획득에 한 걸음 더 다가섰습니다. 지난 주 막 끝난 IMO 대회에는 대수학, 조합론, 기하학, 수론 등 6개 문제가 출제됐다. 구글이 제안한 하이브리드 AI 시스템은 4문제를 맞혀 28점을 얻어 은메달 수준에 이르렀다. 이달 초 UCLA 종신 교수인 테렌스 타오(Terence Tao)가 상금 100만 달러의 AI 수학 올림피아드(AIMO Progress Award)를 추진했는데, 예상외로 7월 이전에 AI 문제 해결 수준이 이 수준으로 향상됐다. IMO에서 동시에 질문을 해보세요. 가장 정확하게 하기 어려운 것이 IMO인데, 역사도 가장 길고, 규모도 가장 크며, 가장 부정적이기도 합니다.

Editor |KX 오늘날까지 단순한 금속부터 큰 막 단백질에 이르기까지 결정학을 통해 결정되는 구조적 세부 사항과 정밀도는 다른 어떤 방법과도 비교할 수 없습니다. 그러나 가장 큰 과제인 소위 위상 문제는 실험적으로 결정된 진폭에서 위상 정보를 검색하는 것입니다. 덴마크 코펜하겐 대학의 연구원들은 결정 위상 문제를 해결하기 위해 PhAI라는 딥러닝 방법을 개발했습니다. 수백만 개의 인공 결정 구조와 그에 상응하는 합성 회절 데이터를 사용하여 훈련된 딥러닝 신경망은 정확한 전자 밀도 맵을 생성할 수 있습니다. 연구는 이 딥러닝 기반의 순순한 구조 솔루션 방법이 단 2옹스트롬의 해상도로 위상 문제를 해결할 수 있음을 보여줍니다. 이는 원자 해상도에서 사용할 수 있는 데이터의 10~20%에 해당하는 반면, 기존의 순순한 계산은

Editor | ScienceAI 제한된 임상 데이터를 기반으로 수백 개의 의료 알고리즘이 승인되었습니다. 과학자들은 누가 도구를 테스트해야 하며 최선의 방법은 무엇인지에 대해 토론하고 있습니다. 데빈 싱(Devin Singh)은 응급실에서 오랜 시간 치료를 기다리던 중 심장마비를 겪는 소아환자를 목격했고, 이를 계기로 대기시간을 단축하기 위해 AI 적용을 모색하게 됐다. SickKids 응급실의 분류 데이터를 사용하여 Singh과 동료들은 잠재적인 진단을 제공하고 테스트를 권장하는 일련의 AI 모델을 구축했습니다. 한 연구에 따르면 이러한 모델은 의사 방문 속도를 22.3% 단축하여 의료 검사가 필요한 환자당 결과 처리 속도를 거의 3시간 단축할 수 있는 것으로 나타났습니다. 그러나 인공지능 알고리즘의 연구 성공은 이를 입증할 뿐이다.

편집자 |ScienceAI 질문 응답(QA) 데이터 세트는 자연어 처리(NLP) 연구를 촉진하는 데 중요한 역할을 합니다. 고품질 QA 데이터 세트는 모델을 미세 조정하는 데 사용될 수 있을 뿐만 아니라 LLM(대형 언어 모델)의 기능, 특히 과학적 지식을 이해하고 추론하는 능력을 효과적으로 평가하는 데에도 사용할 수 있습니다. 현재 의학, 화학, 생물학 및 기타 분야를 포괄하는 과학적인 QA 데이터 세트가 많이 있지만 이러한 데이터 세트에는 여전히 몇 가지 단점이 있습니다. 첫째, 데이터 형식이 비교적 단순하고 대부분이 객관식 질문이므로 평가하기 쉽지만 모델의 답변 선택 범위가 제한되고 모델의 과학적 질문 답변 능력을 완전히 테스트할 수 없습니다. 이에 비해 개방형 Q&A는

Editor | KX 약물 연구 및 개발 분야에서 단백질과 리간드의 결합 친화도를 정확하고 효과적으로 예측하는 것은 약물 스크리닝 및 최적화에 매우 중요합니다. 그러나 현재 연구에서는 단백질-리간드 상호작용에서 분자 표면 정보의 중요한 역할을 고려하지 않습니다. 이를 기반으로 Xiamen University의 연구자들은 처음으로 단백질 표면, 3D 구조 및 서열에 대한 정보를 결합하고 교차 주의 메커니즘을 사용하여 다양한 양식 특징을 비교하는 새로운 다중 모드 특징 추출(MFE) 프레임워크를 제안했습니다. 조정. 실험 결과는 이 방법이 단백질-리간드 결합 친화도를 예측하는 데 있어 최첨단 성능을 달성한다는 것을 보여줍니다. 또한 절제 연구는 이 프레임워크 내에서 단백질 표면 정보와 다중 모드 기능 정렬의 효율성과 필요성을 보여줍니다. 관련 연구는 "S"로 시작된다

편집자 | Ziluo AI의 신약 개발 간소화에 대한 활용이 폭발적으로 증가하고 있습니다. 신약 개발에 필요한 특성을 가질 수 있는 수십억 개의 후보 분자를 스크리닝합니다. 재료 가격부터 오류 위험까지 고려해야 할 변수가 너무 많아 과학자들이 AI를 사용하더라도 최고의 후보 분자를 합성하는 데 드는 비용을 평가하는 것은 쉬운 일이 아닙니다. 여기서 MIT 연구진은 최고의 분자 후보를 자동으로 식별하여 합성 비용을 최소화하는 동시에 후보가 원하는 특성을 가질 가능성을 최대화하기 위해 정량적 의사결정 알고리즘 프레임워크인 SPARROW를 개발했습니다. 알고리즘은 또한 이러한 분자를 합성하는 데 필요한 재료와 실험 단계를 결정했습니다. SPARROW는 여러 후보 분자를 사용할 수 있는 경우가 많기 때문에 한 번에 분자 배치를 합성하는 비용을 고려합니다.
