코끼리는 춤을 출 수 없다고 누가 말했습니까? ICLR 2024의 타이밍 예측을 달성하기 위한 대규모 언어 모델 재프로그래밍 |-일체 포함-php.cn

집

기술 주변기기

일체 포함

코끼리는 춤을 출 수 없다고 누가 말했습니까? ICLR 2024의 타이밍 예측을 달성하기 위한 대규모 언어 모델 재프로그래밍 |

王林

Apr 15, 2024 pm 03:20 PM

git 프로젝트 시계열 예측

최근 호주의 Monash University, Ant Group, IBM Research 및 기타 기관의 연구원들은 LLM(대형 언어 모델)에 대한 모델 재프로그래밍의 적용을 탐색하고 새로운 관점, 즉 일반 시계열 예측을 위한 대규모 언어 모델 프로그래밍을 제안했습니다. 시스템, Time-LLM 프레임워크. 이 프레임워크는 언어 모델을 수정하지 않고도 고정밀하고 효율적인 예측을 달성할 수 있습니다. 여러 데이터 세트 및 예측 작업에서 기존 시계열 모델을 능가할 수 있으므로 LLM은 코끼리 춤처럼 교차 모달 시계열 데이터를 처리할 때 탁월한 성능을 발휘할 수 있습니다. .

谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测 | ICLR 2024

최근 일반 지능 분야에서 대형 언어 모델 개발, "대형 모델 + 시계열/시간 데이터"라는 새로운 방향으로 관련해서 많은 진전이 보이고 있습니다. 현재 LLM은 시계열/시간적 데이터 마이닝 방법을 혁신하여 도시, 에너지, 교통, 건강 등과 같은 고전적인 복잡한 시스템에서 효율적인 의사 결정을 촉진하고 보다 보편적인 지능형 형태의 시간/공간 분석으로 나아갈 수 있는 잠재력을 가지고 있습니다. .

^{이 문서는 다양한 범용 작업과 시간별 도메인 애플리케이션을 처리하기 위해 훈련되고 영리하게 용도 변경될 수 있는 언어 및 기타 관련 모델과 같은 대규모 기본 모델을 제안합니다. 순차 및 시간 공간 데이터 . 참조: https://arxiv.org/pdf/2310.10196.pdf.}

최근 연구에서는 자연어 처리에서 시계열 및 시공간 작업까지 대규모 언어 모델을 확장했습니다. 이 새로운 연구 방향, 즉 "대형 모델 + 시계열/시공간 데이터"는 제로샷 시계열 예측 추론을 위해 LLM을 직접 활용하는 LLMTime과 같은 많은 관련 개발을 만들어냈습니다. LLM은 강력한 학습 및 표현 기능을 갖추고 있으며 텍스트 시퀀스 데이터의 복잡한 패턴과 장기적인 종속성을 효과적으로 캡처할 수 있지만 자연어 처리에 초점을 맞춘 "블랙 박스"로서 시계열 및 시공간 작업에서 LLM을 적용하는 것은 여전히 문제에 직면해 있습니다. 도전. TimesNet, TimeMixer 등과 같은 기존 시계열 모델과 비교할 때 LLM은 거대한 매개변수와 규모로 인해 "코끼리"와 비슷합니다.

당신이 요구하는 것은 자연어 분야에서 훈련된 대규모 언어 모델(LLM)이 텍스트 패턴 전반에 걸쳐 숫자 시퀀스 데이터를 처리하고 시계열 및 시공간적 작업에서 강력한 추론을 발휘할 수 있도록 "길들이는" 방법입니다. 현재 연구의 주요 초점이 되었습니다. 이를 위해서는 언어학적 데이터와 시간적 데이터 사이의 잠재적인 패턴 유사성을 탐색하고 이를 특정 시계열 및 시공간적 작업에 효과적으로 적용하기 위한 더 깊은 이론적 분석이 필요합니다.

LLM 재프로그래밍은 일반적인 시계열 예측 기술입니다. (1) 시간적 입력 재프로그래밍과 (2) 프롬프트 사전 프로그래밍이라는 두 가지 핵심 기술을 제안하여 시간적 예측 작업을 LLM이 효과적으로 해결할 수 있는 "언어" 작업으로 변환하고 대규모 언어 모델을 성공적으로 활성화하여 높은 수준을 달성합니다. 성능. 정확한 타이밍 추론을 수행하는 능력.

논문 주소: https://openreview.net/pdf?id=Unb5CVPtae

논문 코드: https://github.com/KimMeen/Time-LLM

1. 문제 배경

타이밍. 데이터는 현실에서 광범위하게 저장되며, 타이밍 예측은 많은 실제 동적 시스템에서 매우 중요하며 널리 연구되어 왔습니다. 단일 대형 모델이 여러 작업을 처리할 수 있는 자연어 처리(NLP) 및 컴퓨터 비전(CV)과 달리 시계열 예측 모델은 다양한 작업 및 애플리케이션 시나리오의 요구 사항을 충족하도록 특별히 설계해야 하는 경우가 많습니다. 최근 연구에 따르면 복잡한 시간 시퀀스를 처리할 때 LLM(대형 언어 모델)도 신뢰할 수 있는 것으로 나타났습니다. 시간 분석 작업을 처리하기 위해 대규모 언어 모델 자체의 추론 기능을 활용하는 것은 여전히 어려운 일입니다.

2. 논문 개요

본 연구에서 저자는 별도의 훈련 없이 LLM을 쉽게 사용하여 일반 대형 언어 모델 재프로그래밍(LLM Reprogramming) 프레임워크인 Time-LLM을 제안합니다. 대규모 언어 모델 자체에 대해. Time-LLM은 먼저 텍스트 프로토타입(Text Prototypes)을 사용하여 입력 시계열 데이터를 재프로그래밍하고 자연어 표현을 사용하여 시계열 데이터의 의미 정보를 표현함으로써 서로 다른 두 데이터 양식을 정렬하므로 대규모 언어 모델이 수정이 필요하면 다른 데이터 형식 뒤에 있는 정보를 이해할 수 있습니다.

입력 시계열 데이터와 해당 작업에 대한 LLM의 이해를 더욱 높이기 위해 저자는 추가적인 상황별 프롬프트와 시계열 데이터 표현 이전의 작업 지침은 순차적 작업에 대한 LLM의 처리 기능입니다. 이 연구에서 저자는 주류 시계열 벤치마크 데이터 세트에 대해 충분한 실험을 수행했으며 그 결과 Time-LLM이 대부분의 경우 기존 시계열 모델을 능가하고 퓨샷 및 제로샷 샘플에서 더 나은 성능을 달성할 수 있음을 보여주었습니다. 샘플(제로샷) 학습 작업이 크게 개선되었습니다.

이 작업의 주요 기여는 다음과 같이 요약될 수 있습니다.

1. 이 작업은 백본 언어 모델을 수정하지 않고 타이밍 분석을 위해 대규모 언어 모델을 다시 프로그래밍하는 새로운 개념을 제안합니다. 저자는 시계열 예측이 기성 LLM으로 효과적으로 해결할 수 있는 또 다른 "언어적" 작업으로 간주될 수 있음을 보여줍니다.

2 이 작업은 입력 시간 데이터를 보다 자연스러운 텍스트 프로토타입 표현으로 재프로그래밍하고 이를 도메인 전문 지식 및 작업 설명과 같은 선언적 단서와 통합하여 향상시키는 일반적인 언어 모델 재프로그래밍 프레임워크인 Time-LLM을 제안합니다. 효과적인 도메인 간 추론을 위해 LLM을 안내하는 입력 컨텍스트입니다. 이 기술은 다중 모드 타이밍 기본 모델 개발을 위한 견고한 기반을 제공합니다.

3. Time-LLM은 주류 예측 작업, 특히 소수 샘플 및 제로 샘플 시나리오에서 지속적으로 최고의 기존 모델 성능을 능가합니다. 또한 Time-LLM은 뛰어난 모델 재프로그래밍 효율성을 유지하면서 더 높은 성능을 달성할 수 있습니다. 시계열 및 기타 순차 데이터에 대해 LLM의 아직 활용되지 않은 잠재력을 극적으로 활용하세요.

3. 모델 프레임워크

위 모델 프레임워크 다이어그램의 ①과 ②에서 볼 수 있듯이 입력된 시계열 데이터는 먼저 RevIN에 의해 정규화된 후 여러 패치로 분할되어 잠재 공간에 매핑됩니다.

시계열 데이터와 텍스트 데이터는 표현 방식에 상당한 차이가 있으며, 서로 다른 양상에 속합니다. 시계열은 자연어로 직접 편집하거나 손실 없이 설명할 수 없습니다. 이는 LLM이 시계열을 이해하도록 직접 유도하는 데 중요한 과제를 제기합니다. 따라서 시간적 입력 특성을 자연어 텍스트 도메인에 맞춰 정렬해야 합니다.

다양한 양식을 정렬하는 일반적인 방법은 크로스 어텐션(Cross-Attention)입니다. 모델 프레임워크 다이어그램의 ③에서 볼 수 있듯이 모든 단어의 임베딩 및 타이밍 입력 기능에 대해서만 크로스 어텐션을 만들면 됩니다. 입력 기능은 Query 이고 모든 단어의 임베딩은 Key 및 Value 입니다. 그러나 LLM의 고유 어휘는 매우 방대하므로 시간적 특징을 모든 단어에 효과적으로 직접 정렬할 수 없으며 모든 단어가 시계열과 의미론적 관계를 정렬하지 않습니다. 이 문제를 해결하기 위해 본 연구에서는 어휘의 선형 조합을 수행하여 텍스트 프로토타입을 얻습니다. 텍스트 프로토타입의 수는 원래 어휘보다 훨씬 적습니다. "간단한 상승 또는 느린 하락."

특정 타이밍 작업에서 LLM의 기능을 완전히 활성화하기 위해 이 작업은 모델 프레임워크 다이어그램의 ④에 표시된 것처럼 간단하고 효과적인 방법인 프롬프트 접두사 패러다임을 제안합니다. 최근 발전을 통해 이미지와 같은 다른 데이터 패턴을 단서의 접두사에 원활하게 통합할 수 있어 이러한 입력을 기반으로 효율적인 추론이 가능하다는 사실이 밝혀졌습니다. 이러한 발견에서 영감을 받아 저자는 자신의 방법을 실제 시계열에 직접 적용할 수 있도록 대안적인 질문을 제기합니다. 힌트가 입력 컨텍스트를 풍부하게 하고 재프로그래밍된 시계열 패치의 변환을 안내하는 접두사 정보 역할을 할 수 있습니까? 이 개념을 PaP(Prompt-as-Prefix)라고 하며, 또한 저자는 패치 재프로그래밍을 보완하면서 다운스트림 작업에 대한 LLM의 적응성을 크게 향상시키는 것을 관찰했습니다. 일반인의 관점에서 이는 접두어 프롬프트로 자연어 형태로 시계열 데이터 세트의 일부 사전 정보를 제공하고 이를 정렬된 시계열 기능과 결합하여 예측 효과를 향상시킬 수 있음을 의미합니다.

谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测 | ICLR 2024

위 그림은 두 가지 프롬프트 방법을 보여줍니다. Patch-as-Prefix에서는 언어 모델이 자연어로 표현된 시계열의 후속 값을 예측하라는 메시지를 표시합니다. 이 접근 방식에는 다음과 같은 몇 가지 제약 사항이 있습니다. (1) 외부 도구의 도움 없이 고정밀 숫자를 처리할 때 언어 모델은 종종 낮은 민감도를 나타내므로 장기 예측 작업을 정확하게 처리하는 데 심각한 문제가 발생합니다. (2) 다양한 언어 모델의 경우 다양한 말뭉치에 대해 사전 훈련되어 있고 고정밀 숫자를 생성할 때 다양한 단어 분할 유형을 사용할 수 있으므로 복잡한 맞춤형 후처리가 필요합니다. 이로 인해 예측은 ['0', '.', '6', '1'] 및 0.61을 나타내는 ['0', '.', '61']과 같은 다양한 자연어 형식으로 표시됩니다.

실제로 저자는 효과적인 프롬프트를 구축하기 위한 세 가지 주요 구성 요소를 식별했습니다. (1) 데이터 세트 컨텍스트 (2) LLM을 다양한 다운스트림 작업에 적용하기 위한 작업 지침 (3) 추세, 시간 지연 및 대기와 같은 통계 설명 LLM이 시계열 데이터의 특성을 더 잘 이해할 수 있도록 합니다. 아래 이미지는 프롬프트의 예를 보여줍니다.

4. 실험 결과

아래 표에서 볼 수 있듯이 Time-LLM은 벤치마크에서 이전 최고 수준을 크게 뛰어넘었습니다. 또한 GPT-2를 직접 사용하는 GPT4TS에 비해 리프로그래밍 아이디어와 Prompt-as-Prefix(Prompt-as-Prefix)를 사용하는 Time-LLM도 크게 개선되어 이 방법의 효율성을 나타냅니다.

또한 교차 도메인 적응 프레임워크 내에서 재프로그래밍된 LLM의 제로샷 제로샷 학습 능력을 평가합니다. 재프로그래밍 능력 덕분에 교차 도메인에서 LLM의 예측 능력을 완전히 활성화합니다. 아래 표에서 볼 수 있듯이 Time-LLM은 제로샷 시나리오에서도 탁월한 예측 결과를 보여줍니다.

5. 요약

대형 언어 모델(LLM)의 급속한 발전으로 인해 크로스 모달 시나리오에서 인공 지능의 발전이 크게 촉진되었으며 여러 분야에서 광범위한 적용이 촉진되었습니다. 그러나 LLM의 대규모 매개변수 규모와 주로 자연어 처리(NLP) 시나리오를 위한 설계로 인해 교차 모달 및 교차 도메인 애플리케이션에 많은 문제가 발생합니다. 이를 고려하여 우리는 텍스트와 시퀀스 데이터 간의 교차 모드 상호 작용을 달성하고 이 방법을 대규모 시계열 및 시공간 데이터 처리에 널리 적용하는 것을 목표로 대규모 모델을 재프로그래밍하는 새로운 아이디어를 제안합니다. 이러한 방식으로 우리는 LLM을 유연한 춤추는 코끼리처럼 만들고 더 넓은 범위의 응용 시나리오에서 강력한 기능을 보여줄 수 있기를 바랍니다.

관심 있는 친구들은 논문(https://arxiv.org/abs/2310.01728)을 읽거나 프로젝트 페이지(https://github.com/KimMeen/Time-LLM)를 방문하여 자세히 알아보세요.

^{이 프로젝트는 앤트그룹 지능형 엔진 사업부 AI 혁신 R&D 부서인 넥스트에보(NextEvo)의 전폭적인 지원을 받았는데, 특히 언어 및 기계 지능팀과 최적화 지능팀 간의 긴밀한 협력 덕분이다. 지능형 엔진 사업부 부사장인 Zhou Jun과 최적화 인텔리전스 팀 책임자인 Lu Xingyu의 리더십과 지도 아래 우리는 이 중요한 성과를 성공적으로 완료하기 위해 협력했습니다.}

위 내용은 코끼리는 춤을 출 수 없다고 누가 말했습니까? ICLR 2024의 타이밍 예측을 달성하기 위한 대규모 언어 모델 재프로그래밍 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7441

Cakephp 튜토리얼

1370

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

Related knowledge

Grayscale 암호화 신탁 기금은 무엇입니까? Mar 05, 2025 pm 12:33 PM

Grayscale Investment : Grayscale Investment Company는 기관 및 투자자에게 디지털 통화 투자 서비스를 제공합니다. 이 회사는 몇 가지 암호화 신탁을 출시했으며, 이는 시장의 광범위한 시장의 관심을 끌었지만, 이러한 자금이 토큰 가격에 미치는 영향은 크게 다릅니다. 이 기사는 Grayscale의 주요 Crypto Trust Funds 중 일부를 자세히 소개합니다. Grayscale Major Crypto Trust Fund는 Glance Grayscale Investment (2013 년 DigitalCurrencygroup이 설립 한)에서 제공되는 다양한 암호화 자산 신탁 기금을 관리하여 기관 투자자와 고격한 개인에게 준수 투자 채널을 제공합니다. 주요 자금에는 다음이 포함됩니다 : Zcash (Zec), Sol,

비트 : 비즈니스는 비트 코인을 무시한 큰 추세를 구매합니다 Mar 05, 2025 pm 02:42 PM

주간 관찰 : 비트 코인을 비축하는 비즈니스 - 양조 변화는 종종 주간 메모에서 간과 된 시장 동향을 지적합니다. Microstrategy의 움직임은 뚜렷한 예입니다. 많은 사람들이 "Microstrategy와 Michaelsaylor는 이미 잘 알려져 있습니다. 이것은 무엇에주의를 기울일 것인가?" 이보기는 일방적입니다. 최근 몇 달 동안 비트 코인을 예비 자산으로 채택한 것에 대한 심층적 인 연구에 따르면 이것은 고립 된 사례가 아니라 가장 큰 추세임을 보여줍니다. 나는 향후 12-18 개월 동안 수백 개의 회사가 소송을 따르고 대량의 비트 코인을 구매할 것이라고 예측합니다.

GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? Apr 02, 2025 pm 02:06 PM

Go Language의 부동 소수점 번호 작동에 사용되는 라이브러리는 정확도를 보장하는 방법을 소개합니다.

SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. Mar 12, 2025 pm 01:03 PM

상하이 Jiaotong University, Shanghai Ailab 및 Chinese University of Hong Kong의 연구원들은 Visual-RFT (Visual Enhancement Fine Tuning) 오픈 소스 프로젝트를 시작했으며, 이는 LVLM (Language Big Model)의 성능을 크게 향상시키기 위해 소량의 데이터 만 필요합니다. Visual-Rft는 영리하게 DeepSeek-R1의 규칙 기반 강화 학습 접근 방식을 OpenAI의 RFT (Rencement Fine Tuning) 패러다임과 결합 하여이 접근법을 텍스트 필드에서 시야로 성공적으로 확장합니다. Visual-RFT는 시각적 하위 분류 및 객체 감지와 같은 작업에 대한 해당 규칙 보상을 설계함으로써 텍스트, 수학적 추론 및 기타 필드로 제한되는 DeepSeek-R1 메소드의 한계를 극복하여 LVLM 교육을위한 새로운 방법을 제공합니다. Vis

GO의 어떤 라이브러리가 대기업에서 개발하거나 잘 알려진 오픈 소스 프로젝트에서 제공합니까? Apr 02, 2025 pm 04:12 PM

GO의 어떤 라이브러리가 대기업이나 잘 알려진 오픈 소스 프로젝트에서 개발 했습니까? GO에 프로그래밍 할 때 개발자는 종종 몇 가지 일반적인 요구를 만납니다.

Gitee Pages 정적 웹 사이트 배포 실패 : 단일 파일 문제를 해결하고 해결하는 방법 404 오류? Apr 04, 2025 pm 11:54 PM

GiteEpages 정적 웹 사이트 배포 실패 : 404 오류 문제 해결 및 해결시 Gitee ...

해외 버전의 배송 지역 데이터를 얻는 방법은 무엇입니까? 기성품 리소스는 무엇입니까? Apr 01, 2025 am 08:15 AM

질문 설명 : 해외 버전의 배송 지역 데이터를 얻는 방법은 무엇입니까? 기성품 자원이 있습니까? 국경 간 전자 상거래 또는 세계화 된 비즈니스에서 정확하게 ...

Binance 런치 풀 란 무엇입니까? Binance 런치 풀에 참여하는 방법은 무엇입니까? Mar 05, 2025 pm 03:06 PM

BINANCE LANCHPOOL 심층 분석 : 고수익 마이닝 가이드 및 바이오 프로젝트에 대한 자세한 설명은 Binance LaunchPool에 대한 심층적 인 토론을 수행하고 참여 방법을 자세히 설명하며 최신 프로젝트 Bio Coin (BIOL)을 소개하는 데 집중할 것입니다. Binance는 세계 최대의 cryptocurrency 거래소로서 LaunchPool과 함께 고품질 프로젝트를 선택하여 투자자에게 쉬운 광업과 새로운 토큰을 얻을 수있는 기회를 제공했습니다. Binance 런치 풀 란 무엇입니까? Binance Launchpool은 지정된 통화를 맹세하여 무료로 새로운 토큰을 얻는 플랫폼입니다. 이는 주식 시장의 새로운 주식 가입과 유사하지만 참가자는 적고 경쟁이 적고 소규모 투자도 높은 수익을 얻을 수 있습니다.

See all articles