타이밍 분석 펜타곤 전사! Tsinghua University에서는 예측, 채우기, 분류 및 감지 분야를 선도하는 TimesNet을 제안합니다.
작업 다양성을 달성하는 것은 기본 딥러닝 모델 연구의 핵심 이슈이자, 최근 대형 모델 방향의 주요 관심사 중 하나이기도 합니다.
그러나 시계열 분야에서는 세분화된 모델링이 필요한 예측 작업, 높은 수준의 의미 정보 추출이 필요한 분류 작업 등 다양한 유형의 분석 작업이 매우 다양합니다. 다양한 타이밍 분석 작업을 효율적으로 완료하기 위해 통합된 심층 기본 모델을 구축하는 방법이전에는 확립된 솔루션이 없습니다.
이를 위해 칭화대학교 소프트웨어학과 팀은 타이밍 변경 모델링의 기본 문제에 대한 연구를 수행하고 작업 범용 타이밍 기본 모델인 TimesNet을 제안했습니다. 이 논문은 ICLR 2023에 승인되었습니다.
작성자 목록: Wu Haixu*, Hu Tenge*, Liu Yong*, Zhou Hang, Wang Jianmin, Long Mingsheng
링크: https://openreview.net/pdf ?id=ju_Uqw384Oq
코드: https://github.com/thuml/TimesNet
시계열 알고리즘 라이브러리: https://github.com/thuml/Time-Series-Library
TimesNet 장기 및 단기 예측, 결측값 채우기, 이상 탐지 및 분류의 5가지 주요 작업에서 포괄적인 리더십을 달성했습니다.
1 문제 분석
자연어, 영상, 기타 시퀀스 데이터와 달리 시계열에서 한 순간에 일부 스칼라만 저장되며, 핵심 정보는 시간적 변화에 더 많이 포함됩니다. (시간적 변화) 중간.
따라서 타이밍 변경 모델링은 모든 유형의 타이밍 분석 작업에 공통적으로 적용되는 핵심 문제입니다.
최근에는 RNN(Recurrent Neural Network), TCN(Temporal Convolutional Network), Transformer Network(Transformer) 등 타이밍 분석 작업에 다양한 심층 모델이 널리 사용되었습니다.
그러나 처음 두 가지 유형의 방법은 주로 가까운 순간 사이의 변화를 포착하는 데 중점을 두고 있으며 장기적인 종속성에서는 모델링 기능이 부족합니다.
Transformer는 장기 종속성을 모델링하는 데 자연스러운 이점이 있지만 현실 세계의 매우 복잡한 타이밍 변경으로 인해 개별 시점 간의 주의에만 의존하여 신뢰할 수 있는 타이밍 종속성을 마이닝하는 것은 어렵습니다.
이를 위해 이 글에서는 아래 그림과 같이 새로운 다중 주기성 관점에서 타이밍 변화를 분석합니다. 우리는 다음을 관찰합니다:
- 시계열은 자연스럽게 다주기입니다.
실제 시계열 데이터는 서로 다른 주기적인 프로세스가 중첩되는 경우가 많습니다. 예를 들어 교통 데이터는 단기적으로는 매일 변경되지만 장기적으로는 매주 변경됩니다. 서로 다른 기간의 데이터는 서로 겹치고 간섭하므로 시계열 분석에 큰 어려움을 겪습니다.
- 시계열은 주기 내에서 그리고 주기 사이에서 두 가지 종류의 시계열 변화를 나타냅니다.
구체적으로 특정 기간의 과정에 있어서 각 시점의 변화는 인접한 순간과 관련될 뿐만 아니라 인접한 기간의 유사한 과정과도 높은 관련성을 갖습니다. 그 중 주기 내 변화는 단기 과정에 해당하는 반면, 주기 간 변화는 연속 주기의 장기 추세를 반영할 수 있습니다. 참고: 시계열에 뚜렷한 주기성이 없으면 주기가 무한히 긴 상황과 동일합니다.
2가지 디자인 아이디어
위의 두 가지 관찰을 바탕으로 타임즈넷의 구조를 다음과 같이 디자인했습니다.
- 시계열의 다주기적 특성은 자연스럽게 모듈식 설계 아이디어에 영감을 주었습니다. 즉, 모듈은 특정 기간이 지배하는 시계열 변화를 포착합니다. 이 모듈식 설계 아이디어는 복잡한 시간 변화를 분리할 수 있어 후속 모델링에 도움이 됩니다. 시계열의
- 주기 내 및 주기 간 변화에 대해 이 기사에서는 분석을 위해 1차원 시계열 데이터를 2차원 공간으로 확장획기적으로 제안합니다. 위 그림과 같이 여러 사이클을 기반으로 1차원 시계열을 접으면 여러 개의 2차원 텐서(2D 텐서)를 얻을 수 있으며 각 2차원 텐서의 열과 행은 해당 사이클 내의 시계열을 반영합니다. 그리고 주기 사이에 각각 시간적 2D 변형을 얻습니다.
따라서 시계열 데이터를 접은 후 고급
Visual Backbone Network을 직접 사용하여 Swin Transformer, ResNeXt, ConvNeXt 등과 같은 시계열 데이터에 대한 특징 추출을 수행할 수 있습니다. 이 디자인을 사용하면 타이밍 분석 작업이 급성장하는 컴퓨터 비전 분야의 직접적인 이점을 얻을 수 있습니다. 3 TimesNet
위 아이디어를 바탕으로 복잡한 시계열 변화를 모듈식 구조를 통해 서로 다른 주기로 분해하고, 주기 내 및 주별 변동의 통합 모델링을 구현하는 TimesNet 모델을 제안했습니다.
.이 섹션에서는 먼저 시계열 데이터를 2차원 공간으로 확장하는 방법을 소개한 다음 모델의 전반적인 아키텍처를 소개합니다.
3.1 타이밍 변경: 1D->2D
타이밍 폴딩의 과정은 위 그림과 같으며, 크게 다음 두 단계로 나뉜다.
(1) 사이클 추출
시간 길이가 이고 채널 차원이 인 1차원 시계열의 경우 기간 정보는 시간 차원의 고속 푸리에 변환(FFT)을 통해 직접 추출할 수 있습니다. 즉,
여기서 는 의 각 주파수 성분의 강도를 나타내며, 강도가 가장 높은 주파수는 가장 중요한 주기 길이에 해당합니다.
(2) 시퀀스 접기 1D->2D
선택된 기간에 대해 원래의 1차원 시계열이 각각 접혀집니다. 프로세스는 다음과 같이 공식화될 수 있습니다. 그 중 시퀀스 끝에 0을 채우면 시퀀스 길이를 나눌 수 있게 됩니다.
위의 작업을 통해 주기가 2차원인 시계열 변화에 해당하는 2차원 텐서 세트를 얻습니다.
3.2 모델 설계
TimesNet의 전체 아키텍처는 그림에 표시됩니다.
전체적으로 TimesNet은 누적된 TimesBlock으로 구성됩니다. 입력 시퀀스는 먼저 임베딩 레이어를 통과하여 깊은 특징을 얻습니다. 세 번째 레이어 TimesBlock의 경우 입력은 다음과 같습니다. 출력은 다음과 같습니다.
구체적으로 아래 그림과 같이 각 TimesBlock에는 다음과 같은 하위 프로세스가 포함됩니다.
(1) 시계열 접기(1D->2D) : TimesBlock 먼저 입력된 1차원 시계열 특징은 주기를 추출한 다음 이를 2차원 시계열 변화로 변환합니다. 이는 이전 섹션에서 다룬 내용입니다.
(2) 2차원 추출 시계열 변화 표현(2D Representation) : 앞서 분석한 바와 같이 변환된 2차원 시계열 변화는 2D 지역성을 가지므로 2D 컨볼루션을 직접 사용하여 특징을 추출할 수 있습니다. 여기서는 다음과 같은 고전적인 Inception 모델을 선택했습니다.
1D 시간 특징을 2D 공간으로 변환했기 때문에 컴퓨터 분야의 많은 최첨단 모델을 활용할 수도 있다는 점은 주목할 가치가 있습니다. 비전, 예를 들어 ResNeXt, ConvNeXt 및 Attention-based Swin Transformer 등 이를 통해 시계열 분석이 시각적 백본 네트워크와 함께 작동할 수 있습니다. ⋅ (1)단계에서 Padding(⋅) 연산으로 추가된 0을 제거합니다.
(4) Adaptive Fusion (1D Aggregation): 다기간 정보 융합을 위해 추출된 2차원 시계열 표현에 대해 가중치 합산을 수행하고, 선택된 합산 가중치는 단계( 1) 해당 주파수 강도:
타임즈넷은 1차원 시계열을 2차원 공간 설계로 변환하여 2차원 시계열 변화를 개별적으로 추출하는 '다중 기간'의 시계열 변화 구성을 실현하고, 적응형 융합' 성형 공정.
4 실험
장기 예측, 단기 예측, 결측값 채우기, 이상 탐지, 분류의 5가지 주요 작업에 대해 실험을 수행했으며, 36개의 데이터 세트와 81개의 다양한 실험 설정을 다루었습니다.
동시에 N-BEATS(2019), Autoformer(2021) 등 RNN, CNN, MLP, Transformer 기반의 최신 모델을 포함하여 19가지의 Deep Method를 비교했습니다. LSSL(2022) ), N-Hits(2022), FEDformer(2022), Dlinear(2023) 등
4.1 전체 결과
오프닝 레이더 차트에서 볼 수 있듯이 TimesNet은 5개 작업 모두에서 SOTA를 달성했습니다.
(1) 장기 예측: 이 중요한 작업에서 TimesNet은 최첨단 Transformer 및 MLP 기반 모델을 능가합니다.
(2) 단기 예측: 이 실험에 사용된 M4 데이터 세트에는 샘플링 빈도가 다른 6개의 하위 데이터 세트가 포함되어 있으며 총 100,000개 이상의 데이터가 있습니다. TimesNet은 이러한 복잡한 데이터 분포 상황에서도 최적의 결과를 달성하여 모델의 시간적 변화 모델링 기능을 검증했습니다.
(3) 분류 작업 : 이 작업에서 TimesNet은 이 작업에서 고전적인 Rocket 알고리즘과 최첨단 딥 러닝 모델인 Flowformer를 능가했습니다.
더 많은 작업 비교를 보려면 백서를 참조하세요.
4.2 시각적 백본 네트워크의 일반화
TimesNet의 Inception 네트워크를 ResNet, ConvNext, Swin Transformer 등과 같은 다른 시각적 백본 네트워크로 대체합니다.
아래 그림과 같이 좀 더 발전된 비주얼 백본 네트워크를 사용하면 더 좋은 결과를 얻을 수 있습니다. 이는 또한 TimesNet의 프레임워크에서 시계열 분석이 시각적 백본 네트워크 분야의 발전으로 직접적인 이점을 얻을 수 있음을 의미합니다.
4.3 표현 분석
TimesNet 효과의 소스를 더 자세히 탐색하기 위해 "모델의 하위 레이어와 상위 레이어 표현 간의 CKA 유사성"과 "모델 효과". 그 중 CKA 유사도가 낮을수록 모델의 하위 레이어와 상위 레이어 간의 표현 차이가 더 커지는, 즉 보다 계층적인 표현이 됩니다.
위의 시각화에서 다음을 관찰할 수 있습니다.
- 예측 및 이상 탐지 작업에서 더 나은 모델은 상위 표현 유사성이 더 낮은 경향이 있습니다. , 이는 작업에 하위 수준 표현이 필요함을 나타냅니다.
- 분류 및 결측값 채우기 작업에서 모델이 좋을수록 하위 레이어와 상위 레이어 간의 표현 유사성이 낮아집니다 . 이는 이 작업에 계층적 표현이 필요함을 나타냅니다. 즉, 더 나은 전역 특징 추출 기능입니다.
TimesNet은 2D 공간에서의 컨볼루션 작업 덕분에 다양한 작업에 따라 적절한 표현을 학습할 수 있습니다. 예를 들어 예측 및 이상 탐지 작업에서는 분류 및 결측값 채우기 작업에서 하위 수준 표현을 학습합니다. 계층적 추상 특징을 학습합니다. 이는 TimesNet의 작업 일반화가 기본 모델임을 더욱 입증합니다.
동시에 위의 표현 분석은 특정 작업을 위한 심층 모델에 대한 설계 아이디어도 제공합니다. 예를 들어 예측 작업의 경우 기본 세부 기능 추출과 채우기 작업에 중점을 두어야 합니다. 우리는 글로벌 표현의 학습을 더 고려해야 합니다.
5 요약
시계열의 다중 기간 특성에서 영감을 받은 이 기사에서는 작업에 보편적인 시계열 분석을 위한 기본 모델인 TimesNet을 제안합니다. 이 모델은 1차원 시계열을 2차원 공간으로 혁신적으로 접고 2D 컨볼루션을 사용하여 시계열 특징을 얻습니다. 이러한 혁신을 통해 타이밍 분석 작업은 급성장하는 시각적 백본 네트워크의 직접적인 이점을 얻을 수 있으며 이는 후속 연구에 매우 고무적입니다.
동시에 TimesNet은 장기 및 단기 예측, 결측값 채우기, 이상 탐지 및 분류의 5가지 주류 시계열 분석 작업에서 포괄적인 리더십을 달성했으며 뛰어난 응용 가치를 가지고 있습니다.
위 내용은 타이밍 분석 펜타곤 전사! Tsinghua University에서는 예측, 채우기, 분류 및 감지 분야를 선도하는 TimesNet을 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

AI는 실제로 수학을 변화시키고 있습니다. 최근 이 문제에 주목하고 있는 타오저쉬안(Tao Zhexuan)은 '미국수학회지(Bulletin of the American Mathematical Society)' 최신호를 게재했다. '기계가 수학을 바꿀 것인가?'라는 주제를 중심으로 많은 수학자들이 그들의 의견을 표현했습니다. 저자는 필즈상 수상자 Akshay Venkatesh, 중국 수학자 Zheng Lejun, 뉴욕대학교 컴퓨터 과학자 Ernest Davis 등 업계의 유명 학자들을 포함해 강력한 라인업을 보유하고 있습니다. AI의 세계는 극적으로 변했습니다. 이 기사 중 상당수는 1년 전에 제출되었습니다.

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.

FP8 이하의 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다! Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했고 Microsoft DeepSpeed 팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 실행하기 시작했습니다. 테스트 결과에 따르면 A100에 대한 새로운 방법 TC-FPx의 FP6 양자화는 INT4에 가깝거나 때로는 더 빠르며 후자보다 정확도가 더 높은 것으로 나타났습니다. 또한 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드투엔드 대규모 모델 지원도 있습니다. 이 결과는 대형 모델 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다. 하나
