몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

王林

Jul 12, 2024 am 09:30 AM

프로젝트 센스타임

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 저자인 Pan Liang 박사는 현재 상하이 인공 지능 연구소의 연구 과학자입니다. 이전에는 2020년부터 2023년까지 싱가포르 난양기술대학교 S-Lab에서 연구원으로 재직했으며, 그의 지도교수는 Liu Ziwei 교수였다. 그의 연구는 컴퓨터 비전, 3D 포인트 클라우드 및 가상 인간에 중점을 두고 있으며 최고의 컨퍼런스와 저널에 여러 논문을 발표했으며 Google Scholar에서 2700회 이상 인용되었습니다. 또한 그는 컴퓨터 비전 및 기계 학습 분야의 최고 컨퍼런스 및 저널의 검토자로도 활동했습니다.

최근 SenseTime-Nanyang Technological University 공동 AI 연구 센터 S-Lab, Shanghai Artificial Intelligence Laboratory, Peking University 및 University of Michigan은 공간 변환의 명시적 모델링과 정적 3D Gaussian Splatter를 결합한 DreamGaussian4D(DG4D)를 공동으로 제안했습니다( GS) 기술을 사용하면 효율적인 4차원 콘텐츠 생성이 가능합니다.

4차원 콘텐츠 생성은 최근 상당한 진전을 이루었지만 기존 방법에는 긴 최적화 시간, 열악한 모션 제어 기능, 낮은 세부 품질 등의 문제가 있습니다. DG4D는 두 가지 주요 모듈을 포함하는 전체 프레임워크를 제안합니다. 1) 이미지를 4D GS로 - 먼저 DreamGaussianHD를 사용하여 정적 3D GS를 생성한 다음 HexPlane을 기반으로 하는 가우스 변형을 기반으로 동적 생성을 생성합니다. 2) 비디오를 비디오 텍스처로 개선합니다. 생성된 UV 공간 텍스처 맵은 미리 훈련된 이미지-비디오 확산 모델을 사용하여 개선되고 시간적 일관성이 향상됩니다.

DG4D는 4차원 콘텐츠 생성의 최적화 시간을 몇 시간에서 몇 분으로 단축하고(그림 1 참조) 생성된 3차원 모션을 시각적으로 제어할 수 있으며, 가능한 이미지 생성을 지원한다는 점은 주목할 가치가 있습니다. 3차원 엔진으로 사실적으로 렌더링됩니다.

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

지 이름 : DreamGaussian4D : 생성 4D 가우스 스플 래팅
homepage 주소 : https://jiawei-ren.github.io/projects/dreamgaussian4d/
Paper 주소 : https : // arxiv.org/abs/2312.17142
데모 주소: https://huggingface.co/spaces/jiawei011/dreamgaussian4d

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

^{> 그림 1. DG4D는 4차원 콘텐츠를 4개와 1개로 구현할 수 있습니다. 30분 기본 융합 최적화}

문제 및 과제

생성 모델은 2D 이미지, 비디오, 3D 풍경 등 다양한 디지털 콘텐츠의 제작과 생산을 크게 단순화할 수 있으며 최근 몇 년 동안 상당한 진전을 이루었습니다. 4차원 콘텐츠는 게임, 영화, TV 등 다양한 다운스트림 작업에 중요한 콘텐츠 형식입니다. 또한 4차원으로 생성된 콘텐츠는 기존 그래픽 콘텐츠 제작 파이프라인에 연결하기 위해 기존 그래픽 렌더링 엔진 소프트웨어(예: Blender 또는 Unreal Engine)를 가져올 수 있도록 지원해야 합니다(그림 2 참조).

동적인 3차원(즉, 4차원) 생성에 관한 일부 연구가 있지만 4차원 장면의 효율적이고 고품질 생성에는 여전히 과제가 있습니다. 최근에는 모든 시야각에서 콘텐츠 모양과 동작의 일관성을 제한하기 위해 비디오와 3차원 생성 모델을 결합하여 4차원 콘텐츠 생성을 달성하기 위해 점점 더 많은 연구 방법이 사용되었습니다. ㅋㅋ NeRF)가 말했습니다. 예를 들어 MAV3D [1]는 HexPlane [2]에서 텍스트-비디오 확산 모델을 개선하여 텍스트-4차원 콘텐츠 생성을 달성합니다. Consistency4D [3]는 계단식 DyNeRF를 최적화하여 정적으로 캡처된 비디오에서 4D 장면을 생성하는 비디오-4D 프레임워크를 도입합니다. 다중 확산 모델 이전을 사용하여 Animate124[4]는 텍스트 모션 설명을 통해 처리되지 않은 단일 2D 이미지를 3D 동적 비디오로 애니메이션화할 수 있습니다. 하이브리드 SDS [5] 기술을 기반으로 하는 4D-fy [6]는 사전 훈련된 여러 확산 모델을 사용하여 매력적인 텍스트를 4차원 콘텐츠로 생성할 수 있습니다.

그러나 위에서 언급한 모든 기존 방법[1,3,4,6]은 단일 4D NeRF를 생성하는 데 몇 시간이 필요하므로 적용 가능성이 크게 제한됩니다. 또한, 모두 최종 생성된 모션을 효과적으로 제어하거나 선택하는 데 어려움을 겪고 있습니다. 위의 단점은 주로 다음 요소에서 비롯됩니다. 첫째, 앞서 언급한 방법의 기본 암시적 4차원 표현이 충분히 효율적이지 않으며, 느린 렌더링 속도 및 열악한 모션 규칙성과 같은 문제가 있습니다. 둘째, 비디오 SDS의 무작위 특성입니다. 수렴의 어려움이 증가하고 최종 결과에서는 불안정성과 여러 아티팩트가 발생합니다.

방법 소개

4D NeRF를 직접 최적화하는 방법과 달리 DG4D는 정적 가우스 스플래싱 기술과 명시적인 공간 변환 모델링을 결합하여 4D 콘텐츠 생성을 위한 효율적이고 강력한 표현을 구축합니다. 또한 비디오 생성 방법은 고품질 4D 생성을 향상시키는 귀중한 시공간 사전 정보를 제공할 수 있는 잠재력을 가지고 있습니다. 구체적으로 우리는 1) 이미지에서 4D GS 생성, 2) 비디오 대형 모델 기반 텍스처 맵 개선의 두 가지 주요 단계로 구성된 전체 프레임워크를 제안합니다. D1. 4D GS로의 이미지 생성

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

4D GS 생성 프레임워크 다이어그램의 그림 3 그림

이 단계에서는 정적 3D GS와 공간 변형을 사용하여 동적 역학 4- 차원적인 장면. 주어진 2D 이미지를 기반으로 향상된 DreamGaussianHD 방법을 사용하여 정적 3D GS를 생성합니다. 이어서, 정적 3D GS 함수에 대한 시간 의존 변형 필드를 최적화함으로써 각 타임스탬프의 가우스 변형이 추정되며, 변형된 각 프레임의 모양과 질감이 주행 비디오의 해당 프레임과 일치하도록 만드는 것을 목표로 합니다. 이 단계가 끝나면 동적 3차원 메시 모델 시퀀스가 생성됩니다. ㅋㅋ HD 3D GS를 사용하는 최근 그래픽 3D 개체 방법인 DreamGaussian [7]을 기반으로 몇 가지 추가 개선을 수행하고 더 나은 3D GS 생성 및 초기화 방법 세트를 컴파일했습니다. 개선된 주요 기능으로는 1) 멀티뷰 최적화 방식 채택, 2) 최적화 과정에서 렌더링된 이미지의 배경을 생성에 더 적합한 검정색 배경으로 설정하는 것 등이 있습니다. 개선된 버전을 DreamGaussianHD라고 부르며 구체적인 개선 렌더링은 그림 4에서 볼 수 있습니다. 그림 5 HexPlane은 동적 변형 장을 나타냅니다.

생성된 정적 3D GS 모델을 기반으로 각 프레임 동적 4D GS 모델에서 가우시안 커널의 변형을 예측하여 기대에 맞는 비디오를 생성합니다. 동적 효과의 특성화 측면에서 HexPlane(그림 5 참조)을 선택하여 각 타임스탬프에서 가우스 커널 변위, 회전 및 크기를 예측함으로써 각 프레임에 대한 동적 모델 생성을 구동합니다. 또한 설계 네트워크를 목표 방식으로 조정했습니다. 특히 마지막 몇 개의 선형 연산 네트워크 계층에 대한 잔여 연결 설계 및 제로 초기화를 조정하여 동적 필드가 정적 3D GS 모델을 기반으로 원활하고 완전하게 초기화될 수 있도록 했습니다. (효과는 그림과 같습니다) 6)에 표시됩니다.始 그림 6 동적 장의 최종 세대에 대한 동적 형성 초기화의 영향

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

2. 비디오 대 비디오의 물 최적화

그림 7 비디오 대 비디오 텍스처 최적화 프레임 다이어그램

DreamGaussian과 마찬가지로 4D GS를 기반으로 한 4차원 동적 모델 생성의 첫 번째 단계를 거친 후 4차원 메쉬 모델 시퀀스를 추출할 수 있습니다. 또한 DreamGaussian이 수행하는 것과 유사하게 메쉬 모델의 UV 공간에서 텍스처를 더욱 최적화할 수도 있습니다. 개별 3D 메시 모델의 텍스처를 최적화하기 위해 이미지 생성 모델만 사용하는 DreamGaussian과 달리 전체 3D 메시 시퀀스를 최적화해야 합니다.

게다가 DreamGaussian의 접근 방식을 따를 경우, 즉 각 3D 메시 시퀀스에 대해 독립적인 텍스처 최적화를 수행하면 3D 메시의 텍스처가 서로 다른 타임스탬프에서 일관되지 않게 생성되고 깜박임 등이 자주 발생한다는 사실을 발견했습니다. . 결함 가공물이 나타납니다. 이러한 점에서 우리는 DreamGaussian과 달리 대규모 비디오 생성 모델을 기반으로 UV 공간에서 비디오-비디오 텍스처 최적화 방법을 제안합니다. 구체적으로, 우리는 최적화 과정에서 일련의 카메라 궤적을 무작위로 생성하고 이를 기반으로 여러 비디오를 렌더링하고 렌더링된 비디오에 해당 노이즈 추가 및 노이즈 제거를 수행하여 메시 모델 텍스처 향상을 달성했습니다.

사진을 기반으로 한 대형 모델 생성과 비디오를 기반으로 한 대형 모델 생성의 텍스처 최적화 효과 비교는 그림 8에 나와 있습니다. ㅋㅋㅋ

4D NeRF의 전체 최적화를 위한 이전 방법에 비해 DG4D는 4차원 콘텐츠를 생성하는 데 필요한 시간이 크게 단축됩니다. 구체적인 시간 비교는 표 1에서 볼 수 있습니다. ㅋㅋ ~ ㅋㅋ ~
영상을 기반으로 4차원 콘텐츠를 생성하는 설정에 대해, 영상에서 4차원 콘텐츠를 생성하는 방식의 수치 결과를 비교한 표 3을 보면 된다. ㅋㅋㅋ 표 3
또한, 우리의 영상 생성에 가장 잘 맞는 다양한 방식의 생성 결과에 대한 사용자 테스트도 진행했습니다. 방법 샘플링 테스트, 테스트 결과는 표 4에 보고됩니다.生 표 4 단일 사진으로 생성된 4차원 콘텐츠를 기반으로 한 사용자 테스트

DG4D와 기존 오픈 소스 SOTA 그래프는 4차원 콘텐츠 방식과 비디오 생성 4차원 콘텐츠 방식의 효과를 생성합니다. 그림 9와 그림 10에 각각 표시되어 있습니다.内容 그림 9 그림 9 그림 4차원 콘텐츠 효과 비교 그림 10 영상 Sheng 4차원 콘텐츠 효과 비교 그림

또한 최근 단일 이미지에서 3D GS를 생성하는 직접 피드포워드 방식(즉, SDS 최적화 방식을 사용하지 않음)을 기반으로 정적 3D 콘텐츠를 생성하고, 이를 기반으로 동적 4D GS 생성을 초기화했습니다. 3D GS의 직접 피드포워드 생성은 SDS 최적화 기반 방법보다 더 높은 품질과 다양한 3D 콘텐츠를 더 빠르게 생성할 수 있습니다. 이를 기반으로 얻은 4차원 콘텐츠는 그림 11과 같다.生 Figure 11 3D GS 생성 방법을 기반으로 생성된 4차원 동적 콘텐츠

단일 사진을 기반으로 더 많은 4차원 콘텐츠 표시가 그림 12에 표시됩니다.
결론

4D GS를 기반으로 효율적인 image-to-4D 생성 프레임워크인 DreamGaussian4D(DG4D)를 제안합니다. 기존 4차원 콘텐츠 생성 프레임워크와 비교하여 DG4D는 최적화 시간을 몇 시간에서 몇 분으로 크게 줄입니다. 또한 생성된 비디오를 구동 모션 생성에 사용하여 시각적으로 제어 가능한 3D 모션 생성을 구현하는 방법을 보여줍니다.
마지막으로 DG4D는 3D 메쉬 모델 추출을 허용하고 시간적으로 일관된 고품질 텍스처 최적화를 지원합니다. DG4D가 제안하는 4차원 콘텐츠 생성 프레임워크가 4차원 콘텐츠 생성 방향의 연구를 촉진하고 다양한 실용화에 기여할 수 있기를 기대한다.

References

^{[1] Singer et al. "Text-to-4D 동적 장면 생성." 2023년 제40회 국제 기계 학습 회의 논문집. 2] Cao 외. "Hexplane: 동적 장면을 위한 빠른 표현." 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 회의록.}

^{[3] Jiang 외. 단안 비디오의 360° 동적 객체 생성." 학습 표현에 관한 제12차 국제 컨퍼런스. 2023.}

^{[4] Zhao 외. "Animate124: 하나의 이미지를 4D 동적 장면으로 애니메이션화." arXiv 사전 인쇄 arXiv:2311.14603 (2023).}

^{[5] Poole 외. "DreamFusion: 2D 확산을 사용한 텍스트-3D." 제11회 학습 표현에 관한 국제 회의.}

^{[6] , Sherwin, et al. "4d-fy: 하이브리드 점수 증류 샘플링을 사용한 텍스트-4d 생성." arXiv 사전 인쇄 arXiv:2311.17984(2023).}

^{[7] Tang et al. 효율적인 3D 콘텐츠 제작을 위한 가우스 스플래팅." 제12차 학습 표현에 관한 국제 컨퍼런스. 2023.}

위 내용은 몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1657

Cakephp 튜토리얼

1415

라라벨 튜토리얼

1309

PHP 튜토리얼

1257

C# 튜토리얼

1231

Related knowledge

ControlNet의 저자가 또 다른 히트를 쳤습니다! 이틀 만에 14,000개의 별을 획득하여 그림에서 그림을 생성하는 전체 과정 Jul 17, 2024 am 01:56 AM

역시 Tusheng 영상이지만 PaintsUndo는 다른 경로를 택했습니다. ControlNet 작성자 LvminZhang이 다시 살기 시작했습니다! 이번에는 회화 분야를 목표로 삼고 있습니다. 새로운 프로젝트인 PaintsUndo는 출시된 지 얼마 되지 않아 1.4kstar(여전히 상승세)를 받았습니다. 프로젝트 주소: https://github.com/lllyasviel/Paints-UNDO 이 프로젝트를 통해 사용자는 정적 이미지를 입력하고 PaintsUndo는 자동으로 라인 초안부터 완성품 따라가기까지 전체 페인팅 과정의 비디오를 생성하도록 도와줍니다. . 그리는 과정에서 선의 변화가 놀랍습니다. 최종 영상 결과는 원본 이미지와 매우 유사합니다. 완성된 그림을 살펴보겠습니다.

오픈 소스 AI 소프트웨어 엔지니어 목록의 1위인 UIUC의 에이전트 없는 솔루션은 SWE 벤치의 실제 프로그래밍 문제를 쉽게 해결합니다. Jul 17, 2024 pm 10:02 PM

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 이 논문의 저자는 모두 일리노이 대학교 Urbana-Champaign(UIUC)의 Zhang Lingming 교사 팀 출신입니다. Steven Code Repair, 박사 4년차, 연구원

RLHF에서 DPO, TDPO까지 대규모 모델 정렬 알고리즘은 이미 '토큰 수준'입니다. Jun 24, 2024 pm 03:04 PM

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 인공 지능 개발 과정에서 LLM(대형 언어 모델)의 제어 및 안내는 항상 핵심 과제 중 하나였으며 이러한 모델이 두 가지 모두를 보장하는 것을 목표로 했습니다. 강력하고 안전하게 인간 사회에 봉사합니다. 인간 피드백(RL)을 통한 강화 학습 방법에 초점을 맞춘 초기 노력

OpenAI Super Alignment Team의 사후 작업: 두 개의 대형 모델이 게임을 하고 출력이 더 이해하기 쉬워졌습니다. Jul 19, 2024 am 01:29 AM

AI 모델이 내놓은 답변이 전혀 이해하기 어렵다면 감히 사용해 보시겠습니까? 기계 학습 시스템이 더 중요한 영역에서 사용됨에 따라 우리가 그 결과를 신뢰할 수 있는 이유와 신뢰할 수 없는 경우를 보여주는 것이 점점 더 중요해지고 있습니다. 복잡한 시스템의 출력에 대한 신뢰를 얻는 한 가지 가능한 방법은 시스템이 인간이나 다른 신뢰할 수 있는 시스템이 읽을 수 있는 출력 해석을 생성하도록 요구하는 것입니다. 즉, 가능한 오류가 발생할 수 있는 지점까지 완전히 이해할 수 있습니다. 설립하다. 예를 들어, 사법 시스템에 대한 신뢰를 구축하기 위해 우리는 법원이 자신의 결정을 설명하고 뒷받침하는 명확하고 읽기 쉬운 서면 의견을 제공하도록 요구합니다. 대규모 언어 모델의 경우 유사한 접근 방식을 채택할 수도 있습니다. 그러나 이 접근 방식을 사용할 때는 언어 모델이 다음을 생성하는지 확인하세요.

arXiv 논문은 '연발'로 게시될 수 있습니다. Stanford alphaXiv 토론 플랫폼은 온라인이며 LeCun은 이를 좋아합니다. Aug 01, 2024 pm 05:18 PM

건배! 종이 토론이 말로만 진행된다면 어떤가요? 최근 스탠포드 대학교 학생들은 arXiv 논문에 대한 질문과 의견을 직접 게시할 수 있는 arXiv 논문에 대한 공개 토론 포럼인 alphaXiv를 만들었습니다. 웹사이트 링크: https://alphaxiv.org/ 실제로 이 웹사이트를 특별히 방문할 필요는 없습니다. URL에서 arXiv를 alphaXiv로 변경하면 alphaXiv 포럼에서 해당 논문을 바로 열 수 있습니다. 논문, 문장: 오른쪽 토론 영역에서 사용자는 저자에게 논문의 아이디어와 세부 사항에 대해 질문하는 질문을 게시할 수 있습니다. 예를 들어 다음과 같이 논문 내용에 대해 의견을 제시할 수도 있습니다.

리만 가설의 중요한 돌파구! 타오저쉬안(Tao Zhexuan)은 MIT와 옥스퍼드의 새로운 논문을 적극 추천했으며, 37세의 필즈상 수상자도 참여했다. Aug 05, 2024 pm 03:32 PM

최근 새천년 7대 과제 중 하나로 알려진 리만 가설이 새로운 돌파구를 마련했다. 리만 가설은 소수 분포의 정확한 특성과 관련된 수학에서 매우 중요한 미해결 문제입니다(소수는 1과 자기 자신으로만 나눌 수 있는 숫자이며 정수 이론에서 근본적인 역할을 합니다). 오늘날의 수학 문헌에는 리만 가설(또는 일반화된 형식)의 확립에 기초한 수학적 명제가 천 개가 넘습니다. 즉, 리만 가설과 그 일반화된 형식이 입증되면 천 개가 넘는 명제가 정리로 확립되어 수학 분야에 지대한 영향을 미칠 것이며, 리만 가설이 틀린 것으로 입증된다면, 이러한 제안의 일부도 그 효과를 잃을 것입니다. MIT 수학 교수 Larry Guth와 Oxford University의 새로운 돌파구

최초의 Mamba 기반 MLLM이 출시되었습니다! 모델 가중치, 학습 코드 등은 모두 오픈 소스입니다. Jul 17, 2024 am 02:46 AM

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 서문 최근 몇 년 동안 다양한 분야에서 MLLM(Multimodal Large Language Model)의 적용이 눈에 띄는 성공을 거두었습니다. 그러나 많은 다운스트림 작업의 기본 모델로서 현재 MLLM은 잘 알려진 Transformer 네트워크로 구성됩니다.

LLM은 시계열 예측에 적합하지 않습니다. 추론 능력도 사용하지 않습니다. Jul 15, 2024 pm 03:59 PM

시계열 예측에 언어 모델을 실제로 사용할 수 있나요? Betteridge의 헤드라인 법칙(물음표로 끝나는 모든 뉴스 헤드라인은 "아니오"로 대답할 수 있음)에 따르면 대답은 아니오여야 합니다. 사실은 사실인 것 같습니다. 이렇게 강력한 LLM은 시계열 데이터를 잘 처리할 수 없습니다. 시계열, 즉 시계열은 이름에서 알 수 있듯이 시간 순서대로 배열된 데이터 포인트 시퀀스 집합을 나타냅니다. 시계열 분석은 질병 확산 예측, 소매 분석, 의료, 금융 등 다양한 분야에서 중요합니다. 시계열 분석 분야에서는 최근 많은 연구자들이 LLM(Large Language Model)을 사용하여 시계열의 이상 현상을 분류, 예측 및 탐지하는 방법을 연구하고 있습니다. 이 논문에서는 텍스트의 순차적 종속성을 잘 처리하는 언어 모델이 시계열로도 일반화될 수 있다고 가정합니다.

See all articles

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제