AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.
비디오 게임은 현실 세계의 시뮬레이션 무대가 되어 무한한 가능성을 보여주고 있습니다. "GTA"(Grand Theft Auto)를 예로 들어보겠습니다. 게임에서 플레이어는 1인칭 시점에서 가상 도시 로스 산토스의 다채로운 삶을 경험할 수 있습니다. 하지만 인간 플레이어가 로스 산토스에서 플레이를 즐기고 작업을 완료할 수 있다면 GTA에서 캐릭터를 제어하고 작업을 수행하는 "플레이어"가 될 수 있는 AI 시각적 모델도 가질 수 있을까요? GTA의 AI 플레이어가 교통 규칙을 준수하고 경찰이 범인을 잡는 데 도움을 주는 5성 선량한 시민의 역할을 할 수 있습니까? 심지어 노숙자들이 적합한 주택을 찾을 수 있도록 돕는 도움이 되는 행인이 될 수 있을까요?
현재 VLM(시각 언어 모델)은 다중 모드 인식 및 추론에서 상당한 발전을 이루었지만 일반적으로 더 간단한 시각적 질문 응답(VQA) 또는 시각적 주석(캡션) 작업을 기반으로 합니다. 그러나 이러한 작업 설정으로 인해 VLM이 실제 세계에서 실제로 작업을 완료할 수는 없습니다. 실제 작업을 수행하려면 시각적 정보에 대한 이해가 필요할 뿐만 아니라, 실시간으로 업데이트되는 환경 정보를 기반으로 추론을 계획하고 피드백을 제공할 수 있는 능력도 모델에 필요하기 때문입니다. 동시에 생성된 계획은 작업을 현실적으로 완료하기 위해 환경의 개체를 조작할 수 있어야 합니다.
현재 기존 언어 모델(LLM)은 제공된 정보를 기반으로 작업 계획을 수행할 수 있지만 시각적 입력을 이해할 수는 없습니다. 이는 특정 실제 작업, 특히 일부 구현된 지능 작업을 수행할 때 언어 모델의 적용 범위를 크게 제한합니다. 텍스트 기반 입력은 종종 너무 복잡하거나 정교하기 어려워서 언어 모델이 정보를 효율적으로 추출할 수 없게 만든다는 것입니다. 그것에서 작업을 완료합니다. 현재 프로그램 생성에서 언어 모델이 탐색되고 있지만 시각적 입력을 기반으로 구조화되고 실행 가능하며 강력한 코드를 생성하는 탐색은 아직 심층적이지 않습니다. 정확한 계획을 세우고 명령을 실행하는 자율적, 상황 인식 시스템이 필요하다고 싱가포르 난양 기술대학교, 칭화대학교 등의 학자들이 옥토퍼스를 제안했습니다. Octopus는 시각적 입력을 통해 학습하고, 현실 세계를 이해하며, 실행 가능한 코드를 생성하여 다양한 실무 작업을 완료하는 것을 목표로 하는 비전 기반 프로그래밍 가능 에이전트입니다. Octopus는 시각적 입력과 실행 가능한 코드로 구성된 대량의 데이터 쌍을 학습함으로써 비디오 게임 캐릭터를 제어하여 게임 작업을 완료하거나 복잡한 가사 활동을 완료하는 방법을 배웠습니다.
- 논문 링크: https://arxiv.org/abs/2310.08588
- 프로젝트 웹페이지: https://choiszt.github.io/Octopus/
- 오픈 소스 코드 링크: https : //github.com/dongyh20/Octopus
체화된 지능 작업을 완료할 수 있는 시각적 언어 모델을 훈련하기 위해 연구원들은 Octopus 데이터 및 테스트 환경에 대한 훈련을 제공하는 두 가지 시뮬레이션 시스템이 포함된 OctoVerse도 개발했습니다. 이 두 시뮬레이션 환경은 VLM의 구현된 지능에 대해 사용 가능한 교육 및 테스트 시나리오를 제공하고 모델의 추론 및 작업 계획 기능에 대한 더 높은 요구 사항을 제시합니다.
1. OctoGibson: 스탠포드 대학교에서 개발한 OmniGibson을 기반으로 개발되었으며, 실생활과 일치하는 총 476가지 집안일 활동을 포함합니다. 전체 시뮬레이션 환경에는 실제 가정 환경의 155가지 인스턴스를 다루는 16가지 카테고리의 가정 시나리오가 포함되어 있습니다. 모델은 최종 작업을 완료하기 위해 그 안에 있는 수많은 대화형 개체를 조작할 수 있습니다.
2. OctoGTA: "GTA" 게임을 기반으로 개발되었으며 총 20개의 작업이 구성되어 5개의 시나리오로 일반화되었습니다. 플레이어는 사전 설정된 프로그램을 통해 고정된 위치에 설정되며, 미션을 원활하게 진행할 수 있도록 미션 완료에 필요한 아이템과 NPC를 제공합니다.
아래 그림은 OctoGibson의 작업 분류와 OctoGibson 및 OctoGTA의 일부 통계 결과를 보여줍니다.
두 가지 구축된 시뮬레이션 환경에서 훈련 데이터를 효율적으로 수집하기 위해 연구진은 완전한 데이터 수집 시스템을 구축했습니다. 연구진은 작업 실행기로 GPT-4를 도입하여 사전 구현된 기능을 사용하여 시뮬레이션 환경에서 얻은 시각적 입력을 텍스트 정보로 변환하고 이를 GPT-4에 제공했습니다. GPT-4는 현재 단계의 작업 계획과 실행 코드를 반환한 후 시뮬레이션 환경에서 코드를 실행하고 현재 단계의 작업이 완료되었는지 확인합니다. 성공하면 다음 단계를 위한 시각적 입력을 계속 수집하고, 실패하면 이전 단계의 시작 위치로 돌아가 다시 데이터를 수집합니다
위 그림은 OctoGibson 환경에서 Cook a Bacon 작업을 예로 들어 데이터 수집의 전체 프로세스를 보여줍니다. 데이터 수집 과정에서 연구원들은 작업 실행 중 시각적 정보, GPT-4에서 반환된 실행 코드 등을 기록했을 뿐만 아니라 각 하위 작업의 성공도 기록했다는 점에 유의해야 합니다. 보다 효율적인 VLM을 위한 기반을 구축하기 위해 강화 학습이 도입되었습니다. GPT-4는 강력하지만 완벽하지는 않습니다. 오류는 시뮬레이터의 구문 오류 및 물리적 문제를 포함하여 다양한 방식으로 나타날 수 있습니다. 예를 들어, 그림 3에 표시된 것처럼 상태 #5와 #6 사이에서 에이전트가 들고 있는 베이컨과 팬 사이의 거리가 너무 멀기 때문에 "팬에 베이컨 놓기" 작업이 실패했습니다. 이러한 좌절은 작업을 이전 상태로 재설정합니다. 10단계 후에도 작업이 완료되지 않으면 실패한 것으로 간주되고 예산 문제로 인해 작업이 종료되며 이 작업의 모든 하위 작업에 대한 데이터 쌍이 실패한 것으로 간주됩니다.
연구원들은 일정 규모의 훈련 데이터를 수집한 후 이 데이터를 사용하여 지능형 시각 언어 모델 Octopus를 훈련했습니다. 아래 그림은 전체 데이터 수집 및 학습 프로세스를 보여줍니다. 첫 번째 단계에서 연구진은 감독된 미세 조정을 위해 수집된 데이터를 사용하여 시각적 정보를 고정된 형식의 입력 및 출력으로 수신할 수 있는 VLM 모델을 구축했습니다. 이 단계에서 모델은 시각적 입력 정보를 임무 계획 및 실행 코드에 매핑할 수 있습니다. 두 번째 단계에서 연구원들은 환경 피드백을 활용한 RLEF
강화 학습을 도입하고 이전에 수집된 하위 작업의 성공을 보상 신호로 사용하여 VLM의 작업 계획 기능을 더욱 향상시켜 전체 작업의 성공률을 높였습니다
실험 결과
연구원들은 구축된 OctoGibson 환경에서 현재 주류인 VLM과 LLM을 테스트했습니다. 다음 표는 주요 실험 결과를 보여줍니다. 다양한 테스트 모델의 경우 Vision Model은 다양한 모델에서 사용되는 시각적 모델을 나열합니다. LLM의 경우 연구원은 LLM의 입력으로 시각적 정보를 텍스트로 처리합니다. 그 중 O는 장면 내 상호작용하는 객체에 대한 정보를 제공하는 것을 나타내고, R은 장면 내 객체의 상대적인 관계에 대한 정보를 제공하는 것을 나타내며, GT는 탐지를 위한 추가적인 시각적 모델을 도입하지 않고 실제적이고 정확한 정보를 사용하는 것을 나타낸다.
모든 테스트 작업에 대해 연구원들은 완전한 테스트 통합 능력을 보고하고 이를 4가지 범주로 더 나누어 훈련 세트에 존재하는 시나리오에서 새 작업 완료를 기록하고 그렇지 않은 시나리오에서 새 작업 완료를 기록했습니다. 훈련 세트에는 새로운 작업뿐만 아니라 간단한 후속 작업 및 복잡한 추론 작업에 대한 일반화 능력도 있습니다. 연구원들은 통계의 각 범주에 대해 두 가지 평가 지표를 보고했는데, 그 중 첫 번째는 구현된 지능 작업을 완료하는 모델의 성공률을 측정하는 작업 완료율이고, 두 번째는 작업 계획 정확도를 측정하는 데 사용됩니다. 구현된 지능 작업을 완료하는 데 있어 모델의 성공률은 작업 계획을 수행하는 모델의 능력을 반영합니다.
또한 연구원들은 OctoGibson 시뮬레이션 환경에서 수집된 시각적 데이터에 대한 다양한 모델의 반응 예도 시연했습니다. 아래 그림은 OctoGibson에서 시각적 입력을 생성하기 위해 TAPA+CodeLLaMA, Octopus 및 GPT-4V의 세 가지 모델을 사용한 후의 응답을 보여줍니다. 감독된 미세 조정만 수행하는 Octopus 모델 및 TAPA+CodeLLaMA와 비교할 때 RLEF로 훈련된 Octopus 모델의 작업 계획이 더 합리적임을 알 수 있습니다. 더 모호한 임무 명령인 "큰 병을 찾아라"도 더 완전한 계획을 제공합니다. 이러한 성능은 모델의 작업 계획 및 추론 기능을 향상시키는 데 있어 RLEF 훈련 전략의 효율성을 더욱 잘 보여줍니다. 전반적으로 시뮬레이션 환경에서 기존 모델의 실제 작업 완료 및 작업 계획 기능은 여전히 동일합니다. 개선을 위해. 연구원들은 몇 가지 주요 결과를 요약했습니다.
1.CodeLLaMA는 모델의 코드 생성 능력을 향상시킬 수 있지만 작업 계획 능력을 향상시킬 수는 없습니다.
많은 양의 텍스트 정보 입력에 직면했을 때 , LLM의 처리가 상대적으로 어려워집니다
실제 테스트 과정에서 연구자들은 TAPA와 CodeLLaMA의 실험 결과를 비교한 결과 언어 모델이 긴 텍스트 입력을 잘 처리하기 어렵다는 결론에 도달했습니다. 연구자들은 TAPA 방식을 따르고 작업 계획을 위해 실제 개체 정보를 사용하는 반면, CodeLLaMA는 보다 완전한 정보를 제공하기 위해 개체와 개체 간의 상대적 위치 관계를 사용합니다. 그러나 실험 중 연구자들은 환경에 중복된 정보가 많기 때문에 환경이 복잡해지면 텍스트 입력이 크게 증가하고 LLM이 많은 양의 중복 정보에서 귀중한 단서를 추출하기 어렵다는 사실을 발견했습니다. 정보가 중복되어 미션 성공률이 감소합니다. 이는 또한 LLM의 한계를 반영합니다. 즉, 텍스트 정보를 사용하여 복잡한 장면을 표현하는 경우 중복되고 가치 없는 입력 정보가 대량 생성됩니다.
3.Octopus는 작업 일반화 능력이 좋습니다.
문어는 실험 결과에서 알 수 있듯이 작업 일반화 능력이 뛰어납니다. 훈련 세트에 나타나지 않은 새로운 시나리오에서 Octopus는 작업 완료 성공률과 작업 계획 성공률 모두에서 기존 모델을 능가했습니다. 이는 또한 시각적 언어 모델이 동일한 작업 범주에서 고유한 장점을 가지고 있으며 일반화 성능이 기존 LLM
4.RLEF보다 우수하다는 것을 보여 주며 모델의 작업 계획 능력을 향상시킬 수 있습니다.
연구원들은 실험 결과에서 두 모델의 성능 비교를 제공합니다. 하나는 지도 미세 조정의 첫 번째 단계를 거친 모델이고 다른 하나는 RLEF로 훈련된 모델입니다. RLEF 훈련 후 강력한 추론과 작업 계획 능력이 필요한 작업에서 모델의 전반적인 성공률과 계획 능력이 크게 향상되는 결과를 확인할 수 있습니다. 기존 VLM 훈련 전략과 비교하여 RLEF가 더 효율적입니다. 예제 플롯은 RLEF로 훈련된 모델이 작업 계획에서 향상되었음을 보여줍니다. 복잡한 작업에 직면할 때 모델은 환경을 탐색하는 방법을 배울 수 있으며 작업 계획 측면에서 시뮬레이션 환경의 실제 요구 사항에 더 부합합니다(예를 들어 모델은 개체로 이동해야 합니다. 상호 작용을 시작하기 전에 상호 작용해야 함) 작업을 줄여 계획 실패의 위험
토론
다시 작성해야 할 사항은 다음과 같습니다. 용융 테스트
모델의 실제 기능을 평가한 후 연구원들은 추가로 탐색했습니다. 모델 성능에 영향을 미칠 수 있는 요인. 아래 그림과 같이 연구원들은 세 가지 측면에서 실험을 진행했습니다
다시 작성해야 할 내용은 다음과 같습니다. 1. 훈련 매개변수의 비율
연구원들은 비교 실험을 진행하고 시각적 모델만 훈련한 연결 레이어를 비교했습니다. 언어 모델, 훈련 연결 계층 및 언어 모델, 그리고 완전한 훈련 모델의 성능. 결과는 훈련 매개변수가 증가함에 따라 모델의 성능이 점차 향상된다는 것을 보여줍니다. 이는 훈련 매개변수의 수가 일부 고정된 시나리오에서 모델이 작업을 완료할 수 있는지 여부에 중요하다는 것을 보여줍니다
2. 모델 크기
연구원들은 두 가지 훈련 단계에서 더 작은 3B 매개변수 모델과 기준 7B 모델을 비교했습니다. 비교 결과, 모델의 전체 매개변수 양이 클수록 모델의 성능도 크게 향상되는 것으로 나타났습니다. VLM 분야의 향후 연구에서는 모델이 해당 작업을 완료할 수 있는 능력을 갖추는 동시에 모델의 가볍고 빠른 추론 속도를 보장하기 위해 적절한 모델 훈련 매개변수를 선택하는 방법이 매우 중요한 문제가 될 것입니다
필요 다시 작성 내용은 다음과 같습니다. 3. 시각적 입력의 연속성. 재작성된 콘텐츠: 3. 시각적 입력의 일관성
다양한 시각적 입력이 실제 VLM 성능에 미치는 영향을 연구하기 위해 연구원들은 실험을 수행했습니다. 테스트 중에 모델은 시뮬레이션 환경에서 순차적으로 회전하고 첫 번째 보기 이미지와 두 개의 조감도를 수집한 다음 이러한 시각적 이미지를 VLM에 순차적으로 입력합니다. 실험에서 연구자가 시각적 이미지의 순서를 무작위로 혼란시킨 다음 이를 VLM에 입력하면 VLM의 성능이 더 큰 손실을 입습니다. 한편으로 이는 VLM에 대한 완전하고 구조화된 시각적 정보의 중요성을 보여 주는 반면, VLM은 시각적 입력에 응답할 때 시각적 이미지 간의 본질적인 연결에 의존해야 함을 반영합니다. 이는 VLM의 성능에 큰 영향을 미칠 것입니다
GPT-4
또한 연구원들은 시뮬레이션 환경에서 GPT-4 및 GPT-4V의 성능에 대한 테스트 및 통계도 수행했습니다.
다시 작성해야 할 사항은 다음과 같습니다. 1. GPT-4
GPT-4의 경우 테스트 프로세스 중에 연구원은 훈련 데이터를 수집하는 데 사용할 때 입력과 정확히 동일한 텍스트 정보를 제공합니다. 테스트 작업에서 GPT-4는 작업의 절반을 완료할 수 있으며, 이는 기존 VLM이 GPT-4와 같은 언어 모델에 비해 여전히 성능 향상의 여지가 많다는 것을 보여줍니다. 또한, GPT-4와 같이 강력한 성능을 갖춘 언어 모델이라 할지라도 구현된 지능 작업에 직면했을 때 작업 계획 능력과 작업 실행 능력이 여전히 더 향상되어야 함을 보여줍니다.
다시 작성해야 하는 내용은 다음과 같습니다. 2. GPT-4V
GPT-4V가 직접 호출할 수 있는 API를 출시한 이후 연구자들은 아직 시도해 볼 시간이 없었지만, 연구자들은 GPT-4V의 성능을 입증하기 위해 몇 가지 예제를 수동으로 테스트하기도 했습니다. 몇 가지 예를 통해 연구원들은 GPT-4V가 시뮬레이션 환경의 작업에 대한 강력한 제로 샘플 일반화 기능을 가지고 있으며 시각적 입력을 기반으로 해당 실행 코드를 생성할 수도 있지만 일부 작업 계획보다 약간 열등하다고 생각합니다. - 시뮬레이션 환경에서 수집된 데이터를 조정합니다.
요약
연구원들은 현재 작업의 몇 가지 한계를 지적했습니다.
현재 Octopus 모델은 복잡한 작업을 처리할 때 제대로 작동하지 않습니다. 복잡한 작업에 직면할 때 Octopus는 종종 잘못된 계획을 세우고 환경의 피드백 정보에 크게 의존하므로 전체 작업을 완료하기 어렵습니다
2. Octopus 모델은 시뮬레이션 환경에서만 훈련되지만 이를 어떻게 현실 세계에는 일련의 문제에 직면하게 될 것입니다. 예를 들어, 실제 환경에서는 모델이 객체의 상대적인 위치 정보를 보다 정확하게 획득하기 어려울 것이며, 객체의 장면에 대한 이해를 구축하는 것도 더욱 어려워질 것입니다.
3. 현재 문어의 시각적 입력은 개별 정적 사진이므로 연속적인 동영상을 처리할 수 있도록 하는 것이 향후 과제가 됩니다. 지속적인 비디오는 작업 완료 시 모델의 성능을 더욱 향상시킬 수 있지만 지속적인 시각적 입력을 효율적으로 처리하고 이해하는 방법이 VLM 성능 향상의 핵심이 될 것입니다
위 내용은 AI 모델을 GTA 5성 플레이어로 만들자 비전 기반 프로그래밍 가능 지능형 에이전트 Octopus가 출시되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











역시 Tusheng 영상이지만 PaintsUndo는 다른 경로를 택했습니다. ControlNet 작성자 LvminZhang이 다시 살기 시작했습니다! 이번에는 회화 분야를 목표로 삼고 있습니다. 새로운 프로젝트인 PaintsUndo는 출시된 지 얼마 되지 않아 1.4kstar(여전히 상승세)를 받았습니다. 프로젝트 주소: https://github.com/lllyasviel/Paints-UNDO 이 프로젝트를 통해 사용자는 정적 이미지를 입력하고 PaintsUndo는 자동으로 라인 초안부터 완성품 따라가기까지 전체 페인팅 과정의 비디오를 생성하도록 도와줍니다. . 그리는 과정에서 선의 변화가 놀랍습니다. 최종 영상 결과는 원본 이미지와 매우 유사합니다. 완성된 그림을 살펴보겠습니다.

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 이 논문의 저자는 모두 일리노이 대학교 Urbana-Champaign(UIUC)의 Zhang Lingming 교사 팀 출신입니다. Steven Code Repair, 박사 4년차, 연구원

AI 모델이 내놓은 답변이 전혀 이해하기 어렵다면 감히 사용해 보시겠습니까? 기계 학습 시스템이 더 중요한 영역에서 사용됨에 따라 우리가 그 결과를 신뢰할 수 있는 이유와 신뢰할 수 없는 경우를 보여주는 것이 점점 더 중요해지고 있습니다. 복잡한 시스템의 출력에 대한 신뢰를 얻는 한 가지 가능한 방법은 시스템이 인간이나 다른 신뢰할 수 있는 시스템이 읽을 수 있는 출력 해석을 생성하도록 요구하는 것입니다. 즉, 가능한 오류가 발생할 수 있는 지점까지 완전히 이해할 수 있습니다. 설립하다. 예를 들어, 사법 시스템에 대한 신뢰를 구축하기 위해 우리는 법원이 자신의 결정을 설명하고 뒷받침하는 명확하고 읽기 쉬운 서면 의견을 제공하도록 요구합니다. 대규모 언어 모델의 경우 유사한 접근 방식을 채택할 수도 있습니다. 그러나 이 접근 방식을 사용할 때는 언어 모델이 다음을 생성하는지 확인하세요.

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 인공 지능 개발 과정에서 LLM(대형 언어 모델)의 제어 및 안내는 항상 핵심 과제 중 하나였으며 이러한 모델이 두 가지 모두를 보장하는 것을 목표로 했습니다. 강력하고 안전하게 인간 사회에 봉사합니다. 인간 피드백(RL)을 통한 강화 학습 방법에 초점을 맞춘 초기 노력

건배! 종이 토론이 말로만 진행된다면 어떤가요? 최근 스탠포드 대학교 학생들은 arXiv 논문에 대한 질문과 의견을 직접 게시할 수 있는 arXiv 논문에 대한 공개 토론 포럼인 alphaXiv를 만들었습니다. 웹사이트 링크: https://alphaxiv.org/ 실제로 이 웹사이트를 특별히 방문할 필요는 없습니다. URL에서 arXiv를 alphaXiv로 변경하면 alphaXiv 포럼에서 해당 논문을 바로 열 수 있습니다. 논문, 문장: 오른쪽 토론 영역에서 사용자는 저자에게 논문의 아이디어와 세부 사항에 대해 질문하는 질문을 게시할 수 있습니다. 예를 들어 다음과 같이 논문 내용에 대해 의견을 제시할 수도 있습니다.

최근 새천년 7대 과제 중 하나로 알려진 리만 가설이 새로운 돌파구를 마련했다. 리만 가설은 소수 분포의 정확한 특성과 관련된 수학에서 매우 중요한 미해결 문제입니다(소수는 1과 자기 자신으로만 나눌 수 있는 숫자이며 정수 이론에서 근본적인 역할을 합니다). 오늘날의 수학 문헌에는 리만 가설(또는 일반화된 형식)의 확립에 기초한 수학적 명제가 천 개가 넘습니다. 즉, 리만 가설과 그 일반화된 형식이 입증되면 천 개가 넘는 명제가 정리로 확립되어 수학 분야에 지대한 영향을 미칠 것이며, 리만 가설이 틀린 것으로 입증된다면, 이러한 제안의 일부도 그 효과를 잃을 것입니다. MIT 수학 교수 Larry Guth와 Oxford University의 새로운 돌파구

LLM에 인과관계 사슬을 보여주면 공리를 학습합니다. AI는 이미 수학자 및 과학자의 연구 수행을 돕고 있습니다. 예를 들어, 유명한 수학자 Terence Tao는 GPT와 같은 AI 도구의 도움을 받아 자신의 연구 및 탐색 경험을 반복적으로 공유했습니다. AI가 이러한 분야에서 경쟁하려면 강력하고 신뢰할 수 있는 인과관계 추론 능력이 필수적입니다. 본 논문에서 소개할 연구에서는 작은 그래프의 인과 전이성 공리 시연을 위해 훈련된 Transformer 모델이 큰 그래프의 전이 공리로 일반화될 수 있음을 발견했습니다. 즉, Transformer가 단순한 인과 추론을 수행하는 방법을 학습하면 보다 복잡한 인과 추론에 사용될 수 있습니다. 팀이 제안하는 공리적 훈련 프레임워크는 시연만으로 패시브 데이터를 기반으로 인과 추론을 학습하는 새로운 패러다임입니다.

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 서문 최근 몇 년 동안 다양한 분야에서 MLLM(Multimodal Large Language Model)의 적용이 눈에 띄는 성공을 거두었습니다. 그러나 많은 다운스트림 작업의 기본 모델로서 현재 MLLM은 잘 알려진 Transformer 네트워크로 구성됩니다.
