SF 소설 '삼체 문제'에서는 지구를 점령하려는 트리솔라족이 서로 투명한 사고와 사악한 의도를 가지고 뇌파를 통해 정보를 공유하는 매우 독특한 설정이 주어집니다. 그들에게는 생각하는 것과 말하는 것이 같은 말이다. 반면 인간은 사고의 불투명성을 이용하여 '벽면계획'을 생각해냈고, 마침내 트리솔라라인을 속이는 데 성공해 단계적 승리를 거뒀다.
그렇다면 질문은, 인간의 생각이 정말 완전히 불투명한 걸까요? 일부 기술적 수단의 출현으로 인해 이 질문에 대한 답은 그다지 절대적이지 않은 것 같습니다. 많은 연구자들이 인간 사고의 신비를 해독하고 일부 뇌 신호를 텍스트, 이미지 및 기타 정보로 해독하려고 노력하고 있습니다.
최근 두 연구팀이 영상 복호화 방향에서 중요한 진전을 이루었고, 관련 논문이 CVPR 2023에 승인되었습니다.
첫 번째 팀은 오사카 대학 출신입니다. 그들은 최근 매우 인기 있는 Stable Diffusion을 사용하여 기능적 자기 공명 영상(fMRI)으로 얻은 인간의 뇌 활동 영상에서 뇌 활동의 고해상도 및 고정밀 영상을 재구성했습니다. Stable Diffusion은 뇌 신호를 읽어 이미지를 재현하며 해당 연구는 CVPR에서 승인되었습니다.")
공교롭게도 거의 동시에 싱가포르국립대, 홍콩중문대, 스탠포드대 중국팀도 비슷한 결과를 냈습니다. 그들은 사전 훈련된 마스크 모델링과 잠재 확산 모델을 통해 fMRI 데이터에서 인간의 시각적 자극을 직접 디코딩할 수 있는 "MinD-Vis"라는 인간 시각적 디코더를 개발했습니다. 합리적으로 상세할 뿐만 아니라 이미지의 의미와 특징(예: 질감 및 모양)을 정확하게 나타내는 이미지를 생성합니다. 현재 이 연구의 코드는 오픈 소스입니다. ㅋㅋㅋ 아르 xiv. org /abs/2211.06956
코드 링크: https://github.com/zjc062/mind-vis프로젝트 링크: https://mind-vis.github.io/
다음으로 본 논문을 자세히 소개하겠습니다.
fMRI 데이터에서 직접 복잡한 신경 활동을 디코딩하는 이전 방법은 {fMRI-이미지} 페어링 및 효과적인 생물학적 안내가 부족하여 재구성된 이미지가 종종 흐릿하고 의미상 의미가 없습니다. 따라서 뇌 활동과 시각적 자극 사이의 연결을 설정하는 데 도움이 되는 fMRI 표현을 효과적으로 학습하는 것이 중요한 과제입니다.
또한 개인의 다양성으로 인해 문제가 복잡해지며 대규모 데이터 세트에서 표현을 학습하고 fMRI에서 조건부 합성을 생성하는 제약을 완화해야 합니다.따라서 저자는 대규모 생성 모델과 결합된 사전 텍스트 작업이 포함된 자기 지도 학습을 사용하면 모델이 상대적으로 작은 데이터 세트에서 미세 조정된 후 상황에 맞는 지식과 놀라운 성능을 얻을 수 있다고 믿습니다. 생성 능력 . 위의 분석을 바탕으로 MinD-Vis는 인간의 시각적 디코딩을 위한 마스크된 신호 모델링 및 이중 조건부 잠재 확산 모델을 제안했습니다.
기존 방법과의 비교 - 세대 품질
기존 방법과의 비교 - 평가 지표의 정량적 비교 s
{fMRI - 이미지} 쌍을 수집하는 데 비용이 많이 들고 시간이 많이 걸리기 때문에 이 작업은 항상 데이터 주석 부족으로 어려움을 겪었습니다. 또한 각 데이터 세트와 각 개인의 데이터에는 특정 도메인 오프셋이 있습니다.
이번 과제에서 연구진은 뇌 활동과 시각적 자극 사이의 연관성을 확립하고 그에 따른 이미지 정보를 생성하는 것을 목표로 합니다.
이를 위해 그들은 자기 지도 학습과 대규모 생성 모델을 사용했습니다. 그들은 이 접근 방식을 통해 상대적으로 작은 데이터 세트에서 모델을 미세 조정하고 상황에 맞는 지식과 놀라운 생성 기능을 얻을 수 있다고 믿습니다.
다음에서는 MinD-Vis 프레임워크를 자세히 소개하고 설계 이유와 아이디어를 소개합니다.
fMRI 데이터에는 다음과 같은 특징과 문제점이 있습니다.
이러한 문제를 해결하기 위해 MinD-Vis에는 두 단계가 포함되어 있습니다.
여기에서는 이 두 단계를 자세히 소개합니다.
MinD-Vis 개요
(A) 희소 코딩된 마스크 뇌 모델링(SC-MBM)(MinD-Vis 개요 왼쪽)
fMRI 덕분에 공간 정보는 중복되며, fMRI 데이터는 대부분 가려져 있어도 복구할 수 있습니다. 따라서 MinD-Vis의 첫 번째 단계에서는 계산 시간을 절약하기 위해 대부분의 fMRI 데이터를 마스킹합니다. 여기에서 저자는 Masked Autoencoder와 유사한 접근 방식을 사용합니다.
SC-MBM은 마스크된 fMRI 정보를 효과적으로 복원할 수 있습니다.
이것 디자인과 마스크ed 오토인코더의 차이점은 무엇인가요?
SC-MBM의 절제 실험
(B) 이중 조건 LDM(DC-LDM)(MinD-Vis 개요 오른쪽)
스테이지 A에서 fMRI 인코더에서 대규모 상황 학습이 수행된 후 fMRI 데이터는 지역성 제약이 있는 희소 표현으로 변환될 수 있습니다. 여기서 저자는 조건부 생성 문제로 디코딩 작업을 공식화하고 사전 훈련된 LDM을 사용하여 이 문제를 해결합니다.
다양한 무작위 상태의 이미지를 여러 번 디코딩하여 방법의 안정성을 보여줍니다.
Fine-tuning
fMRI 인코더는 SC-MBM으로 사전 훈련된 후 이중 조건화를 통해 사전 훈련된 LDM과 통합됩니다. 작성자:
추가 세부 사항
MinD-Vis는 의외로 Ground Truth 이미지에 실제로 존재하지 않는 것들을 해독할 수 있지만 세부 사항은 그림의 내용과 매우 관련이 있습니다. 예를 들어, 사진이 자연 풍경인 경우 MinD-Vis는 강과 푸른 하늘을 디코딩하고, 집인 경우 MinD-Vis는 유사한 실내 장식을 디코딩합니다. 여기에는 장점과 단점이 모두 있습니다. 좋은 점은 이것이 우리가 상상한 것을 디코딩할 수 있다는 것을 보여준다는 것이고, 나쁜 점은 이것이 디코딩 결과의 평가에 영향을 미칠 수 있다는 것입니다. 저자는 훈련 샘플의 수가 적을 때 자극을 디코딩하는 난이도가 달라질 것이라고 믿습니다. 예를 들어 GOD 데이터 세트에는 의류보다 더 많은 동물 훈련 샘플이 포함되어 있습니다. 이는 의미상 "furry"와 유사한 단어가 양말이 양으로 해독되는 위 이미지에서 볼 수 있듯이 의복이 아닌 동물로 해독될 가능성이 더 높다는 것을 의미합니다.실험 설정
Datasets
여기서 저자는 세 가지 공개 데이터 세트를 사용했습니다.
사전 훈련의 첫 번째 단계: 136,000개의 fMRI 데이터 세그먼트를 이미지 없이 fMRI만 제공하는 Human Connectome Project를 사용했습니다.
인코더 미세 조정 및 2단계 생성 모델: Generic Object Decoding Dataset(GOD) 및 Brain, Object, Landscape Dataset(BOLD5000) 데이터 세트가 사용되었습니다. 이 두 데이터 세트는 각각 1250 및 5254 {fMRI, Image} 쌍을 제공하며 그 중 50과 113이 각각 테스트 세트로 사용되었습니다.
모델 구조본 글의 모델 구조(ViT 및 확산 모델)의 설계는 주로 과거 문헌을 참고했습니다. 모델 매개변수 세부사항은 텍스트를 참조하십시오. 마찬가지로, 그들은 또한 비대칭 아키텍처를 채택합니다. 인코더는 의미 있는 fMRI 표현을 학습하는 것을 목표로 하고 디코더는 가려진 블록을 예측하려고 시도합니다. 따라서 우리는 이전 설계를 따르고 디코더를 더 작게 만들고 사전 훈련 후에 폐기합니다.
평가 지수
이 글의 실험은 개인 수준에서 수행되었습니다. 즉, 동일한 개인을 대상으로 모델을 훈련하고 테스트했습니다. 이전 문헌과의 비교를 위해 GOD 데이터 세트의 세 번째 주제에 대한 결과가 여기에 보고되고, 다른 주제에 대한 결과는 부록에 나열되어 있습니다.
저자는 이번 프로젝트를 통해 fMRI를 통해 인간 뇌의 시각 정보를 복원할 수 있는 가능성을 입증했습니다. 그러나 이 분야에서는 개인 간 가변성을 더 잘 처리하는 방법, 디코딩에 대한 잡음 및 간섭의 영향을 줄이는 방법, fMRI 디코딩을 다른 신경과학 기술과 결합하여 달성하는 방법 등 해결해야 할 많은 문제가 있습니다. 인간 두뇌의 메커니즘과 기능을 보다 포괄적으로 이해합니다. 동시에 우리는 인간의 두뇌와 개인의 사생활을 둘러싼 윤리적, 법적 문제를 더 잘 이해하고 존중해야 합니다.
또한 이 기술을 실용적인 응용 프로그램으로 전환하려면 의학 및 인간-컴퓨터 상호 작용과 같은 더 넓은 응용 시나리오를 탐구해야 합니다. 의료 분야에서는 미래에 fMRI 해독 기술을 활용하여 시각 장애인, 청각 장애인, 심지어 전신 마비 환자와 같은 특수 집단의 생각을 해독하는 데 도움을 줄 수 있습니다. 신체적 장애로 인해 이들은 전통적인 의사소통 방식을 통해 자신의 생각과 소망을 표현할 수 없습니다. fMRI 기술을 사용하면 과학자들은 자신의 뇌 활동을 해독하여 자신의 생각과 소망에 접근할 수 있어 보다 자연스럽고 효율적으로 소통할 수 있습니다. 인간-컴퓨터 상호 작용 분야에서 fMRI 디코딩 기술은 보다 자연스럽고 효율적인 인간-컴퓨터 상호 작용 경험을 달성하기 위해 사용자의 뇌 활동을 디코딩하는 등 보다 지능적이고 적응력이 뛰어난 인간-컴퓨터 인터페이스 및 제어 시스템을 개발하는 데 사용될 수 있습니다.
우리는 대규모 데이터 세트 + 대형 모델 + 컴퓨팅 성능의 지원을 통해 fMRI 디코딩이 인지 신경과학과 인공 지능의 발전을 촉진하면서 더 광범위하고 광범위한 영향을 미칠 것이라고 믿습니다.
참고: *희소 코딩을 사용하여 뇌의 시각적 자극 표현을 학습하는 생물학적 기초: 희소 코딩은 감각 정보 표현을 위한 전략으로 제안되었습니다. 연구에 따르면 시각적 자극은 시각 피질에서 드물게 인코딩되어 정보 전달 효율성을 높이고 뇌의 중복성을 감소시키는 것으로 나타났습니다. fMRI를 사용하면 시각 피질에서 수집된 소량의 데이터로부터 자연 장면의 시각적 콘텐츠를 재구성할 수 있습니다. 희소 코딩은 컴퓨터 비전에서 효율적인 코딩 방법이 될 수 있습니다. 기사에서는 fMRI 데이터를 작은 블록으로 나누어 국소성 제약을 적용한 다음 각 작은 블록을 고차원 벡터 공간으로 성기게 인코딩하여 생물학적으로 효과적이고 효율적인 뇌 특징 학습자로 사용할 수 있는 SC-MBM 방법을 언급했습니다. , 시각적 인코딩 및 디코딩에 사용됩니다.
위 내용은 AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!