> 기술 주변기기 > 일체 포함 > AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

WBOY
풀어 주다: 2023-04-13 19:10:01
앞으로
1895명이 탐색했습니다.

SF 소설 '삼체 문제'에서는 지구를 점령하려는 트리솔라족이 서로 투명한 사고와 사악한 의도를 가지고 뇌파를 통해 정보를 공유하는 매우 독특한 설정이 주어집니다. 그들에게는 생각하는 것과 말하는 것이 같은 말이다. 반면 인간은 사고의 불투명성을 이용하여 '벽면계획'을 생각해냈고, 마침내 트리솔라라인을 속이는 데 성공해 단계적 승리를 거뒀다.

그렇다면 질문은, 인간의 생각이 정말 완전히 불투명한 걸까요? 일부 기술적 수단의 출현으로 인해 이 질문에 대한 답은 그다지 절대적이지 않은 것 같습니다. 많은 연구자들이 인간 사고의 신비를 해독하고 일부 뇌 신호를 텍스트, 이미지 및 기타 정보로 해독하려고 노력하고 있습니다.

최근 두 연구팀이 영상 복호화 방향에서 중요한 진전을 이루었고, 관련 논문이 CVPR 2023에 승인되었습니다.

첫 번째 팀은 오사카 대학 출신입니다. 그들은 최근 매우 인기 있는 Stable Diffusion을 사용하여 기능적 자기 공명 영상(fMRI)으로 얻은 인간의 뇌 활동 영상에서 뇌 활동의 고해상도 및 고정밀 영상을 재구성했습니다. Stable Diffusion은 뇌 신호를 읽어 이미지를 재현하며 해당 연구는 CVPR에서 승인되었습니다.")

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

공교롭게도 거의 동시에 싱가포르국립대, 홍콩중문대, 스탠포드대 중국팀도 비슷한 결과를 냈습니다. 그들은 사전 훈련된 마스크 모델링과 잠재 확산 모델을 통해 fMRI 데이터에서 인간의 시각적 자극을 직접 디코딩할 수 있는 "MinD-Vis"라는 인간 시각적 디코더를 개발했습니다. 합리적으로 상세할 뿐만 아니라 이미지의 의미와 특징(예: 질감 및 모양)을 정확하게 나타내는 이미지를 생성합니다. 현재 이 연구의 코드는 오픈 소스입니다. ㅋㅋㅋ 아르 xiv. org /abs/2211.06956

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

코드 링크: https://github.com/zjc062/mind-vis

프로젝트 링크: https://mind-vis.github.io/

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

다음으로 본 논문을 자세히 소개하겠습니다.
  • 연구개요 "보이는 것이 곧 생각이다."
  • 인간의 인식과 이전 지식은 뇌에서 밀접하게 관련되어 있습니다. 세상에 대한 우리의 인식은 객관적인 자극뿐만 아니라 이러한 효과가 복잡한 뇌 활동에 의해 영향을 받습니다. 이러한 뇌 활동을 이해하고 정보를 해독하는 것은 인지 신경과학의 중요한 목표 중 하나이며, 여기서 시각적 정보를 해독하는 것은 어려운 문제입니다.
  • 기능적 자기공명영상(fMRI)은 이미지 카테고리와 같은 시각적 정보를 복구하는 데 사용할 수 있는 일반적으로 사용되는 비침습적이고 효과적인 방법입니다. MinD-Vis는 fMRI 데이터에서 직접 시각적 자극을 디코딩하기 위해 딥 러닝 모델을 사용할 가능성을 탐구하는 것을 목표로 합니다.

fMRI 데이터에서 직접 복잡한 신경 활동을 디코딩하는 이전 방법은 {fMRI-이미지} 페어링 및 효과적인 생물학적 안내가 부족하여 재구성된 이미지가 종종 흐릿하고 의미상 의미가 없습니다. 따라서 뇌 활동과 시각적 자극 사이의 연결을 설정하는 데 도움이 되는 fMRI 표현을 효과적으로 학습하는 것이 중요한 과제입니다.

또한 개인의 다양성으로 인해 문제가 복잡해지며 대규모 데이터 세트에서 표현을 학습하고 fMRI에서 조건부 합성을 생성하는 제약을 완화해야 합니다.

따라서 저자는 대규모 생성 모델과 결합된 사전 텍스트 작업이 포함된 자기 지도 학습을 사용하면 모델이 상대적으로 작은 데이터 세트에서 미세 조정된 후 상황에 맞는 지식과 놀라운 성능을 얻을 수 있다고 믿습니다. 생성 능력 .

위의 분석을 바탕으로 MinD-Vis는 인간의 시각적 디코딩을 위한 마스크된 신호 모델링 및 이중 조건부 잠재 확산 모델을 제안했습니다.

  • 제안된 Sparse Coded-Masked Brain Modeling(SC) -MBM)은 효율적인 시각적 디코딩을 위해 생물학적으로 유도되는 사전 훈련된 두뇌 기능의 학습자입니다.
  • DC-LDM(biconditional latent 확산 모델)을 추가하면 동일한 의미 체계 하에서 디코딩 일관성이 강화되는 동시에 분산이 생성될 수 있습니다.
  • SC-MBM의 표현 능력과 DC-LDM의 생성 능력을 결합하여 MinD-Vis가 생성한 이미지는 의미 정보를 유지하면서 더욱 합리적입니다.
  • 여러 데이터 세트에서 정량적, 정성적으로 테스트되었습니다.

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

기존 방법과의 비교 - 세대 품질

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

기존 방법과의 비교 - 평가 지표의 정량적 비교 s

지도 학습 + 대규모 이후 생성 모델 확장

{fMRI - 이미지} 쌍을 수집하는 데 비용이 많이 들고 시간이 많이 걸리기 때문에 이 작업은 항상 데이터 주석 부족으로 어려움을 겪었습니다. 또한 각 데이터 세트와 각 개인의 데이터에는 특정 도메인 오프셋이 있습니다.

이번 과제에서 연구진은 뇌 활동과 시각적 자극 사이의 연관성을 확립하고 그에 따른 이미지 정보를 생성하는 것을 목표로 합니다.

이를 위해 그들은 자기 지도 학습과 대규모 생성 모델을 사용했습니다. 그들은 이 접근 방식을 통해 상대적으로 작은 데이터 세트에서 모델을 미세 조정하고 상황에 맞는 지식과 놀라운 생성 기능을 얻을 수 있다고 믿습니다.

MinD-Vis 프레임워크

다음에서는 MinD-Vis 프레임워크를 자세히 소개하고 설계 이유와 아이디어를 소개합니다.

fMRI 데이터에는 다음과 같은 특징과 문제점이 있습니다.

  1. fMRI는 3D 복셀(복셀)을 사용하여 뇌의 혈중 산소량과 관련된 변화를 측정(굵게)하여 뇌 활동의 변화를 관찰합니다. 인접한 복셀의 진폭은 종종 유사하며 이는 fMRI 데이터에 공간 중복성이 있음을 나타냅니다.
  2. fMRI 데이터를 계산할 때 일반적으로 관심 영역(ROI)을 추출하여 데이터를 1D 벡터로 변환합니다. 이 작업에서는 뇌의 시각 피질에서 나오는 신호만 추출하므로 영상의 픽셀 수(256*256*3)에 비해 복셀 수(약 4000개)가 훨씬 적습니다. 평소와 같은 위도에서 처리되며, 이미지 데이터를 사용하는 방식에 상당한 차이가 있습니다.
  3. 개인차, 실험 설계의 차이, 뇌 신호의 복잡성으로 인해 각 데이터 세트와 각 개인의 데이터는 일정한 영역 이동을 갖게 됩니다.
  4. 고정된 시각적 자극의 경우, 연구자들은 모델에 의해 복원된 이미지가 의미상 일관되기를 바랍니다. 그러나 개인차로 인해 모든 사람은 이 시각적 자극에 대해 서로 다른 반응을 보이며, 연구자들은 또한 모델이 의미적으로 일치하기를 바랍니다. 특정 차이와 유연성.

이러한 문제를 해결하기 위해 MinD-Vis에는 두 단계가 포함되어 있습니다.

  1. 대규모 fMRI 데이터 세트를 사용하여 Masked Autoencoder를 훈련시켜 fMRI 표현을 학습합니다.
  2. 교차 주의 조건화 및 시간 단계 조건화를 통한 이중 조건화를 위해 사전 훈련된 fMRI 인코더를 LDM과 통합하여 조건부 합성을 수행합니다. 그런 다음 쌍을 이루는 {fMRI, Image}를 사용하여 LDM에서 교차 주의 헤드를 공동으로 미세 조정합니다.

여기에서는 이 두 단계를 자세히 소개합니다.

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

MinD-Vis 개요

(A) 희소 코딩된 마스크 뇌 모델링(SC-MBM)(MinD-Vis 개요 왼쪽)

fMRI 덕분에 공간 정보는 중복되며, fMRI 데이터는 대부분 가려져 있어도 복구할 수 있습니다. 따라서 MinD-Vis의 첫 번째 단계에서는 계산 시간을 절약하기 위해 대부분의 fMRI 데이터를 마스킹합니다. 여기에서 저자는 Masked Autoencoder와 유사한 접근 방식을 사용합니다.

  1. fMRI 복셀을 패치로 나눕니다
  2. 패치 크기와 동일한 보폭을 가진 1D 컨볼루션 레이어를 사용하여 임베딩으로 변환합니다
  3. 나머지 fMRI 패치는 위치 임베딩에 추가되어 비전 변환기의 입력으로 사용됩니다
  4. 복원된 데이터를 얻기 위해 디코딩
  5. 복원된 데이터와 원본 데이터 간의 손실을 계산
  6. 을 통해 모델을 최적화합니다. 역전파를 통해 재구성된 데이터를 최대한 원본 데이터와 유사하게 만듭니다
  7. 2~6단계를 반복하여 최종 모델을 학습합니다

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

SC-MBM은 마스크된 fMRI 정보를 효과적으로 복원할 수 있습니다.

이것 디자인과 마스크ed 오토인코더의 차이점은 무엇인가요?

  • 마스크 모델링을 자연 이미지에 적용할 때 모델은 일반적으로 1과 같거나 약간 큰 임베딩 대 패치 크기 비율을 사용합니다.
  • 이 작업에서 저자는 상대적으로 큰 임베딩 대 패치 크기 비율을 사용했는데, 이는 정보 용량을 크게 늘리고 fMRI에 대한 큰 표현 공간을 만들 수 있습니다. 이 디자인은 뇌의 정보 분포에도 해당합니다. . 스파스 인코딩*.

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

SC-MBM의 절제 실험

(B) 이중 조건 LDM(DC-LDM)(MinD-Vis 개요 오른쪽)

스테이지 A에서 fMRI 인코더에서 대규모 상황 학습이 수행된 후 fMRI 데이터는 지역성 제약이 있는 희소 표현으로 변환될 수 있습니다. 여기서 저자는 조건부 생성 문제로 디코딩 작업을 공식화하고 사전 훈련된 LDM을 사용하여 이 문제를 해결합니다.

  • LDM은 fMRI 데이터 z를 조건부 정보로 사용하여 이미지의 잠재 공간에서 작동하며 목표는 역확산 프로세스를 통해 이미지를 형성하는 방법을 배우는 것입니다.
  • 이미지 생성 작업에서 다양성과 일관성은 반대 목표이며 이미지에 대한 fMRI는 일관성 생성에 더 의존합니다.
  • 세대 일관성을 보장하기 위해 저자는 교차 주의 조건화와 시간 단계 조건화를 결합하고 UNet의 중간 계층에 시간 임베딩이 포함된 조건부 메커니즘을 사용합니다.
  • 최적화 목표 공식을 이중 조정 교번 공식으로 다시 공식화했습니다.

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

다양한 무작위 상태의 이미지를 여러 번 디코딩하여 방법의 안정성을 보여줍니다.

Fine-tuning

fMRI 인코더는 SC-MBM으로 사전 훈련된 후 이중 조건화를 통해 사전 훈련된 LDM과 통합됩니다. 작성자:

  1. 컨벌루션 레이어를 사용하여 인코더의 출력을 잠재 차원으로 병합합니다.
  2. fMRI 인코더, 크로스 어텐션 헤드 및 프로젝션 헤드를 공동으로 최적화하며 기타 부품은 수정됩니다. 주의 머리는 사전 훈련되어 연결됩니다 조건화 공간과 fMRI 잠재 공간의 핵심
  3. fMRI 영상을 통해 end-to-end 미세 조정 과정에서 fMRI와 영상 특징 간의 보다 명확한 연결이 대형- 용량 fMRI 표현.

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

DC-LDM 절제 실험

추가 세부 사항

MinD-Vis는 의외로 Ground Truth 이미지에 실제로 존재하지 않는 것들을 해독할 수 있지만 세부 사항은 그림의 내용과 매우 관련이 있습니다. 예를 들어, 사진이 자연 풍경인 경우 MinD-Vis는 강과 푸른 하늘을 디코딩하고, 집인 경우 MinD-Vis는 유사한 실내 장식을 디코딩합니다. 여기에는 장점과 단점이 모두 있습니다. 좋은 점은 이것이 우리가 상상한 것을 디코딩할 수 있다는 것을 보여준다는 것이고, 나쁜 점은 이것이 디코딩 결과의 평가에 영향을 미칠 수 있다는 것입니다. 저자는 훈련 샘플의 수가 적을 때 자극을 디코딩하는 난이도가 달라질 것이라고 믿습니다. 예를 들어 GOD 데이터 세트에는 의류보다 더 많은 동물 훈련 샘플이 포함되어 있습니다. 이는 의미상 "furry"와 유사한 단어가 양말이 양으로 해독되는 위 이미지에서 볼 수 있듯이 의복이 아닌 동물로 해독될 가능성이 더 높다는 것을 의미합니다.

실험 설정

Datasets

AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

여기서 저자는 세 가지 공개 데이터 세트를 사용했습니다.

사전 훈련의 첫 번째 단계: 136,000개의 fMRI 데이터 세그먼트를 이미지 없이 fMRI만 제공하는 Human Connectome Project를 사용했습니다. AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.

인코더 미세 조정 및 2단계 생성 모델: Generic Object Decoding Dataset(GOD) 및 Brain, Object, Landscape Dataset(BOLD5000) 데이터 세트가 사용되었습니다. 이 두 데이터 세트는 각각 1250 및 5254 {fMRI, Image} 쌍을 제공하며 그 중 50과 113이 각각 테스트 세트로 사용되었습니다.

모델 구조

본 글의 모델 구조(ViT 및 확산 모델)의 설계는 주로 과거 문헌을 참고했습니다. 모델 매개변수 세부사항은 텍스트를 참조하십시오. 마찬가지로, 그들은 또한 비대칭 아키텍처를 채택합니다. 인코더는 의미 있는 fMRI 표현을 학습하는 것을 목표로 하고 디코더는 가려진 블록을 예측하려고 시도합니다. 따라서 우리는 이전 설계를 따르고 디코더를 더 작게 만들고 사전 훈련 후에 폐기합니다.

평가 지수

  • 이전 문헌과 마찬가지로 저자도 결과의 의미적 정확성을 평가하기 위해 n-way top-1 및 top-5 분류 정확도를 사용했습니다. 무작위로 선정된 n-1개 카테고리에 대해 상위 1위, 상위 5위 분류 정확도를 계산하고, 여러 번의 시도를 통해 올바른 카테고리를 계산하여 결과를 평가하는 방법입니다. 이전 접근 방식과 달리 여기서는 손으로 만든 기능을 사용하는 대신 사전 훈련된 ImageNet1K 분류기를 사용하여 생성된 이미지의 의미론적 정확성을 판단하는 보다 직접적이고 복제 가능한 평가 방법을 채택합니다. 또한 FID(Fréchet Inception Distance)를 기준으로 사용하여 생성된 이미지의 품질을 평가했습니다. 그러나 데이터세트의 이미지 수가 제한되어 있기 때문에 FID는 이미지 분포를 완벽하게 평가하지 못할 수 있습니다.
  • 효과

이 글의 실험은 개인 수준에서 수행되었습니다. 즉, 동일한 개인을 대상으로 모델을 훈련하고 테스트했습니다. 이전 문헌과의 비교를 위해 GOD 데이터 세트의 세 번째 주제에 대한 결과가 여기에 보고되고, 다른 주제에 대한 결과는 부록에 나열되어 있습니다.

마지막에 작성

저자는 이번 프로젝트를 통해 fMRI를 통해 인간 뇌의 시각 정보를 복원할 수 있는 가능성을 입증했습니다. 그러나 이 분야에서는 개인 간 가변성을 더 잘 처리하는 방법, 디코딩에 대한 잡음 및 간섭의 영향을 줄이는 방법, fMRI 디코딩을 다른 신경과학 기술과 결합하여 달성하는 방법 등 해결해야 할 많은 문제가 있습니다. 인간 두뇌의 메커니즘과 기능을 보다 포괄적으로 이해합니다. 동시에 우리는 인간의 두뇌와 개인의 사생활을 둘러싼 윤리적, 법적 문제를 더 잘 이해하고 존중해야 합니다.

또한 이 기술을 실용적인 응용 프로그램으로 전환하려면 의학 및 인간-컴퓨터 상호 작용과 같은 더 넓은 응용 시나리오를 탐구해야 합니다. 의료 분야에서는 미래에 fMRI 해독 기술을 활용하여 시각 장애인, 청각 장애인, 심지어 전신 마비 환자와 같은 특수 집단의 생각을 해독하는 데 도움을 줄 수 있습니다. 신체적 장애로 인해 이들은 전통적인 의사소통 방식을 통해 자신의 생각과 소망을 표현할 수 없습니다. fMRI 기술을 사용하면 과학자들은 자신의 뇌 활동을 해독하여 자신의 생각과 소망에 접근할 수 있어 보다 자연스럽고 효율적으로 소통할 수 있습니다. 인간-컴퓨터 상호 작용 분야에서 fMRI 디코딩 기술은 보다 자연스럽고 효율적인 인간-컴퓨터 상호 작용 경험을 달성하기 위해 사용자의 뇌 활동을 디코딩하는 등 보다 지능적이고 적응력이 뛰어난 인간-컴퓨터 인터페이스 및 제어 시스템을 개발하는 데 사용될 수 있습니다.

우리는 대규모 데이터 세트 + 대형 모델 + 컴퓨팅 성능의 지원을 통해 fMRI 디코딩이 인지 신경과학과 인공 지능의 발전을 촉진하면서 더 광범위하고 광범위한 영향을 미칠 것이라고 믿습니다.

참고: *희소 코딩을 사용하여 뇌의 시각적 자극 표현을 학습하는 생물학적 기초: 희소 코딩은 감각 정보 표현을 위한 전략으로 제안되었습니다. 연구에 따르면 시각적 자극은 시각 피질에서 드물게 인코딩되어 정보 전달 효율성을 높이고 뇌의 중복성을 감소시키는 것으로 나타났습니다. fMRI를 사용하면 시각 피질에서 수집된 소량의 데이터로부터 자연 장면의 시각적 콘텐츠를 재구성할 수 있습니다. 희소 코딩은 컴퓨터 비전에서 효율적인 코딩 방법이 될 수 있습니다. 기사에서는 fMRI 데이터를 작은 블록으로 나누어 국소성 제약을 적용한 다음 각 작은 블록을 고차원 벡터 공간으로 성기게 인코딩하여 생물학적으로 효과적이고 효율적인 뇌 특징 학습자로 사용할 수 있는 SC-MBM 방법을 언급했습니다. , 시각적 인코딩 및 디코딩에 사용됩니다.

위 내용은 AI는 당신이 생각하는 것을 알고 그것을 그려줍니다. 프로젝트 코드는 오픈 소스입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
ai
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿