


중국과학원 연구팀은 두 가지 중요한 논문을 발표했습니다. 하나는 종 전체에 걸친 생명의 기초에 대한 최초의 대규모 모델 출시이고, 다른 하나는 세포 운명 예측을 위한 새로운 AI 모델 출시입니다.

저자 | 중국과학원 다학제적 연구팀
편집자 | ScienceAI
20세기 인류 3대 과학 프로젝트 중 하나로 알려진 인간 게놈 프로젝트의 심층 분석이 시작됐다. 삶의 신비에 대해. 생명 과정의 다차원적이고 매우 역동적인 특성으로 인해 전통적인 실험 연구 방법으로는 유전 코드의 기본 공통 법칙을 체계적이고 정확하게 해독하기가 어렵습니다. 표현 모델링과 지식을 달성하려면 강력한 컴퓨팅 기술을 사용하는 것이 시급합니다. 유전자 데이터 발견.
현재 대형 모델을 핵심으로 하는 인공지능 기술은 컴퓨터 비전, 자연어 이해 등의 분야에서 혁명을 일으키며 데이터와 지식에 대한 심층적인 이해를 입증하고 있으며 생명과학 연구 분야에도 적용될 것으로 기대됩니다. 암호학의 기본 공통법칙
최근 중국과학원의 다학제간 연구팀으로 구성된 "Xcompass 컨소시엄"이 생명과학 연구에 힘을 실어주는 인공지능 분야에서 중요한 돌파구를 마련했습니다. 세계 최초의 종간 생명과학 구축 기본 대형 모델 - GeneCompass. 이 모델은 인간과 생쥐의 1억 2천 6백만 개가 넘는 단일 세포의 전사체 데이터를 통합하고 프로모터 서열 및 유전자 공동발현 관계를 포함한 4가지 유형의 사전 지식을 통합합니다. 기본 모델 매개변수의 수는 1억 3천만 개에 달하여 유전자 제어를 실현합니다. 표현. 규제법칙에 대한 파노라마 학습과 이해는 세포 상태 변화 예측과 다양한 생명 과정의 정확한 분석을 동시에 지원하여 생명 과학 연구에 힘을 실어주는 인공 지능의 큰 잠재력을 보여줍니다.
이 연구의 제목은 "GeneCompass: 지식 기반 교차 종 기반 모델을 이용한 보편적 유전자 조절 메커니즘 해독"이며 bioRxiv에 게재되었습니다.
논문 링크: https://www.biorxiv.org/content/10.1101/2023.09.26.559542v1
이와 함께 전이 학습 기반 유전자 조절 네트워크 생성 모델인 CellPolaris도 동시에 출시했습니다. , 이 모델은 세포 운명 전환에 대한 핵심 요인을 정확하게 식별할 수 있으며 전사 인자 교란을 시뮬레이션하는 능력이 있습니다.
이 연구의 제목은 "CellPolaris: Decoding Cell Fate through Generalization Transfer Learning of Gene Regulatory Networks"이며 bioRxiv에 게재되었습니다.
GeneCompass: 종 전반에 걸친 생명의 기초에 대한 최초의 대규모 모델
포유류 개체는 일반적으로 수만에서 수십조 개의 세포를 포함합니다. 개인의 모든 세포는 동일한 유전적 서열을 포함하고 있지만 각 세포의 운명과 기능은 고유한 시공간적 맥락으로 인해 매우 다양합니다. 이렇게 정교한 생명 과정은 복잡한 유전자 발현 조절 시스템에 의해 제어됩니다
생명의 본질적인 법칙에 대한 이해를 높이고 다양한 주요 질병의 진단과 치료를 혁신하기 위해서는 유전자 조절에 대한 심층적인 탐구가 필요합니다 생활 곳곳에 존재하는 메커니즘. 그러나 전통적인 연구 방법은 처리량이 낮고 단일 모델 유기체로 제한되며 복잡한 유전자 조절 메커니즘을 밝힐 수 없습니다. 최근 몇 년 동안 단일 세포 오믹스 기술의 획기적인 발전으로 다양한 유형의 유전자 발현 프로파일 데이터가 많이 생성되었습니다. 세포는 유전자 해석의 기초를 제공합니다. -유전자 상호작용은 데이터의 기초를 제공합니다. 동시에 딥러닝의 발전, 특히 대규모 생성 모델의 출현은 다양한 세포 상태에서 대규모 데이터 학습의 비선형 조절 메커니즘을 포괄적으로 요약할 수 있어 생명과학 연구에 전례 없는 기회를 제공할 수 있습니다.
1억 2천만 개의 세포 수와 1억 3천만 개의 매개변수를 포함하여 종 전반에 걸친 생명의 기본에 대한 대규모 모델현재 단일 종에 대해 얻은 단일 세포 전사체 데이터의 규모는 전 세계적으로 수천만 개에 불과합니다. , 복잡한 생활 과정을 분석하는 데 사용되는 기본 생활 모델의 대규모 모델 훈련을 완전히 지원하는 것은 어렵습니다.
팀은 다양한 종의 오픈 소스 단일 세포 전사체 데이터를 수집하고 스크리닝, 세척, 정규화 등의 전처리 과정을 거쳐 생쥐와 인간의 1억 2,600만 개 이상의 세포를 포함하여 알려진 최대 규모의 고품질 훈련 데이터를 구축했습니다. . 컬렉션 scCompass-126M은 Transformer self-attention 메커니즘을 기반으로 하는 딥 러닝 아키텍처를 채택하여 서로 다른 세포 배경의 서로 다른 유전자 간의 장기적인 동적 상관관계를 포착할 수 있으며 모델 매개변수 크기는 1억 3천만 개에 달합니다. 생명 과정의 고해상도 특성화를 달성하기 위해 GeneCompass는 처음으로 유전자 수와 발현 수준을 이중 인코딩하여 유전자 간의 상관 관계를 효과적이고 민감하게 추출할 수 있습니다. 이를 통해 GeneCompass는 세포 유형 및 교란 상태와 같은 다양한 특정 조건에서 유전자-유전자 상호 작용에 대한 보다 정확한 분석을 제공할 수 있습니다.
사전 훈련 중에 사전 지식을 포함하면 모델 성능을 효과적으로 향상시킬 수 있습니다.
모델은 4가지 생물학적 사전 지식인 프로모터 서열, 알려진 유전자 조절 네트워크, 유전자 가족 정보 및 유전자 공동 발현 관계를 효과적으로 통합하여 인간을 추가합니다. 주석 정보 인코딩은 생물학적 데이터 간의 복잡한 특징 상관 관계에 대한 이해를 향상시킵니다. GeneCompass는 교육을 통해 데이터 정보와 다양한 종에 대한 사전 지식을 통합함으로써 전통적인 생물학 연구의 효율성과 정확성을 향상시키고 아직 해결될 수 없는 복잡한 생명 과학 문제에 대한 새로운 진입점을 제공할 것으로 기대됩니다.
스케일 효과는 생물학적 진화의 보수적인 법칙을 포착하기 위해 모델 훈련을 촉발합니다
팀은 대규모 종 간 데이터로 사전 훈련된 모델이 단일 종의 하위 작업에 대한 스케일링 법칙을 준수한다는 것을 발견했습니다. 즉, 대규모 다중 종 사전 훈련 데이터는 더 나은 사전 훈련된 표현을 생성하고 다운스트림 작업의 성능을 더욱 향상시킬 수 있습니다. 이 발견은 종들 사이에 보존된 유전자 조절 패턴이 있으며, 이러한 패턴이 사전 훈련된 모델을 통해 학습되고 이해될 수 있음을 보여줍니다. 동시에 이는 종과 데이터의 확장에 따라 모델 성능이 지속적으로 향상될 것으로 예상된다는 의미이기도 합니다
다중 작업 성능 이점 기본 대형 모델의 강력한 일반화 기능을 보여줍니다
현재 지식이 내장된 가장 큰 종 간 사전 훈련된 기본 생활 모델인 GeneCompass는 여러 종 간 다운스트림 작업에 대한 전이 학습을 구현할 수 있으며 세포 유형에서 사용할 수 있습니다. 주석, 정량적 유전자 교란 예측, 약물 민감도 분석 등 성능면에서 기존 방법보다 더 나은 성능을 달성합니다. 이는 라벨이 지정되지 않은 다중 종 빅데이터를 기반으로 사전 학습한 후 모델 미세 조정을 위해 다양한 하위 작업 데이터를 사용하는 것의 전략적 이점을 충분히 보여줍니다. 이는 유전자와 관련된 다양한 생물학적 문제를 분석하고 예측하기 위한 보편적인 솔루션이 될 것으로 예상됩니다. -세포 특성.
세포 분극화: 전이 학습은 유전자 조절 네트워크를 해독하고 세포 운명 변화를 예측합니다.
전이 학습을 사용하여 세포별 유전자 조절 네트워크를 생성합니다
팀은 또한 일반화된 전이 학습 기반의 세트를 개발했습니다. 유전자 조절 네트워크는 CellPolaris라는 AI 모델을 구축합니다. 이 모델은 먼저 일치하는 세포 시나리오에서 수백 세트의 전사체 및 염색질 접근성 데이터를 분류하여 고품질 유전자 조절 네트워크를 구축한 다음 일반화된 전이 학습 모델을 사용하여 전사체 조절 네트워크만 사용하여 세포 시나리오에서 더 많은 유전자를 생성합니다. . 그런 다음 생성된 신뢰도가 높은 유전자 조절 네트워크를 사용하여 세포 운명 전환에 대한 핵심 전사 인자를 식별하는 도구와 확률적 그래픽 모델을 기반으로 하는 전사 인자 교란 시뮬레이션 도구를 개발했습니다. 이 모델은 세포 운명 전환의 핵심 요소를 효과적으로 식별하고 전사 인자 교란 시뮬레이션을 실현할 수 있으며, 유전자 조절 메커니즘 분석 및 질병 유발 유전자 발견에 중요한 응용 가치를 가지고 있습니다.
CellPolaris 모델에 의해 생성된 유전자 조절 네트워크는 풍부한 분자를 제공합니다. 상호작용 정보는 대규모 딥러닝 모델의 사전 지식으로 활용될 수 있습니다. 딥러닝 대형 모델을 통해 생성된 저차원 임베딩 벡터는 유전자 조절 메커니즘 분석과 질병 유발 유전자 발견에 중요한 정보를 제공할 것입니다.
위 두 연구는 "Compass Alliance" 팀에 의해 완료되었습니다. "Compass Alliance" 팀은 현재 주로 동물학 연구소, 중국 과학원, 자동화 연구소, 컴퓨터기술연구소, 수학 및 시스템과학연구소 등 디지털 지능을 기반으로 한 생명과학 연구의 새로운 패러다임을 정립하고 생명의 본질적 법칙을 분석하는 것이 이번 제휴의 목표이다.
인공지능 × [생물 신경과학 수학 물리화학재료]
위 내용은 중국과학원 연구팀은 두 가지 중요한 논문을 발표했습니다. 하나는 종 전체에 걸친 생명의 기초에 대한 최초의 대규모 모델 출시이고, 다른 하나는 세포 운명 예측을 위한 새로운 AI 모델 출시입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











확산은 더 잘 모방할 수 있을 뿐만 아니라 "창조"할 수도 있습니다. 확산 모델(DiffusionModel)은 이미지 생성 모델입니다. AI 분야에서 잘 알려진 GAN, VAE 알고리즘과 비교할 때 확산 모델은 먼저 이미지에 노이즈를 추가한 다음 점차적으로 노이즈를 제거하는 프로세스를 취합니다. 원본 이미지의 노이즈를 제거하고 복원하는 방법이 알고리즘의 핵심 부분입니다. 최종 알고리즘은 임의의 잡음이 있는 이미지에서 이미지를 생성할 수 있습니다. 최근 몇 년 동안 생성 AI의 경이적인 성장으로 인해 텍스트-이미지 생성, 비디오 생성 등에서 많은 흥미로운 애플리케이션이 가능해졌습니다. 이러한 생성 도구의 기본 원리는 이전 방법의 한계를 극복하는 특수 샘플링 메커니즘인 확산의 개념입니다.

키미: 단 한 문장이면 단 10초만에 PPT가 완성됩니다. PPT가 너무 짜증나네요! 회의를 하려면 PPT가 있어야 하고, 주간 보고서를 작성하려면 PPT가 있어야 하며, 누군가를 부정행위를 했다고 비난하려면 PPT를 보내야 합니다. 대학은 PPT 전공을 공부하는 것과 비슷합니다. 수업 시간에 PPT를 보고 수업 후에 PPT를 하는 거죠. 아마도 데니스 오스틴이 37년 전 PPT를 발명했을 때, 언젠가 PPT가 이렇게 널리 보급될 것이라고는 예상하지 못했을 것입니다. 우리가 PPT를 만들면서 힘들었던 경험을 이야기하면 눈물이 납니다. "20페이지가 넘는 PPT를 만드는 데 3개월이 걸렸고, 수십 번 수정했어요. PPT를 보면 토할 것 같았어요. 한창 때는 하루에 다섯 장씩 했는데, 숨소리까지 냈어요." PPT였어요." 즉석 회의가 있으면 해야죠.

베이징 시간으로 6월 20일 이른 아침, 시애틀에서 열린 최고의 국제 컴퓨터 비전 컨퍼런스인 CVPR2024가 최우수 논문 및 기타 수상작을 공식 발표했습니다. 올해는 우수논문 2편, 최우수 학생논문 2편 등 총 10편의 논문이 수상하였습니다. 컴퓨터 비전(CV) 분야 최고 학회는 매년 수많은 연구기관과 대학이 모여드는 CVPR이다. 통계에 따르면 올해 총 1만1532편의 논문이 제출돼 2719편이 채택돼 합격률 23.6%를 기록했다. Georgia Institute of Technology의 CVPR2024 데이터 통계 분석에 따르면 연구 주제 관점에서 가장 많은 논문이 이미지 및 비디오 합성 및 생성입니다(Imageandvideosyn

널리 사용되는 프로그래밍 언어인 C언어는 컴퓨터 프로그래밍에 종사하려는 사람들이 꼭 배워야 할 기본 언어 중 하나이다. 그러나 초보자의 경우 새로운 프로그래밍 언어를 배우는 것이 다소 어려울 수 있습니다. 특히 관련 학습 도구와 교육 자료가 부족하기 때문입니다. 이번 글에서는 초보자가 C 언어를 시작하고 빠르게 시작할 수 있도록 도와주는 프로그래밍 소프트웨어 5가지를 소개하겠습니다. 최초의 프로그래밍 소프트웨어는 Code::Blocks였습니다. Code::Blocks는 무료 오픈 소스 통합 개발 환경(IDE)입니다.

우리는 LLM이 대규모 데이터를 사용하여 대규모 컴퓨터 클러스터에서 훈련된다는 것을 알고 있습니다. 이 사이트는 LLM 훈련 프로세스를 지원하고 개선하는 데 사용되는 다양한 방법과 기술을 소개합니다. 오늘 우리가 공유하고 싶은 것은 기본 기술에 대해 심층적으로 살펴보고 운영 체제 없이도 수많은 "베어 메탈"을 LLM 교육을 위한 컴퓨터 클러스터로 전환하는 방법을 소개하는 기사입니다. 이 기사는 기계가 생각하는 방식을 이해하여 일반 지능을 달성하기 위해 노력하는 AI 스타트업 Imbue에서 가져온 것입니다. 물론 운영 체제가 없는 "베어 메탈"을 LLM 교육을 위한 컴퓨터 클러스터로 전환하는 것은 탐색과 시행착오로 가득 찬 쉬운 과정이 아니지만 Imbue는 마침내 700억 개의 매개변수를 사용하여 LLM을 성공적으로 교육했습니다. 과정이 쌓이다

PyCharm Community Edition 빠른 시작: 자세한 설치 튜토리얼 전체 분석 소개: PyCharm은 개발자가 Python 코드를 보다 효율적으로 작성하는 데 도움이 되는 포괄적인 도구 세트를 제공하는 강력한 Python 통합 개발 환경(IDE)입니다. 이 문서에서는 PyCharm Community Edition을 설치하는 방법을 자세히 소개하고 초보자가 빠르게 시작할 수 있도록 구체적인 코드 예제를 제공합니다. 1단계: PyCharm Community Edition 다운로드 및 설치 PyCharm을 사용하려면 먼저 공식 웹사이트에서 다운로드해야 합니다.

제목: 기술 초보자가 꼭 읽어야 할 책: C언어와 Python의 난이도 분석, 구체적인 코드 예제가 필요한 오늘날의 디지털 시대에 프로그래밍 기술은 점점 더 중요한 능력이 되었습니다. 소프트웨어 개발, 데이터 분석, 인공 지능과 같은 분야에서 일하고 싶거나 관심 있는 프로그래밍을 배우고 싶다면 적합한 프로그래밍 언어를 선택하는 것이 첫 번째 단계입니다. 많은 프로그래밍 언어 중에서 C 언어와 Python은 널리 사용되는 두 가지 프로그래밍 언어이며 각각 고유한 특성을 가지고 있습니다. 이번 글에서는 C언어와 Python의 난이도를 분석해보겠습니다.

Machine Power Report 편집자: Yang Wen 대형 모델과 AIGC로 대표되는 인공지능의 물결은 우리가 살고 일하는 방식을 조용히 변화시키고 있지만 대부분의 사람들은 여전히 그것을 어떻게 사용하는지 모릅니다. 이에 직관적이고 흥미롭고 간결한 인공지능 활용 사례를 통해 AI 활용 방법을 자세히 소개하고 모두의 사고를 자극하고자 'AI in Use' 칼럼을 론칭하게 됐다. 또한 독자들이 혁신적인 실제 사용 사례를 제출하는 것을 환영합니다. 영상 링크 : https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ 최근 샤오홍슈에서는 혼자 사는 소녀의 인생 브이로그가 인기를 끌었습니다. 몇 가지 치유의 말과 함께 일러스트레이션 스타일의 애니메이션을 단 며칠 만에 쉽게 익힐 수 있습니다.
