Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.-일체 포함-php.cn

소개

자연의 숨겨진 세계 열기: 메타게놈 구조 공간에 대한 최초의 포괄적인 시각

생물학적 언어 읽는 법 배우기

단백질 접힘에서 100배 가속도 달성

집

기술 주변기기

일체 포함

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

王林

Apr 16, 2023 am 11:37 AM

ai 언어 모델

올해 DeepMind는 DNA 데이터베이스에 알려진 유기체의 거의 모든 단백질을 포함하는 약 2억 2천만 개의 단백질의 예측 구조를 발표했습니다. 이제 또 다른 기술 대기업인 Meta가 미생물이라는 또 다른 공백을 채우고 있습니다.

간단히 말하면 Meta는 AI 기술을 사용하여 박테리아 및 기타 아직 특성이 밝혀지지 않은 미생물로부터 약 6억 개의 단백질 구조를 예측합니다. 팀 리더인 Alexander Rives는 "이러한 단백질은 우리가 가장 잘 모르는 구조이며 매우 신비한 단백질입니다. 이러한 발견은 생물학에 대한 깊은 이해에 대한 잠재력을 제공한다고 생각합니다."라고 말했습니다.

보통 언어 모델은 대량의 텍스트 교육을 받았습니다. 메타 언어 모델을 단백질에 적용하기 위해 Rives와 동료들은 서로 다른 문자로 표시되는 20개의 아미노산으로 구성된 알려진 단백질 서열을 입력으로 사용했습니다. 그런 다음 네트워크는 특정 비율의 아미노산을 가리면서 자동으로 단백질을 완성하는 방법을 학습했습니다.

Meta는 이 네트워크를 ESMFold라고 명명했습니다. ESMFold의 예측 정확도는 AlphaFold만큼 좋지는 않지만 구조 예측에서는 AlphaFold보다 약 60배 빠릅니다. 이 속도는 단백질 구조 예측을 더 큰 데이터베이스로 확장할 수 있음을 의미합니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

논문 주소: https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2
프로젝트 주소: https://github.com/facebookresearch/esm

이제 Meta는 테스트로서 토양, 해수, 인간 내장, 피부 및 기타 미생물 서식지를 포함한 환경에서 유래한 메타게놈 DNA 데이터베이스에 모델을 적용하기로 결정했습니다. Meta AI는 6억 개 이상의 단백질을 포함하는 ESM Metagenomic Atlas의 출시를 발표합니다. 이는 단백질 우주의 "암흑 물질"에 대한 최초의 종합적인 시각입니다. 이는 또한 기존의 단백질 구조 데이터베이스보다 3배 더 큰 고해상도 예측 구조에 대한 최대 규모의 데이터베이스이며 메타게놈 단백질에 대한 포괄적이고 대규모 범위를 제공하는 최초의 데이터베이스입니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

Meta 팀은 단 2주 만에 총 6억 1700만 개 이상의 단백질 구조를 예측했습니다. Rives는 모델의 기본 코드와 마찬가지로 예측이 무료이며 누구나 사용할 수 있다고 말했습니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

인터랙티브 버전 주소: https://esmatlas.com/explore?at=1%2C1%2C21.999999344348925

예를 들어, 아래 그림은 ESMFold의 PET 효소 예측을 보여줍니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

소개

우리 모두 알고 있듯이 단백질은 유전자에 의해 암호화된 복잡하고 역동적인 분자이며 주로 생명의 기본 과정을 담당합니다. 단백질은 생물학에서 놀라운 역할을 합니다. 예를 들어, 인간 눈의 간상체와 원뿔은 빛을 감지하여 외부 세계를 볼 수 있습니다. 식물의 복잡한 분자는 빛 에너지를 분자로 변환합니다. 인간의 근육을 움직이게 하는 "모터", 플라스틱을 분해하는 효소, 질병으로부터 우리를 보호하는 항체 등은 모두 단백질입니다.

1998년 위스콘신대학교 식물병리학과의 조 핸델스만(Jo Handelsman)이 처음으로 환경에 존재하는 유전자 세트를 단일 게놈으로 연구하고 분석하는 데서 유래한 메타지노믹스(Metagenomics)라는 개념을 처음 제안했습니다. 영어로 of와 Macro는 Meta-로, 위안으로도 번역됩니다.

Metagenomics는 NCBI, European Bioinformatics Institute 및 Joint Genome Institute에서 처음으로 분류한 과학에 새로운 수십억 개의 단백질 서열과 공공 프로젝트에서 편집한 기타 대규모 데이터베이스를 공개합니다.

메타유전체 데이터베이스(수억 개의 단백질 포함)에서 단백질 구조에 대한 최초의 포괄적인 보기를 생성하기 위해 대규모 언어 모델을 활용하는 Meta AI가 개발한 새로운 단백질 접힘 방법입니다. 메타는 언어 모델이 기존 SOTA 단백질 구조 예측 방법보다 단백질의 원자 수준의 3차원 구조를 60배 빠르게 예측할 수 있다는 사실을 발견했습니다. 이러한 발전은 단백질 구조 이해의 새로운 시대를 가속화하는 데 도움이 될 것이며 유전자 서열 분석 기술로 분류되는 수십억 개의 단백질 구조를 처음으로 이해할 수 있게 될 것입니다.

자연의 숨겨진 세계 열기: 메타게놈 구조 공간에 대한 최초의 포괄적인 시각

우리는 유전자 서열 분석의 발전으로 수십억 개의 메타게놈 단백질 서열 목록을 작성하는 것이 가능해졌다는 것을 알고 있습니다. 그러나 수십억 개의 단백질의 3D 구조를 실험적으로 결정하는 것은 단일 단백질을 탐지하는 데 몇 주 또는 몇 년이 걸릴 수 있는 X선 결정학과 같이 시간 집약적인 실험실 기술의 범위를 훨씬 뛰어넘습니다. 전산 접근법은 실험 기술로는 불가능한 메타게놈 단백질에 대한 통찰력을 제공할 수 있습니다.

ESM 메타게놈 매핑을 통해 과학자들은 수억 개의 단백질 규모로 메타게놈 단백질의 구조를 검색하고 분석할 수 있습니다. 이는 이전에 특성화되지 않은 구조를 식별하고 먼 진화 관계를 검색하며 의학 및 기타 응용 분야에 사용할 수 있는 새로운 단백질을 발견하는 데 도움이 될 수 있습니다.

다음은 현재 알려진 구조를 가진 단백질과 유사성을 보여주는 수만 개의 높은 신뢰도 예측이 포함된 지도입니다. 그리고 처음으로 이미지는 전혀 알려지지 않았던 훨씬 더 넓은 단백질 구조 공간 영역을 보여줍니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

생물학적 언어 읽는 법 배우기

아래 그림에 표시된 것처럼 ESM-2 언어 모델은 진화 과정에서 서열에 의해 가려진 아미노산을 예측하도록 훈련되었습니다. Meta AI는 훈련 결과, 모델 내부 상태에서 단백질 구조에 대한 정보가 나타난다는 사실을 발견했습니다. 모델이 시퀀스에만 학습되었기 때문에 이는 정말 놀라운 일입니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

종이나 편지의 텍스트처럼 단백질도 일련의 문자로 기록될 수 있습니다. 각 문자는 20가지 표준 화학 원소(아미노산) 중 하나에 해당하며, 각각은 서로 다른 특성을 가지며 단백질의 구성 요소입니다. 이러한 빌딩 블록은 천문학적으로 다른 방식으로 결합될 수 있습니다. 예를 들어 200개의 아미노산으로 구성된 단백질의 경우 가능한 서열은 20^200개이며 이는 눈에 보이는 우주에 있는 원자 수보다 많습니다. 각 서열은 3D 모양으로 접히며(그러나 모든 서열이 일관된 구조로 접히는 것은 아니며, 많은 서열이 무질서한 형태로 접히는 경우가 있음), 단백질의 생물학적 기능을 크게 결정하는 것은 바로 이 모양입니다.

생물학적 언어를 읽는 법을 배우는 것은 큰 도전을 가져옵니다. 단백질 서열과 텍스트 구절 모두 문자로 기록될 수 있지만, 둘 사이에는 깊고 근본적인 차이점이 있습니다. 단백질 서열은 물리 법칙에 따라 복잡한 3D 모양으로 접히는 분자의 화학 구조를 설명합니다.

단백질 서열에는 단백질 접힘 구조에 대한 정보를 전달하는 통계적 패턴이 포함되어 있습니다. 예를 들어, 단백질의 두 위치가 공동 진화하는 경우, 즉 특정 아미노산이 일반적으로 다른 위치의 특정 아미노산과 쌍을 이루는 한 위치에서 발생하는 경우 이는 두 위치가 다음 위치에 있음을 의미할 수 있습니다. 접힌 구조 상호 작용. 이는 진화가 접힌 구조에서 함께 맞는 아미노산을 선택해야 하는 직소 퍼즐의 두 조각과 유사합니다. 이는 결국 우리가 단백질의 서열 패턴을 관찰함으로써 단백질의 구조를 추론할 수 있다는 것을 의미합니다.

ESM은 AI를 사용하여 이러한 패턴을 읽는 방법을 배웁니다. 2019년 Meta AI는 언어 모델이 구조 및 기능과 같은 단백질의 속성을 학습한다는 증거를 제공했습니다. Meta AI는 가면 언어 모델링이라는 자기 지도 학습 형태를 통해 수백만 개의 천연 단백질 서열에 대한 언어 모델을 훈련했습니다. 이 방법을 사용하면 모델은 "_을 하든 안 하든, 즉 _____입니다"와 같이 텍스트 단락의 공백을 올바르게 채워야 합니다.

이후 Meta AI는 단백질 서열의 공백을 메우기 위해 언어 모델을 훈련시킵니다. 그들은 이 훈련 중에 단백질 구조와 기능에 대한 정보가 나타난다는 것을 발견했습니다. 2020년에 Meta는 과학자들이 코로나19의 진화를 예측하고 질병의 유전적 원인을 발견하는 데 도움을 주는 것을 포함하여 다양한 응용 분야를 위해 SOTA 단백질 언어 모델인 ESM1b를 출시했습니다.

이제 Meta AI는 이 접근 방식을 확장하여 차세대 단백질 언어 모델 ESM-2를 만들었습니다. ESM-2는 150억 개의 매개변수로 현재까지 가장 큰 단백질 언어 모델입니다. 그들은 모델 매개변수가 800만에서 150억으로 확장되었을 때 내부 표현에 정보가 나타나 원자 분해능에서 3D 구조 예측이 가능하다는 것을 발견했습니다.

단백질 접힘에서 100배 가속도 달성

아래 그림에서 모델을 확대하면 고해상도 단백질 구조가 나타납니다. 동시에 모델의 규모가 확장됨에 따라 단백질 구조의 원자 해상도 이미지에 새로운 세부 사항이 나타납니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

현재 SOTA 계산 도구를 사용하면 주요 연구 기관의 자원을 사용하더라도 현실적인 시간 규모로 수억 개의 단백질 서열 구조를 예측하는 데 수년이 걸릴 수 있습니다. 따라서 메타게놈 규모의 예측을 위해서는 예측 속도의 획기적인 발전이 중요합니다.

Meta AI는 단백질 서열의 언어 모델을 사용하면 구조 예측 속도가 최대 60배까지 크게 향상된다는 사실을 발견했습니다. 이는 단 몇 주 만에 전체 메타게놈 데이터베이스에 대한 예측을 수행하기에 충분하며 현재 게시된 데이터베이스보다 훨씬 더 큰 데이터베이스로 확장할 수 있습니다. 실제로 이 새로운 구조 예측 기능은 약 2,000개의 GPU 클러스터에서 단 2주 만에 6억 개가 넘는 메타게놈 단백질의 서열을 예측할 수 있었습니다.

또한 현재 SOTA 구조 예측 방법에서는 관련 서열을 식별하기 위해 대규모 단백질 데이터베이스를 검색해야 합니다. 이러한 방법은 실제로 구조 관련 패턴을 추출할 수 있도록 진화적으로 관련된 전체 시퀀스 세트를 입력으로 필요합니다. Meta AI의 ESM-2 언어 모델은 단백질 서열에 대한 훈련 중에 이러한 진화 패턴을 학습하여 단백질 서열에서 직접 3D 구조에 대한 고해상도 예측을 가능하게 합니다.

아래 그림은 ESM-2 언어 모델을 사용한 단백질 접힘을 보여줍니다. 왼쪽에서 오른쪽으로 화살표는 언어 모델에서 접이식 트렁크, 구조 모듈까지 네트워크의 정보 흐름을 보여주고 최종적으로 3D 좌표와 신뢰도를 출력합니다.

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

자세한 내용은 원문을 참고해주세요.

블로그 링크: https://ai.facebook.com/blog/단백질-folding-esmfold-metagenomics/

위 내용은 Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7455

Cakephp 튜토리얼

1375

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

vue.js의 객체로 문자열을 변환하는 데 어떤 방법이 사용됩니까? Apr 07, 2025 pm 09:39 PM

표준 JSON 문자열의 경우 vue.js의 객체로 문자열을 변환 할 때 JSON.PARSE ()가 선호됩니다. 비표준 JSON 문자열의 경우, 정규 표현식을 사용하여 문자열을 처리하고 형식 또는 디코딩 된 URL 인코딩에 따라 방법을 줄일 수 있습니다. 문자열 형식에 따라 적절한 방법을 선택하고 버그를 피하기 위해 보안 및 인코딩 문제에주의를 기울이십시오.

설치 후 MySQL을 사용하는 방법 Apr 08, 2025 am 11:48 AM

이 기사는 MySQL 데이터베이스의 작동을 소개합니다. 먼저 MySQLworkBench 또는 명령 줄 클라이언트와 같은 MySQL 클라이언트를 설치해야합니다. 1. MySQL-Uroot-P 명령을 사용하여 서버에 연결하고 루트 계정 암호로 로그인하십시오. 2. CreateABase를 사용하여 데이터베이스를 작성하고 데이터베이스를 선택하십시오. 3. CreateTable을 사용하여 테이블을 만들고 필드 및 데이터 유형을 정의하십시오. 4. InsertInto를 사용하여 데이터를 삽입하고 데이터를 쿼리하고 업데이트를 통해 데이터를 업데이트하고 DELETE를 통해 데이터를 삭제하십시오. 이러한 단계를 마스터하고 일반적인 문제를 처리하는 법을 배우고 데이터베이스 성능을 최적화하면 MySQL을 효율적으로 사용할 수 있습니다.

Laravel 's geospatial : 대화식지도의 최적화 및 많은 양의 데이터 Apr 08, 2025 pm 12:24 PM

7 백만 레코드를 효율적으로 처리하고 지리 공간 기술로 대화식지도를 만듭니다. 이 기사는 Laravel과 MySQL을 사용하여 7 백만 개 이상의 레코드를 효율적으로 처리하고 대화식지도 시각화로 변환하는 방법을 살펴 봅니다. 초기 챌린지 프로젝트 요구 사항 : MySQL 데이터베이스에서 7 백만 레코드를 사용하여 귀중한 통찰력을 추출합니다. 많은 사람들이 먼저 프로그래밍 언어를 고려하지만 데이터베이스 자체를 무시합니다. 요구 사항을 충족시킬 수 있습니까? 데이터 마이그레이션 또는 구조 조정이 필요합니까? MySQL이 큰 데이터로드를 견딜 수 있습니까? 예비 분석 : 주요 필터 및 속성을 식별해야합니다. 분석 후, 몇 가지 속성만이 솔루션과 관련이 있음이 밝혀졌습니다. 필터의 타당성을 확인하고 검색을 최적화하기위한 제한 사항을 설정했습니다. 도시를 기반으로 한지도 검색

MySQL을 해결하는 방법을 시작할 수 없습니다 Apr 08, 2025 pm 02:21 PM

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

vue.js 문자열 유형 배열을 객체 배열로 변환하는 방법은 무엇입니까? Apr 07, 2025 pm 09:36 PM

요약 : vue.js 문자열 배열을 객체 배열로 변환하는 다음 방법이 있습니다. 기본 메소드 : 정기적 인 형식의 데이터에 맞게 맵 함수를 사용하십시오. 고급 게임 플레이 : 정규 표현식을 사용하면 복잡한 형식을 처리 할 수 있지만 신중하게 작성하고 고려해야합니다. 성능 최적화 : 많은 양의 데이터를 고려하면 비동기 작업 또는 효율적인 데이터 처리 라이브러리를 사용할 수 있습니다. 모범 사례 : 명확한 코드 스타일, 의미있는 변수 이름과 주석을 사용하여 코드를 간결하게 유지하십시오.

Vue Axios의 시간 초과를 설정하는 방법 Apr 07, 2025 pm 10:03 PM

vue axios의 타임 아웃을 설정하려면 axios 인스턴스를 생성하고 시간 초과 옵션을 지정할 수 있습니다. 글로벌 설정에서 : vue.prototype. $ axios = axios.create ({timeout : 5000}); 단일 요청 : this. $ axios.get ( '/api/user', {timeout : 100000}).

MySQL 설치 후 데이터베이스 성능을 최적화하는 방법 Apr 08, 2025 am 11:36 AM

MySQL 성능 최적화는 설치 구성, 인덱싱 및 쿼리 최적화, 모니터링 및 튜닝의 세 가지 측면에서 시작해야합니다. 1. 설치 후 innodb_buffer_pool_size 매개 변수와 같은 서버 구성에 따라 my.cnf 파일을 조정해야합니다. 2. 과도한 인덱스를 피하기 위해 적절한 색인을 작성하고 Execution 명령을 사용하여 실행 계획을 분석하는 것과 같은 쿼리 문을 최적화합니다. 3. MySQL의 자체 모니터링 도구 (showprocesslist, showstatus)를 사용하여 데이터베이스 건강을 모니터링하고 정기적으로 백업 및 데이터베이스를 구성하십시오. 이러한 단계를 지속적으로 최적화함으로써 MySQL 데이터베이스의 성능을 향상시킬 수 있습니다.

원격 선임 백엔드 엔지니어 (플랫폼)에는 원이 필요합니다 Apr 08, 2025 pm 12:27 PM

원격 선임 백엔드 엔지니어 구직 회사 : 원 위치 : 원격 사무실 직무 유형 : 전임 급여 : $ 130,000- $ 140,000 직무 설명 전체 소프트웨어 개발 라이프 사이클을 다루는 Circle Mobile 애플리케이션 및 공개 API 관련 기능의 연구 및 개발에 참여합니다. 주요 책임은 독립적으로 Rubyonrails를 기반으로 개발 작업을 완료하고 React/Redux/Relay 프론트 엔드 팀과 협력합니다. 웹 애플리케이션의 핵심 기능 및 개선을 구축하고 기능 설계 프로세스 전반에 걸쳐 설계자 및 리더십과 긴밀히 협력하십시오. 긍정적 인 개발 프로세스를 촉진하고 반복 속도를 우선시하십시오. 6 년 이상의 복잡한 웹 애플리케이션 백엔드가 필요합니다.

See all articles

Meta AI는 6억 개가 넘는 메타게놈 단백질 구조 지도를 공개하고 2주 만에 150억 개의 언어 모델을 완성했습니다.

소개

자연의 숨겨진 세계 열기: 메타게놈 구조 공간에 대한 최초의 포괄적인 시각

생물학적 언어 읽는 법 배우기

단백질 접힘에서 100배 가속도 달성

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제