


Nature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer
Herausgeber |. Radish Skin
Mit den Fortschritten im Deep Learning schreiten Proteindesign und -technik in beispiellosem Tempo voran. Aktuelle Modelle können jedoch nicht auf natürliche Weise Nicht-Protein-Entitäten während des Designprozesses berücksichtigen.
Hier schlugen Forscher der Ecole Polytechnique Fédérale de Lausanne (EPFL) in der Schweiz eine Deep-Learning-Methode vor, die vollständig auf geometrischen Transformatoren von Atomkoordinaten und Elementnamen basiert und Gerüste basierend auf den durch verschiedene molekulare Umgebungen auferlegten Einschränkungen vorhersagen kann Sequenzen.
Mit dieser Methode können Forscher Enzyme mit hoher thermischer Stabilität und katalytischer Aktivität mit hoher Erfolgsquote herstellen. Es wird erwartet, dass dies die Vielseitigkeit von Proteindesign-Pipelines zur Erreichung gewünschter Funktionen erhöht.
Die Forschung trug den Titel „Kontextbewusstes geometrisches Deep Learning für Proteinsequenzdesign“ und wurde am 25. Juli 2024 in „Nature Communications“ veröffentlicht.
Das Design von Proteinen zur Erfüllung funktionaler Aufgaben ist eine Herausforderung mit großen biologischen, medizinischen, biotechnologischen und materialwissenschaftlichen Auswirkungen. Ein wichtiger Anwendungsbereich ist die Entwicklung von Proteintherapeutika, bei denen die gezielte Anpassung von Proteinen an bestimmte Krankheiten konkurrenzfähiger sein kann als niedermolekulare Medikamente. Dieser Ansatz könnte die Behandlung vieler Gesundheitsprobleme, von Autoimmunerkrankungen bis hin zu Krebs, revolutionieren und wirksamere und personalisiertere Behandlungen ermöglichen.
Darüber hinaus ist die Gestaltung von Enzymfunktionen eine weitere wichtige Herausforderung beim Proteindesign. Enzyme dienen als natürliche Katalysatoren und spielen eine Schlüsselrolle in biologischen Prozessen. Durch die Entwicklung neuer Enzyme oder die Modifizierung bestehender Enzyme ist es möglich, Katalysatoren zu schaffen, die Reaktionen fördern, die selten sind oder in der Natur nicht vorkommen. Dies hat weitreichende Auswirkungen auf zahlreiche Branchen, darunter die Pharma- und Umwelttechnologiebranche, etwa die Synthese komplexer Arzneimittelmoleküle oder den Abbau von Schadstoffen und Kunststoffen.
Deep-Learning-Methoden beschleunigen die Erfolgsquote und Vielfalt des Proteindesigns erheblich. Während aktuelle Proteindesignmodelle mit mehreren Proteinketten umgehen können, sind sie bei der Verarbeitung von Nicht-Protein-Entitäten jedoch leistungsschwach, was ihren Anwendungsbereich einschränkt.
Um dieses Problem zu lösen, hat das Forschungsteam der EPFL einmal ein Deep-Learning-Modell eingeführt – den Protein Structure Transformer (PeSTo), eine geometrische Transformatorarchitektur, die auf atomare Punktwolken einwirkt.
PeSTo beinhaltet einen transformatorischen Aufmerksamkeitsmechanismus, der Skalar- und Vektorzustände zur Darstellung von Atomen nutzt und Wechselwirkungen an praktisch jeder Molekül-Protein-Schnittstelle vorhersagen kann, einschließlich Proteinen, Nukleinsäuren, Lipiden, Ionen, kleinen Liganden, Cofaktoren oder Kohlenhydraten.
In der neuesten Arbeit nutzte das Team die einzigartigen Fähigkeiten dieses Modells und stellte das PeSTo-basierte Proteinsequenzgeneratormodell CARBonAra (Context-aware Amino Acid Recovery from Backbone Atoms and heteroatoms) vor.
CARBonAra ist in einzigartiger Weise auf die in der PDB verfügbaren Strukturdaten trainiert, um die Aminosäurekonfidenz für alle Positionen eines bestimmten Rückgratgerüsts vorherzusagen, die allein oder mit jeder Art und Anzahl von Werkzeugen bereitgestellt werden können, die das Sequenzdesign molekularer Komplexe vorantreiben.
Zusammensetzung und Leistung von CARBonAra
CARBonAra verwendet ein Deep-Learning-Modell, das aus geometrischen Transformatoren besteht, um die Wahrscheinlichkeit vorherzusagen, eine bestimmte Aminosäure an jeder Position in einer Proteinsequenz aus einem Eingabegerüst zu finden. CARBonAra verwendet als Eingabe die Koordinaten und Elemente der Grundgerüstatome (Cα, C, N, O) und fügt virtuelle Cβ-Atome unter Verwendung idealer Bindungswinkel und Bindungslängen hinzu. Die Geometrie wird anhand des Abstands zwischen jedem Atom und dem normalisierten relativen Verschiebungsvektor beschrieben.
Geometrische Transformatoroperationen kodieren die Wechselwirkungen aller benachbarten Atome und verwenden Transformatoren, um Skalar- und Vektorinformationen zu verarbeiten und den Zustand jedes Atoms zu aktualisieren. Schließlich trainierten die Forscher das Modell durch die Aggregation atomarer Zustände von der Atomebene bis zur Restebene, um die Aminosäurekonfidenz für jede Position in der Proteinsequenz in Form einer positionspezifischen Bewertungsmatrix vorherzusagen.
Tatsächlich können diese Konfidenzen als Wahrscheinlichkeiten interpretiert und abgebildet werden, indem die Wahrscheinlichkeit einer korrekten Vorhersage anhand der Vorhersagekonfidenz für jeden Aminosäuretyp charakterisiert wird.
Wie andere Modelle unterstützt CARBonAra autoregressive Vorhersagen durch One-Hot-Codierung, um frühere Sequenzinformationen für bestimmte Aminosäuren in die Rückgratatome einzuprägen.
Am wichtigsten ist, dass CARBonAra die Fähigkeit von PeSTo übernimmt, nur Elementnamen und Atomkoordinaten ohne umfangreiche Parametrisierung zu verwenden, was die Anpassung an verschiedene Szenarien erleichtert.
Oleh itu, CARBonAra boleh menghuraikan dan memproses mana-mana entiti molekul di sekitar tulang belakang protein yang sedang direka, termasuk pelbagai input seperti protein lain, molekul kecil, asid nukleik, lipid, ion dan molekul air.
Datasets
Mengambil kesempatan daripada fleksibiliti yang wujud pada CARBonnAra, penyelidik dapat menggabungkan semua himpunan biologi dalam RCSB PDB ke dalam set data latihan mereka.
Ini termasuk protein yang dikomplekskan dengan entiti molekul lain seperti ion, ligan, asid nukleik, dsb. Set data latihan terdiri daripada kira-kira 370,000 subunit, dan 100,000 subunit lagi digunakan dalam set data pengesahan, yang kesemuanya diperoleh daripada perhimpunan biologi PDB RCSB dan diberi penjelasan sebaik mungkin.
Mengikuti protokol yang lebih ketat sedikit berbanding kaedah yang ditetapkan sebelum ini, set data ujian terdiri daripada kira-kira 70,000 subunit, berbeza daripada set latihan tanpa domain CATH dikongsi, dan dilakukan pada penapis identiti jujukan kurang daripada 30%.
Kriteria pemilihan ini memastikan keteguhan ujian kerana ia tidak termasuk lipatan dan jujukan serupa yang terdapat dalam set data latihan.
Untuk reka bentuk jujukan yang memisahkan protein atau kompleks protein daripada struktur tulang belakang yang tidak mengandungi molekul bukan protein, CARBonAra berprestasi setanding dengan kaedah ramalan jujukan terkini seperti ProteinMPNN dan ESM-IF1 pada kos pengiraan Kompetitif (kira-kira 3 kali lebih pantas daripada ProteinMPNN pada GPU dan 10 kali lebih pantas daripada ESM-IF1).
Membina semula jujukan protein daripada struktur rantai utama
Apabila kaedah ini membina semula jujukan protein daripada struktur rantai utama, kadar pemulihan jujukan median bagi reka bentuk monomer protein ialah 51.3%, dan kadar pemulihan jujukan median bagi reka bentuk dimer ialah 51.3%. 56.0%. Walaupun kadar pemulihan yang sama, identiti jujukan median antara jujukan terbaik daripada tiga kaedah berbeza dari 54% hingga 58%.
Selain itu, penyelidik memerhatikan bahawa CARBonnAra boleh menjana jujukan berkualiti tinggi yang dilipat seperti yang dijangkakan dengan skor TM melebihi 0.9 apabila diramalkan menggunakan AlphaFold dalam mod jujukan tunggal.
CARBonAra mempelajari pembungkusan asid amino yang lebih ketat pada teras protein, menghasilkan pemulihan yang lebih tinggi dan mencerminkan toleransi yang lebih rendah untuk penggantian asid amino terkubur biasa sambil membenarkan kebolehubahan yang lebih tinggi pada permukaan protein melainkan Menyediakan kekangan fungsi atau struktur tambahan.
Kaedah untuk ramalan jujukan daripada perancah tulang belakang dilatih terutamanya pada data eksperimen dengan geometri tulang belakang yang ideal, yang mengakibatkan penurunan prestasi apabila digunakan pada tulang belakang yang dijana. Menambah bunyi pada geometri semasa latihan boleh mengurangkan masalah ini.
Para penyelidik mencirikan keteguhan kaedah dengan menggunakan CARBonnAra pada trajektori struktur daripada simulasi dinamik molekul (MD). Kadar pemulihan jujukan (53 ± 10%) tidak menurun dengan ketara daripada ramalan konsensus (54 ± 7%) disebabkan oleh perubahan konformasi tulang belakang dan peningkatan dalam kes yang sebelum ini menunjukkan kadar pemulihan yang rendah.
Pada masa yang sama, para penyelidik memerhatikan penurunan umum dalam bilangan kemungkinan asid amino yang diramalkan bagi setiap kedudukan, menunjukkan bahawa penerokaan ruang konformasi mengekang ruang jujukan, membolehkan reka bentuk konformasi struktur yang disasarkan.
Mempunyai implikasi di luar reka bentuk protein itu sendiri
Para penyelidik menjalankan eksperimen ke atas sistem tenaga kerja, TEM-1 serine beta-laktamase, untuk menunjukkan bagaimana CARBonAra menangani cabaran kejuruteraan enzim, mereka bentuk protein sebenar yang lipat pada suhu tinggi dan mengekalkan aktiviti pemangkin. Selain itu, penyelidik meneroka strategi tertumpu untuk mengambil sampel ruang jujukan protein daripada keluaran CARBonnAra.
Memandangkan tidak dapat ditentukan sama ada jujukan protein yang terhasil daripada asid amino pemarkahan tertinggi berfungsi, strategi pensampelan diperlukan untuk menjana protein yang stabil dan berfungsi yang boleh diekspresikan semula secara in vitro.
Ini belum diuji secara menyeluruh setakat ini. Pasukan menunjukkan di sini bahawa strategi pensampelan yang sesuai bukan sahaja boleh menjana maklumat yang kaya untuk menjana protein berfungsi, tetapi juga menjana pelbagai jujukan sintetik yang mencerminkan variasi semula jadi yang diperhatikan dalam jujukan semula jadi atau sampel secara eksperimen melalui mutagenesis dan Perbandingan pemilihan.
Ini mempunyai implikasi di luar reka bentuk protein semata-mata, dan khususnya membuka tetingkap bagaimana protein berkembang dalam rangka model evolusi protein yang konsisten secara biofizikal.
Secara asasnya, meningkatkan kadar kejayaan reka bentuk pengiraan adalah penting untuk benar-benar menguasai bidang ini, dan lebih praktikal, untuk mengurangkan kos apabila mencuba ekspresi dan penulenan sebenar di makmal.
Kadar kejayaan yang sangat tinggi
Sekarang kaedah berasaskan AI mula stabil, ini menjadi titik perbincangan yang penting. Kaedah dan laporan yang berbeza menunjukkan kadar kejayaan yang berbeza-beza, tetapi selalunya tidak jelas cara menilai setiap kaedah.
Chroma membuat penilaian yang sangat konservatif, menetapkan kadar kejayaannya sekitar 3%, manakala kertas RoseTTAFold/ProteinMPNN melaporkan kadar kejayaan purata 15% untuk beberapa protein.
Menggunakan reka bentuk beta-laktamase TEM-1 yang dilaporkan dalam kajian ini, kadar kejayaan sebanyak 40% telah dicapai. Begitu juga, kadar kejayaan lipat TIM dan NTF2 setinggi 40-55%, jauh melebihi purata sebelumnya iaitu 15%.
Sesuai untuk meningkatkan kestabilan terma protein
Selain aplikasi langsung dalam mereka bentuk protein baharu dan menyelaraskan fungsi protein, CARBonAra nampaknya sangat sesuai untuk meningkatkan kestabilan terma, kerana kaedah reka bentuk protein lain juga menghasilkan teguh, Sangat stabil dari segi haba. protein.
Aspek menarik yang didedahkan oleh pemerhatian ini berkaitan dengan hak harta intelek urutan enzim yang direka bentuk yang digunakan untuk menstabilkan proses pembuatan dan perindustrian: Biasanya, enzim yang direka dilindungi dengan cara yang meliputi julat persamaan jujukan Protect yang lebih kecil tetapi agak besar .
Secara sejarah, ini sudah cukup komprehensif; walau bagaimanapun, kaedah reka bentuk protein moden, termasuk CARBonnAra, boleh mereka bentuk protein yang kurang serupa yang mengekalkan fungsi dan sangat stabil.
Kesimpulan
Melihat ke hadapan, CARBonAra mempunyai beberapa kelebihan berbanding kaedah reka bentuk protein lain, terutamanya berkaitan dengan kerja dalamannya hanya berdasarkan nama dan koordinat elemen, tanpa memerlukan sebarang parameterisasi atau pengiraan perantaraan lanjut.
Oleh itu, CARBonAra kelihatan lebih fleksibel berbanding alternatif lain. Kerana ia boleh menyelesaikan pada dasarnya apa-apa jenis sistem molekul, ia boleh dilatih mengenai jenis biomolekul lain (seperti asid nukleik, molekul kecil, ion, dan juga air) atau molekul yang tidak terdapat dalam himpunan biologi (seperti bahan dan permukaan). Premisnya ialah terdapat data yang mencukupi.
Ringkasnya, CARBonAra adalah unik berdasarkan data struktur dan merupakan pendekatan konsep yang berbeza untuk ramalan dan reka bentuk jujukan protein, dengan fleksibiliti tambahan yang diperlukan untuk menangani cabaran masa depan dalam reka bentuk molekul dan biologi sintetik.
Pautan kertas:https://www.nature.com/articles/s41467-024-50571-y
Das obige ist der detaillierte Inhalt vonNature-Unterjournal, 10-mal schnellere, umgekehrte Proteinsequenz-Designmethode basierend auf Transformer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











Diese Seite berichtete am 27. Juni, dass Jianying eine von FaceMeng Technology, einer Tochtergesellschaft von ByteDance, entwickelte Videobearbeitungssoftware ist, die auf der Douyin-Plattform basiert und grundsätzlich kurze Videoinhalte für Benutzer der Plattform produziert Windows, MacOS und andere Betriebssysteme. Jianying kündigte offiziell die Aktualisierung seines Mitgliedschaftssystems an und führte ein neues SVIP ein, das eine Vielzahl von KI-Schwarztechnologien umfasst, wie z. B. intelligente Übersetzung, intelligente Hervorhebung, intelligente Verpackung, digitale menschliche Synthese usw. Preislich beträgt die monatliche Gebühr für das Clipping von SVIP 79 Yuan, die Jahresgebühr 599 Yuan (Hinweis auf dieser Website: entspricht 49,9 Yuan pro Monat), das fortlaufende Monatsabonnement beträgt 59 Yuan pro Monat und das fortlaufende Jahresabonnement beträgt 499 Yuan pro Jahr (entspricht 41,6 Yuan pro Monat). Darüber hinaus erklärte der Cut-Beamte auch, dass diejenigen, die den ursprünglichen VIP abonniert haben, das Benutzererlebnis verbessern sollen

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Im Jahr 2023 entwickeln sich fast alle Bereiche der KI in beispielloser Geschwindigkeit weiter. Gleichzeitig verschiebt die KI ständig die technologischen Grenzen wichtiger Bereiche wie der verkörperten Intelligenz und des autonomen Fahrens. Wird der Status von Transformer als Mainstream-Architektur großer KI-Modelle durch den multimodalen Trend erschüttert? Warum ist die Erforschung großer Modelle auf Basis der MoE-Architektur (Mixture of Experts) zu einem neuen Trend in der Branche geworden? Können Large Vision Models (LVM) ein neuer Durchbruch im allgemeinen Sehvermögen sein? ...Aus dem PRO-Mitglieder-Newsletter 2023 dieser Website, der in den letzten sechs Monaten veröffentlicht wurde, haben wir 10 spezielle Interpretationen ausgewählt, die eine detaillierte Analyse der technologischen Trends und industriellen Veränderungen in den oben genannten Bereichen bieten, um Ihnen dabei zu helfen, Ihre Ziele in der Zukunft zu erreichen Jahr vorbereitet sein. Diese Interpretation stammt aus Week50 2023

Herausgeber | Rettichhaut Seit der Veröffentlichung des leistungsstarken AlphaFold2 im Jahr 2021 verwenden Wissenschaftler Modelle zur Proteinstrukturvorhersage, um verschiedene Proteinstrukturen innerhalb von Zellen zu kartieren, Medikamente zu entdecken und eine „kosmische Karte“ jeder bekannten Proteininteraktion zu zeichnen. Gerade hat Google DeepMind das AlphaFold3-Modell veröffentlicht, das gemeinsame Strukturvorhersagen für Komplexe wie Proteine, Nukleinsäuren, kleine Moleküle, Ionen und modifizierte Reste durchführen kann. Die Genauigkeit von AlphaFold3 wurde im Vergleich zu vielen dedizierten Tools in der Vergangenheit (Protein-Ligand-Interaktion, Protein-Nukleinsäure-Interaktion, Antikörper-Antigen-Vorhersage) deutlich verbessert. Dies zeigt, dass dies innerhalb eines einzigen einheitlichen Deep-Learning-Frameworks möglich ist

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten
