Der Einsatz künstlicher Intelligenz hat die Forschung zum Protein-Engineering erheblich beschleunigt.
Kürzlich hat ein junges Startup in Berkeley, Kalifornien, wieder erstaunliche Fortschritte gemacht.
Wissenschaftler verwendeten Progen, ein Protein-Engineering-Deep-Learning-Sprachmodell ähnlich wie ChatGPT, um erstmals eine KI-Vorhersage der Proteinsynthese zu erreichen. Diese Proteine sind nicht nur mit den bekannten völlig unterschiedlich, das Protein mit der geringsten Ähnlichkeit beträgt nur 31,4 %, sondern es ist genauso wirksam wie natürliches Protein.
Jetzt wurde diese Arbeit offiziell im Nature-Unterjournal veröffentlicht.
Papieradresse: https://www.nature.com/articles /s41587-022-01618-2
Dieses Experiment zeigt auch, dass die Verarbeitung natürlicher Sprache zwar für das Lesen und Schreiben von Sprachtexten entwickelt wurde, Es können aber auch einige Grundprinzipien der Biologie erlernt werden.
Technologie vergleichbar mit dem NobelpreisAls Reaktion darauf sagten Forscher, dass diese neue Technologie möglicherweise besser ist als die gerichtete Evolution (die den Nobelpreis gewann). Die mit dem Bell-Preis ausgezeichnete Proteindesign-Technologie ist noch leistungsfähiger.
„Es wird das 50 Jahre alte Feld des Protein-Engineerings wiederbeleben, indem es die Entwicklung neuer Proteine beschleunigt, die für nahezu alles von Therapeutika bis zum Abbau von Kunststoffen verwendet werden können.“ " 》
Das Unternehmen heißt Profluent und wird von der ehemaligen Salesforce AI geleitet Forschung Es hat sich eine Anschubfinanzierung in Höhe von 9 Millionen US-Dollar für den Aufbau eines integrierten Nasslabors und die Rekrutierung von Wissenschaftlern und Biologen für maschinelles Lernen gesichert.
Früher war es sehr mühsam, Proteine in der Natur abzubauen oder Proteine an die benötigten Funktionen anzupassen. Das Ziel von Profulent ist es, diesen Prozess mühelos zu gestalten. Sie haben es geschafft.
Profluent Gründer und CEO Ali Madani#🎜🎜 #
Madani sagte im Interview, dass Profulent mehrere Proteinfamilien entwickelt hat. Diese Proteine funktionieren wie Musterproteine und sind daher hochaktive Enzyme.
Diese Aufgabe ist sehr schwierig und wird im Zero-Shot-Verfahren erledigt, was bedeutet, dass nicht mehrere Optimierungsrunden durchgeführt werden und noch nicht einmal Nasslabore bereitgestellt werden alle beliebigen Daten.
Das schließlich entwickelte Protein ist ein hochaktives Protein, dessen Entwicklung normalerweise Hunderte von Jahren dauert.
ProGen basierend auf Sprachmodell
as Als eine Art tiefes neuronales Netzwerk können bedingte Sprachmodelle nicht nur semantisch und grammatikalisch korrekte, neuartige und vielfältige Texte in natürlicher Sprache generieren, sondern auch Eingabekontrollbezeichnungen nutzen, um Stil, Thema und mehr zu bestimmen.
In ähnlicher Weise haben Forscher den heutigen Protagonisten ProGen entwickelt, ein bedingtes Protein-Sprachmodell mit 1,2 Milliarden Parametern.
Konkret simuliert ProGen basierend auf der Transformer-Architektur die Interaktion von Resten durch einen Selbstaufmerksamkeitsmechanismus und kann basierend auf Eingabekontrollmarkierungen verschiedene künstliche Proteinsequenzen über Proteinfamilien hinweg erzeugen.
Erzeugung künstlicher Proteine mithilfe bedingter Sprachmodelle
Um dieses Modell zu erstellen, fütterten die Forscher die Aminosäuresequenzen von 280 Millionen verschiedenen Proteinen und ließen es mehrere Wochen lang „verdauen“.
Dann haben sie das Modell mithilfe von 56.000 Sequenzen aus fünf Lysozymfamilien und Informationen über diese Proteine verfeinert.
Der Algorithmus von Progen ähnelt dem Modell GPT3.5 hinter ChatGPT. Er lernt die Ordnungsregeln von Aminosäuren in Proteinen und ihre Beziehung zur Proteinstruktur und -funktion.
Bald generierte das Modell eine Million Sequenzen.
Basierend auf dem Grad der Ähnlichkeit mit der natürlichen Proteinsequenz und der Natürlichkeit der „Syntax“ und „Semantik“ der Aminosäuren wählten die Forscher 100 zum Testen aus.
Davon lösten 66 chemische Reaktionen ähnlich natürlichen Proteinen aus, die Bakterien in Eiweiß und Speichel zerstören.
Das heißt, diese neuen, durch KI erzeugten Proteine können auch Bakterien abtöten. Die erzeugten künstlichen Proteine sind vielfältig und werden im experimentellen System gut exprimiert E. coli.
Unter ihnen gibt es zwei künstliche Enzyme, die die Zellwand von Bakterien zerstören können.
Durch den Vergleich mit Eiweiß-Lysozym (HEWL) kann festgestellt werden, dass ihre Aktivität der von HEWL entspricht.
Anschließend verwendeten die Forscher Röntgenstrahlen zur Bildgebung.Obwohl sich die Aminosäuresequenz künstlicher Enzyme bis zu 30 % von bestehenden Proteinen unterscheidet und nur 18 % bei beiden gleich ist, ähneln ihre Formen fast denen natürlicher Proteine und auch ihre Funktionen sind gut. Vergleichbar damit.
Anwendbarkeit der bedingten Sprachmodellierung auf andere Proteinsysteme
Darüber hinaus ist bei hochentwickelten natürlichen Proteinen möglicherweise nur eine kleine Mutation erforderlich, damit es nicht mehr funktioniert.
Aber in einer weiteren Screening-Runde stellten die Forscher fest, dass unter den durch KI erzeugten Enzymen, obwohl nur 31,4 % der Sequenzen mit bekannten Proteinen identisch waren, sie dennoch eine vergleichbare Aktivität und ähnliche Strukturen aufwiesen.
Proteindesign, Beginn einer neuen Ära
Wie Sie sehen können, funktioniert ProGen sehr ähnlich wie ChatGPT.
ChatGPT kann MBA- und Anwaltsprüfungen ablegen und Studienarbeiten schreiben, indem es umfangreiche Daten studiert.
Und ProGen lernte, wie man neue Proteine erzeugt, indem es die Syntax lernte, wie Aminosäuren zu den 280 Millionen vorhandenen Proteinen kombiniert werden.
Im Interview sagte Madani: „So wie ChatGPT menschliche Sprachen wie Englisch lernt, sind wir“ „Künstlich entworfene Proteine funktionieren viel besser als Proteine, die durch evolutionäre Prozesse inspiriert wurden“, sagte einer der Autoren des Papiers von der University of California, Berkeley. James Fraser, Professor für Bioingenieurwesen und Therapiewissenschaften an der University of San Francisco School of Pharmacy.
„Sprachmodelle sind Lernaspekte der Evolution, aber sie unterscheiden sich vom normalen Evolutionsprozess. Wir haben jetzt die Möglichkeit, die Produktion dieser Funktionen anzupassen, um spezifische zu erhalten.“ Machen Sie beispielsweise ein Enzym unglaublich hitzestabil, bevorzugen Sie saure Umgebungen oder interagieren Sie nicht mit anderen Proteinen. Im Jahr 2006 entwickelte Salesforce Research ProGen. Es basiert auf der Programmierung natürlicher Sprache und wurde ursprünglich zur Generierung englischer Texte verwendet.
Aus früheren Arbeiten wissen Forscher, dass KI-Systeme sich selbst Grammatik und Wortbedeutungen sowie andere Grundregeln beibringen können, die das Schreiben organisiert machen.
„Wenn Sie sequenzbasierte Modelle mit großen Datenmengen trainieren, sind sie sehr leistungsfähig beim Erlernen von Strukturen und Regeln“, sagte der Direktor für künstliche Intelligenzforschung bei Salesforce Research , These „Sie lernen, welche Wörter zusammen erscheinen können und wie sie kombiniert werden sollten“, sagte Dr. Nikhil Naik, leitender Autor von „Jetzt haben wir gezeigt, dass ProGen die Fähigkeit hat, neue Proteine zu erzeugen, die öffentlich veröffentlicht werden, damit jeder sie studieren kann.“ unsere Grundlage. #
Als Protein ist Lysozym mit bis zu etwa 300 Aminosäuren sehr klein.Aber bei 20 möglichen Aminosäuren gibt es 20^300 mögliche Kombinationen.
Das ist mehr als alle Menschen in der Vergangenheit, multipliziert mit der Anzahl der Sandkörner auf der Erde, multipliziert mit der Anzahl der Atome im Universum.
Angesichts der nahezu unbegrenzten Möglichkeiten ist es wirklich bemerkenswert, dass Progen so einfach wirksame Enzyme entwickeln konnte.
sagte Dr. Ali Madani, Gründer von Profluent Bio und ehemaliger Forschungswissenschaftler bei Salesforce Research: „Die Fähigkeit, funktionelle Proteine von Grund auf zu generieren, zeigt, dass wir in eine neue Ära des Proteindesigns eintreten. Wir freuen uns darauf, es in der Zwischenzeit auf Behandlungen anzuwenden.“ Forscher verbessern ProGen weiter und versuchen, noch mehr Einschränkungen und Herausforderungen zu überwinden.
Eine davon ist, dass es stark auf Daten angewiesen ist.
„Wir haben untersucht, wie wir das Design von Sequenzen durch das Hinzufügen strukturbasierter Informationen verbessern können“, sagte Naik, wie sich die Modellgenerierungsfähigkeiten verbessern lassen, wenn Daten aus einem bestimmten Protein verwendet werden Familie oder Fachgebiet wurden noch nicht einem Peer-Review unterzogen.
Das obige ist der detaillierte Inhalt vonJenseits des Nobelpreises? „ChatGPT' hat in der biologischen Welt zum ersten Mal die Synthese eines neuen Proteins von Grund auf geschafft und es wurde im Nature-Unterjournal veröffentlicht!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!