Editor |. Kulit Lobak
Dengan kemajuan dalam pembelajaran mendalam, reka bentuk dan kejuruteraan protein semakin maju pada kadar yang tidak pernah berlaku sebelum ini. Walau bagaimanapun, model semasa tidak boleh mengambil kira entiti bukan protein secara semula jadi semasa proses reka bentuk.
Di sini, penyelidik dari Ecole Polytechnique Fédérale de Lausanne (EPFL) di Switzerland mencadangkan kaedah pembelajaran mendalam berdasarkan sepenuhnya pada transformer geometri bagi koordinat atom dan nama unsur, yang boleh menyokong perancah berdasarkan kekangan yang dikenakan oleh persekitaran molekul yang berbeza urutan.
Menggunakan kaedah ini, penyelidik boleh menghasilkan enzim dengan kestabilan haba yang tinggi dan aktiviti pemangkin dengan kadar kejayaan yang tinggi. Ini dijangka meningkatkan fleksibiliti saluran paip reka bentuk protein untuk mencapai fungsi yang diingini.
Penyelidikan itu bertajuk "Pembelajaran mendalam geometri yang sedar konteks untuk reka bentuk jujukan protein" dan diterbitkan dalam "Komunikasi Alam Semulajadi" pada 25 Julai 2024.
Mereka bentuk protein untuk mencapai tugas berfungsi adalah satu cabaran dengan implikasi biologi, perubatan, bioteknologi dan sains bahan yang utama. Bidang aplikasi utama ialah reka bentuk terapeutik protein, di mana menyesuaikan protein untuk menyasarkan penyakit tertentu dengan tepat mungkin lebih kompetitif daripada ubat molekul kecil. Pendekatan ini boleh merevolusikan rawatan banyak masalah kesihatan, daripada penyakit autoimun kepada kanser, menyediakan rawatan yang lebih berkesan dan diperibadikan.
Selain itu, mereka bentuk fungsi enzim juga merupakan satu lagi cabaran penting dalam reka bentuk protein. Enzim berfungsi sebagai pemangkin semula jadi dan memainkan peranan penting dalam proses biologi. Dengan mereka bentuk enzim baharu atau mengubah suai enzim sedia ada, adalah mungkin untuk mencipta pemangkin yang menggalakkan tindak balas yang jarang berlaku atau tidak wujud dalam alam semula jadi. Ini mempunyai implikasi yang meluas untuk pelbagai industri, termasuk farmaseutikal dan teknologi alam sekitar, seperti mensintesis molekul ubat kompleks atau memecahkan bahan pencemar dan plastik.
Kaedah pembelajaran mendalam dengan ketara mempercepatkan kadar kejayaan dan kepelbagaian reka bentuk protein. Walau bagaimanapun, walaupun model reka bentuk protein semasa boleh mengendalikan berbilang rantai protein, mereka berprestasi buruk apabila berurusan dengan entiti bukan protein, mengehadkan skop penggunaannya.
Untuk menyelesaikan masalah ini, pasukan penyelidik EPFL pernah memperkenalkan model pembelajaran mendalam-Protein Structure Transformer (PeSTo), seni bina pengubah geometri yang bertindak pada awan titik atom.
PeSTo menggabungkan mekanisme perhatian pengubah yang menggunakan keadaan skalar dan vektor untuk mewakili atom dan boleh meramalkan interaksi pada hampir mana-mana antara muka molekul-protein, termasuk protein, asid nukleik, lipid, ion, ligan kecil, kofaktor atau karbohidrat.
Dalam kerja terbaharu, pasukan mengambil kesempatan daripada keupayaan unik model ini dan memperkenalkan model penjana jujukan protein berasaskan PeSTo CARBonAra (Pemulihan asid Amino yang sedar Konteks daripada Atom Tulang Belakang dan heteroatom).
CARBonAra dilatih secara unik mengenai data struktur yang tersedia dalam PDB untuk meramalkan keyakinan asid amino untuk semua kedudukan perancah tulang belakang yang diberikan, yang boleh disediakan secara bersendirian atau dengan sebarang jenis dan bilangan alatan yang membantu memacu kompleks molekul reka bentuk jujukan.
Komposisi dan Prestasi CARBonAra
CARBonAra menggunakan model pembelajaran mendalam yang terdiri daripada transformer geometri untuk meramalkan kemungkinan mencari asid amino yang diberikan pada setiap kedudukan dalam urutan protein daripada perancah tulang belakang input. CARBonAra mengambil sebagai input koordinat dan unsur-unsur atom tulang belakang (Cα, C, N, O) dan menambah atom Cβ maya menggunakan sudut ikatan dan panjang ikatan yang ideal. Geometri diterangkan menggunakan jarak antara setiap atom dan vektor sesaran relatif yang dinormalisasi.
Operasi pengubah geometri mengekodkan interaksi semua atom jiran, dan menggunakan pengubah untuk memproses maklumat skalar dan vektor serta mengemas kini keadaan setiap atom. Akhirnya, dengan mengagregatkan keadaan atom dari peringkat atom ke tahap sisa, para penyelidik melatih model untuk meramalkan keyakinan asid amino untuk setiap kedudukan dalam urutan protein dalam bentuk matriks pemarkahan khusus kedudukan.
Malah, keyakinan ini boleh ditafsirkan sebagai dan dipetakan ke dalam kebarangkalian, dengan mencirikan kebarangkalian ramalan yang betul memandangkan keyakinan ramalan untuk setiap jenis asid amino.
Seperti model lain, CARBonAra menyokong ramalan autoregresif dengan menggunakan pengekodan satu panas untuk mencetak maklumat jujukan sebelumnya bagi asid amino tertentu ke dalam atom tulang belakang.
Paling penting, CARBonAra mewarisi keupayaan PeSTo untuk menggunakan hanya nama elemen dan koordinat atom tanpa parameterisasi yang meluas, menjadikannya mudah untuk menyesuaikan diri dengan pelbagai senario.
So kann CARBonAra jede molekulare Einheit in der Nähe des zu entwerfenden Proteinrückgrats analysieren und verarbeiten, einschließlich einer Reihe von Inputs wie anderen Proteinen, kleinen Molekülen, Nukleinsäuren, Lipiden, Ionen und Wassermolekülen.
Datensätze
Durch die inhärente Flexibilität von CARBonnAra können Forscher alle biologischen Baugruppen im RCSB PDB in ihre Trainingsdatensätze integrieren.
Dazu gehören Proteine, die mit anderen molekularen Einheiten wie Ionen, Liganden, Nukleinsäuren usw. komplexiert sind. Der Trainingsdatensatz bestand aus etwa 370.000 Untereinheiten, weitere 100.000 Untereinheiten wurden im Validierungsdatensatz verwendet, die alle aus der biologischen RCSB-PDB-Assemblierung abgeleitet und bestmöglich annotiert wurden.
Nach einem etwas strengeren Protokoll im Vergleich zu zuvor etablierten Methoden bestand der Testdatensatz aus etwa 70.000 Untereinheiten, unterschied sich vom Trainingssatz ohne gemeinsame CATH-Domäne und wurde mit einem Sequenzidentitätsfilter von weniger als 30 % durchgeführt.
Dieses Auswahlkriterium stellt die Robustheit des Tests sicher, da es ähnliche Falten und Sequenzen ausschließt, die im Trainingsdatensatz vorhanden sind.
Beim Sequenzdesign, das Proteine oder Proteinkomplexe von Grundgerüststrukturen trennt, die keine Nicht-Proteinmoleküle enthalten, ist CARBonAra mit modernsten Methoden zur Sequenzvorhersage wie ProteinMPNN und ESM-IF1 vergleichbar bei einem Rechenaufwand von Competitive (etwa dreimal schneller als ProteinMPNN auf der GPU und zehnmal schneller als ESM-IF1).
Rekonstruieren Sie die Proteinsequenz aus der Hauptkettenstruktur.
Wenn diese Methode die Proteinsequenz aus der Hauptkettenstruktur rekonstruiert, beträgt die mittlere Sequenzwiederherstellungsrate des Proteinmonomerdesigns 51,3 % und die mittlere Sequenzwiederherstellungsrate des Dimerdesigns 51,3 %. 56,0 %. Trotz ähnlicher Wiederfindungsraten schwankte die mittlere Sequenzidentität zwischen den besten Sequenzen der drei Methoden zwischen 54 % und 58 %.
Darüber hinaus beobachteten die Forscher, dass CARBonnAra qualitativ hochwertige Sequenzen generieren kann, die sich wie erwartet mit TM-Werten über 0,9 falten, wenn sie mit AlphaFold im Einzelsequenzmodus vorhergesagt werden.
CARBonAra erlernt eine engere Aminosäurepackung am Proteinkern, was zu höheren Ausbeuten führt und eine geringere Toleranz für typische vergrabene Aminosäuresubstitutionen widerspiegelt, während gleichzeitig eine höhere Variabilität an der Proteinoberfläche ermöglicht wird, sofern keine zusätzlichen funktionellen oder strukturellen Einschränkungen vorliegen.
Methoden zur Sequenzvorhersage aus Backbone-Gerüsten werden hauptsächlich auf experimentellen Daten mit idealen Backbone-Geometrien trainiert, was bei der Anwendung auf generierte Backbones zu Leistungseinbußen führt. Das Hinzufügen von Rauschen zur Geometrie während des Trainings kann dieses Problem lindern.
Die Forscher charakterisierten die Robustheit der Methode, indem sie CARBonnAra auf Strukturtrajektorien aus Molekulardynamiksimulationen (MD) anwendeten. Die Sequenzwiederherstellungsrate (53 ± 10 %) verringerte sich aufgrund von Konformationsänderungen des Rückgrats und einer Zunahme von Fällen, die zuvor niedrige Wiederherstellungsraten aufwiesen, nicht wesentlich gegenüber der Konsensvorhersage (54 ± 7 %).
Gleichzeitig beobachteten die Forscher einen allgemeinen Rückgang der Anzahl möglicher vorhergesagter Aminosäuren pro Position, was darauf hindeutet, dass die Erforschung des Konformationsraums den Sequenzraum einschränkt und die Gestaltung gezielter Strukturkonformationen ermöglicht.
Hat Auswirkungen, die über das Proteindesign selbst hinausgehen
Die Forscher führten Experimente mit einem Arbeitstiersystem, der TEM-1-Serin-Beta-Lactamase, durch, um zu zeigen, wie CARBonAra die Herausforderungen des Enzym-Engineerings meistert und tatsächliche Proteine entwirft falten sich bei hohen Temperaturen und behalten die katalytische Aktivität. Darüber hinaus untersuchten die Forscher gezielte Strategien zur Probenahme des Proteinsequenzraums aus der Ausgabe von CARBonnAra.
Da nicht bestimmt werden kann, ob die Proteinsequenz, die sich aus der Aminosäure mit der höchsten Bewertung ergibt, funktionsfähig ist, ist eine Probenahmestrategie erforderlich, um stabile und funktionelle Proteine zu erzeugen, die in vitro rekombinant exprimiert werden können.
Dies wurde bisher nicht gründlich getestet. Das Team zeigt hier, dass geeignete Probenahmestrategien nicht nur umfangreiche Informationen zur Generierung funktioneller Proteine generieren können, sondern auch synthetische Multisequenzen generieren können, die natürliche Variationen widerspiegeln, die in natürlichen Sequenzen beobachtet oder experimentell durch Mutagenese und Selektionsvergleich ermittelt wurden.
Dies hat Auswirkungen, die über das Proteindesign an sich hinausgehen, und öffnet insbesondere ein Fenster dazu, wie sich Proteine im Rahmen biophysikalisch konsistenter Proteinevolutionsmodelle entwickeln.
Grundsätzlich ist es wichtig, die Erfolgsquote des computergestützten Designs zu verbessern, um dieses Gebiet wirklich zu beherrschen, und praktischer gesagt, um die Kosten zu senken, wenn man die tatsächliche Expression und Reinigung im Labor versucht.
Super hohe Erfolgsquote
이제 AI 기반 방법이 안정화되기 시작하면서 이것이 중요한 논의점이 됩니다. 방법과 보고서에 따라 성공률이 매우 다양하지만 각 방법을 평가하는 방법이 불분명한 경우가 많습니다.
Chroma는 성공률을 약 3%로 설정하여 매우 보수적으로 평가하는 반면, RoseTTAFold/ProteinMPNN 논문에서는 여러 단백질에 대해 평균 성공률을 15%로 보고합니다.
본 연구에서 보고된 TEM-1 베타-락타마제 설계를 사용하여 성공률이 40%에 이르렀습니다. 마찬가지로 TIM 배럴과 NTF2 폴딩 성공률도 40~55%에 달해 이전 평균 15%를 훨씬 웃돈다.
단백질 열 안정성 향상에 적합
새로운 단백질 설계 및 단백질 기능 조정에 직접 적용하는 것 외에도 CARBonAra는 다른 단백질 설계 방법에서도 견고하고 열 안정성이 높은 단백질을 생성하므로 열 안정성 향상에 매우 적합한 것으로 보입니다. 단백질.
이 관찰에서 밝혀진 흥미로운 측면은 제조 및 산업 공정을 안정화하는 데 사용되는 설계된 효소 서열의 지적 재산권과 관련이 있습니다. 일반적으로 설계된 효소는 더 작지만 다소 넓은 범위의 서열 유사성을 포괄하는 방식으로 보호됩니다. .
역사적으로 이것은 충분히 포괄적이었지만 CARBonnAra를 포함한 현대 단백질 설계 방법은 기능을 유지하고 안정성이 높은 훨씬 덜 유사한 단백질을 설계할 수 있습니다.
결론
앞으로 CARBonAra는 다른 단백질 설계 방법에 비해 몇 가지 장점이 있습니다. 주로 추가 매개변수화나 중간 계산이 필요하지 않고 요소 이름과 좌표만을 기반으로 하는 내부 작업과 관련이 있습니다.
따라서 CARBonAra는 다른 대안보다 더 유연해 보입니다. 본질적으로 모든 유형의 분자 시스템을 분석할 수 있기 때문에 다른 유형의 생체분자(예: 핵산, 소분자, 이온, 심지어 물) 또는 생물학적 집합체에서 발견되지 않는 분자(예: 물질 및 표면)에 대해 훈련할 수 있습니다. 전제는 데이터가 충분하다는 것이다.
요약하자면, CARBonAra는 구조적 데이터를 기반으로 하며 단백질 서열 예측 및 설계에 대한 개념적으로 다른 접근 방식이며, 분자 설계 및 합성 생물학의 미래 과제를 해결하는 데 필요한 추가적인 유연성을 제공합니다.
논문 링크:https://www.nature.com/articles/s41467-024-50571-y
Atas ialah kandungan terperinci Sub-jurnal alam semula jadi, 10 kali lebih pantas, kaedah reka bentuk jujukan protein terbalik berdasarkan Transformer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!