如果您对生物学的生物信息学和数据分析,您会立即发现这篇文章很有启发性。 对于AI科学家而言,
更广泛地,他们将在这里找到通过将其推向幻觉,然后找到克服这一限制的方法来探测LLM的方法。>
简介
>
这是我所有的同行评审和有关蛋白质建模,CASP和Alphafold 2的博客文章 “化学直觉的火花” - 和总限制!
在PDB中有效浏览和搜索条目对于现代生物学工作至关重要。但是,尽管搜索引擎非常完整,但很难提出一些问题。但是事实证明,正如我在这里发现和报告的那样,我们现在可以用自然语言请求询问PDB,因为正如您在此标题的文章中看到的那样,GPT-4O知道蛋白质数据库!进入 从我出于好奇心进行的一些测试中,我发现OpenAI显然包括PDB内容(或包含PDB信息的内容,我将在稍后进行讨论)在培训其一些大语言模型(LLMS)中),至少在GPT-4O的培训中。找到了这个问题后,我开始使用此游戏,然后使用Alphafold 3进行结构确定测试,从我聊天中提出了一些想法 我根据结果所设想的是,随着人工智能的进步,尤其是在自然语言处理模型中,研究人员现在可以更轻松地搜索,从而利用PDB的相关结构信息。正如您在我提出的许多示例中所看到的那样,用自然语言请求查询PDB的能力非常有力,可以深入探索生物分子结构,复合物,复合物和组件,包括折叠蛋白,还包括核酸,还包括核酸蛋白质和小分子,都以相关PDB条目的形式直接连接到实验验证的结构数据。
更具体地说,通过许多示例,我将演示GPT-4O如何用来确定与复杂搜索术语相关的相关PDB条目,如果您只需在PDB站点上可用的常规搜索框中输入它,该词可能无法正常工作。我的例子涵盖了与各种激酶靶标,与结合伴侣互动的内在无序区域(IDRS)结合的生物学和药物的一些相关的相互作用,例如Glivec(imatinib,一种抗癌药物),以及影响相互作用的经济化伴侣(PTMS)。在某些示例中,我进一步探讨了使用Alphafold 3在空间中建模这些相互作用的潜力,从而有效地提供了基于LLM的PDB检索和3D可视化之间的桥梁。
在接下来的内容中,我的调查表达了对GPT-4O的问题,然后是其原始答案,在某些情况下,我准备在某些示例中进行了一些下游分析。探索1:您知道与激酶结合的Glivec(imatinib)的pdb代码吗?
>>我问chatgpt-4o:“您知道glivec(imatinib)绑定到激酶的pdb代码吗?”和…
chatgpt说: 是的,Glivec(伊马替尼)是一种众所周知的酪氨酸激酶抑制剂,PDB中的几种结构显示其与靶激酶结合。以下是一些关键示例:
> chatgpt-4o然后继续提供更多示例:abl激酶绑定到imatinib
- > pdb代码:
1iep 描述:这是显示伊马替尼与ABL激酶的最早结构之一,它是慢性粒细胞性白血病(CML)中的靶标。伊马替尼与ABL的不活跃构象结合,稳定它并防止激酶激活。
>这是我的支票 - 我为Chatgpt-4O提供的所有示例做到了这一点,但我只显示一些示例。您在这里看到PDB 1IEP是一个与STI-571复合的激酶结构域,它与PDB配体规范中的imatinib相对应:>
>
![]()
> c-kit激酶与伊马替尼结合
> pdb代码:
描述:1T46 伊马替尼还与C-KIT受体酪氨酸激酶结合,该激酶在某些癌症中过度活跃,包括胃肠道基质肿瘤(GIST)。该结构显示伊马替尼与C-KIT的ATP结合位点结合,抑制其激酶活性。 > pDGFR激酶与伊马替尼结合
pdb代码:
1xbb 描述:
- 伊马替尼与血小板衍生的生长因子受体(PDGFR)激酶结合,这是另一种与各种癌症有关的激酶。该结构表明了伊马替尼如何通过与其无活性构象结合来抑制PDGFR。
与伊马替尼结合的ABL激酶突变体(T315i)
> pdb代码:3GVU > 描述:
该结构显示了具有T315i突变的ABL激酶,在某些癌症患者中与对伊马替尼的抗性有关。该突变改变了结合位点,降低了伊马替尼的有效性,并突出了耐药性的机制。 这些结构说明了伊马替尼如何选择性地稳定诸如ABL,C-KIT和PDGFR的激酶的无活性形式,有助于控制各种癌症中异常细胞的增殖。 探索2:您知道与另一种蛋白质的本质上无序区域的某个例子吗? 这次我问:“您知道PDB代码的某个固有无序区域与另一种蛋白质结合的示例吗?”。它去了:
chatgpt说:
是的,在PDB中有几个特征良好的结构,其中一种蛋白质的本质上无序区域(IDR)与另一种蛋白质结合。这些IDR通常在结合后采用定义的结构,这对于其调节或信号传导函数至关重要。以下是一些众所周知的例子:
p53的跨激活结构域结合到MDM2 pdb代码: 1ycr 描述:
与MDM2癌蛋白结合的p53的N末端反式反式激活结构域结合。这种相互作用调节p53的稳定性和功能。
- > e1a从腺病毒绑定到rb
pdb代码:
1lxe 描述:腺病毒的本质上无序的E1A蛋白与视网膜细胞瘤(RB)蛋白结合,抑制了RB在细胞周期控制中的功能。 与CBP
的TAZ1结合的c-myc反式激活域
> pdb代码:1SB0 描述:
当C-Myc的无序反式激活结构域与转录共同活化器CBP的TAZ1结构结合时,会采用α-螺旋结构。> p27KIP1与细胞周期蛋白A/CDK2 结合
- pdb代码:
1jsu 描述:
固有无序的p27kip1通过围绕细胞周期蛋白和CDK亚基结合并抑制细胞周期蛋白A/CDK2复合物。这种相互作用在细胞周期调节中起关键作用。 与polycomb 染色体结合的本质上无序区域 > pdb代码:
2l3j 描述:
与CBP- > ASH1的本质上无序区域与转录沉默的调节剂PolyComb(PC)的染色体域相互作用,在结合时采用结构化形式。
>的Kix域结合的CREB的PKID
pdb代码:1kdx 描述:
与DNACREB的磷酸化激酶诱导结构域(PKID)与本质上无序无序结合,与CBP的KIX结构域结合。磷酸化诱导PKID中的α-螺旋形成,稳定相互作用。 结合的转录因子
- >>
PDB代码:
描述:ETS1的无序调节区域在结合DNA时被部分排序,这是一个无序区域的例子,该区域与非蛋白质伴侣相互作用时采用结构。 与VHL 结合的HIF-1α氧依赖性降解结构域
PDB代码:
描述:1LQB 固有无序的HIF-1α的氧依赖性降解结构域与von Hippel-Lindau(VHL)蛋白结合。这种相互作用标志着在常氧条件下降解的HIF-1α。 与微管结合的
tau蛋白 > pdb代码:
描述:5syf tau是一种与微管相互作用的本质上无序的蛋白质。结合后,tau的特定区域采用结构化构象,有助于稳定微管组装。 与DNA或组蛋白伴侣结合的组蛋白H1无序的尾巴
- >
> pdb代码:
描述:2lxd 组蛋白H1的无序C末端尾巴结合了DNA和组蛋白伴侣,在结合后采用了部分结构。这种相互作用在染色质压实中起作用。 > 这些结构展示了许多IDR的“折叠结合”特性,在其存在其结合伴侣的情况下,它们采用了特定的二级或三级结构,通常会促进关键细胞过程,例如信号,调节和基因表达。
>示例:PDB 1YCR,包括使用完整蛋白质的Alphafold 3进行反向预测然后,我设置自己来看看这些示例中的一些。 PDB 1YCR(Chatgpt-4O此处提供的第一个答案)是p53的结构,p53是一种与癌症有关的蛋白质,其中包含几种与其他蛋白质结合的无序残基。在此PDB文件中,它被发现与MDM2互动。您可以在图的左上角的实验结构中看到这一清晰,其中MDM2的短段作为螺旋结合到p53上。而且,您还可以在Alphafold 3的全面预测中看到这一点,这暗示了一些其他相互作用。
- 探索3:提出与涉及翻译后修饰的其他人结合的蛋白质的PDB条目?
chatgpt说:
>当然!以下是几个PDB条目,其中包含蛋白质,这些蛋白质与翻译后修饰(PTMS)介导的相互作用有关。这些结构提供了有关PTM等PTM等磷酸化,甲基化和乙酰化如何影响蛋白质 - 蛋白质相互作用的见解。
磷酸化识别
- 与磷酸化肽结合的14–3–3蛋白
PDB代码:1qja
> 描述:该结构显示与磷酸化肽结合的14–3–3蛋白,说明了14–3–3如何识别和结合磷酸碱残基。 与磷酸化肽结合的
BRCT结构域pdb代码:
1T29>
描述:此结构具有BRCA1 BRCT结构域与BACH1结合的BRCA1 BRCT结构域结合,表明BRCT域如何识别磷酸化。 >泛素识别
> p62的泛素结合域与泛素结合
pdb代码:3B0F
>- >
描述:>该结构描绘了与泛素结合的p62的UBA(泛素相关)结构域,突出了p62如何识别和结合自噬的多泛素化底物。
>甲基化识别HP1的染色域 结合到甲基化组蛋白
> pdb代码:
3c1a描述:
HP1染色体域与三甲基化的组蛋白H3K9肽相互作用,展示了如何识别组蛋白上的甲基化并有助于转录调节的甲基化。 乙酰化识别
乙酰化组蛋白H4结合到溴结构域>
> pdb代码:
3MXF >
- 描述:
>。该结构呈现出与乙酰化组蛋白H4尾巴结合的BET蛋白BRD4的溴结构域,说明了如何识别组蛋白的乙酰化并介导染色质的相互作用。 cullin-ring e3连接酶结合到nedd8 > > pdb代码:
2zvj > 描述:
该结构显示了Cullin-Ring E3连接酶与NEDD8修饰之间的相互作用,突出了Neddylation在泛素蛋白蛋白蛋白酶体系统中的作用。P27KIP1和细胞周期蛋白-CDK结合
- 的磷酸化
>cdk2-cyclin A复合物与磷酸化的p27Kip1
结合PDB代码:
1JSU >描述:
糖基化该结构显示了与p27Kip1的磷酸化形式相互作用的细胞周期蛋白A/CDK2复合物,证明了磷酸化如何调节细胞周期蛋白依赖性激酶的结合和抑制。
与甘露糖基化糖蛋白结合的凝集蛋白A的凝集素结构域 PDB代码:
3fqz> >描述:该结构具有浓蛋白凝集素A,植物凝集素,与甘露糖基化的糖蛋白结合,说明了糖基化如何介导蛋白质蛋白质相互作用。
ETS1转录因子的磷酸化> ETS1绑定到DNA
> pdb代码:
- >
> 描述:
>在结合DNA时,ETS1的无序调节区域被部分排序,展示了磷酸化如何影响其与目标序列相互作用的能力。 p53的乙酰化 与MDM2 pdb代码:
1ycr
描述:
> sumoylation乙酰化p53和MDM2之间的相互作用说明了乙酰化如何影响p53的稳定性和调节,p53是一种严重的肿瘤抑制剂。。 Sumo-1结合到相互作用的主题
PDB代码:
4C0N >
- >
描述:该结构显示了一个蛋白质,其中包含与SUMO-1结合的相互作用基序,突出了Sumoylation如何调节各种蛋白质相互作用。 >示例:PDB 1QJA,包括使用Alphafold 3的后预测(可以治疗磷酸化的残基!) pdb 1qja(Chatgpt-4O提供的第一个答案)是该蛋白质的结构,称为14–3–3与磷酸化的肽结合(p原子被4 O原子包围)。在下图中,3D结构对应于蛋白质和磷酸化肽之间观察到的复合物(左:全视图,右:放大磷酸盐)。您可以看到磷酸盐组如何建立多个触点(虚线)。下面的绿色2D图是Alphafold 3的PAE图,在存在磷酸盐组时(右)显示了与蛋白质相互作用的肽相互作用的更好的统计(绿色)。
> GPT-4O在培训时真的学会了PDB吗?> >由于Openai通过电子邮件询问时没有回答此问题,所以我只是问Chatgpt-4O本身。答案是……有点,但不是很!
我从chatgpt获得的是,它不是明确培训了使用PDB条目(这真是太好了,因为它们包含纸张摘要和每个PDB条目的其他数据)。但是,Chatgpt解释说,其培训材料包括提到这些PDB条目的论文,预印本,摘要和教育文件;这就是它必须了解大量PDB条目的方式。
> PDB条目的幻觉,也是一种克服它们的方法
>如果以上是正确的,也就是说,如果没有使用PDB本身对GPT-4O进行培训,而是使用涉及某些PDB结构的论文和其他文档,那么它可能完全不知道许多结构,尤其是那些与任何纸张无关的人。遵循这个想法,我将自己询问Chatgpt-4O,并试图揭露它。
>>我花了一些时间来破解它,但最终我设法了。在我的第一个问题上,例如“您知道PDB ID 1CI0吗?” (PDB显示没有与任何论文相关的),我自信地得到了一个响应,但错误地解释了该条款“描述了来自
PDB ID的细胞色素C553”。但是,PDB的条目解释说,这是另一种蛋白质,它既不是细胞色素c,也不属于> desulfovibrio vulgaris。 >现在很糟糕,非常糟糕,就像所有幻觉一样。但是令人鼓舞的是,如果我要求chatgpt-4o进行在线搜索(请注意,PDB完全开放),那么它会蒸馏出正确的信息: > 1CI0
> saccharomyces cerevisiae是指从 (Brewer's Yeast)中的吡ido醇-5'-磷酸(PNP)氧化酶 >。该酶被归类为氧化还原酶,并在维生素B6代谢途径中起关键作用。它促进了吡ido醇5'-磷酸到吡ido醇5'-磷酸的转化,这是一种活性形式的维生素B6。 >使用X射线衍射以2.7Å的分辨率确定结构,生物组装是同型二聚体。实验是使用源自大肠杆菌中表达的重组蛋白的晶体进行的。该结构包括两个蛋白质链,并与辅因子黄素单核苷酸(FMN)结合,这对于其酶活性至关重要。 Shi等人在1999年沉积了该条目。并且经常用于研究维生素B6生物合成机制以及生物技术或医学中的潜在应用。 …它本质上完全反映了PDB上此条目可用的所有信息,并且实际上比它更好,因为它拼写了缩写缩写词和诸如“ pnp”之类的简短名称,并清除了所有数据 - 只需与PDB进行比较条目:
www.lucianoabriata.com我写了有关我的广泛利益领域的所有内容:自然,科学,技术,编程等。订阅通过电子邮件订阅我的新故事。要咨询有关小工作的信息,请在此处查看我的服务页面。您可以在这里与我联系。你可以在这里给我小费。![]()
那么?有用是否有用?
>我对这项最新实验的结论是,尽管非常容易幻觉,但通过迫使chatgpt进行对面搜索的交叉检查,但在线参赛作品可能会完全克服其幻觉问题。
>喜欢使用所有这些AI工具,我们需要谨慎,但是搜索折叠方法可能是可靠的 - 但是在得出非常具体的结论之前,您可以自己仔细检查LLM的输出。
结论和前景通过此探索,我的目的是说明实验性结构生物学,使用Alphafold 3和GPT-4O等工具的分子建模如何融合,使研究人员能够以openai的方式搜索和分析分子结构在其培训数据集中包括有关PDB的内容。从我们在上一节中看到的幻觉问题中,我建议在LLM培训时明确包括PDB条目的信息,这可能会使所有这些都提高到一个新的水平,更准确,更准确地工作。然而,通过上面测试的搜索方法,人们可能会感到安全,因为LLM不会在虚假信息中偷偷摸摸。 我认为,通过利用这些合并的资源,科学家可以更快,更熟悉与给定主题有关的一系列结构。进入生物学的新特定子域时,可能最有用。
>我还认为,通过调查LLM和Alphafold 3(或现在正在出现的类似模型)如何不仅可以导航,还可以通过新的方式了解生物分子及其复合物,从而为更多的研究奠定了基础。也许也可以创建受益于LLM的PDB知识的分子图形和建模工具,也可以创建通过自然命令对生物分子结构进行复杂的操作和分析。
>
以上是Epic“ Crossover”在Alphafold 3和GPT-4O之间,对蛋白质数据库条目的了解的详细内容。更多信息请关注PHP中文网其他相关文章!