新的人工智能模型proteinggenerator通过序列和结构集成革新蛋白质设计

2025-05-24 06:29来源:本站

  

  作者:Chinta sidharthanl博士,评论:Lily Ramsey, llmot22024

  设计具有特定功能的新型蛋白质是生物技术和医学的主要目标之一。

  然而,它提出了一个复杂的挑战,因为蛋白质的功能不依赖于0不仅在氨基酸序列上而且在三维上nal (3D)蛋白结构,需要同时探索。

  在最近发表在《自然生物技术》上的一项研究中,来自美国的一组科学家开发了一种序列空间扩散模型,使用深度学习方法来探索蛋白质的结构和序列,有可能改进多功能蛋白质的设计。

  研究:多状态和功能利用RoseTTAFold序列空间扩散进行nal蛋白设计。图片来源:Corona Borealis Studio/Shutterstock.com

  蛋白质是所有生命形式的基本分子。它们具有广泛的功能,从提供结构构建块和催化生物反应到促进细胞和器官之间的通信。

  蛋白质独特的三维结构决定了它们的功能,而这种结构又依赖于构成蛋白质的氨基酸序列。

  大量的生物技术研究集中在设计具有特定功能的蛋白质上。然而,同时探索蛋白质的序列和结构方面一直具有挑战性,尽管已经设计了各种计算方法来解决这一挑战。

  基于深度学习的去噪扩散概率模型(ddpm)是一种生成模型,它可以通过最初向结构中添加噪声或随机变化,然后逐渐去除噪声来生成新的蛋白质骨架,从而提高设计过程的灵活性。

  虽然ddpm已经应用于广泛的领域,但它们在蛋白质设计中的应用受到限制。

  在本研究中,研究人员假设一种使用ddpm的方法专注于序列空间扩散,将使基于序列和结构特征的蛋白质设计成为可能,并提高创建具有多种可能折叠和功能的蛋白质的能力。

  他们使用了一种名为RoseTTAFold的基于深度学习的软件工具,该工具可以利用有限的信息预测蛋白质结构,并将其用于序列空间扩散。

  该研究涉及对ddpm的微调和实施,用于蛋白质序列的生成和设计。氨基酸序列用数字表示,称为单热张量,其中正确的序列被赋值为1,其他序列被赋值为-1。这允许模型逐渐向数据中添加噪声或随机变化,然后逐步去噪。

  该过程包括根据特定模式逐步将噪声引入序列。DDPM经过训练,通过最小化两种错误,即序列本身的分类交叉熵损失和蛋白质结构的框架对齐点误差,来破译正确的蛋白质序列和结构。

  该模型同时使用带有噪声的随机序列和一个空的蛋白质结构,并逐步改进序列和结构,以获得更高的准确性、更好的预测和更低的噪声。

  此外,利用序列和结构指导形式的额外信息使模型的预测更加可靠。

  然后通过实验对模型的结果进行测试,以确保蛋白质的正确折叠和稳定性。此外,还进行了折叠分析和溶解度测试来验证蛋白质的性质。

  研究人员开发了一种新的蛋白质序列生成方法,称为ProteinGenerator,使用去噪扩散概率模型。

  结果表明,ProteinGenerator显著优于早期的蛋白质设计模型,并生成具有特定结构和性质的结构多样的蛋白质。

  该方法将重要的结构基序整合到设计的蛋白质中,对这些结构的预测非常准确,误差小到2埃。此外,新生成的蛋白质中的氨基酸组成与自然发现的蛋白质相似。

  在ProteinGenerator设计的42种蛋白质中,有32种是可溶的,并且是单体的,这表明它们在溶液中不会结块。

  这些蛋白质在高达95°C的温度下也很稳定,这表明这种方法可以设计出在现实条件下稳定的蛋白质。

  ProteinGenerator设计的含有缬氨酸、半胱氨酸和色氨酸等稀有氨基酸的蛋白质也稳定且可溶。含有半胱氨酸的分子能够形成二硫键,这增加了它们的稳定性。这些蛋白质也形成了预期的二级结构,如-薄片和-螺旋。

  结果表明,ProteinGenerator能够调节蛋白质的疏水性和等电点等特性,这对药物设计和生产治疗性蛋白质具有重要价值。

  该方法还成功地设计了用于细胞识别和信号传导的重复蛋白,释放活性肽的蛋白质,以及在蛋白质上添加条形码以进行识别。

  综上所述,研究结果表明,基于ddpm的蛋白质序列生成工具ProteinGenerator可以创建具有特定性质的多种功能蛋白质,这些蛋白质在广泛的条件下也是稳定的。

  这些新生成的蛋白质也与天然蛋白质密切匹配,通过这种方法生成的蛋白质的多样性突出了它在药物发现和其他生物医学领域的实用性。

纳趣吧声明:未经许可,不得转载。