PP电子的官方网站逆向折叠模型指的是通过已知的蛋白质三维结构推导出氨基酸序列,在基于结构的设计中起着重要作用。如逆向折叠模型 ProteinMPNN 已被训练用来可靠地从已知结构中生成序列。
然而,由于这些模型主要从较长蛋白质衍生的数据上进行训练,导致其在肽设计任务中表现不佳,倾向于生成重复的序列,缺乏多样性,且不能正确折叠成目标结构的序列。
多肽是由 2-50 个残基组成的小型聚合物,作为激素、神经递质、信号分子等参与人体各种生物功能,并在药物设计、药物递送等领域有广泛应用。因此预测多肽的氨基酸序列及结构对于其功能研究有重大意义。
然而,目前研究仅确定了大约 225,000 个蛋白质结构,可通过蛋白质数据库(PDB)获得。由于蛋白质结构复杂性和实验数据量的限制,以监督方式训练逆向折叠机器学习模型面临多种挑战,尤其是在肽领域。事实上,在 PDB 中,显示标记为“肽”的结构,仅 509 个条目,约占所有实验确定的可用结构的 0.2%。
除了缺乏数据,多肽序列还存在组成偏差,某些氨基酸可能因序列长度的不同而产生不同折叠,较长的蛋白质则有更多的选择来容纳多个二级结构和折叠环。目前广泛应用的模型如 ProteinMPNN、PiFold 和 ESM-IF1 等主要是根据较长蛋白质的数据进行训练的,导致其在肽设计任务中表现不佳。此外,较短的序列可以折叠成更简单的结构。有研究者认为短肽是 “无结构”的,并且倾向于在构象之间变化,即其结构可能具有波动性。
为了攻克以上难点,该论文提出了一种新的手段:应用 DPO,改进肽逆向折叠设计。
DPO 通过用户反馈直接优化模型的输出,以符合用户的偏好。据悉,该研究团队是第一个将 DPO 应用于这项任务的人。
在这项工作中,研究人员基于 ProteinMPNN 模型提出适应肽设计的方法。ProteinMPNN 利用主链特征(主链原子之间的距离和方向,主链二面角等)生成完整的氨基酸序列。利用 PDB 中的数据训练 ProteinMPNN,在天然蛋白质主链上,其序列恢复率达到 52.4%,而 Rosetta 为 32.9%。
研究人员通过增强 DPO 解决肽逆向折叠中出现的特定问题。特别是,他们对生成的序列进行前向折叠,并推导出一种在线正则化算法,用于同时优化与参考结构的结构相似性和序列多样性。
具体而言,是通过一种创新的奖励缩放方法结合 TM-score,该方法可根据序列质量自适应地调整优化过程,更好地平衡结构相似性和多样性。前者是一种在强化学习和机器学习中用于调整模型行为的技术,这种方法通过调整奖励信号的强度来影响模型的学习过程,使其更适应特定的任务或数据分布;后者则是一种用于评估蛋白质结构相似性的度量方法。
结果显示,与基础 ProteinMPNN 相比,微调后的模型以 OpenFold 生成的结构为条件时,实现了至少 8% 更好的结构相似性得分。与标准 DPO 相比,这项方法在不损失结构相似性得分的情况下,实现了高达 20% 的序列多样性提升。这对于扩大药物发现和材料科学中的肽设计应用至关重要。
总的来说,该研究通过对被广泛采用的逆向折叠模型 ProteinMPNN 进行 DPO 微调,用于生成多样化和结构一致的肽序列,并进行了在线多样性正则化和领域特定先验等增强,以准确估计和提高多样性。为未来通过微调进行肽设计的研究奠定了基础。PP电子 游戏
Copyright © 2019-2023 PP电子「中国」平台网站 版权所有 备案号:鄂ICP备12015236号