生成性药物设计是一种利用人工智能和机器学习技术来设计新药物的方法。它涉及到使用算法从头开始设计新分子,优化化合物的特性,以及预测化合物的生物活性和毒性等。PP电子的官方网站
该方法有可能识别未被充分探索的化合物类别和现有库中不存在的新化合物,促进创新治疗策略的发展。
然而,生成的分子的实用性往往有限,因为许多设计只关注一组狭窄的药物相关特性,无法提高后续药物发现过程的成功率。
10 月 29 日,发表在 Nature Communications 上的一篇文章显示,来自微软研究院科学智能中心的团队提出了一种名为TamGen(目标感知分子生成)的方法,TamGen 具有类似 GPT 的化学语言模型,旨在生成类似药物的化合物。
生成式预训练 Transformer(GPT)是大型语言模型的骨干,它不仅能生成文本,还能生成图像和语音,以及理解和解决科学问题 。
TamGen 具有三个模块:(1)化合物解码器,一种类似 GPT 的化学语言模型和 TamGen 的核心组件,为化学空间中的化合物生成奠定了基础;(2)蛋白质编码器,一种基于 Transformer 的模型,用于编码目标蛋白质的结合位;(3)用于化合物编码和细化的上下文编码器。
为了对 TamGen 的整体性能进行基准测试,研究人员将其与 5 种方法进行了比较:liGAN、3D-AR 、Pocket2Mol、ResGen 和 TargetDiff 。这些方法专注于在 3D 空间中直接生成化合物,以便将蛋白质结合位点与多种深度学习技术相匹配。
他们在 CrossDocked2020 数据集上评估了这些方法和 TamGen,该数据集是从 PDd 精选出来的成熟基准数据集。使用每种方法在 CrossDocked2020 测试集中为每种目标蛋白生成了 100 种化合物。
评估指标包括:与目标蛋白的结合亲和力;药物相似性;合成可及性评分 (SAS);LogP,分子亲脂性的指标。此外,研究人员还量化了每种方法生成具有分子多样性的多样化化合物的能力。PP电子 app
结果发现,每种方法在不同指标上各有优劣,TamGen 整体表现性较好。例如,TamGen 在 6 个指标中的 5 个中排名第一或第二,并表现出最佳的整体性能。这一发现表明 TamGen 能够在生成过程中同时优化化合物的多个方面。
其中,合成可及性是这些指标中影响候选药物实用性的重要因素,特别是对于新型化合物。为了弄清 TamGen 为何能生成具有高结合亲和力和高合成可及性评分的化合物,他们检查了 TamGen 和其他方法生成的得分最高的化合物。
分析表明,TamGen 倾向于生成具有较少稠环的化合物。且其生成的化合物中稠环的数量与 FDA 批准的药物非常接近。
接下来,研究人员使用 TamGen 生成了针对结核病 ClpP 蛋白酶的化合物,结核病是一种由结核分枝杆菌(Mtb) 引起的传染病。除了之前发现的硼替佐米(一种靶向人类 26S 蛋白酶体并表现出对细菌 ClpP 的抑制活性的肽模拟化合物)外,目前尚无记录的先进抗生素 ClpP 抑制剂。ClpP 是酪蛋白水解蛋白酶P,它是细菌蛋白质降解系统中必需的丝氨酸蛋白酶,也是抗生素开发的新兴靶点。
团队采用了由 TamGen 驱动的设计-改进-测试流程来识别潜在的 ClpP 抑制剂。在设计阶段,利用从蛋白质结构获得的 ClpP 结合口袋,TamGen 生成了 2612 种独特的化合物。
然后使用分子对接和 Ligandformer(一种用于表型活性预测的 AI 模型)筛选这些化合物。在此阶段,排除了与硼替佐米相比对接得分较差的化合物和 Ligandformer 预测的无活性化合物。肽模拟物也被排除在外,因为它们的 ADME(吸收、分布、代谢、排泄) 特性不理想,这是硼替佐米的已知缺点。最后,确定了 4 种种子化合物,用于接下来的改进阶段。
在优化改进阶段,使用 TamGen 生成以目标蛋白和种子化合物为条件的化合物。在这里,除了 TamGen 生成的 4 种代表性化合物外,研究人员还从之前的实验中确定了 3 种具有弱抑制活性的化合物(IC50在 100–200 μM 范围内对结核分枝杆菌 ClpP 有效)。以 ClpP 和这 7 种种子化合物为条件,使用 TamGen 生成了 8,635 种独特化合物,并按照与设计阶段相同的程序筛选化合物。最后,从这些生成的化合物中选出 296 种用于测试阶段。
在测试阶段,确定了 159 种类似物,其中有 5 种在 ClpP1P2 肽酶活性测定中表现出显著的抑制作用。后续剂量反应实验表明,这 5 种化合物的 IC50值均低于 20 μM,其中 Analog-005 脱颖而出,IC50为 1.9 μM。
随后,研究人员利用 TamGen 合成了上述筛选出来的化合物中,抑制效果优良的化合物的衍生物。均证实具有抑制效果。
总而言之,通过 TamGen 支持的设计-改进-测试过程,研究人员确定了与 ClpP 蛋白相互作用的方式与硼替佐米不同的化合物,从而揭示了未来发现 ClpP 抑制剂的新机制。这些化合物具有苯磺酰胺和二苯脲基团作为骨架,与肽模拟物硼替佐米完全不同,为提高 ClpP 抑制剂的生物利用度和分子稳定性提供了一种可能的解决方案。
最后,作者也讨论了 TamGen 成功的原因,并将其归因于 3 个主要因素。首先,嵌入在预训练化合物解码器模型中的化学知识能够生成符合化学规则并具有有利于药物开发的特性的高质量化合物;其次,结合顺序和几何信息的有效结合口袋表示支持稳健的化合物生成;最后,基于变分自动编码器 (AE) 的上下文解码器允许使用文献中报道的或在前几轮中确定的候选分子来细化命中化合物,从而为给定目标生成改进的化合物。
然而,TamGen 并非没有局限性。例如,它不够灵敏,无法区分具有微小差异的靶标,例如点突变或蛋白质异构体,而这对于针对癌症相关蛋白质和其他疾病的药物设计至关重要;此外,作为一种基于结构的药物设计方法,TamGen 的应用需要靶蛋白的结构和潜在的结合口袋信息。
作者也提到,由于 TamGen 主要专注于识别和扩展目标化合物,尚未对所提议化合物的细胞活性和毒性进行广泛测试。为了进一步推进药物发现流程,需要对这些候选化合物进行额外的评估和优化。
Copyright © 2019-2023 PP电子「中国」平台网站 版权所有 备案号:鄂ICP备12015236号