多年来,计算机和数据科学方法在化学科学(以及与化学品相关的更广泛的应用领域)中显着增加。其中很多都集中在理论化学、分子模拟和计算上,旨在阐明不同化学物质的结构和特性。近年来,人们对化学信息学也越来越感兴趣。
就目前情况而言,尽管我们掌握了有关不同化学物质和分子种类的所有信息,但仍有很大一部分化学空间仍未被识别。在试图了解如何在生物环境中使用其他化学物质时尤其如此。多年来,随着药物开发和药物化学已成为有机化学的一些更普遍的领域,人们对确定不同化学物质在生物环境中的行为越来越感兴趣。
化学信息学和化学空间编目
化学信息学是一种使用计算资源解决实际化学问题并将数据转换为可提取信息的方法。与其他计算化学方法相比,它使用实际物理数据来提供见解,而不是根据最佳理论预测化学结构和性质。
今天使用了几种不同的化学信息学分支,包括存储和检索化学信息、充当化学信息库以及作为筛选工具(使用存储的数据)来确定哪些化学物质可能具有生物活性。对于化学科学,尤其是工业方面,这是一个很有价值的领域,因为与使用多种反复试验方法相比,它可以节省时间和成本。
为了使化学信息学有效,它需要访问大量数据。由于化学空间如此广阔,科学家们发明了一系列化学描述符来编码小分子的这些物理化学和结构特性——分子指纹是一种广泛的化学描述符形式,用于确定化学物质的不同亚结构。
描述符是化学信息学的基本部分,允许使用数据执行化合物相似性、聚类、计算药物发现 (CDD)、结构优化和目标预测操作。对于药物发现应用,生物活性特性也是关键,根据可用数据,可以使用其他数值表示来推断分子的生物活性,这些数值表示捕获不同分子的已知生物特性。这是通过使用生物活性特征。
从化学信息学的角度来看,生物活性特征是捕捉分子不同生物学特性和特征的多维向量。这些签名被处理成与化学信息学中通常使用的结构描述符和分子指纹兼容的格式。第一个生物学描述符捕获了小分子的配体结合亲和力和靶标谱,揭示了几个以前未知的关联,此后已将其用作构建不同分子生物活性特性的起点。
建立有用的化学数据库
目前,公开可用的化学数据库只有大约一百万个分子的实验确定的生物活性数据,虽然这听起来很多,但它只是市售化合物的一小部分。这意味着大多数化合物都没有生物活性特征/生物活性描述符。实际上,这限制了计算药物发现方法,因为这些操作可用的关于不同分子生物活性的信息是有限的。
该团队最近将研究人员已知的主要化学基因组学和药物数据库整合到一个名为 Chemical Checker 的系统中。通过这样做,他们创建了迄今为止最广泛的小分子生物活性特征集合。在 Chemical Checker 中,不同的生物活性特征按数据类型(例如毒理学特征、细胞敏感性)进行组织,并遵循化学到临床的基本原理,从而能够在药物发现管道的每个步骤中选择相关的特征类别。
化学检查器是一种表示公共领域中所有小分子知识的不同方式。虽然将所有这些信息汇总到一个中央系统中是有帮助的,但该数据库与其他数据库一样,受到实验数据可用性的限制。当每个分子都有大量的生物活性数据可用时,该数据库更有用,因此它对于表征不佳的化合物仍然有限。
用神经网络了解化合物的生物活性
在生物活性是关键参数的行业中,缺乏知识会阻碍这些计算操作的性能,但 AI 神经网络可以提供一种方法来克服这一点。使用他们之前构建的 Chemical Checker 数据库,研究人员现在使用一组深度神经网络,特别是 Siamese 神经网络,来推断任何感兴趣的化合物的生物活性特征,即使在很少或没有可用的实验信息时也是如此。
研究小组观察到,特征中的不同生物活性空间并不是完全独立的,因此推断出每种给定的生物活性类型之间存在相似性。结果表明,签名类型中的这些相似性可以转移到其他数据集。
该方法使签名能够在更粗略的级别上进行解释,指示哪些签名对不同的预测任务具有更多信息。当前的研究只研究了 25 种不同的特征类型,但这仍然为其他生物活性特性提供了足够的预测信息,使它们可以在日常化学信息学任务中用作化学描述符的替代品。由于神经网络的工作方式,Chemical Checker 数据库中的化学描述符可能会演变和变化,但研究人员表示,他们每年都会为数据库发布更新的签名器。
除了日常任务之外,研究人员还研究了神经网络在一个几乎没有特征的化合物库上使用这些预测特征的能力。这是通过识别针对药物孤儿靶标 Snail1 的化合物,并实施一组特征-活性关系 (SigAR) 模型来预测分子的生物物理特性来完成的。
这种方法能够为数据库中具有未知特征的化合物生成生物活性特征。这种 AI 分析(使用特征相似性)可以用于预测未表征分子的生物活性。
整体展望
虽然没有物理、实验数据,没有任何计算工具是完美的,但这里的方法可以对不同化合物的生物学特性进行首次估计——使用不同特征类型内的相似性——使研究人员能够了解是否存在特定化合物对特定药物方法有帮助的潜力(如果是,则进一步调查)。
由于现在可以为任何化合物提供生物活性特征,在相对置信度内,Chemical Checker 数据库可以成为药物发现应用程序的参考工具,以检查化合物的预期生物活性并查看它是否值得进一步的兴趣和研究,或者其他选择是否可能更好。
制药公司和药物发现研究人员可用的计算工具越多,就可以在不采取过多试错方法的情况下做出更好的决定,从而减少将新药物和疗法推向市场的时间和成本。工具越多越好,而且在很多情况下,它们与其他计算方法结合使用,因此只要一种方法中存在信息不足的地方,通常可以使用另一种过程来填补空白——所以工具越多,更好的。