Web服务器:www.csd.uwo.ca/~yli922/index.php 特征计算流水线:github.com/lucian-ilie/DELPHI 联系邮箱: [email protected] 补充资料:
摘要:
动机:蛋白质通常通过与其他蛋白质相互作用来发挥功能,这就是为什么准确预测蛋白质-蛋白质相互作用(PPI)结合位点是一个基本问题。实验方法既缓慢又昂贵。因此,人们正在努力提高计算方法的性能。 结果:我们提出了一种新的基于序列的深度学习预测PPI结合位点的方法–Delphi(深度学习预测高概率蛋白相互作用位点)。Delphi有一个集合结构,它结合了CNN和RNN组件,并采用了微调技术。除了现有的九个特性之外,还使用了三个新特性:HSP、位置信息和ProtVec。我们在5个数据集上综合比较了Delphi和9个最先进的程序,尽管Delphi的训练数据集与测试数据集的相似性最低,但Delphi在所有指标上都优于竞争对手的方法。在最重要的指标AUPRC和MCC上,它分别比第二好的程序高出18.5%和27.7%。我们还证明,这种改进本质上是由于使用了集成模型,特别是这三个新特性。用Delphi分析表明,这与蛋白质结合残基(PBR)和进化保守性强的位点有很强的相关性。此外,德尔福预测的PBR站点与Pfam的已知数据非常吻合。Delphi以开源独立软件和Web服务器的形式提供。
一、介绍
蛋白质-蛋白质相互作用(PPI)在许多细胞过程中起着关键作用,如信号转导、运输和新陈代谢(Zhang和Kurgan,2018)。蛋白质通过与其他蛋白质形成化学键相互作用。结合氨基酸残基是蛋白质相互作用的结合位点。检测PPI结合位点有助于理解细胞调控机制,定位药物靶点,预测蛋白质功能(Bonetta,2010)。像PDB(Berman等人,2002)这样的数据库存储从每个蛋白质的3D结构得到的蛋白质结合位点信息。 蛋白质-蛋白质相互作用(PPI)在许多细胞过程中起着关键作用,如信号转导、运输和新陈代谢(Zhang和Kurgan,2018)。蛋白质通过与其他蛋白质形成化学键相互作用。结合氨基酸残基是蛋白质相互作用的结合位点。检测PPI结合位点有助于理解细胞调控机制,定位药物靶点,预测蛋白质功能(Bonetta,2010)。像PDB(Berman等人,2002)这样的数据库存储从每个蛋白质的3D结构得到的蛋白质结合位点信息。 学习结构对PPI结合位点分类问题至关重要。以前探索的体系结构包括随机森林(魏等人,2016;Wang等人,2019年)、支持向量机(wei等人,2016)、Logistic回归(Zhang和Kurgan,2019年)、贝叶斯分类器(Murakami和Mizuguchi,2010)、人工神经网络(Singhet等人,2014)。最近,卷积神经网络(CNN)(曾等人,2019年)和递归神经网络(RNN)(张等人,2019a)也被应用于解决这一问题。 本文介绍了一种新的基于序列的PPI结合位点预测方法–Delphi(高概率蛋白相互作用位点的深度学习预测),该方法结合了CNN和RNN结构并结合微调技术。它使用12个特征组来表示蛋白质序列,包括三个新特征:高得分片段对(HSP)、位置信息和简化的3-聚氨基酸嵌入(ProTV Ec1d)。我们在5个数据集上综合比较了Delphi和9个最先进的程序。Delphi提供了所有指标中最好的预测。 DELPHI首先,构建了一种结合CNN和RNN的新型微调集成模型。其次,介绍了首次用于PPI结合位点预测的三个新特征。第三,提供了一个数据处理和特征构造套件,旨在减轻用户繁琐的特征计算的难度。 DELPHI对蛋白质结合位点的预测与高度进化保守的位点之间显示出很强的相关性。虽然这种关系并不是排他性的,但许多结合位点将被保守以维持蛋白质结构。三种不同的哺乳动物蛋白质证明了这一点。此外,德尔福的预测与Pfam数据库中已知的蛋白质结合残基(PBR)进行了比较,这与Pfam数据库中已知的蛋白质结合残基(PBR)非常一致。
二、材料和方法
(一)、数据库
遵循现代机器应用程序的开发流程,我们使用三组数据来训练和评估Delphi的性能:培训、验证和测试。该模型在训练数据上进行训练,并在验证数据上进行验证,以确保低方差,即避免过拟合。经过多次迭代调整,得到了模型,并在独立的测试数据上运行,然后报告了在测试数据上的性能。请注意,该模型在训练和验证过程中从不观察测试数据。
(二)、测试集
比较评估中使用了五个数据集。我们根据数据大小为它们命名:Dset_186、Dset_72、Dset_164、Dset_448和Dset_355。前四个是来自以前研究(Murakami和Mizuguchi,2010)(Dhole等人,2014)(Zhang和Kurgan,2019年)的公开可用的数据集,最后一个是Dset_355,是Dset_448的子集。DSET_186、DSET_72、DSET_164作为基准数据集已被众多出版物广泛使用和探索;DSET_448是较新的。 Dset_186和Dset_72是由Murakami和Mizuguchi(2010)构造的。DSET_186是在PDB收集(Berman等人,2002年)的基础上构建的,其中应用了六步过滤过程来提炼数据,包括去除缺失残基的结构、去除具有相同UniprotKB/Swiss-Prot的链、去除跨膜蛋白、去除二聚体结构、去除一定范围内具有埋藏表面可及性和界面极性的蛋白质以及消除相似性。DSET_72是基于蛋白质基准集3.0版(Hwanget et al.,2008)构建的,去掉了与DSET_186的相似性。 Dset_164是由Dholeet et al.(2014)用与Dset_186和Dset_72相同的过滤技术构建的,这些过滤技术与Dset_186和Dset_72自Dset_186(2010年6月至2013年11月)发表以来在PDB中新注释的蛋白质上的过滤技术相同。 DSET_448是由张和库尔根(2019年)构建的。DSET_448的原始数据来自BioLip数据库(Yang等人,2012年),在该数据库中,如果残基的原子与给定蛋白质伙伴的原子之间的距离<0.5ã加上两个原子的V和Der Waals半径之和,则定义结合位点。通过去除蛋白质片段、将BioLip序列映射到UniProt序列以及进行聚类,进一步处理原始数据,使得在DSET_448中没有超过25%的相似性。这个数据集是最新的,也是最大的。DeST_448不能用于测试顶级竞争程序之一DLPred,因为它包含93种蛋白质,与DLPred的训练集有40%以上的相似性。我们通过从DSET_448中去除这些蛋白质构建了DSET_355。
(三)、训练集和验证集
先从最近的调查报告中获得了大量、高质量的数据集(Zhang等人,2019b)。在这个数据集中,UniProt序列在残基水平上用蛋白质、DNA、RNA和小配体结合信息进行注释。我们对该数据集进行了进一步的处理,如下所示。首先,我们只保留了含有蛋白质-蛋白质结合信息的序列,重点放在蛋白质-蛋白质结合上。然后,我们从训练数据集中删除了与五个测试数据集中的任何序列的相似性超过25%的序列,如PSI-CD-HIT(Li and Godzik,2006;Fu等人,2012)所测量的。众所周知,训练和测试数据集之间的相似序列对机器学习模型的评估性能的泛化有负面影响。此外,通过基于比对的方法可以准确预测相似性水平更高的蛋白质(Zhang和Kurgan,2018年)。在25%到50%的范围内,不同的程序会选择不同的相似性阈值。我们选择了最严格的25%的值来与最接近的竞争对手之一Scriber(张和库尔根,2019年)进行公平的比较。我们使用PSI-CD-HIT,因为它快速、准确,并且在CD-HIT套件中维护良好。我们在其余的蛋白质序列上再次运行了PSI-CD-HIT,所以没有一个序列的相似性超过25%。这确保了训练数据尽可能多样化,以及训练数据集和验证数据集之间的不同之处。构建了9982个蛋白质序列的数据集。我们从其中随机选取八分之一(8872)作为训练数据集,九分之一(1110)作为验证数据集。
(四)、输入特征
DELPHI使用了12个特性组,如表2所示,其中还给出了维度和每个特性组。因此,每个输入由39维特征向量轮廓表示。据我们所知,这项研究是第一次将热休克蛋白、ProTV ec1d和位置信息用于结合位点分类问题。下面将描述这两个新特征中的每一个的计算。
表1.用于训练、验证和测试的数据集。这些列按顺序给出了数据集名称、每个数据集中的蛋白质数量、残基总数、结合数量、每个数据集中的非结合残基数量以及结合残基占总残基的百分比
表2.DELPHI使用的功能组。第一列表示每个功能的名称。第二列描述了用于获取该功能的程序。“Load”意味着特定氨基酸的值是从以前的工作中得知的,并且它被加载到Delphi程序中。“Compute”表示Delphi对该功能执行额外的计算。最后一列显示了每个功能组的维度。完整的细节在正文中给出。
高得分片段对(HSP):HSP是两个蛋白质之间的一对相似的子序列。相同长度的两个子序列之间的相似性通过评分矩阵(如PAM和Blosum)来衡量。Sprint(Li和Ilie,2017)用于计算所有HSP,因为它在训练和测试中快速准确地检测所有蛋白质之间的相似性。获得热休克蛋白后,测试蛋白P的第i个残基的分数P[i],表示为热休克蛋白分数(P[i])。假设我们在P和训练蛋白Q之间有一个HSP(u,v),使得u覆盖残基P[i],也就是说,P中的位置i在u覆盖的范围内。设j是Q中与i对应的位置,也就是说,从i开始到i的距离INP与Q中从v开始到j的距离相同。如果Q[j]是已知的相互作用残基,那么我们将P[i]和Q[j]之间的PAM120分数相加。
3-聚氨基酸嵌入(ProTV Ec1d):我们在ProTV EC(Asgari and Mofrad,2015)的基础上开发了这一功能。ProTV EC使用word2vec(Mikolov等人,2013年)为每个氨基酸3-聚体构建100维嵌入。在(Asgari and Mofrad,2015)中,ProTV EC可以应用于蛋白质家族分类、蛋白质无因化、结构预测、无序蛋白质识别和蛋白质-蛋白质相互作用预测等问题。由于在我们的程序中使用ProTV EC嵌入显著降低了深度学习模型的速度,特别是在训练期间,我们将100维向量替换为一维值,即100个分量的总和;我们称之为ProTV ec1d。根据我们的测试,ProTV ec1d在其他特征方面达到了与protv ec相同的预测性能。 在计算了所有特征向量之后,使用公式(1)将每个行向量中的值归一化为0到1之间的数字,其中v是原始特征值,并且max和min分别是在训练数据集中观察到的最大和最小值。这是为了确保每个要素组具有相同的数值比例,并帮助模型更好地收敛。
(五)、模型架构
DELPHI架构灵感来自于整体学习。设计的直觉是,模型的不同组件捕捉不同的信息,另一个深度神经网络被训练成只选择最有用的。如图1所示,该模型由三部分组成:卷积神经网络(CNN)组件、递归神经网络(RNN)组件和集成组件。CNN和RNN组件的核心层是卷积和双向门控递归单元(GRU)层。合奏模型对前两个分量的输出进行解码。 该模型的另一个非常有用的特点是它的多对一结构,这意味着许多残基的信息被用来预测中心单个残基的结合倾向。如图2所示,对于作为预测目标的每个氨基酸,以氨基酸位置为中心的31个大小的窗口被用来从邻近的30个残基收集信息,以帮助预测。一个滑动窗口被用来捕捉每个31-mer。尺寸31是通过实验确定的。序列的开始和结束部分用零填充。多对一结构有两个优点。首先,它是一种数据增强技术。深度学习模型需要大量的数据进行训练,与图像分类器相比,蛋白质组学中的模型能够获得的数据要少几个数量级。在训练过程中多次使用每个残基有助于模型更好地学习。其次,它使模型更具稳健性。蛋白质序列的长度从不到一百到几千不等,大多数多对多模型的固定输入长度接近500。在训练过程中,通常选择长度在500左右的序列。然而,在测试过程中,输入序列是随机的,需要填充或切成碎片。训练和测试之间的平均长度不同可能会使模型变得不那么通用。
(六)、CNN模型架构
CNN模型一具有简洁的结构:一个卷积层、一个最大层、一个平坦层和两个完全连通的层。对于每个大小为31的输入子序列,构建大小为39×31的2D特征轮廓。2D向量被重塑为3D,然后传递到卷积2D层,随后是最大合并层。使用卷积和最大值层的直觉是,2D蛋白质剖面向量可以被认为是具有一个通道的图像,并且CNN模型捕捉局部图像中多个要素的组合。结果是平坦的,然后馈入两个完全相连的层,然后丢弃进行正则化。最后一个完全连通的层有一个具有**函数Sigmoid的单元,因此输出是0到1之间的单个值。值越高,CNN模型声称剩余的是PPI结合位点就越有把握。
|
请发表评论