在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
DART: a fast and accurate RNA-seq mapper with a partitioning strategy Abstract Motivation(动机): 近年来,大规模并行cDNA测序(RNA-Seq)技术已成为提供高分辨率测量表达和检测低丰度转录本的高灵敏度的强大工具。 但是,RNA-seq数据需要大量的计算量。 最根本和关键的步骤是将每个序列片段与参考基因组进行比对。近年来已经开发了各种从头拼接的RNA排列器。 虽然这些对齐器可以处理拼接对齐和检测拼接连接,但仍有一些挑战仍然有待解决。 随着测序技术的进步以及ENCODE项目中正在进行的测序数据的收集,高度需要更高效的比对算法。大多数读取映射器遵循传统的种子扩展策略来处理序列比对的不精确匹配。 但是,扩展比播种步骤花费更多时间。 Results: 我们提出了一种新的RNA-seq de novo映射算法,称为DART,采用分区策略来避免扩展步骤。 合成数据集和实际NGS数据集上的实验结果表明,与大多数最先进的对准器相比,DART是一种高效的对准器,可以产生最高或可比的灵敏度和准确度,更重要的是,
1.Introduction 转录组分析是基因组结构和活性的全基因组研究。它涉及新型转录本的鉴定和基因表达的量化。DNA微阵列技术是研究基因表达水平的非常流行的方法。然而,探针 - 靶标杂交限制了表达测量的准确性,并且也限制了仅研究设计探针的那些基因(Zhao等,2014)。 随着近年来新一代测序(NGS)平台的出现,大规模并行的cDNA测序(RNA-Seq)技术已成为另一个强大的工具在检测低丰度转录本时提供高分辨率的表达和高灵敏度测量。RNA-Seq不需要事先基因注释,因此能够研究未知的转录物。最近的研究表明RNA-Seq在转录组分析中显示出超过微阵列的优越性,尽管DNA微阵列是不可替代的,并且它们在进行转录谱分析实验时仍被广泛使用(Fu等人,2009; Sirbu等人,2012; Zhao等人,2014)。其中一个主要原因是RNA-Seq数据分析要复杂得多。它需要大量的计算工作。典型的人类RNA测序实验可以产生高达数十亿个短序列片段。RNA-Seq分析中非常重要的关键步骤是将每个序列片段(或阅读)与参考基因组进行比对,随后进行基因的定量和差异表达基因的鉴定(Garber等,2011)。 将DNA重新测序或RNASeq与参考基因组进行短读取的比对是鉴定读取起始点的坐标。然而,RNA-Seq比对的任务比常规DNA测序比对更具挑战性。尽管两种类型的比对都包含不匹配,插入和由于基因组变异和测序错误引起的缺失,真核生物中成熟的mRNA转录物被修饰并且它们在基因序列中不包括基因内区域(或内含子)。因此,剪接的RNA跨越一个或多个内含子并连接相邻或远处的外显子,这可能导致排列不连续并且被大的间隙分开。尽管Erange(Mortazavi等人,2008),OSA(Hu等人,2012),SpliceSeq(Ryan等人,2012)等一些RNA-Seq定位人员将读段与转录组进行比对以避免内含子在参考文献中,大多数研究的生物体的基因注释是不完整的。基于转录组的排列会偏向已知的转录本。因此,从头拼接的RNA测序仪更适用于分析RNA-Seq读数以检测新的剪接连接。 近来开发了各种从头拼接的RNA校准器包括QPALMA(De Bona et al。,2008),TopHat(Trapnell等,2009),GSNAP(Wu和Nacu,2010)(GSTRUCT是其后续版本),PALMapper(Jean等,2010),MapSplice(Wang等,2010),RUM(Grant et al。 2011年),GEM(Marco-Sola等,2012),STAR(Dobin等,2013),TopHat2(Kim等,2013),HISAT(Kim等,2015)和Subread(Liao等,2013)。总之,大部分短读取对齐者基本采用种子扩展策略(Li和Homer,2010),这种策略在性质上是连续的,并且需要更长的时间处理不匹配的步骤。 在播种步骤中,aligners使用哈希表或后缀数组(SA)/ Burrows Wheeler Transform(BWT)索引(Wheeler,1994)来执行种子探索。基于哈希表的对齐器使用k-mers的所有子序列来获得发生位置。相反,基于SA / BWT的对准器在读取序列和参考基因组之间找到最大精确匹配(MEM)。MEM是两个序列之间的最大精确匹配,如果不允许,不能进一步扩展不匹配。MEM已被广泛用作全基因组比对和NGS阅读比对的种子(Choi等,2005; Li和Durbin,2009; Liu和Schmidt,2012)。在扩展步骤中,可以使用动态规划算法或与启发式算法相结合通常用于处理读取中的不匹配或indel比对。 外显子阅读是一个阅读,可以完全对齐在相应的外显子和它与参考基因组的比对是相对直接的。 相比之下,更具挑战性RNA-Seq比对中的任务是处理跨越一个或多个的读取更内含。它们在本文中被称为跨越读取。上面提到的许多RNA-Seq对齐策略都采用类似的策略处理跨度读取。跨越式读取被分成适当的片段,并且每个片段可以与参考基因组连续对齐,并且合适的内含子大小内的所有期望的子对齐被合并以形成完整的对齐。但是,这些定位器在处理剪接点对齐方式上有所不同。 QPALMA使用支持向量机(SVM)从转录组数据集中学习剪接连接。然后根据训练的评分函数推断来自种子区域的拼接比对。TopHat分两个阶段查找路口。它使用Bowtie / Bowtie2将所有读取映射到引用,然后组合映射的读取以生成连续的共有序列(称为岛)。然后它构造来自邻近岛屿的所有候选拼接路口这可能形成规范(GT-AG)内含子。GSNAP用来自相邻拼接位点的核苷酸频率的概率模型识别剪接点。MapSplice将读取序列分割成一些连续的片段并标识每个片段的外显对齐。如果段包含拼接对齐时,可以使用具有外显对齐的邻近片段之间的双锚定搜索方法容易地发现剪接连接。STAR找到用于外显对齐的Maximal Mappable Prefix(MMP,类似于MEM)。它反复发现MMP的读取未映射部分,因此,拼接结点可以自然发现。HISAT是第一个aligner采用分层索引策略(全球和全球本地FM索引)进行拼接对齐。它适用不同的策略以处理不同的外显子和拼接对齐类型。Subread通过双扫描程序检测拼接连接。它为每次读取(第一次扫描)确定最佳两个映射位置之间的连接点,然后通过检查所有映射可能性(第二次扫描)来验证联结。 大多数上述对准器需要相当长的计算时间来提高对准灵敏度和准确性。随着测序技术的进步以及ENCODE项目中不断收集的测序数据的收集,要求更高效的算法来处理大量的短读数以及相关的序列变异(Engstrom et al。,2013)。此外,如果测序错误发生在邻近位置,一些对准器可能无法检测到接头连接。在这项研究中,我们提出了一种新的RNA-Seq映射算法,称为DART(基于分区的RNA-Seq转录本对齐)来处理拼接对齐,无需任何注释指导。它来源于我们的DNA读取映射器Kart(Lin和Hsu,2017)。 DART采用分区策略处理RNA-Seq转录本比对。与大多数试图通过动态编程步骤在两个方向上扩展种子的读取对齐器不同,DART将读取序列划分为一个或多个段以替换种子扩展步骤。合成数据集和实际数据集上的实验结果表明,DART是一种高效的校准器,可以在选定的校准器中获得最高的灵敏度和准确度,并且花费最少的时间。 我们描述了DART中对齐算法的细节 Methods部分。然后我们分析并比较其结果中一些选定的最先进的对准器的性能 部分。DART可以从https://github.com/hsinnan75/DART免费下载。
2。材料和方法 DART的一个独特功能就是它我们采用分区策略来处理读序列和参考基因组之间的匹配和不匹配。DART分隔读取对齐分成两组:简单区域对(缩写为简单对)和正常区域对(正常对),其中所有简单对具有完美对齐(完全匹配),并且正常对需要无间隙或间隙对齐(由于不匹配或indel)。简单对和正常对都称为片段对。一旦片段对被识别出来,它们就可以被分开处理和对齐,并且最终的映射结果就是每个片段对对齐的连接。 DART的映射算法由两个主要步骤组成:种子探索和候选对齐处理。图1说明了算法的思想。给定读取序列R,DART会在种子浏览步骤中使用BWT搜索算法标识所有简单对。在候选对齐步骤中,相邻的简单DART 191对根据其坐标聚类。例如,图1中的四个简单对SPA,SPB,SPC和SPD聚集在一起,因为它们在邻近区域中对齐。然后,DART填充简单对之间的空白,如果它们处于同一个外显子区域。SPA和SPB之间的差距出现是因为在读取序列中发生了删除,而SPC和SPD之间出现了删除因为在读序列中发生了测序错误。 从而,DART将生成两个内部音素间隙的相应的法线对。相邻的简单对和补充法线对形成给定读取序列的完全对齐。 值得注意的是SPB和SPC之间的差距是由于拼接它被称为基因内间隙。没有必要为这种差距添加正常的配对。DART发现拼接连接根据相邻片段对之间的基因内间隙。描述了两个主要步骤的详细实施下面。 2.2种子探索 考虑读取序列R, 为了简单并且不失一般性,我们假设G在下面的描述中是G和G'的连接。令R [i1]为R的第i个核苷酸,和R [i1,i2]是R [i1]和R [i2]之间的子序列。同样,设G [j1]为G的第j个核苷酸,G [j1,j2]为G [j1]与G [j2]之间的子序列。在长度为l的BWT阵列上的局部极大精确匹配(LMEMs)被定义为R [i1,i2]与G [j1,j2](即R [i1,i2] = G [j1,j2])之间的公共子串)并且不能在R [i1,i2]和G [j1,j2]的任一方向上扩展而不允许不匹配。这个LMEM由一个4-元组(i1,i2,j1,j2)其中i2 - i1 = j2-j1 = 1 - 1。我们用DPos(j1-i1)来表示LMEM的位置差异。Dart通过遍历BWT数组来找到所有LMEM。 遍历算法与(Li和Durbin,2009)中描述的算法相同。对搜索算法感兴趣的读者可以参考文章。如果精确匹配在R [i2 + 1]处遇到不匹配,即R [i1,i2]是参考序列的子串,则R [i1]的遍历从R [i1]开始并停在R [i2]处,而R [i1,i2þ1]不是。接下来的LMEM勘探将从R [i2þ1]开始直到它到达读取序列的末尾。DART仅保留尺寸不小于预定义阈值k且出现次数小于50的LMEM。值k是基于参考基因组的大小确定的。 然后根据事件将每个合格的LMEM转换为一个或多个简单对。如果R [i1,i2]在G中有多个副本,则每个副本分别由4元组表示。例如,R [1,20]是匹配G的两个子串的最长子串,比如G [501,520]和G [1001,1020], 因此LMEM将被转换为两个简单对,分别是(1,20,501,520)和(1,20,1001,1020)。简单的配对SPA,SPB,SPC图1中的SPD是通过数组遍历找到的LMEM的例子。在玩具的例子中,由于indel错误,拼接连接和不匹配,数组遍历中断,最后到达读取序列的末尾。 图1. DART的映射思想。映射可以分为简单的和正常对分别处理完全匹配和不匹配
2.3候选人队列处理 所有由种子探索步骤确定的简单对都按其基因组位置排序。如果相邻的简单对的基因组位置在用户定义的距离阈值内,则它们聚集在一起。该阈值可以定义为最大内含子大小。考虑在最大内含尺寸内的简单对在同一个抄本中,因此应该放在同一个集群中。聚类过程从列表上的第一对简单对开始,并检查下一个简单对是否在距前一个简单对的距离阈值内。 如果他们真的是邻居,我们把它们放在同一个簇中检查下一个简单的对与新增加的一对。否则,当前群集不再扩展,并为该简单对创建一个新群集。聚类过程继续,直到所有简单的对都聚集为止。然后每个集群按其简单对的总长度进行评估。为避免延迟处理不可能是真正对齐的群集,DART仅保留产生最长长度(表示为L)或高于L-20的群集。但是,如果输入数据由双端读取组成,则DART将首先比较两个配对结束读取的群集,并保留满足配对结束条件的所有群集。 读对齐将从一个简单的对集群构建。由于串联重复,相同簇中的两个简单对可能会重叠或序列变化。在这种情况下,基因组和阅读部分中的重叠部分将从较短的简单部分中切除以确保所有简单对不重叠。有时简单的对可以相互交叉。在这种情况下,我们删除导致这种错位的简单对。如果聚类中的简单对在阅读序列或基因组序列中显示缺口,则DART将识别与其相对应的正常对填补所有空白。请注意,基因间的差距被忽略,因为它们的存在是由于剪接连接。阅读序列的空隙可以与相应的简单对的相同外显子区域对齐,或者如果相邻的简单对被映射到不同的外显子,则将它们分成两个片段以形成拼接对齐。 图2举例说明了这两种情况。在图2A中,SPA和SPB之间有一些未被发现的核苷酸,三个在阅读部分,两个在基因组部分。由于SPA和SPB的DPos分别为310(= 311-1)和309(= 333-324),这表明SPA和SPB位于同一外显子。在这种情况下,DART只需在SPA和SPB之间插入一对普通对(21,23,331,332)即可填补空白。还可以观察到,缺口可能跨越一个或多个内含子。如图2B所示,在读序列中有五个未覆盖的核苷酸,并且简单的成对SPC和由于他们的DPos差异(100 vs. 487),SPD在不同的外显子中高于预定义的最小内含子大小(默认值为5)。在这种情况下,如果它们覆盖两个外显子区域,则这些间隙可以分成两部分。令两个相邻的简单对分别为(i1,i2,j1,j2)和(i3,i4,j3,j4),并假设i3 - i2?k> 1。因此,R [i2 + 1,i3-1]代表读取部分中长度为k的未覆盖核苷酸,G [j2 + 1,j3-1]代表基因组部分中未覆盖的核苷酸。 DART对齐片段R [i2þ1,i3-1]和G [j2þ1,j2þ]与Needleman-Wunsch算法,也是如此对齐片段R [i2 + 1,i3-1]和G [j3-k,j3-1]。然后DART找到切割点p以最大化相同的对两个比对,以便R [i2 + 1,i2 + p]和G [j2 + 1,j2 + p]和R [i2 + p + 1,i3 - 1]和G [j3 - kþp,j3 - 1]的比对产生最高的比对分数。在例子中图2B中,p的最佳选择是2,使得两个片段对(19,20,119,120)和(21,23,508,510)产生最高的比对得分了。因此,两个片段对在SPC和SPD之间作为正常对插入以覆盖整个读取序列。尽管Needleman-Wunsch算法用于识别切割点,但缝隙大小通常非常小,并且在对齐时不需要太多时间。 值得注意的是,片段对可能意外覆盖了内含子区域。规范的剪接点以二核苷酸GT(供体位点)开始并以二核苷酸AG(受体位点)结束。如果另一个二核苷酸GT与受体位点紧密相邻,它会被偶然映射到捐赠地点。图3给出了这种情况的一个例子。可以看出R [19,20]处的二核苷酸GT被错误地定位到G [757,758],G [757,758]是相应剪接点的供体位点。R [19,20]应映射到G [811,812],它与受体位点紧密相邻。尽管无论R [19,20]是否映射到G [757,758]或G [811,812],比对分数都保持不变,但不正确的映射会导致错误的接头连接检测。为避免映射到内含子区域,DART通过检查两个相邻片段对(如果它们映射到不同的外显子(如图3中的SPA和SPB))来提高剪接连接位点。给定分别表示为(i1,i2,j1,j2)和(i3,i4,j3,j4)的两个相邻片段对,DART检查G [j2 + 1 + shift,j2 + 2 + shift]是否为施主站点,并且G [j3-2 + shift,j3-1 + shift]是接受者站点,其中shift为0,1,2, 。 。 。并顺序9直到检测到拼接位点对。如果发现shift = 0的拼接节点,则相应的片段对的大小会相应地修改。DART检查最常用的四个拼接点:“GT / AG”,“CT / AC”,“GC /AG'和'CT / GC'。例如,图3中的简单对SPA和SPB将分别被修改为(1,18,739,756)和(19,42,811,834),其中移位=-2。 最后,DART会根据群集中的片段对生成所有子对齐。简单对的子对齐是完美对齐而没有任何不匹配,而普通对的对齐可以是无间隙对齐(只有不匹配)或间隙对齐(带有indel)。如果正常配对的读取部分和基因组部分具有相同的大小,那么很可能正常配对只包含替换错误,并且未配对的配对使得最佳配对成为可能;然而,如果一个正常的对包含indel错误,那么un-gapped比对将导致较低的序列一致性。因此,通过检查线性扫描不匹配的百分比,我们可以确定一对普通对是否需要空隙对齐。 DART执行Needleman-Wunsch算法以生成空位对齐。所有的子对齐连接在一起形成最终的对齐。如果在同一读取中需要考虑更多的簇,DART会重复候选对齐处理步骤以生成备选对齐。 2.4映射质量分数 MAQ(Li等人,2008)引入了映射质量以估计读取比对的可靠性的想法。它可以被转换成查询序列被错误对齐的概率。映射质量是基于最佳对齐的唯一性估计的。由Dart生成的对齐根据以下规则分配MAPQ: 50 =独特的映射; 3结果 DART在Linux环境下开发并使用标准C / C ++实现。它支持多线程以利用多核电脑。 DART读取基于BWT的索引文件,并以FASTA / FASTQ格式的读取库(单端或双端读取)作为输入。 DART报告以SAM(序列比对/地图)格式读取比对(Li et al。,2009)。由于每个读取序列的真实坐标是未知的,因此使用真实数据集难以估计读取对齐的正确性。因此,我们创建了模拟读取库来估计读取对齐器的性能。在这里,我们使用Flux模拟器(Griebel et al。,2012)模拟人类基因组的阅读文库(Hg38,大小:3Gbp),这是一种流行的软件,用于模拟计算机上的RNA-Seq实验。Flux模拟RNA测序方案,并在实践中观察到的读数分布相当好。使用Flux模拟器的76bp误差模型,从已知转录物(GENCODE版本25)(Harrow等人,2012)对整个人类基因组产生模拟的RNAseq读段。为了测试RNA-seq对照者的能力,我们产生了四种Illumina类似的配对末端读数据集,其具有不同的阅读长度:76,101,151和251bp。它们分别标记为SimRead_76,SimRead_101,SimRead_151和SimRead_251。每个数据集包含约4000万个配对结束读取。 大多数RNA-Seq定位仪通过定位灵敏度进行评估,(Conesa等,2016; Dobin等,2013; Engstrom等,2013; Li和Homer,2010)的图像准确率,映射精度,真/假阳性率和拼接点检测。我们遵循相同的基准测量指标来评估DART的性能,并将其与其他RNA-Seq对照器进行比较。由于Flux模拟器仅提供转录水平坐标,我们估计读取比对的平均序列同一性(称为SeqIdy)以揭示碱基对碱基比对的准确性。读取对齐被考虑如果其映射坐标位于原始记录内,则为真。预测剪接点被认为是一个真正的,如果它符合一个真正的剪接点的边界,最大差异为5 bp(由于考虑到基因组改变);否则会被考虑作为假接头连接。假设一个RNA-Seq aligner处理N个库读取并报告至少一个N'对齐 读取并预测M个不同的剪接点。然后将得到的比对结果与模拟读段的原始转录水平坐标进行比较,并用基因注释(GENCODE版本25)验证预测的剪接点。对准精度仅在读取对齐时估计MAPQ> 0。假设有n个读数,MAPQ> 0且n'读数被映射到正确的转录物并且m个剪接点与基因注释一致。因此基准指标是定义如下: 灵敏度= N'/ N; 回想= N” / N; 拼接接头准确度= m / M。 请注意,TopHat2和Subread不直接输出拼接点,我们使用了bed_to_juncs(TopHat2包中的一个程序)从输出文件中生成预测拼接结点的路口。 我们还下载了四个最近发布的阅读库来衡量SRA数据库在实践中的表现(Leinonenet al。,2011)。它们是SRR3351428,ERR1518881,SRR3439468和SRR3439488。这些数据包括278,706,960对配对读数。读取长度范围从100到151bp。由于真实数据集的真正基因组起源是未知的,我们根据以下客观标准评估对准器的表现:敏感度,SeqIdy报道了剪接点,真正的剪接点,拼接结精度和运行时间。为了避免由于多次命中造成的估计偏差(即模糊映射),我们只评估每次读取的第一个对齐方式。测试数据中的所有读取都是在Linux 64位系统上处理的采用4个Intel Xeon E7-4830 2.13GHz CPU和2TB物理内存。将DART与以下现有的RNAseq读取对齐器进行比较:STAR,TopHat2,Subread,MapSplice2和HISAT2。自上述对准器开发以来,与每个对准器的默认参数进行比较针对人类基因组和最新RNA-seq数据进行了优化。这是一种合理且普遍接受的做法(Dobin等,2013)。要求每个对齐器只报告最佳对齐方式或者如果有多个匹配,则为随机最佳。 所有对准器都以从头模式运行(即,不使用转录本注释)并使用16个线程来加速整个过程。如果整个数据集不能在24小时内完成,映射过程将被迫终止。在这种情况下,我们在测量中标记NA。补充数据(补充表格S1)汇总了每个对齐器的参数和版本号。 3.2对模拟数据集的评估 表1总结了所选RNASeq校准器在模拟数据集上的性能评估。据观察,DART产生了最高或相当的灵敏度,准确度,召回率和SeqIdy。其性能表现出不同读取长度的数据集之间的一致性。值得注意的是,DART在整个模拟数据集上花费了576秒。STAR还制作了高精度和SeqIdy,但当阅读长度变长为251bp时,其灵敏度和回忆率下降。STAR上的敏感度和召回率SimRead_251分别为0.939和0.921,分别低于DART(0.997和0.971)。STAR还花费了更多时间在TheSimRead_251上。STAR在整个模拟数据集上花费了850s。 HISAT2比Tophat2跑得快,Subread和MapSplice2;然而,其灵敏度和回忆率远低于DART和STAR。它留下了许多读取未对齐。Subread产生比Tophat2和HISAT2更好的对齐。其敏感度和召回率高于两个对齐者。但是,它的对齐速度还不够快。 MapSplice2出品可比较的路线。它的敏感度,召回率和SeqIdy都是可与DART和STAR相媲美,但它花费了更多时间来产生高质量的路线。Tophat2是所选方法中最慢的对齐方式。它花费了63 107秒在整个模拟数据集上。而且,Tophat2产生了最差的敏感度和召回率。还观察到,除了DART和MapSplice2以外,所有选定的对齐器在读取长度变得更长时产生相对低的灵敏度。 为了鉴定剪接点,表1还显示了这一点DART,Subread,MapSplice2和HISAT2产生了类似的准确性在拼接点检测上。他们的接头连接精度大约在0.95-0.96。当读取长度变长时,每个对准器的真实接头连接点的数量增加。这表明较长的读取为RNASeq数据分析提供更好的剪接点检测。例如,由DART在四个模拟数据集上识别的真正剪接点的数目分别为96 700,102 162,108 771和111 487。在所有选定的对准器中,TopHat2产生的准确性较低,拼接点数量较少。利用模拟的RNA-Seq数据集,我们证明了DART是一种高度准确和快速的对准器。它不仅是最快的RNA-Seq定位仪,而且它也是最精确的或在最先进的对准器之间进行类似的对比。DART对读取长度也不太敏感。它在不同读取长度的读取上产生一致的对齐敏感度。 3.3对真实数据集的评估 表2总结了所选择的对准器在真实数据集上的表现。在这个基准测试中,可以观察到DART在所有数据集上产生了最高或可比的敏感度和SeqIdy,而且它也是最快的。DART和MapSplice2产生类似的敏感度然而,DART产生了比SeqIdy更高的比例MapSplice2和MapSplice2花费了更多的时间来生成相似的路线。STAR也是真正数据集中排名第二的对齐方式,但其灵敏度和SeqIdy并不如DART和MapSplice2。我们也注意到了MapSplice2花费了更多时间在SRR3351428的数据集上。似乎MapSplice2在处理该数据集中的某些特定读取时遇到了困难。 HISAT2虽然运行速度比MapSplice2快,但灵敏度较低。 Subread在SRR3351428和ERR1518881的数据集上比MapSplice2快,但是它的灵敏度较低。而且,它不能在24小时内完成其余两个真实数据集的映射过程。 TopHat2在真实数据集上表现不佳。 其灵敏度是其中最低的所测试的方法,也未能在时间限制内完成最后两个真实数据集的对齐。 对于真实数据集上的拼接点检测(如表2所示),DART,Tophat2,Subread和MapSplice2产生了类似的结果。它表明这些方法的拼接连接检测在真实数据集上非常一致。尽管HISAT2实现了拼接点检测精度更高,它产生的真正拼接点的数量更少。STAR产生较低的剪接点尽管观察到的拼接连接点的数量与其他方法类似,但真实数据集的精度仍然很高。 我们还比较了每个对齐器的内存使用情况。尽管一些对齐方法允许用户设置最大内存使用量,但我们没有给出任何限制,并且让每个对齐方法都尽可能多地使用内存因为它需要。在表3中,我们发现TopHat2,HISAT2和MapSplice2需要更少的物理内存,其次是Subread和DART分别需要10 GB和12 GB。STAR需要大约30GB的物理内存。请注意,内存需求是在运行16个线程的模拟和真实数据集上测得的。 我们进一步对所有选定的对准器进行了16个线程的评估分析不同线程数量的DART的效率。表4显示了SimRead_76数据集上DART的运行时间。 可以观察到,DART利用多线程是高效的。运行时间接近线程数量的一半。 然而,效率仍然退化,因为由于磁盘开销,线程数量增加。由于所有线程都需要访问相同的文件以进行输入和输出,因此必须等待才能获得专有文件访问权限。因此,并非所有的线程都是在映射过程中一直充分利用。
4。结论 在这篇文章中,我们介绍了DART,一种新的从头RNA-seq校准器,用于对参考序列进行灵敏,快速和精确的映射。DART是基于BWT的对齐方式,它采用分区策略将读取分为简单对和正常对。 每个简单的对都是完美的对齐,每对普通对都是有间隙/无间隙的对齐。通过对模拟和真实数据集进行基准测试,我们证明了所提出的分区映射策略可以取代传统种子扩展策略中的扩展步骤并减少对齐时间。我们显示DART能够对齐在576秒内有1.6亿次模拟配对结束读取,各种长度,而第二快速对准器,即STAR花了850秒。对于真实的数据集,DART对齐大约2.78亿条配对结束读取 1521秒,而STAR在相同的数据集上花费了2048秒。尽管DART速度更快,但它仍可以生成准确的对齐和良率无论读取长度如何都具有高灵敏它也产生高顺序 路线的身份。另外,它可以检测出可比较的或拼接点的数量比其他定位器的数量多。模拟数据集上预测拼接点的准确度介于0.96和0.97之间,真实数据集上的准确度介于0.63和0.97之间 0.79。这两者都与选定的对齐器相当或更好。阅读图谱的灵敏度是进一步分析的重要因素之一,如基因表达水平测量或结构变异检测。具体而言,孤立阅读和单端锚定(OEA)经常用于识别序列变体。孤儿读取是指那些读取序列都不能与参考序列具有高序列一致性的那些配对末端读取基因组和OEA指的是那些双末端阅读,其中之一 成对的读数与参考基因组对齐。因此,映射灵敏度和配对比对的数量对进一步阅读分析至关重要。我们已经证明,DART能够生成高灵敏度贴图,并以最少的时间生成更多的配对路线。随着测序技术的进步和ENCODE项目中不断收集的测序数据的收集,我们认为DART是一个更好的校准器,可以处理大量短读取以及相关的序列变体检测。
资金 |
请发表评论