国际 2022-10-03 10:41

dna

在生物信息学领域,DNA分析可以通过数据草图来进行,这种方法可以系统地将数据集的大小缩小到更小的样本,从而允许科学家以更快的速度进行分析和近似。宾夕法尼亚州立大学的一组研究人员发现,虽然这种方法的可扩展性很吸引人,但用于数据草图的两种常用工具允许分析和结果出现不准确和不一致的情况。

该团队分别在《生物信息学》和《计算生物学杂志》上发表了他们对两种不同工具——Jaccard估计器和MinHash估计器——的分析结果和发现。

计算生物学和生物信息学中心主任、计算机科学与工程、生物化学和分子生物学副教授Paul Medvedev说:“生物医学领域在过去十几年中经历了一场变革,因为我们现在拥有了能够以前所未有的规模对活体生物进行DNA测序的技术。”“因此,瓶颈已经从收集数据转向以一种统计上严谨、计算上可行的方式分析数据。”

在基因组草图中,数据科学家提取一组很小但具有代表性的数据点,称为k-mers,它们形成一个草图,可以用来估计两个基因组序列之间的差异。估计的散度应该与真实的散度几乎相同,并在可接受的置信区间内。研究人员发现,与该领域的常见假设相反,生物信息学中使用的一些草图策略不满足这些目标。

在6月27日发表的《生物信息学》中,研究人员发现最小化Jaccard估计器是有偏见和不一致的,这意味着无论一个人在草图中放入多少数据点,两个基因组之间的分歧的估计仍然是不准确的。根据研究人员的说法,这是因为草图对基因组上数据点的排序很敏感,而真正的差异却不是这样。

为了得到这些发现,研究人员模拟和分析了大肠杆菌基因组,他们将大肠杆菌数据的最小化Jaccard估计值与他们手工计算的真实值进行了比较,以找到较小的子串在序列中的位置。它们没有对齐,因此,研究人员表明,这种方法有可能无法在更大的基因组中找到读取的正确位置。

“我们想出了一个抽象的数学表示问题,适合应用我们想要使用的概率工具,”联合首席研究员David Koslicki说,他是计算机科学、工程和生物学副教授。“我们研究了这个理论,并确定了我们对理论结构的假设是否准确。结果证明在最小化Jaccard估计器中存在一些小偏差。”

梅德维杰夫说:“如果研究人员不介意存在的不一致性或小偏差,这些工具仍然是有用的,但如果它们影响了你试图测量的东西,我们建议使用其他的素描技术。”

在《计算生物学杂志》(Journal of Computational Biology) 2月份发表的论文中,研究人员测试了MinHash估计器,这是另一种常用的数据草图绘制方法, 在基因组研究中的有效性。在这项研究中,研究人员计算了草图数据点的统计属性,这些数据点受到进化的影响。

“我们研究了有多少k-mer数据点被破坏了,”梅德韦杰夫说。“一旦我们得到了这些数字,我们就能够对估计者的预测建立一个置信区间。”

据联合首席研究员、计算机科学与工程助理教授安东尼奥·布兰卡(Antonio Blanca)说,置信区间决定了一个参数落在某个值范围内的概率,或者换句话说,在统计上预测有多准确。

布兰卡说:“虽然草图法在生物信息学中普遍存在,但该领域还没有严格研究测序错误和突变如何影响许多这些方法。”“这些发现让研究人员可以得出他们需要在实践中有效使用草图的统计数据和误差估计,从而更好地测量生物体之间的相似性和差异,以及更准确的构建DNA序列的方法。”

2021年8月,研究人员在意大利帕多瓦举行的RECOMB会议(计算分子生物学研究的简称)上发表了他们的JCB论文。这篇生物信息学论文将在七月的分子生物学智能系统会议上发表。