1分赛车技巧_分分快三平台 - 1分赛车技巧,分分快三平台为广大网友提供全面的资讯、源代码程序、海量新闻、强大的搜索优化辅助工具、网络产品设计与运营理念以及一站式网络解决方案,十年来我们一直致力为中文网站提供动力。

更快更好 新的全基因组组装算法来了

  • 时间:
  • 浏览:1

调查问题图片加载中,请稍候。

若长时间无响应,请刷新本页面

  10年前,Illumina基因组测序技术进入市场时,前所未有的庞大数据量淘汰了较早开发的测序分析工具。

  历史老是重演。如今,第三代测序技术可能性达到低成本群体测序规模的临界点。

  12月10日,《自然—办法学》在线发表了第一个不不还可不都可以跟上基因组测序产生深度图的组装算法。

  论文作者、中国农业科学院农业基因组研究所博士阮珏与美国哈佛大学医学院博士李恒,将你什儿 新的第三代测序数据组装算法称为Wtdbg。

  第三代测序的尴尬

  20年前,破译人类遗传密码还是极具挑战的大科学工程,当时的人类基因组测序计划与曼哈顿原子弹计划、阿波罗计划并称为三大科学计划。

  如今,完成俩自己的全基因组测序可能性是普通实验室甚至家庭还可不都可以 负担起费用的“平常事”。用第三代测序技术完成个体全基因组测序仅需一天,费用也可能性低于十五万元。

  2011年,PacBio公司正式宣告第三代单分子测序就让开始了了商业化。相比于第二代测序每个序列的几百碱基对测序读长,第三代测序的平均读长达到了几万碱基对,最长还可不都可以 达到数百万碱基对。

  西北工业大学生态环境学院教授邱强告诉《中国科学报》,你什儿 技术出显 时,科研人员期待利用它填补基因组序列中高重复高杂合的区域,挑战高难度的基因组。然而,亲们越来越快发现,你什儿 新技术的普及和应用遇到了很大的困难。

  “主要一个原因:第三代测序的成本在初期要远高于第二代测序;可能性第三代测序错误率较高,此前用于第二代基因组测序的组装办法纷纷失效,不足有深度图的组装工具,有点硬是PacBio官方推出的falcon办法,消耗资源极多。”邱强介绍,数年后,Ont公司推出纳米孔测序技术,市场竞争逐渐拉低了第三代测序的成本。而在基因组组装方面,尽管可能性出显 了canu、marvel等多个组装软件,“但组装仍然是一个十分费时费力的过程,一个哺乳动物基因组的组装时间要数周”。

  以人类基因组组装为例,在2014年还要消耗500万个CPU小时,必须在超大计算机集群上进行。“你什儿 情形下,一同对几滴 个体进行组装分析是难以想象的。”但现实是,“以全基因组组装办法对群体进行测序分析可能性成为生物医学研究的趋势。”阮珏说。

  首次:数据分析比产生变快

  “wtdbg和即将推出的工具可能性会从根本上改变当前测序数据分析的实践。”阮珏在接受《中国科学报》采访时说。

  此前,“数据产出深度图远高于数据分析深度图。”就让,近年来,生物信息学领域的科学家群体致力于改变你什儿 尴尬情形,不断开发出更高效的组装分析算法。

  同类,继falcon、canu等算法就让 ,2019年4月,美国加利福尼亚大学圣迭戈分校NIH计算质谱中心主任Pavel A. Pevzner在《自然—生物技术》上发表了Flye算法,其深度图远高于falcon、canu。

  而阮珏和李恒正式发表的第三代测序数据组装算法wtdbg,比之Flye算法,分析深度图提升了5倍,也首次让数据分析时间少于产出时间。

  西北工业大学生态环境学院的科学家可能性用wtdbg组装了十多个哺乳动物基因组。西北工业大学教授陈垒在接受《中国科学报》采访时说:“亲们用过falcon和canu等组装办法,相比较而言,wtdbg组装运算时间最快,占用资源少,能节省几滴 时间。组装出的基因组连续性很高,组装质量均符合现在主流的基因组评估。”有点硬是,对超大型基因组的组装,wtdbg应该是目前为数很多 的还可不都可以 高效使用的组装软件。

  “对于人类基因组数据,wtdbg比已发布的工具快几十倍,一同实现了相当的连续性和准确性。它代表了算法上的重大进步,并为将来群体规模的组装分析铺平道路。”阮珏说。

  模糊布鲁因图问世

  上世纪90年代,Pavel A. Pevzner将德布鲁因图引入了基因组组装领域。德布鲁因图是一个展示符号序列之间重叠关系的有方向的图。阮珏介绍,可能性第二代测序错误率低,大主次短串(k-mer)是正确的,相同的短串间还可不都可以 利用德布鲁因图的原理合并起来构成组装图。

  但第三代测序数据的错误率非常高,可能性还是使用短串k-mer的话,大主次短串含有测序错误,不还可不都可以 合并起来。就让,德布鲁因图从未成功应用在第三代测序数据。

  突破性的办法基于突破性的理论基础。

  2013年就让开始了了,阮珏和李恒着手外理第三代测序组装的问题图片,分别开发的SMARTdenovo和Miniasm在领域内均有较好的表现。就让在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图。

  亲们重新定义了“短串”,将测序数据切分为固定长度的新型短串k-bin,k-bin比k-mer的长度更长。“新设计的模糊布鲁因图不不还可不都可以容忍高噪声数据,并就让对生成组装图与恢复基因组序列做了几滴 相应的重构,使其兼具高深度图和高容错的优点。”阮珏说。

  “一般软件组装第三代测序数据的思路是,先对测序数据进行比对纠错,再进行基因组序列的构建。”邱强说,wtdbg则直接进行基因组组装,外理了还要提前纠错的耗时步骤,直接得到一个相对可靠的组装结果。

  “组装费时费力你什儿 问题图片的真正改善,正是从阮珏和李恒研发的wtdbg算法就让开始了了。”邱强说。在亲们的课题组中,wtdbg算法得到了广泛使用,极大提高了工作深度图。不仅越来越,亲们还与阮珏进行了深入沟通,对超大基因组组装到行了优化,“亲们得以获取40G左右的高质量基因组序列”。

  公众参与下的技术改进

  2016年,为了让基因组测序领域还可不都可以 及时使用新技术,阮珏和李恒将wtdbg研究成果免费开放。

  3年来,wtdbg不仅被几十篇学术论文引用,还被国内多家基因组测序分析公司作为主要组装分析工具,就让在2019年世界大学生超算竞赛中作为性能测试赛题。

  “亲们通过邮件、GitHub网站等办法收到几滴 反馈,哪些反馈不仅帮助亲们修订算法软件中的漏洞,还带来了新的想法和思路。换个深度图来讲,现在发表的论文可能性经历了3年多的‘公众审稿’,感谢多年来参与和关注wtdbg开发的同行。”阮珏说。

  邱强认为,wtdbg算法不仅相对于更早的falcon、canu等算法具有深度图和准确性的优势,相比此后出显 的flye等组装算法也更可靠。“你什儿 研究成果表明我国在基因组算法领域具有了引领国际的实力,也代表了我国科技发展的软实力。”(李晨)

[ 责编:蔡琳 ]

阅读剩余全文(