2016-03-28GeneDock

GeneDock携手CDC,微生物数据分析云平台正式开放


GeneDock与中国疾病预防控制中心(中国CDC)传染病预防控制所合作开发的微生物数据分析云平台已于近日正式上线开放(https://analysis.mypathogen.org/)。这一项目由中国疾控中心传染病预防控制所发起,主要是为了提升传染病领域大数据的利用效率,实现高通量测序技术在病原菌检测和监测工作中的标准化应用,让非专业人员也可以快速、准确、方便地开展生物信息分析,鉴定样本微生物的组成和基因组特征,并尽快开展后续的深入研究和信息挖掘。

传染病预防控制所的张雯老师是这一项目的负责人,她谈到微生物数据分析云平台这一项目时,有她自己的理解:

“大数据时代,云平台与生命科学领域的结合必然会为精准医疗的发展带来无限的可能性。目前我们更应该关注云的落地问题,即云平台中的大数据处理技术可以解决哪些现实的问题。传染病防控领域与人类健康息息相关,对数据利用的时效有较高的要求,同时需要不同城市的部门和实验室之间实现数据共享和交互,以及标准化的数据分析流程,云计算为打通这些环节提供了可能性。我们希望可以通过微生物分析平台的建设,促进国内疾控数据的交互,推动高通量测序技术在国内病原菌检测和监测工作中的有效利用。”

对于张雯老师带领的课题组和GeneDock的工程师们来说,许多需求是在开发云平台之前没有预见到的。例如,传统的数据存储和云平台存储方式具有较大差异;由于疾控领域信息的敏感性,对数据安全和用户账户权限的严格分级控制都具有很高的要求。此外,这一领域的实验室过去编写和部署流程也没有比较统一的标准和环境,不同实验室间的结果比对工作量也不小,这要求云端提供足够方便的流程编写、部署、维护工具,让不同实验室能够利用云端一致的分析环境来运行分析流程。


中国CDC与GeneDock的工程师们一起梳理了项目的具体需求和实现方案,最终确定了如下的系统架构:

“平台主要向CDC系统的各级科研和卫生防疫人员提供可视化的微生物数据分析流程。我们已经合作将微生物领域所需的基因数据分析流程迁移到平台上,包括传染病预防控制所专家们自主研发的最新算法和分析流程。GeneDock的基因数据云服务在底层全面支撑这些重要业务。”谈到微生物数据分析云平台的架构,GeneDock首席技术官王乐珩是这样描述的。

在开发微生物数据分析云服务平台的过程中,GeneDock团队应用了很多关键的数据技术。例如,在安全方面,平台在数据传输和存储过程中全面应用了数字签名、金融级加密等工业级技术。新设计的企业级母子账户权限系统,能对不同用户的海量数据进行彻底的权限隔离,并针对不同业务需求采用个性化的授权策略。这满足了科研用户对珍贵基因数据的控制和分享需求。让各种不同的用户群体,分享到不同安全级别的生物信息分析流程和基因数据。再例如,在数据传输方面,GeneDock独有的基因数据压缩算法和传输系统大大提高了各地方CDC机构上报传染病微生物基因数据传输的效率。另外,GeneDock提供了强大易用的分析流程配置工具,方便生物信息学家研发新的分析流程。


在项目首期微生物数据分析云平台上发布了6个不同的生物信息分析流程,可实现NGS数据的质量控制、基因预测、进化分析、蛋白注释等功能。平台的web前端目前可支持至少100位用户同时并行操作,80个分析作业的并行进行。弹性的平台设计支持未来对计算和存储资源的无限扩展。


疾控中心传染病预防控制所希望通过这一项目,可以促进微生物研究中的跨地域、跨实验室合作,更好地利用先进的数据技术和强大的云端资源,从科研数据中挖掘更多的有价值信息。




“基因组数据具有先天的复杂性,而云计算技术则可以提供高性能的稳定分析工具。通过充分地分析和挖掘,我们才能使宝贵数据的价值得到真正发挥。从整个产业的角度来说,数据的分析挖掘需要尽可能多的人才参与进来。”张雯老师认为这就是云平台的最大价值——降低基因数据的使用难度,人人能做生信分析。