2015-09-15GeneDock

云之稻——水稻基因组资源与云计算数据技术的结合

       9月15日,农科院、阿里云、华智水稻、聚道科技共同举办了“云之稻”媒体见面会,正式对媒体和科学界宣布“云之稻”项目上线。该项目是源自于比尔和梅琳达•盖茨基金会的“为非洲和亚洲资源贫瘠地区培育绿色超级稻”项目和国家国际合作专项共同资助的3000份水稻基因组项目的测序成果。这一系列项目的总体目标是培育能够广泛适⽤于灌溉和⾬养地区⽣态环 境,并具有氮磷高效利⽤、抗病、抗⾍、高产、优质、抗逆(干旱、盐碱)等特性的水稻新品种,并在目标国家进⾏⽰范和推⼴。

       要实现这一目标,必须运用更先进的技术来对水稻育种这一过程提供辅助。现代育种工作中,研究人员已经将传统农田试验手段与基因标记研究方法结合在了一起,大大提高了育种工作的效率。现在,借助“云之稻”平台,育种学家可以进一步运用生物信息学的方法来快速挖掘稻种基因水平的性状资源。通过序列同源性分析、聚类分析、突变检测等手段,我们可以利用已知的基因功能信息对稻种的遗传特性进行合理的预测,从而进一步指导育种方向。

来自华智水稻实验田中的超级稻样品

       “云之稻”平台上,农科院开放了总计3000份水稻基因组测序数据,供业内研究人员下载和分析使用。表面看来,3000份水稻基因组并不算多,目前地球上预计有超过14万种不同的水稻品种,随着育种技术的进步这一数字还在增加。事实上,这3000份水稻样品是从来自世界各地的总计25万份样品中选出的,预期可以覆盖超过95%的水稻总体基因多样性,从而有效平衡了研究需求和实际耗费之间的矛盾。

       在一般条件下,本地处理40GB左右的数据约需要花费10个小时。而在云之稻上,基于GeneDock所采用的分布式调度引擎和并行计算方法,借助阿里云提供的计算资源,相同的计算内容仅需3个小时左右即可得到结果。即使继续增大计算量,通过任务分布和并行计算,理论上的总体计算时间仍然可以保持在3小时左右。这为大规模的序列分析和多品种间的正交比对提供了非常便利的条件,也可以进一步满足育种工作所需要的快速确定目标性状基因和遗传特性等需求。

       目前平台上已有的分析流程是由华智水稻和农科院提供的,选用了BWA+GATK的pipeline对水稻测序数据进行突变检测,覆盖SNP位点鉴定、插入缺失标记等功能。借助这些分析流程,用户在云端即可完成对数据的基本分析,获取指导育种工作的基础信息。GeneDock希望能与更多的专家学者进行合作,在“云之稻”平台上添加更丰富的分析流程和功能,帮助我国和全球的科研工作者进一步挖掘这宝贵的3000份水稻基因组数据中蕴含的潜力。

全球营养不良人群分布(数据来源:联合国粮农组织)

       根据联合国粮农组织的统计数据,截止2015年,南亚地区有多达2.81亿人面临食物不足的问题,在撒哈拉以南的非洲地区,占总人口数23.2%的人群仍在挨饿。地区冲突、政治动荡、自然灾害等问题更加剧了粮食危机问题。借助科技进步的力量,水稻产量增加和种植面积扩大都有助于解决人类面临的粮食问题。“云之稻”项目不仅仅将云计算和大数据处理等最前沿的数据技术应用到水稻研究工作中,更是让这些技术成为了人类解决粮食危机问题的强有力武器。GeneDock会全力协助世界各地的研究人员,助力“云之稻”获得丰收。



扫描下方二维码,关注GeneDock官方微信服务号,了解更多行业信息和最新数据技术