2015-12-07GeneDock

从V1到V2:GeneDock的一小步




GeneDock成立至今已经453天,每一天,我们都在努力地积累和生长,让自己可以更好地承担用户的期望。GeneDock的数据管理系统从Data V1升级到了Data V2,我们迈出了一小步。这一小步离不开团队中每个人的辛劳付出,也离不开用户的批评和建议。


我们始终在倾听用户的声音

“能不能有更好用的目录系统?上传了很多数据,分析了一堆报告,管理起来很麻烦。”

“数据权限授权的时候可不可以批量进行?一个一个点击太繁琐。”

“文件搜索功能太弱了,找需要的数据时比较困难。”

“可以在Windows下上传数据吗?”

“命令行怎么用?有没有更好用的客户端?”

“我们想搭建私有云,用自己的存储系统,可以吗?”

“可不可以把GeneDock的服务和我们的系统用SDK结合起来?”

“在不同环境下切换传输配置不太方便啊。”

“有的时候不太稳定,偶尔会报错。”

“分块上传的文件下载时候没办法合并?”

……


不止是版本加1


之前的Data V1数据管理系统是基于阿里云OSS实现的,可以为用户提供较完善的数据存储和调用功能。GeneDock研发团队对业务需求进行了进一步提炼,实现了可插拔式的数据系统架构,从而可将GeneDock数据服务搭建在任意一种后端存储平台上,对数据进行统一的存储和管理,满足了用户不同业务场景下的数据管理需求。

此次升级,是对GeneDock内核系统和外部架构的彻底改变。Data V2的完整核心架构如下:



多语言SDK

已开发完成Java SDK和Python SDK。通过使用这两种主流的开发语言,用户可以方便地在自有系统上进行集成开发。

基于Java SDK开发了cmd客户端和图形化客户端。即使不同专业背景的用户也可以在不同操作系统平台上对GeneDock数据服务进行管理和调用。

统一的文件视图

在Data V2中,GeneDock数据服务统一了文件视图的管理规则,使不同存储场景下的用户可以透明直观地掌握实际后端存储的实现细节。GeneDock建立的文件视图体系中包含文件和目录信息,用户可通过目录功能实现对文件的批量操作和高效管理。

Data V2的文件视图采用了分块存储的方式进行数据存储,并且针对基因数据处理领域的常用格式提供了多种分块策略,例如fastq文件分块策略,bam文件分块策略等。

分块策略的优势在于:提高大数据文件的传输效率;借助分块存储特性,用户可执行如MapReduce等并行数据分析;实现数据块级别细粒度加解密,增强数据安全性;改善整体存储方案和数据分析流程的failover。

可插拔的后端存储

Data V2已实现了阿里云OSS后端存储插件和FTP后端存储插件,已经应用到了GeneDock公有云服务和CDC私有云服务中。

结合统一的文件视图,用户可以完成不同存储级别(热数据和冷备数据)、不同服务域(GeneDock北京域和深圳域)、不同公有云供应商、以及私有云与公有云之间的数据交换。



此外,通过结合插拔式后端存储功能和统一文件视图特性,用户可将原有存储系统中得数据通过mount方式挂载在GeneDock数据服务上,避免了大规模的数据迁移。另外,当用户对数据安全要求级别更高时,可以基于mount使用自备的数据存储系统作为后端存储,仅当创建数据分析任务时GeneDock平台才会调用相应数据,具体访问和操作记录均保存在自备数据存储系统的访问日志中。用户可随时监控异常访问日志,进一步提高数据安全性。


使用体验全面升级



客户端授权验证方式升级

Data v1客户端使用用户名和密码进行登陆, 采用了基于Token签名的认证和鉴权方式。而Data v2则采用了阿里云资深架构师建议的基于access_id和access_key的认证和鉴权方式,更安全,更易追溯。

关于如何获取access_id和access_key, 可以登录GeneDock系统,参考《客户端使用帮助文档》。

原有文件体系升级

Data V1中,用户的数据文件呈现方式为平铺式列表。在Data V2中,基于目录概念,每个用户的数据均存储在个人的Home目录中。Home目录名为注册账户邮箱@符前的邮箱名,例如注册邮箱为John@genedock.com,则Home目录为’/John’。

原有Data V1的所有文件均已迁移至用户Home目录下。例如用户John@genedock.com原有的文件test1.fastq, 在Data v2中其路径变为/John/test1.fastq。

操作方式升级

Data V2除了支持Data V1中已有的授权、删除、下载、重命名、小文件上传等功能外,还添加了新建文件夹等操作,具体操作方式上也有了极大改善和升级。

全新的右键弹出菜单操作方式,匹配用户使用习惯:



保留经典操作栏,添加更多功能:



授权文件管理升级

Data V1中,当用户将数据文件授权给其他用户后,被授权的用户需要在数据页面中进行搜索和查看。在Data V2中,每个用户均拥有一个系统目录/Home/ShareWithMe,所有由其他用户授权的数据文件均保存在这个目录中,用户可以方便地进行查找和管理。

更多细节升级

Data V2带来了很多使用体验和细节的变化,用户可以登录GeneDock系统,进一步了解。


V2+:未来展望

从Data V1到Data V2,GeneDock数据服务完成了内核级升级。Data V2的后续版本则会基于V2版系统架构和内核,提供数据迁移、批量授权、批量删除、数据tag标记、高级搜索方式、数据meta高级管理功能等功能,进一步提高用户的数据管理效率;开发更多存储插件模块,满足更多的使用场景需求;完善用户自定义加密机制、更细粒度的安全访问控制、以及更详细的供用户审计的数据访问日志,提升数据整体安全性;支持冷备份存储、冷热数据切换等数据生命周期管理机制,降低数据存储成本。GeneDock将致力于实现更出色的安全、高效、灵活、低成本的数据管理服务,实现从数据采集到数据交换分发等数据分析处理流程的全覆盖。