2015-12-07GeneDock

从V1到V2:GeneDock的一小步




GeneDock成立至今已经453天,每一天,我们都在努力地积累和生长,让自己可以更好地承担用户的期望。GeneDock的数据管理系统从Data V1升级到了Data V2,我们迈出了一小步。这一小步离不开团队中每个人的辛劳付出,也离不开用户的批评和建议。


阅读文章>>
2015-10-25Chang Liu

Python Import 机制与拓展

(本文由GeneDock工程师刘畅撰写,原文地址 转载请保留作者信息和原文链接)

概述

Python 是一门优美简单、功能强大的动态语言。在刚刚接触这门语言时,我们会被其优美的格式、简洁的语法和无穷无尽的类库所震撼。在真正的将python应用到实际的项目中,你会遇到一些无法避免的问题。最让人困惑不解的问题有二类,一个 编码问题,另一个则是引用问题。

本文主要讨论关于Python中import的机制、实现、以及介绍一些有意思的Python Hooks。
阅读文章>>

2015-10-23GeneDock

Robot Lee:拯救大兵李小明


黑夜似一头巨兽,吞没了这座充斥着现代气息的古老城市。

夜色渐浓,城市中心偏西北,那个靠近宇宙中心的地方,一扇窗户如往常那样闪着幽幽的光。

从窗户望进去,便会看到惊人的一幕:在两面巨大的显示屏背后,一位少年正在用匪夷所思的动作忙碌着。他十指在键盘上高速跳动,偶尔飞快地移动一下鼠标。少年的双手在空中留下了一串串残影,两面屏幕上则有代码如瀑布般倾泻而下。


阅读文章>>
2015-09-28HaiYang Wang

在公有云上搭建负载均衡的Docker私有仓库

(本文由GeneDock资深扫地大叔王海洋撰写, 转载请保留作者信息和原文链接)

随着Docker [1]的普及和在不同企业的深入应用,对于如何更安全,更快速的管理及存储 丰富多样的Docker私有镜像成为使用者亟需解决的问题。目前对于这个问题,Docker官方提供了公共的Docker Hub为用户管理Docker 镜像。国内也有京东开源的Speedy, DaoCloud提供的Docker Hub等。

除此以外的另一种常用方案是搭建自己的私有镜像仓库。本文以阿里云的环境为例,将介绍如何在Ubuntu12.04上基于Docker Registry V2 [2],阿里云OSS, Nginx [4]搭建负载均衡自己的Docker镜像私有仓库, 如图1.

本文内容主要包括以下几个主要部分:

  1. Docker Registry Server端配置
  2. Docker Registry Client端配置
  3. 如何使用使用私有Docker Registry

同时,本文还会介绍如何配置负载均衡Nginx,及如何使用OSS作为Docker 镜像的存储。
阅读文章>>

2015-09-25GeneDock

为什么要使用基因数据云服务——安全篇

“基因大数据的分析处理必须解决很多难题:首先是怎样保证数据的安全和权限隔离……对第一个问题给出完备的答案,是我们这份事业的前提。我们自己放心,才可以让用户放心。”

——聚道科技CEO李厦戎在“云之稻”媒体见面会上说。

       安全是挖掘并利用数据的前提。2009年至2012年,美国政府共发现了2100万例健康报告的泄露事件,其中66%是由于本地的电源或存储设备的损坏、遗失或被窃造成的。另外,据美国HHS部的估计,约77%的个人数据面临着相同的风险。约6%的个人数据则面临着被入侵的风险。

       为了解决安全问题,GeneDock主要从数据安全、架构安全、管理安全三个角度入手,使用符合HIPAA安全规范的技术手段,通过覆盖数据运作的所有环节,让你高枕无忧。
阅读文章>>

2015-09-18YingQian Hu

GeneDock基于Docker的部署运维实践

(本文由GeneDock实习工程师胡英谦撰写,原文地址 转载请保留作者信息和原文链接)

如何基于Docker容器技术,构建一个自动化、易管理、高可用的运维部署系统。本文希望分享GeneDock的经验和教训。


GeneDock的系统是典型的微服务架构:超过二十个模块分别负责平台的各项功能,例如接口、权限、资源管理、编译、调度、监控等,模块之间通过RESTful接口相互通讯。模块这么多,如果没有自动部署工具,运维工程师全凭手工操作,在敏捷开发的快节奏下,升级部署会成为一个大坑。

于是需求来了:用程序代替人,实现脚本化甚至自动化部署。


先干什么?大多数工程师都会想到两件事:

       1.采用Docker技术发布和部署所有服务。
       2.编写脚本,自动完成代码下载、构建镜像、启动服务的流程。
阅读文章>>

2015-09-15GeneDock

云之稻——水稻基因组资源与云计算数据技术的结合

       9月15日,农科院、阿里云、华智水稻、聚道科技共同举办了“云之稻”媒体见面会,正式对媒体和科学界宣布“云之稻”项目上线。该项目是源自于比尔和梅琳达•盖茨基金会的“为非洲和亚洲资源贫瘠地区培育绿色超级稻”项目和国家国际合作专项共同资助的3000份水稻基因组项目的测序成果。这一系列项目的总体目标是培育能够广泛适⽤于灌溉和⾬养地区⽣态环 境,并具有氮磷高效利⽤、抗病、抗⾍、高产、优质、抗逆(干旱、盐碱)等特性的水稻新品种,并在目标国家进⾏⽰范和推⼴。
阅读文章>>

2015-09-09GeneDock

GeneDock成立一周年

Hi GDers,

       GeneDock一周岁了!

       2014年9月9日,我司诞生于回龙观智慧社一个普通的二居室里。

       当天,只有我、乐珩、海洋、程夫四个人,我们简单收拾了下房子,去华联超市买了点零食和水就开工了。

       那时候,我们的数据上传OSS还有问题,程夫同学测试了好久都没把数据传上去,而workflow还不能运行。

       一晃一年,加入了更多有梦想的GDer,产品如同新生儿般茁壮,有了相信我们梦想的天使客户,有了信任我们的投资者。
阅读文章>>

2015-09-08Xiong Xu

fastq文件格式处理工具系列学习

(本文由GeneDock公司 Senior Bioinformatics Engineer 许雄撰写,转载请保留作者信息和原文链接)

fastq文件格式说明(wiki)

  1. FASTQ_format 维基百科
  2. NSC_2011_Illumina_fastqAndQC Illumina fastq 格式官方文档

fastq 文件质量控制

  1. fastqc

    CommandLine Demo:./FastQC/fastqc -o ./ –extract -f fastq -t 4 -q file.fq.gz
  2. solexaQA
    Dependency:R, gcc, perl

    阅读文章>>
2015-08-21MAO

BWA-MEM 不同方法的 Mapping 结果比较

(本文由GeneDock公司 Bioinformatics Engineer MAO 撰写,转载请保留作者信息和原文链接)

基本信息

  • 测试集群 CPU 型号: Intel(R) Xeon(R) CPU E5-4610 v2 @ 2.30GHz
  • bwa 版本:0.7.12-r1039
  • 参考序列:hg19
  • 原始数据:SRX265482

一、小样本测试

$ wc -l read*_1000.fq
  1000 read1_1000.fq
  1000 read2_1000.fq
  2000 total

提取了 1000 行 fastq 数据,一共 250 条 reads 做测试。

$ samtools view reads_1000.sam | wc -l
  501

Mapping 出来的结果是 501 行。
阅读文章>>