背景
随着基因测序技术的快速发展,检测成本大幅度降低,使得基因组测序投入临床市场并服务大众。但二代测序发现的变异数量是巨大的,造成变异解读及查找致病基因需耗费大量的人力物力。以人类基因组为例,1个人类基因组包含近3500000个SNV突变和1000个拷贝数变异,其中约20000-25000个变异是在编码区,10000个位点发生了氨基酸编码改变,仅有50-100个发生了蛋白截断或功能缺失,手动检查每个位点非常耗时且有些不切实际。
Variant Effect Predictor(VEP)是功能强大的注释、分析工具。它可以对二代测试产生的不同类型变异进行注释,包含SNPs, insertions, deletions, copy number variants和structural variants。也可以依据各种数据库的内容,根据需要,对变异进行过滤和排序。
GeneDock公有云平台目前提供VEP注释的工作流,使用VEP88对变异进行注释,输入变异检测后的vcf文件,输出注释后的文件(vcf格式)和经筛选后的变异位点。
VEP工作流介绍
1. VEP使用的数据库
VEP注释使用的是cache文件包,以human注释文件为例,有Ensembl转录本、RefSeq转录本及二者整合的三种cache文件包,文件包中还包含如下数据库信息(VEP88):
Database | Version |
---|---|
GENCODE | 19 |
dbSNP | 147 |
1000genomes | phase3 |
ESP | 20141103 |
ExAC | 0.3 |
COSMIC | 78 |
HGMD-PUBLIC | 20162 |
Clinvar | 201610 |
polyphen | 2.2.2 |
sift | 5.2.2 |
在此基础上,VEP运行时还可以使用plugin和custom参数自定义添加数据库。GeneDock平台的VEP工作流目前添加了以下数据库。
Database | Information |
---|---|
M-CAP | Pathogenicity classifier for rare missense variants in the human genome |
dbscSNV | Includes all potential human SNVs within splicing consensus regions (−3 to +8 at the 5’ splice site and −12 to +2 at the 3’ splice site), i.e. scSNVs, related functional annotations and two ensemble prediction scores for predicting their potential of altering splicing. |
Clinvar | Public archive of reports of the relationships among human variations and phenotypes, with supporting evidence |
gnomAD | The Genome Aggregation Database |
dbNSFP | Database with functional prediction and annotation of all potential non-synonymous SNVs |
备注:自定义数据库中的Clinvar数据库版本较Cache文件包有更新。
2. 可注释变异类型
明确位置及序列改变的变异,全外显子组和全基因组检测出的变异,包含SNVs,insertions、deletion等。
3. 注释结果信息
1) 功能注释信息,主要是把变异在基因组的位置和功能影响标出。包括基因信息和变异影响,信息来自RefSeq或Ensembl。
2) 频率信息,标记群体数据库频率,包含数据库总的频率及子群体频率。这部分信息主要在疾病研究中根据疾病的流行病学研究,有针对性的筛选低频或罕见变异,为人类疾病研究提供基础。高通量测序检出的变异数目众多,对于遗传病来说,要筛选出致病变异,需要过滤掉一些常见变异,群体变异库的使用可以进一步缩小筛选范围。
3) 软件预测结果信息,突变的致病性预测。可有效缩小变异范围,协助研究者更快找到致病基因。
4) 疾病数据库信息,HGMD、Clinvar等数据库信息,协助用户快速定位已知致病位点。
4. 过滤筛选
VEP工作流提供注释结果的简单过滤,主要包含
1) 筛选功能突变,筛选出coding区和剪切区域的突变;
2) 按照频率过滤,筛选出低于指定频率的突变;
3) 按照遗传模式过滤。
运行时间
1. cache文件建索引,能更大的节省时间
1) 命令行:
perl convert_cache.pl -species homo_sapiens -version 88_GRCh37 --force_overwrite
注意:建索引时间比较长,建议放后台执行。
2) 时间比较:2020个位点的vcf文件,使用-everthing注释,
cache不建索引:50-60min
cache建索引后:2-3min
3) 参考网址 http://www.ensembl.org/info/docs/tools/vep/script/vep_cache.html。
2. 案例
在GeneDock平台深圳域测试了两个外显子数据,使用4核8G的机器,
1) 不添加自定义数据库的前提下,
文件1:137750个位点,运行时间约7分钟。
./vep -i sample1.vcf --cache -o sample1.out.txt --force_overwrite --everything --tab --fork 4 --assembly GRCh37 --offline
文件2:182748个位点,运行时间约12分钟。
./vep -i sample2.vcf --cache -o sample2.out.txt --force_overwrite --everything --tab --fork 4 --assembly GRCh37 --offline
2) 在添加了自定义数据库Clinvar、gnomeAD、dbscSNV、MCAP、dbNSFP后,
文件1:137750个位点,运算时间为13分钟;
文件2:182748个位点,运行时间约20分钟。
结论:20分钟完成一个WES的vcf注释,这个时间对于研究者来说,接受度较高。
小结
变异位点的注释是变异分析,基因研究的重要步骤,VEP更新速度快,支持自定义数据库,运行时间短,可更好的服务研究者。GeneDock公有云平台提供的VEP注释工作流,助力您的科学研究。
参考文献
McLaren W, Gil L, Hunt SE, Riat HS, Ritchie GR, Thormann A, Flicek P, Cunningham F.The Ensembl Variant Effect Predictor.Genome Biology Jun 6;17(1):122. (2016) doi:10.1186/s13059-016-0974-4.