NCBI的ClinVar数据库及其在基因检测医学中的应用

(整期优先)网络出版时间:2014-03-13
/ 2

NCBI的ClinVar数据库及其在基因检测医学中的应用

白晋伟

白晋伟

(苏州大学图书馆数字化部苏州江苏215006)

【摘要】为加速人们理解基因序列变异与疾病表型之间的关系,美国国家生物技术信息中心(NCBI)与2012年底宣布启动ClinVar公共、免费数据库,本文旨在向国内研究者介绍ClinVar数据库产生的背景、内容和在基因检测医学研究中的应用,以促进国内研究工作者充分利用此数据库资源、开展转化医学信息学研究。

【中图分类号】R19【文献标识码】A【文章编号】2095-1752(2014)03-0028-02

21世纪以来,医学科学的发展日新月异,生命科学和医学的研究范式也随着人类基因组计划的实施、下一代测序技术的普及和计算科学的迅猛发展而发生变化,科学界不久刚刚提出P4医学模型,即以预测、预防、个性化和参与性(predictive,preventive,personalized,participatory)为特点的医学[1-3],人们又提出来P5医学模式,即在P4医学的基础上提出了精确医学(precisionmedicine)[4]。

2007年美国著名的基因检测公司23andMe成立、并为客户提供个人基因组服务[5-7],将你的口水放到试管寄到23andMe公司,只要花费不到四百美元,即可以进行DNA测试,4-6周之后,客户可以通过在线的方式查看检测结果,来了解您遥远的祖先,你的家谱、饮食和疾病风险等相关信息,它还能够帮助客户了解为何喜欢某些食物或味道、了解和历史名人的遗传距离等,但在最近该公司被FDA要求暂停。原因不只是伦理和监管问题,对复杂的生命体系,目前仅仅分析一些已知的片段是很难提出准确的疾病风险模型。遗传与疾病的关系需要从系统的角度、同时考虑个性化的条件,才有可能准确的进行预测和预防,但是要想系统地理解人类基因型与医学临床表型之间的关系,数据和数据建模是基础[8,9]。

转化医学研究是目前生命科学研究的热点,但目前人们已经逐渐认识到,真正的转化医学研究,数据和基于数据的建模是关键,没有数据将是“巧妇难为无米之炊”,只有在高质量的数据库基础上,对“大数据”进行充分的分析和建模,才有可能对人类基因变异与疾病之间的关系进行探讨,才能做到真正的数据驱动的转化医学。

在这样的大背景下,为了促进和加速人们对人类基因型与医学临床表型之间关系的深度研究,美国国家生物技术信息中心(NCBI)于2012年11月宣布、2013年4月正式启动的ClinVar公共、免费数据库[10]。作为核心数据库,ClinVar数据库整合了十多个不同类型数据库、通过标准的命名法来描述疾病,同时支持科研人员将数据下载到本地中,开展更为个性化的研究,相信随着数据量的激增,基于网络的“直接针对消费者(directtoconsumer)的遗传检测”将成为可能。本文旨在介绍ClinVar数据库的资源和功能,同时讨论该数据库将来在临床基因检测和转化医学研究中的应用。

ClinVar数据库介绍

到目前为止、在遗传变异和临床表型方面,NCBI和不同的研究组已经建立了各种各样的数据库,数据信息相对比较分散,ClinVar数据库的目的在于整合这些分散的数据、将变异、临床表型、实证数据以及功能注解与分析等四个方面的信息,通过专家评审,逐步形成一个标准的、可信的、稳定的遗传变异-临床表型相关的数据库[10]。表1列出了ClinVar数据库整合的相关信息源。

数据库中的文件可以下载到本地分析,ClinVar数据库支持的数据格式包括:XML、VCF以及制表符定界文件格式。由于数据库建立不久,有些功能还在完善中,如目前还没未有ClinVar专用的数据上交通道,如需要可以通过dbSNP数据库上交数据。在ICCG资源中病人和家族的信息也在建设中。到2013年为止,该数据库收集的基因变异数有62422个,相关的条目有68194个,分布在18694基因中。条目数多于基因变异数的原因是有时候同一个变异-表型可能有不同的提交者(SCV,inpidualsubmissions),其条码形式为RSCV000000000.0,这些同一个变异-表型组合不同的提交者将聚集成一个条目下(RCV,aggregaterecords)其条码形式为RSCV000000000.0;很显然前者的数目多于后者。目前提交者有82个,有临床实验室,研究室,数据库,专家等。

ClinVar数据库的应用

ClinVar数据库为疾病等临床表型与基因型的研究提供了方便,图2为以前列腺癌为例寻找疾病相关的遗传变异的信息的结果。

图2中可以看出,在ClinVar数据库里可寻找到1942个,图中右表罗列了每一个条目的信息包括基因、变异、发生的频率、表型、临床意义、评审状态及染色体上的位子等,而左表是对这1942个条目的统计,如:临床意义包括有互相矛盾的解释的条目数、致病性情况、风险因素等;评审状态;测量方法;变异类型等。研究人员可以对这个数据在进行深度分析和应用于具体的临床检测的预测。

数据的分析是数据价值体现的根本,随着ClinVar数据库的逐步成熟,相应的数据分析模型、工具和应用也将不断深入,基于ClinVar数据库,斯坦福大学的DaneshjouR等人开发了一个一款基于网络的工具Path-Scan[11],用以帮助研究者甚至个人用匿名的方式分析可能的风险变异,工具本身也可以对各种变异进行统计分析。

结论

随着个人基因组测序的普及、个人基因检测的时代已经到来,然而分析这些个人基因组中所包含的信息,尤其是疾病风险信息,将成为一个影响人们日常生活的重要问题,ClinVar数据库为大家提供了一个分析参考库,然而由于生命体系的复杂性和个性化的差异,这些变异体的分析将成为巨大的挑战,我国在这方面的数据积累还很少,针对中国人群的这样的数据积累将成为我国个性化医疗的瓶颈,了解ClinVar数据库,不只是将它应用到研究中去,更重要的是我们要再借鉴这个数据库的基础上,开发有利于中国人群基因检测和应用的数据库,并促进相应的转化医学研究。

参考文献

[1]HoodL,FriendSH.Predictive,personalized,preventive,participatory(P4)cancermedicine.NaturereviewsClinicaloncology.2011Mar;8(3):184-7.

[2]HoodL,FloresM.ApersonalviewonsystemsmedicineandtheemergenceofproactiveP4medicine:predictive,preventive,personalizedandparticipatory.Newbiotechnology.2012Sep15;29(6):613-24.

[3]HoodL.Systemsbiologyandp4medicine:past,present,andfuture.RambamMaimonidesmedicaljournal.2013Apr;4(2):e0012.

[4]MirnezamiR,NicholsonJ,DarziA.Preparingforprecisionmedicine.TheNewEnglandjournalofmedicine.2012Feb9;366(6):489-91.

[5]KayeJ.Theregulationofdirect-to-consumergenetictests.Humanmoleculargenetics.2008Oct15;17(R2):R180-3.

[6]ChuaEW,KennedyMA.CurrentStateandFutureProspectsofDirect-to-ConsumerPharmacogenetics.Frontiersinpharmacology.2012;3:152.

[7]KalfRR,MihaescuR,KunduS,deKnijffP,GreenRC,JanssensAC.Variationsinpredictedrisksinpersonalgenometestingforcommoncomplexdiseases.Geneticsinmedicine:officialjournaloftheAmericanCollegeofMedicalGenetics.2013Jun27.

[8]KalfRR,MihaescuR,KunduS,deKnijffP,GreenRC,JanssensAC.Variationsinpredictedrisksinpersonalgenometestingforcommoncomplexdiseases.Geneticsinmedicine:officialjournaloftheAmericanCollegeofMedicalGenetics.2014Jan;16(1):85-91.

[9]SterckxS,CockbainJ,HowardH,HuysI,BorryP."Trustisnotsomethingyoucanreclaimeasily":patentinginthefieldofdirect-to-consumergenetictesting.Geneticsinmedicine:officialjournaloftheAmericanCollegeofMedicalGenetics.2013May;15(5):382-7.

[10]LandrumMJ,LeeJM,RileyGR,etal.ClinVar:publicarchiveofrelationshipsamongsequencevariationandhumanphenotype.Nucleicacidsresearch.2013Nov14.

[11]DaneshjouR,ZappalaZ,KukurbaK,etal.Path-scan:areportingtoolforidentifyingclinicallyactionablevariants.PacificSymposiumonBiocomputingPacificSymposiumonBiocomputing.2014;19:229-40.