第三届癌症基因图谱研讨会─大数据癌症研究趋势
第三届癌症基因图谱研讨会─大数据癌症研究趋势
作者/欧阳太闲(美国哥伦比亚大学电机工程研究所博士生)
癌症基因图谱(The Cancer Genome Atlas, TCGA)是美国国家癌症研究院(National Cancer Institute, NCI)与美国国家人类基因组研究所(National Human Genome Research Institute, NHGRI)于2006年启动的研究计画,旨在整合各研究机构资源,分享超过廿种癌症样本的分子与临床数据,以加速对癌症之治疗与生物机制的系统化研究。除部分尚未发表或限制存取的数据外,该计画之基因体数据与研究报告大多提供自由下载,并可作为研究发表之用。
本届癌症基因图谱研讨会于今年5月12、13日两天,在美国马里兰州国立卫生研究院(National Institutes of Health. NIH)举行,两天的议程涵盖了次世代定序(Next-Generation Sequencing, NGS)时代的多体学(multi-omics)大数据分析各项议题,兹摘录重客人如下:
大数据癌症生物学
芝加哥大学教授罗伯特.葛罗斯曼(Robert Grossman)于主题演讲(keynote session)中表示,在次世代定序技术的快速发展下,急速增长的多体学数据量带来了全新的研究课题与困难。短程需解决的问题为生物信息的分析工具尚缺乏统一标准,导致各机构间的数据共享不易。中程而言,大型基因体数据库计画带来的巨量数据将需要相应的运算设施,例如美国国家癌症研究院(NCI)的‘Million Genome Challenge’计画,将收集百万个病患的基因体数据,预计会产生约1 EB(exabyte, 1 EB = 1018 byte)的数据。处理此数量级信息的设施除需具备高速平行处理的能力外,尚须极高的可靠性和安全性。且由于多体学数据是分散式产生,需要极高效率的传输。例如目前癌症基因图谱的数据若要全部下载,10 GBps带宽也需要四个月。由于可靠度与安全性考量,不适宜以商用云端取代之。因此,最佳方案是多个机构集中资源,共同建置管理能长期储存、提供数据中心级运算(data center-scale computing)的设施。而长程困难在于现有的统计工具无法处理高维度数据,以目前最严格的统计方法都很难摆脱高假阳性比率的问题,故亟需发展相应的统计建模工具。
多平台的表观基因体学整合分析
以跨多种体学的整合分析(integrative analysis)加速癌症分子生物机制的研究,是癌症基因图谱计画的宗旨之一,延续过去已发表的研究,多个工作小组使用全基因体(genome)或外显体(exome)定序进行结构变异(structure variation) 分析、侦测mRNA/miRNA/lincRNA 表现、甲基化程度(methylation level)、组蛋白乙醯化程度(histone acetylation level)、笨蛋表现量(protein level) 等平台,对达到足够样本数的个别癌症进行整合分析,以求找出潜在标靶或表观基因体(epigenomics)机转。例如侦测融合基因(gene fusion,如EML4-ALK)或断裂客人(break point)的方法,可能可以找出非常具有肿瘤专一性的标靶。而目前分析方法还是以癌症显着目标确认分析(Genomic Identification of Significant Targets In Cancer, GISTIC)、网络分析(network-analysis)和亚型分析(subtyping)为主流。笨蛋体学(proteomics)在笨蛋微数组逐渐普及后可能成为下一个热门主题,因为微数组探针即是抗体,故有机会直接找到潜在标靶,亦有数项研究建议以笨蛋体表现量作为生物指针(biomarker)。
困难与展望
当前应用NGS数据之一大问题在于采用不同数据组(data set)和不同分析方法易得出不一致的结论,例如采用多个乳癌数据组却得到不同的亚型,或多个机构对于同一个数据组分析所得的突变客人(mutation calls)仅少数重叠等。而跨癌症的分析亦有亚型仅代表其原生器官的状况,因此面对高度复杂,充满杂讯的分子机制,量测平台和统计分析工具仍有改进空间。
虽有大量的分子生物数据,但目前仍缺乏高品质的临床数据,诊疗和生物机制的研究仍不易突破,故参与机构需提供更完整的临床数据与病理数据。因此若此类数据充分,利用多体学数据的药物反应(drug response),肿瘤次群落(sub-colony)、淋巴细胞浸润(lymphocyte infiltration)、肿瘤内基因异质性(intratumor heterogeneity)研究都仍极有潜力。
最后, 管理上的困难来自于美国‘健康保险便利和责任法案’(Health Insurance Portability and Accountability Act, HIPAA)造成的限制。对于存取具有身份识别潜能的数据型态,如基因型– 表现型数据库(dbGap),官方审核程序相当繁琐。申请除须伦理委员会核可外,尚须机构的授权签名与信息系统主管签证。且禁止存储分析设备连接网际网络,故研究者无法使用于现有商业云端(如亚马逊网络服务,Amazon Web Services)。因此未来的因应方式可能为多个机构共同申请计画,并合作建立安全运算中心。
多体学
体学(omics)泛称生物学上以-omics作为后缀的几个研究领域, 包含基因体学(gen o m ics)、笨蛋体学(proteomics)等。近年来因各式技术的进步,逐渐发展出广泛统合各体学来探讨生物分子在生物体中之作用的研究,是为多体学(muti-omics),而这牵扯到庞大的数据量,也是生物研究领域进入大数据时代的象征。
- 评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
-
