垃圾进、垃圾出?

 

我国科学在一些方面确实是蒸蒸日上,特别是有些年轻人认认真真做研究。

但是,在热火朝天的气氛中,也有鱼目混珠。

在进步中,还出现了一个新现象:全国多个地方出现一些擅长发论文者,在一些读者多的刊物发表论文。这些论文对于这些人在中国的晋升和荣誉特别有效。而其中一部分是把无关紧要的内容发到耀眼的地方,还有一些根本就是造假。而主持晋升和荣誉评审的科学家很多没有水平或者没有时间看内含,只按发表的杂志给予肯定。这些恶劣的问题,逐渐影响我国在全球科学界的声誉。以前类似的人可以做类似的事,但英文不够、对国际出版物了解不够而无法用“出口转内销”的方法损害我国的科技事业。

有一些类别的论文,特别容易出现问题,而且没有人愿意揭穿。

例如,单细胞测序。因为每次费钱,一个课题组做了,其他一般就不会再做。这样,第一个发表的如果错了,后来很多人也不一定知道。

但是,“世界上怕就怕认真二字”。出现过第一篇文章发表后,后面有人分析,发现前面的是错的。

多年前收到过一个文档,作者匿名。最初是英文的,后翻译为中文。

它直指华大基因王俊等人在《细胞》上发表的两篇论文有问题。

 

简而言之,这个文档认为那两篇论文测了污染物的序列,而其结论也应该是污染物问题,而不是其号称的癌症基因序列变化。

英文有个俗语:garbage in,garbage out。

似乎就可以用来形容这篇匿名文章的结论:如果检测的时候,没有排除污染物,进了一堆垃圾,那么分析出来的当然只能也是垃圾。

希望我国的科学界,越来越多的人珍重国家的投入、人民的期望,认认真真做老老实实的科学。否则多少年后,也难保不会被人指出。

 

以下是原文档:

在单细胞全基因组测序和变异识别中污染带来的挑战

 

摘要

两项最近的研究使用了单细胞全基因组扩增技术和外显子组测序来检查肿瘤的异质性。这些研究发现了数以百计的单核苷酸变异(SNV),每个细胞都不一样,这揭示了相关肿瘤在遗传上的复杂性。这些研究还使用了种群遗传分析方法来研究肿瘤细胞的克隆性组成。我们对这些数据的独立分析显示,其单核苷酸变异中的绝大部分都是由污染造成的,只有一小部分(如果有的话),可以被归因到肿瘤样本真正的异质性。在其中一项研究所报告的711个单核苷酸变异中,我们发现只有11个可能真正是肿瘤和正常样本之间的遗传差异。在另一项研究所报告的229个单核苷酸变异中,我们发现只有91个可能是真正的差异。并且,即便是这些单核苷酸变异,我们的分析也显示它们不能代表肿瘤异质性,而是存在于所有被取样的细胞中。我们提出了可能帮助今后研究解决这些问题的方法。

 

导语

       高通量测序成本的快速下降正对分子生物学造成深远影响。但是,对于哺乳动物单个细胞基因组的研究仍然很少【1-4】,原因是现有的全基因组扩增技术仍然存在限制。单细胞全基因组扩增的一个重要应用领域就是研究肿瘤中的基因组变异。对于一个肿瘤中距离较远的细胞群落的大量测序表明存在这种异质性【5,6】,在使用单细胞全基因组测序对不同细胞进行的研究中,还观察到了拷贝数变异。即使对基因组中一个合适的大区域进行平均,在大幅扩增造成偏倚的情况下,也能探测到拷贝数变异,但是要精确探测到单核苷酸变异还是更具挑战性。不平均的扩增可能导致某些区域不能获得足够的测序覆盖度,导致出现错误的阴性结果。此外,对两个等位基因的扩增不同,可能会导致一个杂合性单核苷酸变异看起来像纯合性单核苷酸变异,或者像野生类型,也称等位基因丢失。最后,扩增过程中聚合酶的错误可能会看起来像出现了不存在于原始样本中的单核苷酸变异,导致错误的阴性结果。两项最近的研究声称解决了这些挑战,并把他们的方法用于研究两种癌症。在一项研究中,Hou等人【2】首先验证了他们的技术,方法是对来自一名健康人的两个细胞进行测序,此前这个人已经接受过测序,并与来自同一个人的多细胞样本进行比较(表1)。然后,他们对来自一个JAK2阴性的骨髓增生肿瘤的82个单细胞进行了外显子组测序,并对来自同一个病人的正常口腔黏膜上皮组织的8个单细胞进行了外显子组测序。此外,还对正常组织和癌变组织都进行了多细胞外显子组测序。与此相关的一项研究使用了同样的技巧,Xu等人【3】使用外显子组测序技术检查了来自肾透明细胞癌(ccRCC)的20个单细胞,和来自附近正常肾组织的5个单细胞。还对正常和癌变组织进行了多细胞外显子组测序。

 

虽然Hou和Xu等人的论文试图对技术误差作出定量处理,比如非平均覆盖、扩增错误、等位基因丢失,他们没有提到污染可能会对其结果造成的影响。在大批量测序中,污染常常可被忽略,但对单细胞的扩增却很容易受到即使是低程度污染的影响。这有两个原因,一是在对大块组织的实验中含有多得多的起始DNA,污染只会影响DNA总数中的一小部分,影响要更小。第二,即便是同等比例程度的污染,对于单细胞实验来说也会有显著不同的影响。一个单独的二倍体人类细胞含有6pg的DNA,如果在扩增前受到3fg的外来人类DNA污染,也只影响了整个基因组的0.1%。由于两个无关的人类基因组会在1,000,000个位点存在区别,这种污染会导致1,000个位点有突变。在扩增之前,这些突变会存在于该细胞的一个拷贝中,而另外还有两个正常的拷贝。在原则上,通过看突变是存在三分之一或是一半的序列中,研究者可以区分出真突变和污染,但是,扩增带来的偏倚,还有低测序覆盖度等其他一些因素,使得这种区分变得不可能。在实践中,污染与真突变相比是不可区分的。可以比较,0.1%程度的污染如果在大批测序中平均分布在基因组中,在每1000个DNA拷贝中会有一个拷贝中有突变。即使在1000X的测序深度下,在某个特定的位点也只会有1个突变序列,这低于大部分平台的错误率,绝不会被认为是单核苷酸变异。结果就是,单细胞实验中的污染可以导致出现数百或数千个被错误判断的单核苷酸变异,而同样程度的污染在大批样本中可以忽略不计。

 

在独立分析Hou和Xu等人的数据后,我们发现了很强的迹象,说明用于下游分析的单核苷酸变异中的绝大部分都是污染或技术误差的结果。在确定了一些看来为真的单核苷酸变异后,我们质疑这些结果是否有助分析肿瘤的克隆组成。我们发现,这些单核苷酸变异的异质表象,与从等位基因丢失率所推出的结果是相一致的。对于这些数据能否帮助分析所研究肿瘤的异质性,我们没有找到证据。

 

结果

单细胞研究受污染影响的可能性很高

       Hou等人报告说,在单个癌细胞的外显子组中发现了711个单核苷酸变异,它们不存在于用作对照的正常组织中。我们首先把这711个单核苷酸变异与单核苷酸多态性数据库(dbSNP)进行了对比,后者是已知的人类突变的一个列表。由于这711个单核苷酸变异被认为是从肿瘤的随机突变中产生的,它们与人群中已知突变相符合的数量应该不会达到显著程度。而另一方面,由外来的人类DNA造成的污染,应该会含有dbSNP数据库中已有的突变。我们发现,在711个单核苷酸变异中,有617个存在于dbSNP数据库中,很可能是由污染造成的(图1)。此外,Hou等人还报告说,有10%的单核苷酸变异不能被PCR技术和桑格测序法所验证。其原因很可能是测序或匹配中出现了错误,这个比例与没有在dbSNP数据库中找到的单核苷酸变异数量的比例(13.2%)相似。

 

dbSNP数据库没有完全记录人群中所有突变,因此一些污染物中可能包含dbSNP数据库中找不到的突变。事实上,最近有一些研究表明,某些个体携带的许多单核苷酸变异都是整体人群中罕见的【7,8】。考虑到这些因素,我们要问一个问题,即剩下的单核苷酸变异是否也存在于Hou等人研究的非癌症样本中,或是存在于Xu等人研究的任一样本中。我们注意到,这些问题的原因可能不全是污染,也有可能是匹配错误,这种错误可能出现在许多互不相关的样本中。例如,这些单核苷酸变异中有许多都出现在这样的区域,其匹配质量低的读数序列所占的比例高。对另外6个单核苷酸变异来说,在任何样本中都不存在显著意义上的等位基因比例(>15%),很可能是测序或匹配中的错误。我们认为,剩下的11个单核苷酸变异(1.5%)可能是真正的单核苷酸变异。可用来比较的是,对于一些随机产生的单核苷酸变异来说,有94.6%不能在dbSNP数据库或其他样本中找到,说明这种过滤机制没有过于严格。

 

我们对Xu等人所报告的单核苷酸变异进行了同样的分析。在所报告的229个单核苷酸变异中,有79个存在于dbSNP数据库中,另外55个存在于无关样本中(非癌症样本或Hou等人研究的任一样本),还有4个的等位基因比例较低,只剩下91个可能的单核苷酸变异。这些可能是真正的只存在于肿瘤细胞中而不存在于正常组织中的单核苷酸变异。

 

肿瘤异质性与等位基因丢失

       如果开始时的DNA数量较少,在扩增过程中,一个杂合性位点的一个等位基因可能会相对于其他等位基因来说被过度扩增。这个位点会因此看起来像纯合性突变,或像纯合的野生型,这个现象被称作等位基因丢失。在Xu等人认为可能是的单核苷酸变异中,有许多没有在每一个细胞中都出现。这里,我们考虑到有两种可能,一是这些单核苷酸变异真的没有出现在一些细胞中——这说明存在肿瘤异质性,或者这些单核苷酸变异只不过是因为等位基因丢失的原因而没有被探测到。

 

Xu等人认为可能是的91个单核苷酸变异,我们计算了在所有至少有10个读数序列覆盖的单个癌细胞中,含有这些突变的细胞所占的比例。大部分单核苷酸都存在于所有或几乎所有细胞中。作为比较,我们确认了正常组织中的单核甘酸变异,计算了它们出现于单个癌细胞中的频率。由于这些正常的单核苷酸变异应该出现在所有的单个癌细胞中,这种计算可以帮助估计一个单核苷酸变异由于等位基因丢失或其他技术误差原因而不出现的频率。我们发现,在癌细胞特有的单核苷酸变异中发现的表面上的异质性,同样也出现在正常组织的单核苷酸变异中。我们的结论是,Xu等人所识别的单核苷酸变异不能说明存在肿瘤异质性,任何看上去像肿瘤异质性的现象都可以由等位基因丢失来解释。Hou等人研究中所识别的单核苷酸变异数量较少,不能支持这样的统计分析。

 

讨论

       尽管单细胞基因组分析对于研究肿瘤异质性来说是一种有前途的方法,可能会产生重要成果,我们还是不得不认为,这种方法的成功应用还有待证明。我们发现,污染可能会是一些表面上罕见的突变的重要源头,之前的研究没有发现这一点。作为第一步,我们建议,在未来的单细胞基因组研究中,应该报告所认定的从头测序所得的突变在dbSNP数据库中所占的比例,这应该被作为标准,正如在针对大批组织的研究中通常都要报告“转换:颠换”(Ti:Tv)比例一样。我们也注意到,仅仅筛除dbSNP数据库中找到的突变并不足够,因为污染物可能会含有dbSNP数据库中没有的突变。必须要证明,污染没有达到能够影响结论的水平。

 

在污染之外,我们还发现等位基因丢失也是一个重要问题,同样能够造成有异质性的表象。我们的发现说明,未来的研究必须在数据分析中仔细考虑等位基因丢失的影响,必须要能证明,所观察到的异质性要大于等位基因丢失所能导致的程度。一个尚待证明的问题是,在等位基因丢失的情况下,是否还能可靠地确定测序系列。

 

材料和方法

通过对肿瘤细胞进行外显子组测序而识别的单核苷酸变异

       之前识别的单核苷酸变异的列表来源是,Hou等人研究【2】中的表S4B,和Xu等人研究【3】中的表S4。基因组位置被从hg18转换到hg19,使用的工具是UCSC liftOver。在Hou等人识别的712个单核苷酸变异中,有一个被从hg18和hg19之间的参考序列中去除,没有包含在进一步分析中。原始测序数据来自NCBI Sequencing Read Archive,获取码为SRA050202和SRA050201。使用BWA方法把读数序列匹配到hg19。

 

首先,使用dbSNP数据库中的build 135来筛选这些单核苷酸变异,对数据库的访问方式是UCSC基因组浏览器的表hg19.snp135。剩下的变异被再次与无关样本进行对比。Hou等人所识别的单核苷酸变异被与下列对象对比:LN-T1, YH-Control, YH-1, YH-2, LN-T1, RN-T, 和RN-X。从LC-T1中至少有10X覆盖度的区域随机产生了1000个单核苷酸变异,再用dbSNP数据库和同一组样本对它们进行了筛选。Xu等人识别的单核苷酸变异被与下列对象对比:YH-Control, YH-1, YH-2, LN-T1, LC-T1, LN-X, LC-X, RN-T, 和RN-X。在所有情况下,如果一个突变在无关样本的读数序列中出现频率大于5%,则去除这个单核苷酸变异。

 

对于经过所有筛选过程后的每一个单核苷酸变异,计算了所有在该位置至少有10X覆盖度的单个癌细胞中,至少有一个读数序列含有该突变的单个癌细胞所占的比例,并且生成了一个关于这些比例的柱状图。还识别了在正常组织中质量得分大于30的杂合性单核苷酸变异,所用方法是Pysam interface to SAMtools【12】。类似的,也计算了在单个癌细胞中探测到这些单核苷酸变异的频率的分布情况。

 

参考文献

1.    Fan, H.C., et al., Whole-genome molecular haplotyping of single cells. Nat Biotech, 2011. 29(1): p. 51-57.

 

2.    Hou, Y., et al., Single-Cell Exome Sequencing and Monoclonal Evolution of a JAK2-Negative Myeloproliferative Neoplasm. Cell, 2012. 148(5): p. 873 - 885.

 

3.    Xu, X., et al., Single-Cell Exome Sequencing Reveals Single-Nucleotide Mutation Characteristics of a Kidney Tumor. Cell, 2012. 148(5): p. 886 - 895.

 

4.    Navin, N., et al., Tumour evolution inferred by single-cell sequencing. Nature, 2011. advance online publication: p. -.

 

5.    Gerlinger, M., et al., Intratumor Heterogeneity and Branched Evolution Revealed by Multiregion Sequencing. New England Journal of Medicine, 2012. 366(10): p. 883-892.

 

6.    Yachida, S., et al., Distant metastasis occurs late during the genetic evolution of pancreatic cancer. Nature, 2010. 467(7319): p. 1114-1117.

 

7.    Nelson, M.R., et al., An Abundance of Rare Functional Variants in 202 Drug Target Genes Sequenced in 14,002 People. Science, 2012.

 

8.    Tennessen, J.A., et al., Evolution and Functional Impact of Rare Coding Variation from Deep Sequencing of Human Exomes. Science, 2012.

 

9.    Blainey, P.C. and S.R. Quake, Digital MDA for enumeration of total nucleic acid contamination. Nucleic Acids Research, 2010.

 

10.   Pushkarev, D., N.F. Neff, and S.R. Quake, Single-molecule sequencing of an individual human genome. Nat Biotech, 2009. 27(9): p. 847-850.

 

11.   Li, H., J. Ruan, and R. Durbin, Mapping short DNA sequencing reads and calling variants using mapping quality scores. Genome Research, 2008. 18(11): p. 1851-1858.

 

12.   Li, H., et al., The Sequence Alignment/Map format and SAMtools. Bioinformatics, 2009. 25(16): p. 2078-2079.

 

《饶议科学》注:

被批评的第一篇论文的作者为:

 

Yong Hou, Luting Song, Ping Zhu, Bo Zhang, Ye Tao, Xun Xu, Fuqiang Li, Kui Wu, Jie Liang, Di Shao, Hanjie Wu, Xiaofei Ye, Chen Ye, Renhua Wu, Min Jian, Yan Chen, Wei Xie, Ruren Zhang, Lei Chen, Xin Liu, Xiaotian Yao, Hancheng Zheng, Chang Yu, Qibin Li, Zhuolin Gong, Mao Mao, Xu Yang, Lin Yang, Jingxiang Li, Wen Wang, Zuhong Lu, Ning Gu, Goodman Laurie, Lars Bolund, Karsten Kristiansen, Jian Wang, Huanming Yang, Yingrui Li, Xiuqing Zhang, Jun Wang

 

第一作者和通讯作者的单位都是深圳华大基因。

 

被批评的第二篇论文的作者为:

 

Xun Xu, Yong Hou, Xuyang Yin, Li Bao, Aifa Tang, Luting Song, Fuqiang Li, Shirley Tsang, Kui Wu, Hanjie Wu, Weiming He, Liang Zeng, Manjie Xing, Renhua Wu, Hui Jiang, Xiao Liu, Dandan Cao, Guangwu Guo, Xueda Hu, Yaoting Gui, Zesong Li, Wenyue Xie, Xiaojuan Sun, Min Shi, Zhiming Cai, Bin Wang, Meiming Zhong, Jingxiang Li, Zuhong Lu, Ning Gu, Xiuqing Zhang, Laurie Goodman, Lars Bolund, Jian Wang, Huanming Yang, Karsten Kristiansen, Michael Dean, Yingrui Li, Jun Wang

 

第一作者和通讯作者的单位都是深圳华大基因。

1.png
2.png