A subcellular map of the human proteome
发布时间:2017-08-30         浏览人次:         发布人:市场部

参考文献A subcellular map of the human proteome

来源:Thul et al., Science 356, eaal3321 (2017) 26 May 2017 (本研究由西班牙和英国两国科学家合作完成)

解读人:王宁博士


摘要:

在亚细胞水平解析人类蛋白图谱的空间分布能够帮助我们了解人类生物学及疾病。本文提供了基于亚细胞定位图像,结合转录组、抗体免疫荧光显微检测和质谱验证而获得的人类蛋白组亚细胞定位的图谱(Cell Atlas)。通过在细胞内的30个亚细胞结构中12003个蛋白的原位杂交图谱的分析,定义了13个主要细胞器的蛋白组。对蛋白组数据的挖掘揭示了蛋白在细胞内表达丰度及空间特异性,发现超过半数的蛋白定位于多个亚细胞区域。这些数据有助于优化已有的蛋白互作网络,为解析人类高度复杂的细胞构架提供重要资源。

 

生物功能的区域化是生命的一种基本现象。在人类,这种区域化是通过不同层次的系统组成,从器官到特异细胞,再到细胞内部的亚细胞结构,最后到大分子复合物。在细胞水平,蛋白在特定的时间和空间发挥作用,这种区域化的定位为蛋白发挥作用提供特定的化学环境以及所需的互作因子等。蛋白的错误定位容易导致细胞活动的紊乱或疾病的产生。因此,了解蛋白的亚细胞定位对于研究蛋白的功能、互作及其作用机理是必要的。

系统研究蛋白定位的方法有多种。如定量色谱的结果可以鉴定细胞内在梯度电泳中分布相似的或通过酶切处理标记的蛋白。而通过标签蛋白或亲和试剂能够原位鉴定不同亚细胞结构定位的蛋白,并且能够高效的鉴定细胞间表达差异蛋白和多组织定位的蛋白。作为这些方法的补充,人们也开发了一些通过计算方法预测真核细胞蛋白亚细胞定位的系统。如人工矫正的UniProt数据库就是蛋白定位的重要资源,该数据库收集了文献和其他数据库提供的蛋白定位信息。尽管有这些方法,人类细胞蛋白亚细胞定位的信息依旧匮乏。为获得相关信息,通过免疫荧光(IF)和高分辨率激光共聚焦显微镜观察以及质谱分析的方法研究人类蛋白定位已经获得初步成果。目前,老鼠干细胞、Hela细胞和大鼠肝细胞蛋白的亚细胞定位图谱都已经获得很好的结果。

本文中,我们报道了人类细胞蛋白组细胞图谱(Cell Atlas)的建立。细胞图谱是包含在人类蛋白图谱(Human Protein Atlas, HPA)框架内的一个全面的、蛋白组水平的蛋白亚细胞定位数据资源。通过整合转录组数据和基于抗体荧光的图像图谱信息,我们对22个不同来源的人类细胞系,利用13993个蛋白抗体鉴定了12003个蛋白的亚细胞定位信息。这些蛋白定位在代表13个主要细胞器的30个细胞器和亚细胞结构上,。通过这些数据,我们定义了13个细胞器蛋白组,并描述了多区域定位的蛋白及在不同细胞间表达差异的蛋白。我们希望这些定位信息能够与DNA、RNA以及蛋白组水平的数据相互补充,促进人们对人类细胞及细胞互作分子机理的了解。

图片1.png

1 定义不同亚细胞结构和相应亚细胞结构的荧光标记蛋白

Fig. 1. Subcellular locations in the Cell Atlas. (A) Schematic overview of the cell. Thirteen subcellular proteomes, as well as a proteome of secreted proteins, were defined in the Cell Atlas by determining the localization of proteins to 30 subcellular structures. (B) Subcellular structures annotated in the Cell Atlas by immunofluorescence (IF) microscopy. Examples of proteins (green) localizing to each annotated structure in the representative set of human cell lines used in the Cell Atlas. Microtubules are marked with an antibody against tubulin (red); the nucleus is counterstained with DAPI (blue). The side of an image is 64 mm. Information about cell lines, antibodies, and proteins is given in table S6.


细胞系筛选和转录组分析



                                                          

图片2.png


通过免疫荧光成像技术获得细胞器中蛋白组及其亚细胞定位,我们建立了细胞图谱(Cell Atlas)。为了选到合适的细胞系,我们对56个人类细胞系做了转录组分析。通过聚类分析发现相似来源或表型的细胞系可以聚类到一起,表明存在共同的基因表达模式。主要的分类包括骨髓细胞系、细胞细胞系、内皮细胞系和导入端粒酶的永久细胞系。我们选择了22个细胞系进行免疫荧光拍照,所有预测蛋白编码基因数的84%(19628中的16504)在这些细胞系都有表达。另外,在这所有的细胞系中都表达的有6295个蛋白编码基因(约占1/3),表明这些基因作为看家基因发挥作用。而另外的45%表现出多变的表达模式。2090个基因在所有细胞系中都没有检测到,其中包括1255个在组织中检测到的基因,推测它们编码在特殊细胞或特殊发育阶段发挥作用的蛋白。蛋白功能注释结果证明上述的推测,表现为组织特异性表达的蛋白,如感受细胞中的受体以及生殖相关的蛋白等。

 

构建蛋白亚细胞定位图谱

我们制备了所有蛋白的抗体,并通过抗体亲和纯化相应的蛋白以及后续蛋白芯片分析验证其特异性的,有选择性的结合目标抗原。这些抗体覆盖了大多数预测的蛋白编码基因。同时确立了系统工作流程,即利用免疫荧光和高分辨率激光共聚焦显微镜分析蛋白的亚细胞定位。通过抗体验证,我们选择了13993个抗体(其中13073个抗体由HPA制备,另外920个是商业抗体)。这些抗体都用于免疫染色骨瘤来源的U-2 OS细胞系和另外的两个目标基因高表达的细胞系。除此之外,细胞核、围观和内质网膜等细胞器定位的标记蛋白也转入了每个样品。所有蛋白的空间表达模式都在激光共聚焦显微镜下进行观察并归并到30个细胞器或亚结构中的一个或几个区域,并根据定位信息可靠分值进行了分类。相关数据都在Cell Atlas中进行了详尽记载,这些数据以基因为中心,包含图片信息的分类以及抗体和定位信息验证及可信度的描述。另外,图片也通过公众EVE online平台的Project Discovery进行了注释。总体上,Cell Atlas包含了8252个高清晰注释过的图片,这些图片覆盖了61%的人类蛋白基因和73%在IF细胞系中表达的基因。

亚细胞定位图谱数据的验证

目前,很多文章质疑在研究中所用的抗体的效率和质量,因为脱靶的抗体会提供假阳性的结果,因此,需要人工对这些抗体的可信度和抗体着色的质量数据进行人工注释。在Cell Atlas,我们将每个蛋白定位注释分成四个级别,“确认”“支持”“认可”和“不确定”, 分别对应不同的可信度水平和不同的验证手段。其中”确认“级别对应有相应研究结果,如RNA i,CRISPR-cas9敲除和融合荧光蛋白表达数据以及另外的抗体数据的证实;”支持“级别表示与Uniprot 数据库来源的外源分析结果相一致;”认可“对应没有外源数据的证实,”不确定“是指可能与文献中的部分数据相抵触。43%的蛋白定位信息在前两个级别,表明这些定位信息提供高质量的数据,50%蛋白定位信息在”认可“级别。尽管没有外源的证据支持它们的定位,这些抗体经过我们的质量验证,并且表现为一致的免疫荧光检测结果。另外,部分假阳性结果的可能在对单个蛋白的分析中产生影响,需要特别注意。然而相对于整体蛋白组的分析来说是可以忽略的。

 

定义细胞器蛋白组学

免疫荧光照片提供的蛋白空间定位信息为发展亚细胞定位图谱提供了数据。共有12003种蛋白定位到30个细胞器和亚细胞结构。通过这些数据,我们可以描述13种细胞器中的蛋白组。另外,我们通过3种信号肽分析途径和7种跨膜结构预测方法鉴定了一个包含2918个蛋白的分泌组数据,包括各种通过传统途径分泌的蛋白。如Figure 2B所示,大多数蛋白(6245种)都分布在核质及其亚结构中,这个数量显著超过之前的报道。尽管假的核定位信号可能存在,这些核定位信号的可信度在高可信度和低可信度标准是类似的。细胞质中定位的蛋白有4279种,而包括各种运输小泡和膜结合细胞器的囊泡中定位的有1806种,分别为定位数量第二和第三的亚细胞结构。核仁,包括其纤维中心,含有1270种不同的蛋白,较线粒体和高尔基体含有更多的蛋白,尽管目前为止核仁的功能所知有限。总体上,我们获得5662种(47%)没有实验证据证明的蛋白,也确认了6341种(53%)有试验结果验证蛋白的定位信息。

我们进一步调查了各细胞器中的蛋白组对应的RNA富集程度数据进行了分析,如Figure 2C所示,在线粒体、细胞核、核仁和内质网表达的基因在所有细胞系中都表达,进一步证明了它们作为看家基因,在维持细胞生命状态中发挥重要作用。相比之下,在某细胞系中高富集或上调表达RNA对应的蛋白多为分泌蛋白或者定位在细胞膜、小泡或细胞骨架,说明这些组分在胞间联系和对周围环境的适应过程中发挥重要作用。59种人类组织中RNA的分类具有相似性,表明不同细胞系和组织中细胞器的组成具有相似性。

蛋白组学分析的目的就在于大范围的鉴定之前没有鉴定的蛋白,以获得细胞器功能的一个整体图。免疫荧光图片对于分析特定细胞区域,尤其是一些无法分离或具有特殊亚结构的细胞区域的蛋白组分具有优势。如细胞膜上的细胞结合部位,能够通过免疫荧光检测。

 

蛋白亚细胞定位图谱的验证(通过三种数据库进行相关数据的印证)

为确定蛋白亚细胞定位结果的准确性,我们首先利用了GO蛋白组数据库对每个细胞器的蛋白组数据进行了验证,从中找到了大量与细胞器主要功能相关的蛋白。然后对这些蛋白定位富集通过超几何统计验证(Hypergeometric statistical test)。通过这种方法,我们能够根据nucleaRDB和Nuclear Receptor Signaling Atlas数据库对核定位的受体及其调控因子的核仁定位富集以及预测蛋白分泌途径中各细胞器(Golgi,小泡和内质网)富集的分泌蛋白进行定位验证。再次,通过哺乳动物蛋白复合体数据库CORUM的富集测试,获得了相似的结果:已知的复合体在除细胞骨架外的各自对应细胞器中富集。

 

通过质谱进行数据验证

利用HyperLOPIT方法进行验证。HyperLOPIT(hyperplexed localization of organelle proteins by isotope tagging)通过定量质谱分析和智能多元统计分析进行生化细胞分型,从而分离所有的亚细胞区域。这一方法能够在蛋白各自的定位区域对蛋白进行全面的鉴定和定量分析。这种方法不依赖于完全的细胞器分离纯化,而是通过浓度梯度分离不同的细胞蛋白。蛋白定位信息是通过与已知的细胞器定位标记的比较而获得。

hyperLOPIT方法应用于U-2 OS细胞系的亚细胞定位分析,共鉴定5020个蛋白的空间定位,并将1971个蛋白定位在12个单独的亚细胞结构,这些结果与CellAtlas中的注释结果相对应(Figure 3B)。共有3626个蛋白的定位信息在Cell Atlas和HyPerLOPIT中共有。在这些结果中,1426个蛋白在HyperLOPIT结果中明确定位。在这些蛋白中,799个在Cell Atlas中显示单独定位,剩下的627个显示多个定位区域。

HyperLOPIT和Cell Atlas结果比较过程中用了两种比较方法。第一种比较在Cell Atlas中显示为单区域定位的蛋白,第二种是比较在hyperLOPIT结果中单区域定位的蛋白和CellAtlas中的所有蛋白,包括多区域定位的蛋白。在799个Cell Atlas显示单定位的蛋白中,有76%与hyperLOPIT亚细胞定位结果相同;在1426个在两种数据中都存在的蛋白中,82%的亚细胞定位相同。另外,在Cell Atlas四种可信度的蛋白定位结果中,有46%的认可级在两种数据中相同,而在细胞器水平,内质网和线粒体中的蛋白定位的一致性达到91%和92%,在小泡中达到60%。在小泡中重合度低是可预见的,因为在Cell Atlas中小泡定位的蛋白包含多种细胞器和亚细胞结构,而这些结构在hyperLOPIT中能够分离分析。如Fig. 3C所示,PCA(主成分分析)表明很多在Cell Atlas中定位于小泡的蛋白定位在hyperLOPIT数据的未分类中间位置,因为小泡是高度活跃的结构,它们从细胞的不同部位产生和运输,因此定位于小泡的蛋白组分表现为多定位区域,导致hyper LOPIT数据中无法成为单一、唯一的类型。hyerLOPIT工作流程包括染色质结合蛋白、核膜和核仁的分离,而这一分离过程能够分解蛋白关联模式。Hyper LOPIT和cell Atlas数据之间的不统一揭示了hyperLOPIT数据中存在核仁亚类,同时也体现了不同方法获得的结果具有相互矫正,互为补充的效果。

图片3.png

 

hyperLOPIT数据中,60%的蛋白为“无法分类”的类型。这个无法分类的类型可能代表了多个活跃的情况,如蛋白定位在未注释的亚细胞结构或多定位区域。针对hyper LOPIT标注为未分类,但在cell atlas中具有亚细胞结构信息的1755个蛋白进行单独分析发现大多数hyper LOPIT-未分类蛋白定位在HPA classes中的核膜、小泡、核质和细胞质以及细胞质膜和细胞质中,反映了大多数细胞蛋白的定位很活跃。

Cell Atlas和hyperLOPIT的结果具有互补性,我们通过转移学习(Transfer learning)的方法整合了两种数据资源。通过整合两种数据中共同的标记蛋白,对细胞分类结果的准确度显著提高了cell Atlas定位结果的准确性。这也说明了整合两种方法对细胞器蛋白组分类的重要性。

 

多区域定位的蛋白

在本研究中发现,很多蛋白并不是定位在单独的细胞器中。54.3%的蛋白定位在多个区域,这一结果也得到了hyperLOPIT数据和酵母数据的支持。图片定位的长处在于能够原位观察蛋白并发现蛋白在多个细胞结构的定位,从而发现多区域定位蛋白(MLPs)。我们根据主要和次要定位信息将蛋白进行了定位。超过50%(6163种)的蛋白定位在不止一个区域,其中27%定位在三个或更多的区域。内质网和线粒体是单定位蛋白聚集区,二细胞膜和核结构主要是一些多定位蛋白,这也与hyperLOPIT的结果相一致。这些结果与已知的这些细胞器的功能一致。

为确定这些多区域定位的蛋白是否是定位在同一个高一级的结构,我们将细胞器和亚细胞结构归为三大类,分别为核(包括核和核内结构),细胞质体(细胞质、线粒体和各种细胞骨架)和分泌系统(内质网、高尔基体、小泡和细胞膜),并将这些不同定位的蛋白用圆圈图表示如Fig4 E-F-G.

 

 

图片4.png

 

 

区域定位信息优化生物功能网络预测

    细胞器生物功能不能只通过蛋白是否存在而界定,但是可以通过其生物反应链来预测,即在生物反应链中的蛋白-蛋白互作的网络来进行。我们利用cell Atlas中的蛋白空间定位信息来分析蛋白分子间的互作关系。针对Cell Atlas中注释的亚细胞结构,我们调查了在Reactome数据库中的蛋白互作对的亚细胞定位。如图Fig5A中描述了在一个亚细胞结构定位的蛋白与同一定位区域或其它定位区域中蛋白互作的可能性。在高严谨性测试中,大多数显著(P<0.05)富集的蛋白对存在于同一区域。这种区域性富集现象甚至存在于细胞内核小体和纺锤体等精细结构内部。例外的是维管中心(MTOC),表现为互作蛋白显著富集在端粒和微管中。

另外,通过蛋白定位的变化,对细胞器内部和以及细胞器之间,亚细胞结构之间的蛋白互作和生物功能网络做出了优化,可以揭示细胞不同生命活动之间的蛋白作用网络,为研究蛋白互作、细胞器的演化及其生物学功能,细胞器之间的生物学功能联系提供证据。

图片5.png

 

 

蛋白在单细胞系不同时期表达的变化

   在对蛋白表达亚细胞定位分析的过程中,我们发现部分蛋白在单一细胞系的不同时期的细胞中定位存在差异,如大量的细胞周期相关的蛋白,其表达部位及表达强度在不同时期有显著差异。如图所示,在细胞分裂的G1-S-G2,细胞周期相关蛋白的荧光信号强度出现显著变化。

 

图片6.png

 

结论:

本研究通过在单细胞的水平获得的高分辨率免疫荧光图片对人类细胞中的蛋白进行了亚细胞定位,获得人类细胞蛋白的亚细胞定位图谱。相关的定位信息在作为HPA(human protein Atlas)一部分的Cell Atlas中提供。通过这些亚细胞定位信息,我们对不同细胞器和芽细胞结构的蛋白组进行了分类和解析。相关的数据可以通过与不同人类细胞系的转录本信息印证,推演至不同的细胞系。为便于与其它生物学资源数据库相整合,所有数据都可以通过KPA以及UniProt,NextProt,GO和pan-European ELIXIR项目下载。

生物学反应的区域化是生物细胞内的一种重要机制,这样可以避免同时发生的细胞学反应相互影响。有趣的是,我们发现超过50%的蛋白同时定位在细胞内的多个区域。从细胞系统的角度看,这些蛋白在不同区域的定位增加了细胞的复杂性。一方面,蛋白的不同定位作为一种空间信号,调控了细胞内特定区域的生物学功能;而另一方面,这些蛋白的多区域定位也说明了更多样的蛋白互作的存在。另外,这些多个区域定位的蛋白可能含有一类次序的特殊功能,从而也增加了蛋白组的功能。蛋白系统越复杂,定位区域越多,容忍错误的几率越小,因此,需要更严格的调控机制。为了解细胞功能,特别是一些健康和疾病的发生过程中,细胞系统的知识是必需的,而结果表明Cell Atlas定位数据的整合可以去除假阳性的互作。

单个细胞的蛋白组在区域化和时空表达是被严格调控的。蛋白表达和定位的变化保证了细胞能够对外源或内源的因子做出反应。虽然Cell Atlas只能提供一些细胞现有状态的一个缩影,我们的单细胞分析结果可以促进人们认识这一过程。在Cell Atlas中12003个人类蛋白的高分辨率亚细胞定位图谱可以为了解人类细胞及其复杂的分子机制提供重要的资源,为人类细胞模型的构建提供重要一步。

 

本文的亮点:

本文通过免疫荧光将人类细胞12003个蛋白进行了高分辨率的亚细胞定位,产生的亚细胞定位图谱通过与转录组分析、数据库资料和hyper LOPIT获得的数据的对照,证明其具有很高的可信度,为研究人类细胞中蛋白的亚细胞定位及其蛋白互作、功能鉴定都提供了全面的资料。通过阅读本文,可以看到首先研究是从整个人类细胞的蛋白组的角度研究,立足全部蛋白的定位分析,其结果对整个领域的研究发挥重要的基础作用。其次,所利用免疫荧光技术具有很高的定位准确度,保证了蛋白的亚细胞定位的准确及其结果的特异。再次,本研究的数据可以跟多种来源的数据相吻合,证明了试验结果的准确性。另外,可以与其他数据整合应用,为后期数据的应用提供了便利。


其他文章:

艾比玛特医药科技(上海)有限公司
上海市徐汇区桂平路333号聚科生物园区1号楼1-3层

邮箱:market@ab-mart.com

应聘职位:hr@ab-mart.com

订购专线:4006-123-828

销售电话:13162017139(微信同号)

技术支持:13162477137(微信同号)

总机:021-34695901

经销商:QQ 402772198
南方经销商负责:手机13122837132(微信同号)          
北方及西南经销商负责:手机13122150513(微信同号)

6380582812748833035900295.jpg

微信客服

邮箱:market@ab-mart.com

应聘职位:hr@ab-mart.com

订购专线:4006-123-828

销售电话:13162017139(微信同号)

技术支持:13162477137(微信同号)

总机:021-34695901

经销商:QQ 402772198
南方经销商负责:手机13122837132(微信同号)          
北方及西南经销商负责:手机13122150513(微信同号)

6380582812748833035900295.jpg

微信客服

沪ICP备17056956号-2    艾比玛特医药科技(上海)有限公司