通过肿瘤基因组图谱和基因共同表达网络鉴定乳腺癌的关键基因

(整期优先)网络出版时间:2023-10-25
/ 2

通过肿瘤基因组图谱和基因共同表达网络鉴定乳腺癌的关键基因

余路虎,肖永伟,李小玉,席凯强

赣州市人民医院检验科,江西赣州 341000

本研究为江西省赣州市卫健委科研计划项目,编号:2022-2-018.

摘要目的:通过肿瘤基因组图谱和基因共同表达网络鉴定乳腺癌的关键基因。方法:利用肿瘤基因组图谱(TCGA)和加权基因共表达网络分析(WGCNA)寻找乳腺癌的关键基因,并使用免疫组化或PCR对其进行验证,从而鉴定出该癌症新的生物标志物或潜在的治疗靶点。结果:从WGCNA中,我们发现了53个与乳腺癌转移相关的基因。其中,ACTB和DDX5基因在乳腺癌循环肿瘤细胞中表现出高表达,而DDX5在TCGA伴转移的乳腺癌样本中也有高表达。结论:ACTB和DDX5基因在乳腺癌循环肿瘤细胞中表现出高表达,可能为乳腺癌的关键基因。

【关键词】肿瘤基因组图谱;加权基因共表达网络分析;乳腺肿瘤;数据挖掘;生物学肿瘤标记

在我国,乳腺癌的发病率和死亡率分别排在第1位和第5位,全国女性乳腺癌发病率为41.82/10万,尽管在世界范围内处于较低的水平,但是增速却是第一[1]。生物标记物不仅可以用于疾病的诊断,对疾病的分期进行判断,还可以用于评估药物的疗效和安全性。本研究基于肿瘤基因组图谱(TCGA)和加权基因共表达网络分析(WGCNA)的数据,对关键乳腺癌基因进行了生物标记物挖掘,以探索和验证通过数据挖掘发现新生物标记物的想法。

1材料与方法

1.1数据来源及数据预处理 

登录 firehose (http://gdac. broadinstitute. org/)网站,下载公开的乳腺癌(BRCA)转录组数据(RNASeqV 2: https://wiki. n ci. nih. gov/display/TCGA/RNASeq+ Version+2)和肿瘤样本临床数据(数据版本:2016_01_28),其中:癌症样本1093例;其中112例为正常癌旁组织标本。在此基础上,进一步开展乳腺癌的分子分型研究。首先利用 Lnnana软件包中的Lowes-Ilt法,对初始表达量进行标准化。利用 Genefu软件包完成了PAM-5分子分型的乳腺癌标本的PAM-5。

1.2WGCNA

首先,并对各基因进行成对的相关性分析,建立各基因的相关性矩阵。其次,对相关系数进行幂次指数加权,从而把表达式的相关矩阵转化成邻近矩阵。在此基础上,我们提出了一种新的遗传算法——拓扑重叠(TOM)用于计算基因之间的相关性,并根据 TOM 值将邻近矩阵转换为拓扑矩阵。拓扑矩阵有一个预定义的节点差值,根据结点差异性进行聚类以获得不同的基因模块。在此基础上,利用生物信息学方法,研究生物信息学方法在生物信息学中的应用。上述步骤都是用 R语言 WGCNA程序包来实现的。

1.3与临床信息相关模块及核心基因的识别 

根据患者的病历资料,对各模态特征进行相关性分析,找出与各模态特征有显著相关性的模态。为了确定高度相关的模块,使用两种方法:计算模块E特征基因与表型的相关系数(即模块E特征基因值,ME),以确定基因显著性(GS),它表示基因与表型之间的相关性;以及所有基因绝对GS值的平均值,即模块显著性(MS),它表示模块与表型之间的相关性。

在确定与表型密切相关的功能模块后,对功能模块下的功能基因进行研究。计算模块中每个基因与模块之间的相关系数,即模块成员度(MM),并结合 GS 值筛选核心基因。GS绝对值>0.2、MM绝对值>0.8的模块所属基因被视为核心基因。

1.4候选基因的功能富集 

利用检索相互作用基因的搜索工具构建蛋白质‐蛋白质相互作用(PPI)网络,通过基因本体(GO)和京都基因组百科全书(KEGG)对通路进行了分析,发现通路富集度的差异具有统计学意义(P<0.05)。

1.5预后分析与免疫组化

应用 R" survminer"软件对鳞状细胞癌病人的预后进行了分析,并研究了 Hub基因与鳞状细胞癌病人的总体生存和无进展生存的相关性。皮肤鳞癌患者蛋白质谱(HPA)数据库分析与预后有关的基因表达。

2结果

2.1腺癌样本数据筛选 

来自 TCGA数据库的亚洲人种的管状肿瘤及小叶状肿瘤相关基因的表达资料。按照乳腺癌→ TCGA→ TCGA→乳腺侵袭性肿瘤→ female→ Asian→ disease类型→ ductal和 lobular neoplasms进行筛选。初步筛选获得70例标本,包括57例小叶癌,10例小叶癌,3例正常人。通过对测得的基因进行合成、 id变换(仅选取编码基因),得到了70个样品的基因表达谱。为了将其与临床数据中的样本编号进行匹配,必须将其剔除。为了减少操作过程中计算机的内存消耗,选择了基因表达方差大于总方差四分位数的 5077 个基因(即选择每个样本中方差较大的基因)进行进一步操作。删除了部分基因表达水平(大量缺失基因),还剔除了离群样本。临床表现数据包括诊断年龄和癌症分期。基于 TCGA 数据库数据的聚类距离,对异常样本进行识别,剔除了异常样本,最后将53个样本纳入到了后续的分析中。

2. 2肿瘤数据库中的基因富集分析与筛查

对 53 个基因进行的 GO 富集分析表明,大多数基因在细胞内的转运、质子的跨膜转运和细胞分泌等生命活动中具有重要的作用。KEGG Pathway分析结果表明,该基因在多种疾病及途径中均有表达。其中,ACTB, ITGAV,CD63,DDX5等基因在肿瘤组织中大量表达。因此,我们认为这几个基因在癌症的发生发展过程中起着重要作用,并进行了进一步研究。对循环肿瘤细胞数据库的搜索显示,ACTB 和 DDX5 在 CTCs(图1 ),进一步说明 ACTB及DDX5在 CTCs中高表达,且与 CTCs中的 CTCs有很强的相关性,且有可能在 CTCs中起到促进 CTCs转移的作用。

图1所选基因在 CTCs中表达情况

2.3 对 TCGA数据的验证

在筛选出临床资料不全的标本后,进一步在 TCGA乳腺癌标本中检测 ACTB及DDX5的表达。研究发现,ACTB在有和没有有转移的乳腺癌组织和具有不同临床性的乳腺癌组织中,ACTB的表达水平没有显著差异。同时,DDX5在已发生转移的乳腺癌标本中的表达水平也明显高于未发生转移的乳腺癌。此外,DDX5在不同N分期和生存状态的样本中有差异表达(P<0.05)(表1),这也证明DDX5在一定程度上与乳腺癌转移有关。

表 1 DDX5 表达量和与患者临床特征的相关性分析

临床特征

总样本数

DDX5表达

P

低表达

高表达

N 分期

N 0

381

204

177

<0.001

N 1

245

107

138

N 2

87

39

78

N 3

42

27

15

生存状态

生存

442

231

211

<0.001

死亡

124

32

92

3讨论

DDX5是一种 RNA解旋酶,具有 ATP依赖性降解 RNA的作用。DDX5与 RNA的多种生物功能密切相关,并与许多疾病相关。研究表明,DDX5在多种肿瘤中均呈异常高表达,且高表达DDX5可促进多种肿瘤的转移[2]。据此,我们提出假说:DDX5可促进肿瘤细胞的迁移及 EMT,使其更易脱落形成 CTCs。相应的,高表达DDX5的 CTCs具有更强的侵袭性,且更易在血流中积聚成 CTM,更易向远处转移。因此,我们推测DDX5可能通过调控 CTCs的迁移、定植、进而促进肿瘤的转移。

ACTB基因编码的微丝作为细胞骨架的关键组分,在细胞迁移、细胞分裂等方面起着重要作用。研究者们发现,ACTB在胰腺癌、胃癌和肝脏转移的肿瘤组织中的表达量明显高于其相应的癌旁组织,该研究发现,ACTB在高转移率的结肠癌细胞中显著高表达,提示其可能通过增强结肠癌细胞的迁移能力,增强肿瘤细胞的侵袭能力[3]。因此,我们推测 ACTB在乳腺癌中具有相似的促进转移的功能,并且ACTB也与淋巴癌的化疗抵抗有关。因此, ACTB也有可能成为肿瘤治疗的一个潜在靶点。

WGCNA是一种高层次的组学数据挖掘方法,其目的是从海量的数据中发掘出具有模式识别能力的模式识别方法。本研究利用 WGCNA 技术鉴定了与乳腺癌侵袭和转移高度相关的一些关键基因,并从循环中检测到与乳腺癌侵袭转移密切相关的关键基因(如 ACTB、DDX5),从而证实这些关键基因可能是调控乳腺癌侵袭转移的重要分子。

据此,我们推测DDX5可能是鉴定乳腺癌的重要分子。本研究将有助于临床前明确DDX5对乳腺癌转移的影响,并有望成为提高乳腺癌疗效的新靶标。

参考文献

[1]曾祎凡,张京伟,邵尤城,等.利用加权基因共表达网络分析挖掘促进乳腺癌循环肿瘤细胞转移的关键基因[J].武汉大学学报:医学版,2021,42(1):72-77.

[2]徐琦,王进.基于基因共表达权重网络分析乳腺癌亚型关键lncRNA[J].江苏医药,2019,45(06):541-543,536.

[3]陈立材,成雨.通过加权基因共表达网络分析法探索胰腺癌特异表达的关键基因及表达网络[J].滨州医学院学报,2021,44(1):24-28.