羡慕别人实验室可以做测序做芯片,样本多,数据多。但其实利用 GEO、TCGA 数据库就能挖掘大量数据,发自己的文章,虽然只有三分,但堪称性价比最高的套路!
那么到底如何做 GEO、TCGA 数据挖掘呢?
第一步,自己要分析的疾病,然后下载数据,差异表达分析,筛选得到几个关键的分子(可以是lncRNA,mRNA,miRNA,circRNA)。
差异基因表达量聚类热图:肿瘤样品与正常组织之间对比做差异表达分析,筛选出肿瘤细胞中表达显著差异的基因,之后根据表达量绘制表达热图
差异基因差异倍数与显著性的分布图,左边蓝色点代表下调基因,右边蓝色点代表上调基因
第二步,进行 GO 富集分析、Pathway 富集分析、GSEA 富集分析、PPI 分析、IPA 通路分析等,最后再做生存分析、ROC曲线分析等,就可以得到与疾病诊断相关的biomarker。
Cox回归分析与预后相关的biomarker,构建预后模型。根据预后模型划分病人风险,检验预后模型的可靠性。左图为模型ROC曲线结果,右图为生存分析结果
找到与肿瘤预后相关的关键基因,做蛋白互作网络分析结果
第三步,如果发高分的文章,可以再做一下小鼠模型,细胞模型,敲除,过表达等补充实验,对分子机理进行深入研究,干湿结合,文章就能再上一个档次。
另外,还有其他套路组合,例如做一下 WGCNA 或者联合 Oncomine 数据挖掘等等。
WGCNA分析:所有基因共表达基因模块的划分(左边的层次聚类每一个分支代表一个基因,旁边对应的彩色条带表示不同模块),以及基因之间共表达相关性(热图)
为满足广大科研人员对系统了解 TCGA、GEO 数据产生,格式、组合、分析及挖掘的实战课程的需求,丁香园开设 GEO/TCGA 数据挖掘案例实操线下培训班,帮助基础医学或转化医学方向研究者学习如何利用 TCGA、GEO 数据库进行多组学数据分析与挖掘。
培训主题
1. R语言与绘图基础技能,零基础入门
2. TCGA、GEO数据库挖掘类文章思路解析
3. TCGA、GEO各组学数据下载与整理
4. TCGA、GEO数据库挖掘分析技能
等等
更多课程排期,跟多课程开课城市,让你轻松选择
详情:活动家官网 专题页面 https://www.huodongjia.com/tag/29588/