欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

基因功能不确定?做一下单基因GSEA怎么样?

发布时间:2025/3/15 编程问答 69 豆豆
生活随笔 收集整理的这篇文章主要介绍了 基因功能不确定?做一下单基因GSEA怎么样? 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

生物信息学习的正确姿势

NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。

今天在讨论群看到有群友提问 单基因GSEA怎么做?。之前也看到过这个概念,但一直不清楚这个是什么含义,一直以为是用单个基因做GSEA。如果之前看过生信宝典的一文掌握GSEA,超详细教程,一定会特别熟悉GSEA的原理和操作流程。当然越是理解,越是想不明白个基因怎么做GSEA。当然如果您不熟悉GSEA,建议先看上一篇文章。

后来群友点拨理解了,不是对单个基因做GSEA,是拿单个基因 (一般是感兴趣的基因)作为分组方式,探索与给定的单个基因相关的 (可以是表达相关,也可以是其它相关)基因富集在哪些调控通路和分子功能。

分组方法有两种,一种是定性分组,一种是定量相关。

定性分组

根据感兴趣的单个基因的度量值如表达值进行分组,比如按照该基因表达中位数分组,该基因表达值高于中位数的样品为一组,低于中位数的样品为一组,构建一个cls文件。如下,假如有8个样品,其中4个样品中该基因表达高 (samp1, samp3, samp7, samp8),4个样品中该基因表达低(samp 2 4 5 6),则cls文件如下 (一定注意样本顺序要一致):

8 2 1 #gene_high gene_low gene_high gene_high gene_high gene_high gene_low gene_low gene_low gene_low

调整后的表达矩阵格式如下 (注意列的对应,high对高的样品。)

Gene samp1 samp3 samp7 samp8 samp2 samp4 samp5 samp6 A 4 4 4 4 1 1 1 1 B . . . . . . . . C . . . . . . . .

后续的操作就不说了,还是看生信宝典的一文掌握GSEA,超详细教程,看完就都会了。

注:也可以按照该基因表达的第一和三四分位数分组,小于第一四分位数的为一组,大于第三四分位数的为另一组。

相关性排序

与前面把样本分组不同,这里样本不进行分组了,而是把感兴趣基因的表达做为样本的一个属性。在做GSEA分析时,其它基因按照与感兴趣基因的表达相关性排序进行后续分析。

这时应该怎么准备cls文件呢?

咱们先以一个时间序列样本的cls文件为例:

  • #numeric为固定写法,第一行,不需要修改

  • #Time名字随便取,这里是时间序列,取名Time。#是必须的。

  • 第3行是每个样品的处理时间,0为0小时,1为1小时;每个时间3个重复,所以写了3遍;总共5个时间点,15个样品。

#numeric #Time 0 0 0 1 1 1 6 6 6 24 24 24 48 48 48

回到我们这个例子,还是8个样品,分别为samp 1 2 3 4 5 6 7 8,假如感兴趣基因是A,表达矩阵如下:

Gene samp1 samp2 samp3 samp4 samp5 samp6 samp7 samp8 A 9 8 7 6 3 4 1 2 B . . . . . . . . C . . . . . . . .

这时对应的cls文件这么写(注意一一对应关系)。Aexpr随便起的一个名字,代表A基因的表达。

#numeric #Aexpr 9 8 7 6 3 4 1 2

然后导入GSEA就可以分析了。需要注意的是选择合适的Ranking metric,如pearson相关性、Cosine、Manhattan 或Euclidean。

基于相关性的GSEA操作展示

直接看动画,数据格式也有展示,GMT文件是自己整理的。这是1我们单细胞和群体转录组课程的一个小环节 (回头把这部分视频拆出来放到腾讯课堂供访问)。

公众号看不了动画,截图两张,点击阅读原文去查看吧。

讨论学习是个很好的方式,欢迎大家有问题发到train@ehbio.com,信息的,问题可重现的,或有意思的开放问题我们都会给予解决,写个推文发出,既方便自己,又方便他人。

当然如果类似转录组怎么分析, 宏基因组怎么分析,这样大的问题还是参加我们的线下培训班或购买网课吧,都在www.ehbio.com/Training。

  • 这个只需一步就可做富集分析的网站还未发表就被CNS等引用超过350次

  • 什么,你算出的P-value看上去像齐天大圣变的庙?

  • DESeq2差异基因分析和批次效应移除

  • GO、GSEA富集分析一网打进

  • GSEA富集分析 - 界面操作

  • 无需写代码的高颜值富集分析神器

  • 去东方,最好用的在线GO富集分析工具

  • 没钱买KEGG怎么办?REACTOME开源通路更强大

  • 超简便的国产lncRNA预测工具LGC

  • 一文掌握GSEA,超详细教程

  • UCSC XENA - 集大成者(TCGA, ICGC)

  • ICGC数据库使用

  • TCGA数据库在线使用

  • BROAD开发的TCGA分析平台,强大的下载功能

  • cBioPortal功能强大的TCGA再分析平台

  • 这是数据更新最实时的TCGA网站,功能强大

  • 不懂R,如何进行GEO数据库表达谱的差异分析、富集分析、蛋白互作、可视化?

  • 典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集

  • 典型医学设计实验GEO数据分析 (step-by-step) - 数据获取到标准化

  • 为什么GEO2R/GEOquery的结果可能是错的?

  • WGCNA分析,简单全面的最新教程

  • psych +igraph:共表达网络构建

  • 一文学会网络分析——Co-occurrence网络图在R中的实现

  • 一文看懂PCA主成分分析

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

总结

以上是生活随笔为你收集整理的基因功能不确定?做一下单基因GSEA怎么样?的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。