当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

Deseq2的理论基础

发布时间：2025/4/14 编程问答 49 豆豆

生活随笔收集整理的这篇文章主要介绍了 Deseq2的理论基础小编觉得挺不错的,现在分享给大家,帮大家做个参考.

Deseq2的理论基础

原文：Moderated estimation of fold change and dispersion for RNA-seq data with Deseq2 by Love, Anders and Huber 2014

这是对Deseq的延申，简单总结一下这个模型的统计方法。

模型
Number of reads in sample $j$ that are assigned to gene $i$ 记为 $K_{ij}$ ，假设
$Kij∼NB(μij,αi),i=1,⋯,n,j=1,⋯,mμij=sjqij,log⁡qij=∑r=1pxjrβirK_{ij} \sim NB(\mu_{ij},\alpha_{i}),i=1,\cdots,n,j=1,\cdots,m \\ \mu_{ij}=s_{j}q_{ij},\log q_{ij}=\sum_{r=1}^p x_{jr}\beta_{ir}$

其中 $s, q$ 的含义与Deseq中 $s, q$ 的含义相同， $x_{jr}]$ 为design matrix， $[βir][\beta_{ir}]$ 是系数矩阵， $αi\alpha_{i}$ 是dispersion parameter，
$Var[Kij]=μij+αiμij2Var[K_{ij}]=\mu_{ij}+\alpha_i\mu_{ij}^2$

$αi\alpha_i$ 越接近0， $K_{ij}$ 的方差越接近均值， $s_j$ 作为size factor，用与Deseq中一样的方法确定 $sj=medianikij(∏v=1mkiv)1ms_j = \text{median}_i \frac{k_{ij}}{(\prod_{v=1}^m k_{iv})^{\frac{1}{m}}}$

Inference on Dispersion
假设dispersion的先验为 $log⁡αi∼N(log⁡αtr(μˉi),σd2)\log \alpha_i \sim N(\log \alpha_{tr}(\bar \mu_i),\sigma_d^2)$ ， $μˉi=1m∑jKijsj\bar \mu_i=\frac{1}{m}\sum_j\frac{K_{ij}}{s_j}$ ， $αtr(μˉ)=a1μˉ+α0\alpha_{tr}(\bar \mu)=\frac{a_1}{\bar \mu}+\alpha_0$ ，dispersion估计分为三步：

估计gene-wise dispersion

αigw\alpha_i^{gw}

, 用MLE估计，

max⁡αlCR(α)\alpha_i^{gw}=\argmax_{\alpha}\ l_{CR}(\alpha)

，其中

l_{CR}

代表用了Cox-Reid Adjustment的对数似然，

AdjustmentW=diag(11μi1+αi,⋯,11μim+αi)\alpha_i^{gw}=\argmax_{\alpha} \sum_{j=1}^m \log f_{NB}(K_{ij};\mu_{ij},\alpha_i)-\underbrace{\frac{1}{2}\log \det (X^TWX)}_{\text{cox-Reid\ Bias\ Adjustment}} \\ W=\text{diag}\left( \frac{1}{\frac{1}{\mu_{i1}}+\alpha_i},\cdots, \frac{1}{\frac{1}{\mu_{im}}+\alpha_i} \right)

拟合dispersion trend

αtr\alpha_{tr}

: gamma-family GLM of

αigw\alpha_i^{gw}

μˉi\bar \mu_i

to get estimations of

a_1

and

α0\alpha_0

结合似然与trend prior得到dipersion的MAP估计，

prior]Λi(α)=−(log⁡α−log⁡αtr(μˉi))22σd2σd2=max⁡(0.25,slr2−ψ1(m−p2)),slr=madi(log⁡αigw−log⁡αtr(μˉi))\alpha_i^{MAP}=\argmax_{\alpha}[ l_{CR}(\alpha)+\underbrace{\Lambda_i(\alpha)}_{\text{log-Normal\ prior}}] \\ \Lambda_i(\alpha) = \frac{-(\log \alpha-\log \alpha_{tr}(\bar \mu_i))^2}{2\sigma_d^2} \\ \sigma_d^2 = \max(0.25,s_{lr}^2-\psi_1(\frac{m-p}{2})),s_{lr}=\text{mad}_i(\log \alpha_i^{gw}-\log \alpha_{tr}(\bar \mu_i))

其中

ψ1\psi_1

是trigamma function，mad表示median absolute deviation，

s_{lr}

为standard logrithm residual，如果

log⁡αigw>log⁡αtr(μˉi)+2slr\log \alpha_i^{gw}>\log \alpha_{tr}(\bar \mu_i)+2s_{lr}

，则认为基因

i

是一个dispersion outlier。

Fold change (系数 $βir\beta_{ir}$ 代表fold change)
假设系数的先验为 $βir∼N(0,σr2)\beta_{ir} \sim N(0,\sigma_r^2)$ ，用empirical method确定 $σr=Q∣βr∣(1−p)QN(1−p/2)\sigma_r=\frac{Q_{|\beta_r|}(1-p)}{Q_N(1-p/2)}$ 原文默认值 $p = 0.05$ ， $Q_N(1-p/2)$ 代表标准正态分布的 $1 - p / 2$ 上分位点， $Q∣βr∣Q_{|\beta_r|}$ 代表 ${β^irMLE}\{\hat \beta_{ir}^{MLE}\}$ 的 $1 - p$ empirical quantile，其中 $β^irMLE\hat \beta_{ir}^{MLE}$ 可以由最开始的模型用IRLS得到。系数的MAP为
$max⁡β⃗[∑j=1mlog⁡fNB(Kij;μij,αi)+Λ(β⃗)]\vec \beta_i = \argmax_{\vec \beta} \left[ \sum_{j=1}^m \log f_{NB}(K_{ij};\mu_{ij},\alpha_i)+\Lambda(\vec \beta) \right]$

其中
$μij=sje∑r=1pxjrβir,Λ(β⃗)=−∑r=1pβir22σr2\mu_{ij}=s_{j}e^{\sum_{r=1}^p x_{jr}\beta_{ir}},\Lambda(\vec \beta)=-\sum_{r=1}^p \frac{\beta_{ir}^2}{2\sigma_r^2}$

使用IRLS计算，迭代方程为
$β⃗i←(XTWX+λ⃗I)−1XTWz⃗λ⃗r=1σr2,zj=log⁡μijsj+Kij−μijμij\vec \beta_i \leftarrow (X^TWX+\vec \lambda I)^{-1}X^TW\vec z \\ \vec \lambda_r = \frac{1}{\sigma_r^2},z_j=\log \frac{\mu_{ij}}{s_j}+\frac{K_{ij}-\mu_{ij}}{\mu_{ij}}$

从迭代方程可以看出，与标准的IRLS不同，这里的迭代方程尽管也有WLS的形式，但由于系数有一个正态先验，所以 $(XTWX+λ⃗I)−1(X^TWX+\vec \lambda I)^{-1}$ 继承了ridge regression的特点，因此最后得到的估计量与标准IRLS估计相比会有fractional shrinkage。

总结

以上是生活随笔为你收集整理的Deseq2的理论基础的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

理论基础

上一篇： Deseq的理论基础
下一篇： UA OPTI544 量子光学7 2-l