欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

Deseq2的理论基础

发布时间:2025/4/14 编程问答 49 豆豆
生活随笔 收集整理的这篇文章主要介绍了 Deseq2的理论基础 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

Deseq2的理论基础

原文:Moderated estimation of fold change and dispersion for RNA-seq data with Deseq2 by Love, Anders and Huber 2014

这是对Deseq的延申,简单总结一下这个模型的统计方法。


模型
Number of reads in sample jjj that are assigned to gene iii记为KijK_{ij}Kij,假设
Kij∼NB(μij,αi),i=1,⋯,n,j=1,⋯,mμij=sjqij,log⁡qij=∑r=1pxjrβirK_{ij} \sim NB(\mu_{ij},\alpha_{i}),i=1,\cdots,n,j=1,\cdots,m \\ \mu_{ij}=s_{j}q_{ij},\log q_{ij}=\sum_{r=1}^p x_{jr}\beta_{ir}KijNB(μij,αi),i=1,,n,j=1,,mμij=sjqij,logqij=r=1pxjrβir

其中s,qs,qs,q的含义与Deseq中s,qs,qs,q的含义相同,[xjr][x_{jr}][xjr]为design matrix,[βir][\beta_{ir}][βir]是系数矩阵,αi\alpha_{i}αi是dispersion parameter,
Var[Kij]=μij+αiμij2Var[K_{ij}]=\mu_{ij}+\alpha_i\mu_{ij}^2Var[Kij]=μij+αiμij2

αi\alpha_iαi越接近0,KijK_{ij}Kij的方差越接近均值,sjs_jsj作为size factor,用与Deseq中一样的方法确定sj=medianikij(∏v=1mkiv)1ms_j = \text{median}_i \frac{k_{ij}}{(\prod_{v=1}^m k_{iv})^{\frac{1}{m}}}sj=mediani(v=1mkiv)m1kij

Inference on Dispersion
假设dispersion的先验为log⁡αi∼N(log⁡αtr(μˉi),σd2)\log \alpha_i \sim N(\log \alpha_{tr}(\bar \mu_i),\sigma_d^2)logαiN(logαtr(μˉi),σd2)μˉi=1m∑jKijsj\bar \mu_i=\frac{1}{m}\sum_j\frac{K_{ij}}{s_j}μˉi=m1jsjKijαtr(μˉ)=a1μˉ+α0\alpha_{tr}(\bar \mu)=\frac{a_1}{\bar \mu}+\alpha_0αtr(μˉ)=μˉa1+α0,dispersion估计分为三步:

  • 估计gene-wise dispersion αigw\alpha_i^{gw}αigw, 用MLE估计,αigw=arg max⁡αlCR(α)\alpha_i^{gw}=\argmax_{\alpha}\ l_{CR}(\alpha)αigw=αargmax lCR(α),其中lCRl_{CR}lCR代表用了Cox-Reid Adjustment的对数似然,αigw=arg max⁡α∑j=1mlog⁡fNB(Kij;μij,αi)−12log⁡det⁡(XTWX)⏟cox-Reid Bias AdjustmentW=diag(11μi1+αi,⋯,11μim+αi)\alpha_i^{gw}=\argmax_{\alpha} \sum_{j=1}^m \log f_{NB}(K_{ij};\mu_{ij},\alpha_i)-\underbrace{\frac{1}{2}\log \det (X^TWX)}_{\text{cox-Reid\ Bias\ Adjustment}} \\ W=\text{diag}\left( \frac{1}{\frac{1}{\mu_{i1}}+\alpha_i},\cdots, \frac{1}{\frac{1}{\mu_{im}}+\alpha_i} \right)αigw=αargmaxj=1mlogfNB(Kij;μij,αi)cox-Reid Bias Adjustment21logdet(XTWX)W=diag(μi11+αi1,,μim1+αi1)
  • 拟合dispersion trend αtr\alpha_{tr}αtr: gamma-family GLM of αigw\alpha_i^{gw}αigw on μˉi\bar \mu_iμˉi to get estimations of a1a_1a1 and α0\alpha_0α0.
  • 结合似然与trend prior得到dipersion的MAP估计,αiMAP=arg max⁡α[lCR(α)+Λi(α)⏟log-Normal prior]Λi(α)=−(log⁡α−log⁡αtr(μˉi))22σd2σd2=max⁡(0.25,slr2−ψ1(m−p2)),slr=madi(log⁡αigw−log⁡αtr(μˉi))\alpha_i^{MAP}=\argmax_{\alpha}[ l_{CR}(\alpha)+\underbrace{\Lambda_i(\alpha)}_{\text{log-Normal\ prior}}] \\ \Lambda_i(\alpha) = \frac{-(\log \alpha-\log \alpha_{tr}(\bar \mu_i))^2}{2\sigma_d^2} \\ \sigma_d^2 = \max(0.25,s_{lr}^2-\psi_1(\frac{m-p}{2})),s_{lr}=\text{mad}_i(\log \alpha_i^{gw}-\log \alpha_{tr}(\bar \mu_i))αiMAP=αargmax[lCR(α)+log-Normal priorΛi(α)]Λi(α)=2σd2(logαlogαtr(μˉi))2σd2=max(0.25,slr2ψ1(2mp)),slr=madi(logαigwlogαtr(μˉi)) 其中ψ1\psi_1ψ1是trigamma function,mad表示median absolute deviation,slrs_{lr}slr为standard logrithm residual,如果log⁡αigw>log⁡αtr(μˉi)+2slr\log \alpha_i^{gw}>\log \alpha_{tr}(\bar \mu_i)+2s_{lr}logαigw>logαtr(μˉi)+2slr,则认为基因iii是一个dispersion outlier。
  • Fold change (系数βir\beta_{ir}βir代表fold change)
    假设系数的先验为βir∼N(0,σr2)\beta_{ir} \sim N(0,\sigma_r^2)βirN(0,σr2),用empirical method确定σr=Q∣βr∣(1−p)QN(1−p/2)\sigma_r=\frac{Q_{|\beta_r|}(1-p)}{Q_N(1-p/2)}σr=QN(1p/2)Qβr(1p) 原文默认值p=0.05p=0.05p=0.05QN(1−p/2)Q_N(1-p/2)QN(1p/2)代表标准正态分布的1−p/21-p/21p/2上分位点,Q∣βr∣Q_{|\beta_r|}Qβr代表{β^irMLE}\{\hat \beta_{ir}^{MLE}\}{β^irMLE}1−p1-p1p empirical quantile,其中β^irMLE\hat \beta_{ir}^{MLE}β^irMLE可以由最开始的模型用IRLS得到。系数的MAP为
    β⃗i=arg max⁡β⃗[∑j=1mlog⁡fNB(Kij;μij,αi)+Λ(β⃗)]\vec \beta_i = \argmax_{\vec \beta} \left[ \sum_{j=1}^m \log f_{NB}(K_{ij};\mu_{ij},\alpha_i)+\Lambda(\vec \beta) \right]βi=βargmax[j=1mlogfNB(Kij;μij,αi)+Λ(β)]

    其中
    μij=sje∑r=1pxjrβir,Λ(β⃗)=−∑r=1pβir22σr2\mu_{ij}=s_{j}e^{\sum_{r=1}^p x_{jr}\beta_{ir}},\Lambda(\vec \beta)=-\sum_{r=1}^p \frac{\beta_{ir}^2}{2\sigma_r^2}μij=sjer=1pxjrβir,Λ(β)=r=1p2σr2βir2

    使用IRLS计算,迭代方程为
    β⃗i←(XTWX+λ⃗I)−1XTWz⃗λ⃗r=1σr2,zj=log⁡μijsj+Kij−μijμij\vec \beta_i \leftarrow (X^TWX+\vec \lambda I)^{-1}X^TW\vec z \\ \vec \lambda_r = \frac{1}{\sigma_r^2},z_j=\log \frac{\mu_{ij}}{s_j}+\frac{K_{ij}-\mu_{ij}}{\mu_{ij}}βi(XTWX+λI)1XTWzλr=σr21,zj=logsjμij+μijKijμij

    从迭代方程可以看出,与标准的IRLS不同,这里的迭代方程尽管也有WLS的形式,但由于系数有一个正态先验,所以(XTWX+λ⃗I)−1(X^TWX+\vec \lambda I)^{-1}(XTWX+λI)1继承了ridge regression的特点,因此最后得到的估计量与标准IRLS估计相比会有fractional shrinkage。

    总结

    以上是生活随笔为你收集整理的Deseq2的理论基础的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。