Deseq2的理论基础
Deseq2的理论基础
原文:Moderated estimation of fold change and dispersion for RNA-seq data with Deseq2 by Love, Anders and Huber 2014
这是对Deseq的延申,简单总结一下这个模型的统计方法。
模型
Number of reads in sample jjj that are assigned to gene iii记为KijK_{ij}Kij,假设
Kij∼NB(μij,αi),i=1,⋯,n,j=1,⋯,mμij=sjqij,logqij=∑r=1pxjrβirK_{ij} \sim NB(\mu_{ij},\alpha_{i}),i=1,\cdots,n,j=1,\cdots,m \\ \mu_{ij}=s_{j}q_{ij},\log q_{ij}=\sum_{r=1}^p x_{jr}\beta_{ir}Kij∼NB(μij,αi),i=1,⋯,n,j=1,⋯,mμij=sjqij,logqij=r=1∑pxjrβir
其中s,qs,qs,q的含义与Deseq中s,qs,qs,q的含义相同,[xjr][x_{jr}][xjr]为design matrix,[βir][\beta_{ir}][βir]是系数矩阵,αi\alpha_{i}αi是dispersion parameter,
Var[Kij]=μij+αiμij2Var[K_{ij}]=\mu_{ij}+\alpha_i\mu_{ij}^2Var[Kij]=μij+αiμij2
αi\alpha_iαi越接近0,KijK_{ij}Kij的方差越接近均值,sjs_jsj作为size factor,用与Deseq中一样的方法确定sj=medianikij(∏v=1mkiv)1ms_j = \text{median}_i \frac{k_{ij}}{(\prod_{v=1}^m k_{iv})^{\frac{1}{m}}}sj=mediani(∏v=1mkiv)m1kij
Inference on Dispersion
假设dispersion的先验为logαi∼N(logαtr(μˉi),σd2)\log \alpha_i \sim N(\log \alpha_{tr}(\bar \mu_i),\sigma_d^2)logαi∼N(logαtr(μˉi),σd2),μˉi=1m∑jKijsj\bar \mu_i=\frac{1}{m}\sum_j\frac{K_{ij}}{s_j}μˉi=m1∑jsjKij,αtr(μˉ)=a1μˉ+α0\alpha_{tr}(\bar \mu)=\frac{a_1}{\bar \mu}+\alpha_0αtr(μˉ)=μˉa1+α0,dispersion估计分为三步:
Fold change (系数βir\beta_{ir}βir代表fold change)
假设系数的先验为βir∼N(0,σr2)\beta_{ir} \sim N(0,\sigma_r^2)βir∼N(0,σr2),用empirical method确定σr=Q∣βr∣(1−p)QN(1−p/2)\sigma_r=\frac{Q_{|\beta_r|}(1-p)}{Q_N(1-p/2)}σr=QN(1−p/2)Q∣βr∣(1−p) 原文默认值p=0.05p=0.05p=0.05,QN(1−p/2)Q_N(1-p/2)QN(1−p/2)代表标准正态分布的1−p/21-p/21−p/2上分位点,Q∣βr∣Q_{|\beta_r|}Q∣βr∣代表{β^irMLE}\{\hat \beta_{ir}^{MLE}\}{β^irMLE}的1−p1-p1−p empirical quantile,其中β^irMLE\hat \beta_{ir}^{MLE}β^irMLE可以由最开始的模型用IRLS得到。系数的MAP为
β⃗i=arg maxβ⃗[∑j=1mlogfNB(Kij;μij,αi)+Λ(β⃗)]\vec \beta_i = \argmax_{\vec \beta} \left[ \sum_{j=1}^m \log f_{NB}(K_{ij};\mu_{ij},\alpha_i)+\Lambda(\vec \beta) \right]βi=βargmax[j=1∑mlogfNB(Kij;μij,αi)+Λ(β)]
其中
μij=sje∑r=1pxjrβir,Λ(β⃗)=−∑r=1pβir22σr2\mu_{ij}=s_{j}e^{\sum_{r=1}^p x_{jr}\beta_{ir}},\Lambda(\vec \beta)=-\sum_{r=1}^p \frac{\beta_{ir}^2}{2\sigma_r^2}μij=sje∑r=1pxjrβir,Λ(β)=−r=1∑p2σr2βir2
使用IRLS计算,迭代方程为
β⃗i←(XTWX+λ⃗I)−1XTWz⃗λ⃗r=1σr2,zj=logμijsj+Kij−μijμij\vec \beta_i \leftarrow (X^TWX+\vec \lambda I)^{-1}X^TW\vec z \\ \vec \lambda_r = \frac{1}{\sigma_r^2},z_j=\log \frac{\mu_{ij}}{s_j}+\frac{K_{ij}-\mu_{ij}}{\mu_{ij}}βi←(XTWX+λI)−1XTWzλr=σr21,zj=logsjμij+μijKij−μij
从迭代方程可以看出,与标准的IRLS不同,这里的迭代方程尽管也有WLS的形式,但由于系数有一个正态先验,所以(XTWX+λ⃗I)−1(X^TWX+\vec \lambda I)^{-1}(XTWX+λI)−1继承了ridge regression的特点,因此最后得到的估计量与标准IRLS估计相比会有fractional shrinkage。
总结
以上是生活随笔为你收集整理的Deseq2的理论基础的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: Deseq的理论基础
- 下一篇: UA OPTI544 量子光学7 2-l