最近应导师要求,需要在POSSUM网站上生成氨基酸序列对应的21种以PSSM为基础的特征,博主本身从未接触过PSSM,因此想记录一下整个学习过程。
一、什么是PSSM
PSSM全称是“position-specific scoring matrix”,翻译成中文为“位置特异性打分矩阵”,也称为“位置比重矩阵”。对于氨基酸和核苷酸,矩阵的形式不太一样,根据维基百科的解释,DNA(或RNA)序列对应的PSSM矩阵的行数为4,对应着四种不同的核苷酸,同理蛋白质序列的PSSM矩阵行数为20,对应着20种不同的氨基酸。不过二者的PSSM矩阵的列数均为序列长度,以100个氨基酸组成的蛋白质来说,其PSSM矩阵的维度为(20,100)。在实际应用中,我们通常会借助一些工具生成PSSM矩阵,得到的矩阵维度并非一层不变,例如利用PSI-BLAST得到蛋白质的PSSM,矩阵的维度为(蛋白质长度,20),这刚好和实际维基百科中给出的相反,不过在提前了解后并不影响我们的使用。下文中,我们还是以维基百科为主进行解释。
关于PSSM的意义,博主也没完全弄明白,十分常见的一个解释是,对于PSSM中的一个元素p(i,j)数值表示序列第j个位置上的氨基酸在进化过程中突变成第i个氨基酸的可能性,若值为正就表示,可能性越大,反之,值为负则表示可能性越小。
关于PSSM的作用,在阅读完POSSUM网站给出的论文中。通常情况下,利用PSSM矩阵做各种“变形”为蛋白质序列做embedding。“变形”有两个准则,一是变形结果与序列本身的长度无关,这就保证了无论蛋白质序列原始长度如何,最后的embdding结果的维数相同。二是将利用二维的PSSM生成一维的向量。
POSSUM网站给出了21种“变形”结果,每种“变形“都有论文支持,关于这21种PSSM的变形细节将在下一篇博客中具体介绍。这篇博客主要是阐述构建PSSM的具体步骤。
二、构建位置频度矩阵(PFM)
为了方便说明,这里给出一个简单的例子:
GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT
以上述DNA序列为例,共10行9列,其对应的PFM为:
$$
M=\begin{matrix}
A\
C\
G\
T
\end{matrix}
\begin{bmatrix}
3&6&1&0&0&6&7&2&1\\
2&2&1&0&0&2&1&1&2\\
1&1&7&10&0&1&1&5&1\\
4&1&1&0&10&1&1&2&6
\end{bmatrix}
$$
也就是统计每一列上4种核苷酸的数目。
三、构建位置概率矩阵(PPM)
简单的PPM就是在PFM的基础上将每列进行归一化(因为没有gap):
$$
M=\begin{matrix}
A\\
C\\
G\\
T
\end{matrix}
\begin{bmatrix}
0.3&0.6&0.1&0.0&0.0&0.6&0.7&0.2&0.1\\
0.2&0.2&0.1&0.0&0.0&0.2&0.1&0.1&0.2\\
0.1&0.1&0.7&1.0&0.0&0.1&0.1&0.5&0.1\\
0.4&0.1&0.1&0.0&1.0&0.1&0.1&0.2&0.6
\end{bmatrix}
$$
具体公式为:
$$
M{k,j}=\frac{1}{N}\sum{i=1}^{N}I(X{i,j}=k),(i=1,2,3,...,N;j=1,2,3,..,l)\\
I(X{i,j}=k)= \left \{
\begin{matrix}
1,X{i,j}=k\\
0,X{i,j}!=k
\end{matrix}
\right.
$$
对于每一个匹配成功的核苷酸,我们计分为1,未匹配则记为0,这只是一个简单的思想。而在实际情况下,我们用BLAST或者PSI-BLAST等程序求序列的PSSM时,相应的打分规则就要复杂许多。这时候就需要根据自身的需要选择相应的各种参数,如:gap,λ。
三、构建PSSM
具体公式为:
MARKDOWN_HASH7bbd6fe127d59319558d460ecc1d7341MARKDOWNHASH
M{PWM}=\ln(\frac{M_{PWM}}{b})\\
[\latex]
结果如下:
$$
M=\begin{matrix}
A\\
C\\
G\\
T
\end{matrix}
\begin{bmatrix}
0.18&0.87&-0.91&-\infty&-\infty&0.87&1.02&-0.22&-0.91\\
-0.22&-0.22&-0.91&-\infty&-\infty&-0.22&-0.91&-0.91&-0.22\\
-0.91&-0.91&1.02&1.38&-\infty&-0.91&-0.91&0.69&-0.91\\
0.47&-0.91&-0.91&-\infty&1.38&-0.91&-0.91&-0.22&0.87
\end{bmatrix}
$$
上述内容参考:
2.维基百科
Hey,ayanokoujimonki.top Admin
As a small business owner, “be a graphic design expert” probably wasn’t what you signed up for.
AdCreative.ai takes this process off your hands, giving you incredible wallet-opening ad creatives.
Test, test, and test some more the easy way. You’ll also get a $500 Google Ad Credit for signing up!
Start your 7-day trial today -> https://aismartad.com
Best,
James
那是不是每个长度相同的序列生成的都是同一个pssm矩阵?
不是