PSSM(一)-什么是PSSM

​ 最近应导师要求,需要在POSSUM网站上生成氨基酸序列对应的21种以PSSM为基础的特征,博主本身从未接触过PSSM,因此想记录一下整个学习过程。

一、什么是PSSM

​ PSSM全称是“position-specific scoring matrix”,翻译成中文为“位置特异性打分矩阵”,也称为“位置比重矩阵”。对于氨基酸和核苷酸,矩阵的形式不太一样,根据维基百科的解释,DNA(或RNA)序列对应的PSSM矩阵的行数为4,对应着四种不同的核苷酸,同理蛋白质序列的PSSM矩阵行数为20,对应着20种不同的氨基酸。不过二者的PSSM矩阵的列数均为序列长度,以100个氨基酸组成的蛋白质来说,其PSSM矩阵的维度为(20,100)。在实际应用中,我们通常会借助一些工具生成PSSM矩阵,得到的矩阵维度并非一层不变,例如利用PSI-BLAST得到蛋白质的PSSM,矩阵的维度为(蛋白质长度,20),这刚好和实际维基百科中给出的相反,不过在提前了解后并不影响我们的使用。下文中,我们还是以维基百科为主进行解释。

​ 关于PSSM的意义,博主也没完全弄明白,十分常见的一个解释是,对于PSSM中的一个元素$p_{i,j}$ 数值表示序列第j个位置上的氨基酸在进化过程中突变成第i个氨基酸的可能性,若值为正就表示,可能性越大,反之,值为负则表示可能性越小。

​ 关于PSSM的作用,在阅读完POSSUM网站给出的论文中。通常情况下,利用PSSM矩阵做各种“变形”为蛋白质序列做embedding。“变形”有两个准则,一是变形结果与序列本身的长度无关,这就保证了无论蛋白质序列原始长度如何,最后的embdding结果的维数相同。二是将利用二维的PSSM生成一维的向量。

​ POSSUM网站给出了21种“变形”结果,每种“变形“都有论文支持,关于这21种PSSM的变形细节将在下一篇博客中具体介绍。这篇博客主要是阐述构建PSSM的具体步骤。

二、构建位置频度矩阵(PFM)

​ 为了方便说明,这里给出一个简单的例子:

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

以上述DNA序列为例,共10行9列,其对应的PFM为:
$$
M=\begin{matrix}
A\\
C\\
G\\
T
\end{matrix}
\begin{bmatrix}
3&6&1&0&0&6&7&2&1\\
2&2&1&0&0&2&1&1&2\\
1&1&7&10&0&1&1&5&1\\
4&1&1&0&10&1&1&2&6
\end{bmatrix}
$$
也就是统计每一列上4种核苷酸的数目。

三、构建位置概率矩阵(PPM)

简单的PPM就是在PFM的基础上将每列进行归一化(因为没有gap):
$$
M=\begin{matrix}
A\\
C\\
G\\
T
\end{matrix}
\begin{bmatrix}
0.3&0.6&0.1&0.0&0.0&0.6&0.7&0.2&0.1\\
0.2&0.2&0.1&0.0&0.0&0.2&0.1&0.1&0.2\\
0.1&0.1&0.7&1.0&0.0&0.1&0.1&0.5&0.1\\
0.4&0.1&0.1&0.0&1.0&0.1&0.1&0.2&0.6
\end{bmatrix}
$$
具体公式为:

$$
M{k,j}=\frac{1}{N}\sum{i=1}^{N}I(X{i,j}=k),(i=1,2,3,...,N;j=1,2,3,..,l)\\
I(X
{i,j}=k)=\left\{
\begin{matrix}
1,X{i,j}=k\\
0,X
{i,j}!=k
\end{matrix}
\right.
$$

对于每一个匹配成功的核苷酸,我们计分为1,未匹配则记为0,这只是一个简单的思想。而在实际情况下,我们用BLAST或者PSI-BLAST等程序求序列的PSSM时,相应的打分规则就要复杂许多。这时候就需要根据自身的需要选择相应的各种参数,如:gap,λ。

三、构建PSSM

具体公式为:
$$
M{PWM}=\ln(\frac{M{PPM}}{b})\\
(其中b = \frac{1}{k},蛋白质中k为20,DNA中k为4)
$$

结果如下:
$$
M=\begin{matrix}
A\\
C\\
G\\
T
\end{matrix}
\begin{bmatrix}
0.18&0.87&-0.91&-\infty&-\infty&0.87&1.02&-0.22&-0.91\\
-0.22&-0.22&-0.91&-\infty&-\infty&-0.22&-0.91&-0.91&-0.22\\
-0.91&-0.91&1.02&1.38&-\infty&-0.91&-0.91&0.69&-0.91\\
0.47&-0.91&-0.91&-\infty&1.38&-0.91&-0.91&-0.22&0.87
\end{bmatrix}
$$
上述内容参考:

1.构建PSSM的步骤

2.维基百科

评论

  1. 匿名
    4周前
    2022-11-13 18:52:06

    那是不是每个长度相同的序列生成的都是同一个pssm矩阵?

    • 博主
      匿名
      4周前
      2022-11-13 19:38:16

      不是

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇