POSSUM 网站一共给出了21种PSSM的”变形“，这21种”变形“出自13篇不同的论文，我简单阅读这13篇论文，对各个PSSM做了一个简单的归纳，为了与原始论文中的描述一致，下面描述中采用的PSSM的维数为（蛋白质长度，20），与维基百科正好相反。

一、21种”变形“PSSM

POSSUM的原论文：

Wang J, Yang B et al. POSSUM: a bioinformatics toolkit for generating numerical sequence feature descriptors based on PSSM profiles. Bioinformatics 2017;33(17):2756-2758. DOI: 10.1093/bioinformatics/btx302.

给出了21种生成PSSM的一个概括：

Descriptors groups	Descriptor	Number
Row transformations	ACC-PSSM	20
	D-FPSSM	20
	smoothed-PSSM	*
	AB-PSSM	400
	PSSM-composition	400
	RPM-PSSM	400
	S-FPSSM	400
Column transformations	DPC-PSSM	400
	k-separated-bigrams-PSSM	400
	tri-gram-PSSM	8000
	EEDP	400
	TPC	400
Mixture of row and column transformations	EDP	20
	RPSSM	110
	Pse-PSSM	40
	DP-PSSM	*
	PSSM-AC	*
	PSSM-CC	*
Combination of above descriptors	AADP-PSSM	420
	AATP	420
	MEDP	420

上表中*表示的是结果受参数影响，POSSUM网站提供了设置这些参数的接口。

二、AAC-PSSM/DPC-PSSM/AADP-PSSM

Liu, T., Zheng, X. and Wang, J. (2010) Prediction of protein structural class for low-similarity sequences using support vector machine and PSI-BLAST profile, Biochimie, 92, 1330-1334.

原论文中，对得到的原始PSSM运用sigmoid函数将矩阵中的值映射到0-1之间，再进行接下来的操作，通过sigmoid函数并未改变矩阵的形状。

AAC-PSSM的计算公式为：
$$
X=(x_1,x_2,x3,..,x{20})^T\\
xj=\frac{1}{L}\sum{i=1}^{L}p_{i,j}\\
(j=1,2,3,...,20;L为蛋白质序列的长度)
$$
通过公式可知，ACC-PSSM就是在将PSSM进行sigmoid操作后，对其每列求平均值，最后可以将一条蛋白质序列嵌入成一个20维的向量。

DPC-PSSM的计算公式为：
$$
Y=(y{1,1},...,y{1,20},...,y{2,1},...,y{2,20},...,y{20,1},...,y{20,20})^T\\
y{i,j} = \frac{1}{L-1}\sum{k=1}^{L-1}p{k,i} \times p{k+1,j},(1\leq i,j\leq20)
$$
通过公式可知，DPC-PSSM就是将相邻两行的第i个氨基酸和第j氨基酸乘积求和并取平均，最后可以将一条蛋白质序列嵌入成400维向量。

AADP-PSSM 就是将上述两种PSSM进行拼接得到一个420维的向量，作为蛋白质序列的嵌入。

三、D-FPSSM/S-FPSSM

Zahiri, J., et al. (2013) PPIevo: protein-protein interaction prediction from PSSM based evolutionary information, Genomics, 102, 237-242.

首先根据原始PSSM得到FPSSM，FPSSM是在PSSM的基础上过滤掉矩阵中的负值，因此FPSSM和PSSM的形状是一致的。

D-FPSSM 的计算公式为：
$$
D=(d_1,d2,...,d{20})\\
dj=\sum{i=1}^{L}fp_{i,j}\\
d_j=\frac{d_j-min}{max \times L}
$$
根据公式可知，D-FPSSM是将FPSSM的每一行求和后减去对应行的最小值，并除以该行的最大值和序列长度的乘积。D-FPSSM可以将蛋白质嵌入成一个20维的向量。

S-FPSSM 的计算思想是计算氨基酸j对应的列中，行为氨基酸i的值求和，因为有20种氨基酸，所以可以将蛋白质序列嵌入成一个400维的向量。

四、smoothed-PSSM

Cheng, C.W., et al. (2008) Predicting RNA-binding sites of proteins using support vector machines and evolutionary information, BMC Bioinformatics, 9 Suppl 12, S6.

设定一个窗口值w，对于原始PSSM中的每一行，向上取w行，向下再取w行，构成一个2w+1行的窗口，在窗口内对每一列求和，将最后的计算结果替代最初选中的行。当超出矩阵的边界时，用全为0的行补齐。

进行完上述操作后，我们再选取一个窗口值W，对于每一行向上取（W-1）/2行，向下取（W-1）/2 行（超出边界的用全为0的行补齐），加上选中行，一起作为选中行对应氨基酸的嵌入，因此每个氨基酸嵌入的维度为Wx20，具体数值由W决定，POSSUM给出的W为50，因此嵌入结果为1000维。在原论文中，smoothed-PSSM是用来为每个氨基酸嵌入的，并非为整个蛋白质序列嵌入。

五、AB-PSSM/RPM-PSSM

Jeong, J.C., Lin, X. and Chen, X.W. (2011) On position-specific scoring matrix for protein function prediction, IEEE/ACM transactions on computational biology and bioinformatics / IEEE, ACM, 8, 308-315.

AB-PSSM 先将原始PSSM按行分成20份，$B=(B_1,B2,...,B{20})$ 每一份称之为一个block，block的行数由序列原始长度决定（尽量做到每份行数相同），列数为20，对每列求平均值，并对B重新展开，则可得到一个400维的向量作为蛋白质序列的嵌入。

RPM-PSSM 也是将原始的PSSM划分成20个block，与AB-PSSM不同的是，在每一个block内只对每列的正值取平均值，因此最后也可以得到一个400维的向量。

六、k-separated-bigram-PSSM

Saini, H., et al.(2016) Protein Fold Recognition Using Genetic Algorithm Optimized Voting Scheme and Profile Bigram.

k-separated-bigram-PSSM是对DPC-PSSM的一个扩展，k-separated-bigram-PSSM是求相邻k行内两个氨基酸的乘积，并求和，具体计算公式为：
$$
T{m,n}(k)=\sum{i=1}^{L-k}p{i,m}p{i+k,n}\\
(1\leq m,n\leq 20)
$$
k-separated-bigram-PSSM最后也可以得到一个400维的向量。

七、tri-gram-PSSM

Paliwal, K.K., et al. (2014) A tri-gram based feature extraction technique using linear probabilities of position specific scoring matrix for protein fold recognition, IEEE transactions on nanobioscience, 13, 44-50.

tri-gram-PSSM 的具体计算公式为：
$$
T{m,n,r}=\sum{i=1}^{L-2}p{i,m}\times p{i+1,n}\times p_{i+2,r}
$$
从公式可知，相当于用一个大小为3的窗口，计算第一行氨基酸m，第二行氨基酸n，第三行氨基酸r的乘积，并求和。可以生成800维向量。

八、EDP-PSSM/EEDP-PPSM

Zhang, L., Zhao, X. and Kong, L. (2014) Predict protein structural class for low-similarity sequences by evolutionary difference information into the general form of Chou's pseudo amino acid composition, Journal of Theoretical Biology, 355, 105-110.

首先我们先计算ED-PSSM矩阵，该矩阵的维数是20x20：
$$
E=(e_1,e2,...,e{20}),ei=(e{1i},e{2i},...,e{20i})
$$
ED-PSSM中的每一个元素为：
$$
e{k,t}=\frac{1}{L-2}\sum{i=2}^{L-1}x{i-1,i+1}\\
x{i-1,i+1}=(Aver_1-Aver_2)^2\\
Aver1=\frac{p{i-1,k}+p_{i,s}}{2}\\
Aver2=\frac{p{i,s}+p_{i+1,t}}{2}
$$
对ED-PSSM每列求平均就可得到一个20维的向量，也就是EDP-PSSM。

EEDP-PSSM 则是在ED-PSSM的基础上，将其展开成一个400维的向量。

MEDP-PSSM 则是将EDP-PSSM和EEDP-PSSM拼接成一个420维的向量。

九、TPC-PSSM/AATP-PSSM

Zhang, S., Ye, F. and Yuan, X. (2012) Using principal component analysis and support vector machine to predict protein structural class for low-similarity sequences via PSSM, Journal of Biomolecular Structure & Dynamics, 29, 634-642.

TPC-PSSM的计算公式为：
$$
y{i,j}=\frac{\sum{k=1}^{L-1}p{k,i}\times p{k+1,j}}{\sum{j=1}^{20}\sum{k=1}^{L-1}p{k+1,j}\times p{k,i}}
$$
其实也是20种氨基酸两两配对计算，可以得到一个400维的向量。

AATP-PSSM 则是TPC-PSSM和AAC-PSSM的一个结合，因此是一个420维的向量。

十、RPSSM

原始的PSSM是Lx20，20表示20种不同的氨基酸，把每列表示成一个长为L的列向量，则原始PSSM可以表示成一个20维的向量：$D=(P_A,P_R,...,P_V)$。做如下运算：

首先根据特定运算将20维的D向量转换成10维，每一维依旧是长为L的列向量，再将这10维向量转换成Lx10的矩阵RD。

接下来有两部分运算，第一步求RD每列的方差：
$$
DS=\frac{1}{L}\sum{i=1}^{L}(p{i,s}-\bar{p{s}})^2\\
\bar{p{s}}=\frac{1}{L}\sum{i=1}^{L}p{i,s}\\
(s=1,2,...,10;i=1,2,3,...,L)
$$
第二步计算公式如下：
$$
D{s,t}=\frac{1}{L-1}\sum{i=1}^{L-1}\frac{(p{i,s}-p_{i+1,t})^2}{2}\\
(s,t=1,2,3,...,10)
$$
第一步可以得到一个10维的向量，第二步可以得到一个10x10的矩阵，将其展开可得到一个100维的向量，将这两部分拼接则可得到一个110维的向量。原论文中对这110个特征值进行了特征筛选，最后用了其中29个作为特征嵌入。

十一、pse-PSSM

Chou, K.C. and Shen, H.B. (2007) MemType-2L: a web server for predicting membrane proteins and their types by incorporating evolution information through Pse-PSSM, Biochemical and Biophysical Research Communications, 360, 339-345.

首先对原始的PSSM每列求平均值，最后得到一个20维的向量。

根据公式：
$$
Gj=\frac{1}{L-lag}\sum{i=1}^{L-lag}(P{i,j}-p{i+lag,j})^2
$$
也就是求第i行j列和第i+lag行j列的差的平方，遍历所有行并求和。可以得到一个20维的向量。

将二者进行拼接，最后可以得到一个40维的向量。POSSUM官方给出的默认参数是lag=1，也可以用户自己设置。

十二、DP-PSSM

Juan, E.Y., et al. (2009) Predicting Protein Subcellular Localizations for Gram-Negative Bacteria using DP-PSSM and Support Vector Machines. Complex, Intelligent and Software Intensive Systems, 2009. CISIS'09. International Conference on. IEEE, pp. 836-841.

DP-PSSM的计算有点繁琐，公式可能有点多，但是也不难理解。首先明白，DP-PSSM是两部分组成T'和G’，我们先来看看T‘：
$$
T'=[\bar{T}_{1}^P,\bar{T}_1^N,\bar{T}_2^P,\bar{T}_2^N,...,\bar{T}_{20}^P,\bar{T}_{20}^N]
$$

$NP_j,NN_j$表示矩阵T的第j列中正数（包括0）和复数的数量，上述公式表示分别对矩阵T的第j列中的正数和负数求平均值，可以得到一个40维的向量。

矩阵T是由原始PSSM计算得到的，具体计算公式为：

其实就是对原始PSSM做行归一化，计算每行的平均值和标准差，再让对应行的所有元素减去均值并除以标准差，因此矩阵T和PSSM的形状一致。

G’：

可以看出G‘实际上是一个二维矩阵，其中每项的计算公式为：

公式的基本原理是，计算矩阵T的第i行和第i+k行中第j列的差的平方，根据二者的大小计算的公式略有不同，其实和T’计算规则大致相似。将G‘展开即可得到一个40α的向量。

将两者进行拼接，最后可以得到一个40+40α的向量，原论文中给出的α的值为2，最后可以将蛋白质嵌入成一个120维的向量。但是POSSUM上给出的默认值是5，最后给出的结果则是240维向量。

十三、PSSM-AC/PSSM-CC

Dong, Q., Zhou, S. and Guan, J. (2009) A new taxonomy-based protein fold recognition approach based on autocross-covariance transformation, Bioinformatics, 25, 2655-2662.

PSSM-AC 的计算公式为：
$$
AC(lg,j)=\frac{1}{L-lg}\sum{i=1}^{L-lg}(s{i,j}-\bar{sj})(s{i+1,j}-\bar{s_j})\\
\bar{sj}=\frac{1}{L}\sum{i=1}^{L}s_{i,j}
$$
PSSM-AC是一个LGx20维的向量，LG表示lg的最大值，POSSUM给出的LG为10。

PSSM-CC 的计算公式为：
$$
CC(j1,j2,lg)=\frac{1}{L-lg}\sum{i=1}^{L-lg}(s{i,j1}-\bar{s{j1}})(s{i+lg,j2}-\bar{s_{j2}})
$$
会产生20x19xLG维向量。

十四、小结

上述内容其实还缺少一种PSSM，PSSM-composition，我还没有弄清其具体原理，大致计算方法是统计每行氨基酸为i的第j列分值，最后会得到一个400维的向量。

上述内容参考：

POSSUM

PSSMCOOL

PSSMCOOL还给出了POSSUM没有的PSSM，感兴趣的可以看看。

Gordon Heidrich

7月前
2023-9-29 0:27:48

Great site, amazing style and design, very clean and user-friendly. Gladi Weber Amatruda.
Kristan Ruotolo

7月前
2023-9-23 1:29:25

I really enjoyed reading this post, thank you! Fantastic job!
Jennie Bealmear

7月前
2023-9-16 0:16:34

Hi! I read through this post and it reminds me of my old roommate who would always talk about similar topics. I will definitely forward this to him. Thank you for sharing!
Sheba Kantah

8月前
2023-9-01 23:53:05

I would like to know where you got your website theme or design. Could you please share that information with me?
Jazmin Boccanfuso

8月前
2023-8-26 0:33:12

I would like to know where you got your website theme or design. Could you please share that information with me?
Deandre Conyer

8月前
2023-8-19 1:15:33

Hi there, are you genuinely visiting this site on a regular basis? If so, then you will definitely gain fastidious knowledge.
Lou Bollozos

8月前
2023-8-15 1:06:55

I would like to know where you got your website theme or design. Could you please share that information with me?
匿名

1年前
2023-4-13 22:32:17

很感兴趣，但是特征的计算公式似乎没有正确显示

一、21种”变形“PSSM

二、AAC-PSSM/DPC-PSSM/AADP-PSSM

三、D-FPSSM/S-FPSSM

四、smoothed-PSSM

五、AB-PSSM/RPM-PSSM

六、k-separated-bigram-PSSM

七、tri-gram-PSSM

八、EDP-PSSM/EEDP-PPSM

九、TPC-PSSM/AATP-PSSM

十、RPSSM

十一、pse-PSSM

十二、DP-PSSM

十三、PSSM-AC/PSSM-CC

十四、小结

评论

发送评论编辑评论

一、21种”变形“PSSM

二、AAC-PSSM/DPC-PSSM/AADP-PSSM

三、D-FPSSM/S-FPSSM

四、smoothed-PSSM

五、AB-PSSM/RPM-PSSM

六、k-separated-bigram-PSSM

七、tri-gram-PSSM

八、EDP-PSSM/EEDP-PPSM

九、TPC-PSSM/AATP-PSSM

十、RPSSM

十一、pse-PSSM

十二、DP-PSSM

十三、PSSM-AC/PSSM-CC

十四、小结

评论

发送评论 编辑评论

推荐文章

发送评论编辑评论