PSSM(二)-”变形“PSSM
POSSUM 网站一共给出了21种PSSM的”变形“,这21种”变形“出自13篇不同的论文,我简单阅读这13篇论文,对各个PSSM做了一个简单的归纳,为了与原始论文中的描述一致,下面描述中采用的PSSM的维数为(蛋白质长度,20),与维基百科正好相反。 一、21种”变形“PSSM POSSUM的原论文: Wang J, Yang B et al. …
PSSM(一)-什么是PSSM
​ 最近应导师要求,需要在POSSUM网站上生成氨基酸序列对应的21种以PSSM为基础的特征,博主本身从未接触过PSSM,因此想记录一下整个学习过程。 一、什么是PSSM ​ PSSM全称是“position-specific scoring matrix”,翻译成中文为“位置特异性打分矩阵”,也称为“位置比重矩阵”。对于氨基酸和核苷酸,矩阵的形式…
DIAMOND的安装和简单使用
一、DIAMOND安装 DIAMOND用于序列比对,速度比BLAST快不少,安装也比较方便,这里介绍两种安装方式。 Linux命令安装 在linux服务器上,可通过如下命令安装: # 下载压缩文件 wget http://github.com/bbuchfink/diamond/releases/download/v0.9.25/diamond-l…
SMO理论基础
SMO优化算法(Sequential minimal optimization)由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。在支持向量机中,我们需要优化的参数是若干个α和一个偏移量b,SMO的基本思想是每次取两个α进行优化,剩余的α固定不变…
SVM理论基础
一、SVM(support vector machines) 支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。 注意SVM是一个二分类模型,理论上来说是不支持…
PCA理论基础
一、什么是PCA PCA即Principal Components Analysis,是一种常用的降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。为了更加直观的理解,下文中以二维数据来对PCA的原理进行解释。 PCA的工作就是从原始的空间中顺序地找一组相互正交…
深度学习基础-Batch归一化和Softmax
一、神经网络中的超参数 根据吴恩达老师深度学习视频,按重要性给神经网络中的超参数排个序: 学习率α 动量梯度下降中的β,隐藏单元数hidden_units,批处理大小mini_batch_size 层数layers,学习率衰减参数learning_rate_decay 一个好的神经网络难免会经过多次调参,吴恩达老师给出的调参策略是,先随机选取多组参…
深度学习笔记-优化算法
一、mini-batch梯度下降 向量化样本数据能够帮助我们同时计算多个样本,例如每个样本的特征数为50,样本数为100,我们可以构造样本数据矩阵(50,100),将矩阵输入到神经网络中就可以同时计算100个样本数据的输出值,神经网络输出值的维度为(1,100)。 $$ \begin{aligned} input:X(n_x,m),n_x为特征数,…
深度学习基础-正则化和归一化
一、训练集、验证集和测试集的划分 在机器学习发展的小数据时代,常见做法是将所有数据三七分,即70%训练集和30%测试集,如果没有明确设置验证集,也可以按照60%训练集,20%验证集,20%测试集来划分。 这是早些年机器学习领域普遍认可的最好的实践方法,如果数据只有100条,1000条或10000条,上述比例是非常合理的。 但是在大数据时代,我们现在…
深度学习基础-梯度下降,激活函数和神经网络
一、梯度下降法 1.梯度下降的简单使用 神经网络的一个核心是反向传播,而反向传播的核心思想是利用梯度下降法和链式求导法则来对网络中的参数进行更新。让我们通过逻辑回归中的参数更新,简单介绍一下梯度下降法的使用。 $$ \begin{aligned} &(1)z = W^Tx^{(i)} + b \ \end{aligned} $$ $$ \b…