Predicting the Subcellular Localization of Human Proteins Using Machine Learning and Exploratory Data Analysis

在线阅读 下载PDF 导出详情
摘要 识别蛋白质的细胞的本地化是的潜水艇在基因产品的功能的注解特别地有用。在这研究,我们使用机器学习和探索数据分析(EDA)技术检验并且描绘在九细胞的分隔空间局部性的人的蛋白质的氨基酸序列。代表人的蛋白质的3,749个蛋白质序列的数据集从SWISS-PROT数据库被提取。特征向量被创造捕获特定的氨基酸顺序特征。相对一台支持向量机器,一个多层的视感控器,和一个天真的Bayes分类器,C4.5决定树算法是越过在可靠地预言蛋白质的细胞的本地化基于他们的氨基酸定序的潜水艇的所有九分隔空间的最历久不渝的表演者(平均Precision=0.88;平均Sensitivity=0.86)。而且,EDA图形在每分隔空间描绘了蛋白质的必要特征。作为例子,在血浆膜上局部性的蛋白质有恐水病的氨基酸的更高的比例;细胞质的蛋白质有中立氨基酸的更高的比例;并且mitochondrial蛋白质有中立氨基酸的更高的比例和极的氨基酸的更低的比例。这些数据证明C4.5分类器和EDA工具能为描绘并且预言人的蛋白质的细胞的本地化基于他们的氨基酸定序的潜水艇是有效的。
机构地区 不详
出版日期 2006年02月12日(中国期刊网平台首次上网日期,不代表论文的发表时间)
  • 相关文献