UniProt蛋白质数据库简介

UniProt蛋白质数据库简介

论文摘要

UniProt(https://www.uniprot.org/)是国际知名蛋白质数据库,主要包括UniProtKB知识库、UniParc归档库和UniRef参考序列集三部分。UniProtKB知识库是UniProt的核心,除蛋白质序列数据外,还包括大量注释信息。UniProtKB知识库分Swiss-Prot和TrEMBL两个子库。Swiss-Prot子库中50多万条序列均由人工审阅和注释,而TrEMBL子库中1.4亿多条序列是由核酸序列数据库EMBL中的蛋白质编码序列翻译所得,并由计算机根据一定规则进行注释。UniParc归档库将存放于不同数据库中的同一个蛋白质归并到一个记录中以避免冗余,并赋予序列唯一性特定标识符。UniRef参考序列集按相似性程度将UniProtKB和UniParc中的序列分为UniRef100、UniRef90和UniRef50三个数据集。UniProt网站为用户提供了高效实用的高级检索系统和大量帮助文档。UniProt数据库每4周发布新版的同时也发布统计报表,用户可通过统计报表了解该数据库的数据量及更新情况、数据类别和物种分布等基本信息,查看常规注释信息、序列特征注释信息和数据库交叉链接等统计数据。UniProt是目前国际上序列数据最完整、注释信息最丰富的非冗余蛋白质序列数据库,自本世纪初创建以来,为生命科学领域提供了宝贵资源。

论文目录

  • 1 UniProt数据库及其前身的创建历史
  •   1.1 国际上最早创建的蛋白质序列数据库PIR-PSD
  •   1.2 人工审阅和注释的瑞士蛋白质序列数据库Swiss-Prot
  •   1.3 核酸序列翻译所得的蛋白质序列数据库TrEMBL
  •   1.4 蛋白质数据库UniProt
  • 2 UniProt数据库主要内容
  •   2.1 蛋白质知识库UniProtKB
  •   2.2 蛋白质序列归档库UniParc
  •   2.3 蛋白质序列参考集UniRef
  •   2.4 蛋白组Proteome
  • 3 UniProt网站功能模块
  •   3.1 高级检索
  •   3.2 帮助文档
  •   3.3 在线工具
  •   3.4 数据下载
  •   3.5 统计报表
  •   3.6 数据递交
  •   3.7 应用程序接口
  •   3.8 蛋白质分子精选
  • 4 UniProtKB统计报表
  •   4.1 统计报表概况
  •   4.2 数据类别
  •   4.3 物种分类学来源
  •   4.4 序列长度分布
  •   4.5 氨基酸含量
  •   4.6 常规注释信息
  •   4.7 序列特征注释信息
  •     (1) 分子加工 (Molecular Processing)
  •     (2) 序列区域 (Region)
  •     (3) 序列位点 (Site)
  •     (4) 氨基酸修饰 (Amino Acid Modification)
  •     (5) 天然变异 (Natural Variations)
  •     (6) 实验信息 (Experimental Information)
  •     (7) 二级结构 (Secondary Structure)
  •   4.8 数据库交叉链接
  •     (1) 序列数据库 (Sequence Databases)
  •     (2) 蛋白质三维结构数据库 (3D Structure Databases)
  •     (3) 蛋白质相互作用数据库 (Protein-protein Interaction Databases)
  •     (4) 化学小分子数据库 (Chemistry Databases)
  •     (5) 特殊类别蛋白质数据库 (Family/Group Databases)
  •     (6) 翻译后修饰数据库 (Post-translational Modification (PTM) Databases)
  •     (7) 多态性和突变体数据库 (Polymorphism Databases)
  •     (8) 双向凝胶电泳数据库 (2D Gel Databases)
  •     (9) 蛋白组数据库 (Proteome Databases)
  •     (10) 基因组注释数据库 (Genome Annotation Databases)
  •     (11) 特殊物种数据库 (Organism-specific Databases)
  •     (12) 系统发生数据库 (Phylogenomic Databases)
  •     (13) 酶和代谢通路数据库 (Enzyme and Pathway Databases)
  •     (14) 基因表达数据库 (Gene Expression Databases)
  •     (15) 蛋白质家族和结构域数据库 (Family/Domain Databases)
  • 5 讨 论
  •   5.1 本文统计数据说明
  •   5.2 现有蛋白质序列是个很小的子集
  •   5.3 UniProt给我们的启示
  •   5.4 后记
  • 文章来源

    类型: 期刊论文

    作者: 罗静初

    关键词: 数据库,蛋白质序列,蛋白质功能,数据库注释,数据库交叉链接,数据库高级检索

    来源: 生物信息学 2019年03期

    年度: 2019

    分类: 基础科学

    专业: 生物学

    单位: 北京大学生命科学学院

    分类号: Q51;Q811.4

    页码: 131-144

    总页数: 14

    文件大小: 1051K

    下载量: 1144

    相关论文文献

    • [1].基于数据库的Web应用快速开发[J]. 中国管理信息化 2017(19)
    • [2].斩断伸向网站数据库的“黑手”[J]. 网络安全和信息化 2017(10)
    • [3].全国生物信息数据库目录体系规范化研究[J]. 术语标准化与信息技术 2008(04)
    • [4].建筑施工活动“两化数据库”的构建研究[J]. 建筑经济 2018(07)
    • [5].高校图书馆常用创业就业数据库的比较研究[J]. 河南图书馆学刊 2019(03)
    • [6].详解数据库镜像[J]. 网络安全和信息化 2018(02)
    • [7].地方标准制修订管理系统设计[J]. 科技创新与应用 2020(24)

    标签:;  ;  ;  ;  ;  ;  

    UniProt蛋白质数据库简介
    下载Doc文档

    猜你喜欢