UniProt是(shi)(shi)Universal Protein的(de)英文(wen)縮寫,是(shi)(shi)信(xin)息最豐(feng)富、資(zi)源最廣的(de)蛋白(bai)(bai)質數(shu)據庫(ku)。它(ta)由(you)整合Swiss-Prot、TrEMBL和(he) PIR-PSD三大數(shu)據庫(ku)的(de)數(shu)據而成。他的(de)數(shu)據主(zhu)要來自于基(ji)因組測序(xu)項目完成后(hou),后(hou)續(xu)獲得(de)的(de)蛋白(bai)(bai)質序(xu)列。它(ta)包含了大量(liang)來自文(wen)獻的(de)蛋白(bai)(bai)質的(de)生物功能的(de)信(xin)息。
UniProtKB全(quan)稱UniProt Knowledgebase(UniProt知識庫)它是(shi)(shi)經過專家校驗的數據(ju)集,主要由(you)兩(liang)部(bu)分組成:UniProtKB/Swiss-Prot(包含(han)檢查過的、手工注(zhu)釋的條目(mu))和UniProtKB/TrEMBL(包含(han)未(wei)校驗的、自動注(zhu)釋的條目(mu)),在2010年(nian)8月是(shi)(shi)10日(ri)發布的版本中,UniProtKB/Swiss-Prot包含(han)519,348條注(zhu)釋條目(mu),UniProtKB/TrEMBL包含(han)11,636,205條注(zhu)釋條目(mu)。
UniProtKB/Swiss-Prot
高質量的(de)、手工注釋的(de)、非冗余的(de)數據集(ji);主要來(lai)自文獻中的(de)研究成果(guo)和E-value校驗過計算分析結果(guo)。有質量保(bao)證的(de)數據才被加入該數據庫。
UniProtKB/TrEMBL
該數(shu)據(ju)(ju)集包含高質(zhi)量(liang)的(de)計算分析結果,一般(ban)都在自(zi)動注(zhu)釋中富集,主要(yao)應對基(ji)因組(zu)項目(mu)獲得的(de)大量(liang)數(shu)據(ju)(ju)流以(yi)人工校(xiao)驗在時間(jian)上和人力上的(de)不(bu)足(zu)。他(ta)能(neng)注(zhu)釋所有(you)可(ke)用的(de)蛋白序(xu)列。在三大核(he)酸數(shu)據(ju)(ju)庫(ku)(ku)(EMBL-Bank/GenBank/DDBJ)中注(zhu)釋的(de)編碼序(xu)列都被自(zi)動翻(fan)譯并加入該數(shu)據(ju)(ju)庫(ku)(ku)中。它也(ye)有(you)來自(zi)PDB數(shu)據(ju)(ju)庫(ku)(ku)的(de)序(xu)列,以(yi)及Ensembl、Refeq和CCDS基(ji)因預測的(de)序(xu)列。
UniParc
UniParc全稱是UniProt Archive,他是一(yi)個綜合性的(de)非(fei)冗(rong)余數據(ju)庫(ku),他包(bao)含了所(suo)有主(zhu)要(yao)的(de)、公開的(de)數據(ju)庫(ku)的(de)蛋(dan)白(bai)質(zhi)序(xu)(xu)列(lie)(lie)。 由于蛋(dan)白(bai)質(zhi)可能在不同的(de)數據(ju)庫(ku)中(zhong)存(cun)在,并且可能在同一(yi)個數據(ju)庫(ku)中(zhong)有多個版本,為(wei)了去冗(rong)余,UniaraParc對(dui)每條唯(wei)一(yi)的(de)序(xu)(xu)列(lie)(lie)只(zhi)存(cun)一(yi)次。無論(lun)是否為(wei)同一(yi)物種的(de)序(xu)(xu)列(lie)(lie),只(zhi)要(yao)序(xu)(xu)列(lie)(lie)相(xiang)同就被合并為(wei)一(yi)條,每條序(xu)(xu)列(lie)(lie)提供(gong)穩定的(de)、唯(wei)一(yi)的(de)編號UPI。該(gai)數據(ju)庫(ku)只(zhi)含有蛋(dan)白(bai)質(zhi)的(de)序(xu)(xu)列(lie)(lie)信(xin)息,而沒有注(zhu)釋數據(ju)。