中国高校课件下载中心 》 教学资源 》 大学文库

《生物信息学》课程教学资源(中译本)第二章 GenBank序列 数据库

文档信息
资源类别:文库
文档格式:PDF
文档页数:11
文件大小:189.77KB
团购合买:点击进入团购
内容简介
一级蛋白质和核酸数据库在分子生物学界是如此的司空见惯,以致于我们很少会去考虑这些 普遍存在的工具是如何建立的。但是如果我们能够了解这些序列是如何汇集到一起的,这将 有助于我们加深对生物学的理解,并且能够更加充分地发掘这些记录中蕴藏的信息。 GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋 白质序列。
刷新页面文档预览

第二章 Gen Bank序列数据库 页码,1/ 第二章 GenBank序列数据库 简介 级蛋白质和核酸数据库在分子生物学界是如此的司空见惯,以致于我们很少会去考虑这些 普遍存在的工具是如何建立的。但是如果我们能够了解这些序列是如何汇集到一起的,这将 有助于我们加深对生物学的理解,并且能够更加充分地发掘这些记录中蕴藏的信息。 GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋 白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类 别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划 分。目前 GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将 序列数据作为论文的一部分来发表,或将数据直接公开。 GenBank由位于马里兰州 Bethesda的 美国国立卫生研究院下属国立生物技术信息中心建立,与日本DNA数据库(DDBJ)以及欧洲生 物信息硏究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数 据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换 信息,并制作相同的充分详细的数据库向公众开放(虽然格式上有细微的差别,并且所使用 的信息系统也略有不同)。 这一章描述 Gen Bank数据库是如何构成的,它如何与蛋白质数据库相衔接,以及如何解释其中 的数据成分。关于序列数据库,前人已经作了大量的工作,具体可参见( Schuler et al 1996: Bai roch and Apweiller, 1997: Benson et al.,1997: george et al., 1997 Stoesser et al.,1997; Tateno et al.,1997)。所有这些论文都指出了数据库快速增长 的趋势,并对如何利用这些生物学资源提出了建议。出于科学研究的考虑,以及由于历史的 原因,序列数据被分别存放在核苷酸和蛋白质数据库中。核苷酸序列是査询核苷酸数据库以 及蛋白质数据库时的主要出发点,并且目前有一种趋势,将核苷酸数据库介入到蛋白质数据 库的管理之中(正如我们下面将要看到的那样)。这并不奇怪,因为数据库维护者与数据提 交者之间的直接通讯将有利于保证数据的真实性与准确性(提交者需要一个检索号,并且他 们想要得到他们添加到数据库中的新记录)。在很多情况下,这种对数据的关注意味着提供 适当的信息来注释CDs( coding sequence:编码序列),并告诉我们如何得到翻译产物。这 种对蛋白质和核酸序列统一管理的倾向也明显地体现在NCBI的Eηtrez之中,在 Gen Bank的管理 之中,以及在 GenPept格式记录的生成过程之中。在欧洲,EB的工作人员统一维护管理 Swi ss-Prot和 TREMBL,这些工作人员也负责EMBL核苷酸数据库的管理工作。还有Amos Bai roch和他在日内瓦大学的研究组。(见本章后的列表)。尽管如此,建立核苷酸和蛋白质 数据库的初衷还是有区别的。本章还初步讨论了将在第六章详细描述的数据模型。这一章主 要是从 GenBank flatfile的角度介绍序列数据,但必须明确的是,“ flatfile"(不论是 Gen Bank,EMBL, Swiss-Prot或PIR),都只是ASN.1报告的一个方面。而ASN.1才是代表了 NCBI数据模型的语言。 Gen Bank以DNA为核心,包含了许多计算生物学资源。 历史上,蛋白质数据库先于核苷酸数据库。在60年代初, Dayhoff和他的同事们收集了所有当 蛋白质数据库后来成为PIR( George et al.,1997)。这本书为今天整个生物信息学界日常 工作所依赖的计算生物学资源播下了种子。这个在1965年可以很容易地存放在一张软盘上的 数据集(尽管那时并不存在软盘这种存储介质),是一小群人多年的工作成果。今天,任何 个DNA或蛋白质数据库每天增加的数据量都数倍于此。最早的DNA序列数据库于1982年在 洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。(见图2.1)。R.Cook Deegan(1993)在《基因战争》中详细描述了这一时期人类基因组计划的历史。此后不久因 项NH与洛斯阿拉莫斯国家实验室的合同而诞生了 Gen Bank。两个中心都致力于发展输入方 式,这主要是将学术刊物上公开发表的论文转换为更适合计算机使用的电子格式。日本的DNA 数据库(DDBJ),在几年后加入了数据收集的合作。在1988年一次三方会议之后(现在称之 为“国际DNA序列数据库合作计划”)达成了一项协议,对数据库的记录采用共同的格式,并 file://E:wcb\生物信息学(中译本)\第二章 GenBank序列数据库.htm 2005-1-18

㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ ㅔҟ ϔ㑻㲟ⱑ䋼੠Ḍ䝌᭄᥂ᑧ೼ߚᄤ⫳⠽ᄺ⬠ᰃབℸⱘৌぎ㾕ᛃˈҹ㟈Ѣ៥ӀᕜᇥӮএ㗗㰥䖭ѯ ᱂䘡ᄬ೼ⱘᎹ݋ᰃབԩᓎゟⱘDŽԚᰃབᵰ៥Ӏ㛑໳њ㾷䖭ѯᑣ߫ᰃབԩ∛䲚ࠄϔ䍋ⱘˈ䖭ᇚ ᳝ࡽѢ៥Ӏࡴ⏅ᇍ⫳⠽ᄺⱘ⧚㾷ˈᑊϨ㛑໳᳈ߚܙࡴഄথᥬ䖭ѯ䆄ᔩЁ㭈㮣ⱘֵᙃDŽ GenBankᰃ㕢೑೑ゟि⫳ⷨお䰶㓈ᡸⱘ෎಴ᑣ᭄߫᥂ᑧˈ∛䲚ᑊ⊼䞞њ᠔᳝݀ᓔⱘḌ䝌ҹঞ㲟 ⱑ䋼ᑣ߫DŽ↣Ͼ䆄ᔩҷ㸼њϔϾऩ⣀ⱘǃ䖲㓁ⱘǃᏺ᳝⊼䞞ⱘDNA៪RNA⠛↉DŽ䖭ѯ᭛ӊᣝ㉏ ߚ߿Ў޴㒘˖᳝ѯᣝ✻㋏㒳থ⫳ᄺߚߦ໪঺ˈϔѯ߭ᣝ✻⫳៤䖭ѯᑣ᭄߫᥂ⱘᡔᴃᮍ⊩ߦ ߚDŽⳂࠡGenBankЁ᠔᳝ⱘ䆄ᔩഛᴹ㞾Ѣ᳔߱԰㗙৥DNAᑣ᭄߫᥂ᑧⱘⳈ᥹ᦤѸDŽ䖭ѯ԰㗙ᇚ ᑣ᭄߫᥂԰Ў䆎᭛ⱘϔ䚼ߚᴹথ㸼ˈ៪ᇚ᭄᥂Ⳉ᥹݀ᓔDŽGenBank⬅ԡѢ偀䞠݄ᎲBethesdaⱘ 㕢೑೑ゟि⫳ⷨお䰶ϟሲ೑ゟ⫳⠽ᡔᴃֵᙃЁᖗᓎゟˈϢ᮹ᴀDNA᭄᥂ᑧ˄DDBJ˅ҹঞ⃻⌆⫳ ⠽ֵᙃⷨお䰶ⱘ⃻⌆ߚᄤ⫳⠽ᄺᅲ偠ᅸḌ㣋䝌᭄᥂ᑧ˄EMBL˅ϔ䍋ˈ䛑ᰃ೑䰙Ḍ㣋䝌ᑣ᭄߫ ᥂ᑧড়԰ⱘ៤ਬDŽ᠔᳝䖭ϝϾЁᖗ䛑ৃҹ⣀ゟഄ᥹ফ᭄᥂ᦤѸˈ㗠ϝϾЁᖗП䯈߭䗤᮹Ѹᤶ ֵᙃˈᑊࠊ԰Ⳍৠⱘߚܙ䆺㒚ⱘ᭄᥂ᑧ৥݀ӫᓔᬒ˄㱑✊ḐᓣϞ᳝㒚ᖂⱘᏂ߿ˈᑊϨ᠔Փ⫼ ⱘֵᙃ㋏㒳г⬹᳝ϡৠ˅DŽ 䖭ϔゴᦣ䗄GenBank᭄᥂ᑧᰃབԩᵘ៤ⱘˈᅗབԩϢ㲟ⱑ䋼᭄᥂ᑧⳌ㸨᥹ˈҹঞབԩ㾷䞞݊Ё ⱘ᭄᥂៤ߚDŽ݇Ѣᑣ᭄߫᥂ᑧˈࠡҎᏆ㒣԰њ໻䞣ⱘᎹ԰ˈ݋ৃԧখ㾕˄Schuler et al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; George et al., 1997; Stoesser et al., 1997; Tateno et al., 1997˅DŽ᠔᳝䖭ѯ䆎᭛䛑ᣛߎњ᭄᥂ᑧᖿ䗳๲䭓 ⱘ䍟࢓ˈᑊᇍབԩ߽⫼䖭ѯ⫳⠽ᄺ䌘⑤ᦤߎњᓎ䆂DŽߎѢ⾥ᄺⷨおⱘ㗗㰥ˈҹঞ⬅Ѣग़৆ⱘ ॳ಴ˈᑣ᭄߫᥂㹿߿ߚᄬᬒ೼Ḍ㣋䝌੠㲟ⱑ䋼᭄᥂ᑧЁDŽḌ㣋䝌ᑣ߫ᰃᶹ䆶Ḍ㣋䝌᭄᥂ᑧҹ ঞ㲟ⱑ䋼᭄᥂ᑧᯊⱘЏ㽕ߎথ⚍ˈᑊϨⳂ᳝ࠡϔ⾡䍟࢓ˈᇚḌ㣋䝌᭄᥂ᑧҟܹࠄ㲟ⱑ䋼᭄᥂ ᑧⱘㅵ⧚ПЁ˄ℷབ៥Ӏϟ䴶ᇚ㽕ⳟࠄⱘ䙷ḋ˅DŽ䖭ᑊϡ༛ᗾˈ಴Ў᭄᥂ᑧ㓈ᡸ㗙Ϣ᭄᥂ᦤ Ѹ㗙П䯈ⱘⳈ᥹䗮䆃ᇚ᳝߽Ѣֱ䆕᭄᥂ⱘⳳᅲᗻϢޚ⹂ᗻ˄ᦤѸ㗙䳔㽕ϔϾẔ㋶োˈᑊϨҪ Ӏᛇ㽕ᕫࠄҪӀ⏏ࠄࡴ᭄᥂ᑧЁⱘᮄ䆄ᔩ˅DŽ೼ᕜ໮ᚙމϟˈ䖭⾡ᇍ᭄᥂ⱘ݇⊼ᛣੇⴔᦤկ 䗖ᔧⱘֵᙃᴹ⊼䞞CDS˄coding sequence˖㓪ⷕᑣ߫˅ˈᑊਞ䆝៥Ӏབԩᕫࠄ㗏䆥ѻ⠽DŽ䖭 ⾡ᇍ㲟ⱑ䋼੠Ḍ䝌ᑣ߫㒳ϔㅵ⧚ⱘؒ৥гᯢᰒഄԧ⦄೼NCBIⱘEntrezПЁˈ೼GenBankⱘㅵ⧚ ПЁˈҹঞ೼GenPeptḐᓣ䆄ᔩⱘ⫳៤䖛⿟ПЁDŽ೼⃻⌆ˈEBIⱘᎹ԰Ҏਬ㒳ϔ㓈ᡸㅵ⧚ Swiss-Prot੠TREMBLˈ䖭ѯᎹ԰Ҏਬг䋳䋷EMBLḌ㣋䝌᭄᥂ᑧⱘㅵ⧚Ꮉ԰DŽ䖬᳝Amos Bairoch੠Ҫ೼᮹ݙ໻⪺ᄺⱘⷨお㒘DŽ˄㾕ᴀゴৢⱘ߫㸼˅DŽሑㅵབℸˈᓎゟḌ㣋䝌੠㲟ⱑ䋼 ᭄᥂ᑧⱘ߱㹋䖬ᰃ᳝ऎ߿ⱘDŽᴀゴ䖬߱ℹ䅼䆎њᇚ೼㄀݁ゴ䆺㒚ᦣ䗄ⱘ᭄᥂῵ൟDŽ䖭ϔゴЏ 㽕ᰃҢGenBank flatfileⱘ㾦ᑺҟ㒡ᑣ᭄߫᥂ˈԚᖙ乏ᯢ⹂ⱘᰃˈ“flatfile”˄ϡ䆎ᰃ GenBank, EMBL, Swiss-Prot៪PIR˅ˈ䛑াᰃASN.1᡹ਞⱘϔϾᮍ䴶DŽ㗠ASN.1ᠡᰃҷ㸼њ NCBI᭄᥂῵ൟⱘ䇁㿔DŽGenBankҹDNAЎḌᖗˈࣙ৿њ䆌໮䅵ㅫ⫳⠽ᄺ䌘⑤DŽ ग़৆Ϟˈ㲟ⱑ䋼᭄᥂ᑧܜѢḌ㣋䝌᭄᥂ᑧDŽ೼60ᑈҷ߱ˈDayhoff੠ҪⱘৠџӀᬊ䲚њ᠔᳝ᔧ ᯊᏆⶹⱘ⇼෎䝌ᑣ߫ˈ䖭ህᰃĀ㲟ⱑ䋼ᑣ߫Ϣ㒧ᵘ೒ݠā˄Dayhoff et al., 1965˅DŽ䖭ϔ 㲟ⱑ䋼᭄᥂ᑧৢᴹ៤ЎPIR˄George et al., 1997˅DŽ䖭ᴀкЎҞ໽ᭈϾ⫳⠽ֵᙃᄺ⬠᮹ᐌ Ꮉ԰᠔ձ䌪ⱘ䅵ㅫ⫳⠽ᄺ䌘⑤᪁ϟњ⾡ᄤDŽ䖭Ͼ೼1965ᑈৃҹᕜᆍᯧഄᄬᬒ೼ϔᓴ䕃ⲬϞⱘ ᭄᥂䲚˄ሑㅵ䙷ᯊᑊϡᄬ೼䕃Ⲭ䖭⾡ᄬټҟ䋼˅ˈᰃϔᇣ㕸Ҏ໮ᑈⱘᎹ԰៤ᵰDŽҞ໽ˈӏԩ ϔϾDNA៪㲟ⱑ䋼᭄᥂ᑧ↣໽๲ࡴⱘ᭄᥂䞣䛑᭄סѢℸDŽ᳔ᮽⱘDNAᑣ᭄߫᥂ᑧѢ1982ᑈ೼⃻ ⌆ߚᄤ⫳⠽ᄺᅲ偠ᅸ䆲⫳ˈ䱣ेህᓔྟњϔϾ᭄᥂ᑧ⟚⚌ⱘᯊҷDŽ˄㾕೒2.1˅DŽR. Cook￾Deegan(1993)೼lj෎಴៬ѝNJЁ䆺㒚ᦣ䗄њ䖭ϔᯊᳳҎ㉏෎಴㒘䅵ߦⱘग़৆DŽℸৢϡЙ಴ϔ 乍NIHϢ⋯ᮃ䰓ᢝ㥿ᮃ೑ᆊᅲ偠ᅸⱘড়ৠ㗠䆲⫳њGenBankDŽϸϾЁᖗ䛑㟈࡯Ѣথሩ䕧ܹᮍ ᓣˈ䖭Џ㽕ᰃᇚᄺᴃߞ⠽Ϟ݀ᓔথ㸼ⱘ䆎᭛䕀ᤶЎ᳈䗖ড়䅵ㅫᴎՓ⫼ⱘ⬉ᄤḐᓣDŽ᮹ᴀⱘDNA ᭄᥂ᑧ˄DDBJ˅ˈ೼޴ᑈৢࡴܹњ᭄᥂ᬊ䲚ⱘড়԰DŽ೼1988ᑈϔ⃵ϝᮍӮ䆂Пৢ˄⦄೼⿄П ЎĀ೑䰙DNAᑣ᭄߫᥂ᑧড়԰䅵ߦā˅䖒៤њϔ乍ण䆂ˈᇍ᭄᥂ᑧⱘ䆄ᔩ䞛⫼݅ৠⱘḐᓣˈᑊ ㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ 义ⷕˈ1/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第二章 Gen Bank序列数据库 页码,2/1 且每个数据库只负责更新提交到这一数据库的那些数据。现在三个中心都收集直接提交的数 据,并在三者之间发布。这样,任何一个中心都拥有并发布所有的序列数据。这种方式下每 条记录只被生成这条记录的数据库所拥有,也就是说只有生成这条记录的数据库可以对记录 进行更新,这就防止了“更新冲突”。否则如果每个数据库都可以修改任一条记录,并覆盖 其他数据库的数据,就必定会发生错误。近年来的安排保证了没有一个数据库可以覆盖其他 数据库更新的记录。所有的序列数据库也都是计算生物学中心,并且越发表明序列数据不能 简单地由自动化方式来生成。每个数据库都成为了一个中心,在那里生成序列数据,并由生 物学家进行验证,同时还开发一些利用这些信息的工具(例如NCBI的 Entrez,见第5章,以及 EB现在正在开发的SRS)。很明显的一点是一些专职的,介入到收集数据、提供发现与检索 工具,并且作为硏究机构来硏究新算法、发掘公共数据库并在最髙水平进行科学活动的机构 将能够最大限度地服务于用户群体。在这一环境下,知识被最高效率地获取与共享,并且新 的研究与理解这样大量数据的方法也不断涌现 这一章的着重介绍 GenBank核苷酸数据库, GenBank是包含了三个重要蛋白质数据库( Swi ss- Prot,PR和PDB)的一系列数据库中的一个。这一系列数据库中的每一个都对数据库现在和 将来的使用方法产生了或产生过重大影响。PDB是关于核酸和蛋白质结构的数据库,将在第三 章中详细介绍。 Swi ss-Prot和PR可以称为二级数据库,它比已经存在于一级数据库中的数据 提供了更多的信息。 Swi ss-Prot和PR中的蛋白质序列主要来源于核苷酸数据库,另外一小部 分是直接向 Swiss-Prot提交的(这些蛋白质是直接测序的)或者是从公开发表的论文中搜索 到的。这里没有详细讨论这些情况,我们建议读者通过其他途径了解更多的详情( Bai roch and Apweiller, 1997: George et al., 1997) 需要注意的是,如同在第六章和第十四章中一样,这里的“ GenBank"指的是 DDBJ/EMBL/ Gen Bank。DDBJ和EMBL核苷酸数据库与 Gen Bank紧密合作,逐日交换数据。他们从 不同的地点,用不同的格式发布同样的信息。他们也都是提供其他数据、工具和服务的研究 机构。这些虽然从理论上是无关的活动,但实际上很难分开。例如, Entrez(见第5章)是 NCB的一个计划,它包含了 Gen Bank数据在其中。但 Entrez和 Gen Bank(都是NCB|的产品)从 本质上是不同的,前者是一个信息检索系统,而后者是一个 Entrez从中进行检索的数据库。 一级和二级数据库 一级和二级数据库之间存在着本质的差别。序列数据库对科学界最重要的贡献就是这些序列 本身。一级数据库记录了实验结果,以及一些初步的解释。而更进一步分析工作的结论只能 从二级数据库中查找到 级数据库中的核苷酸序列记录是从直接实验得到的,这些记录是 对存在于某个实验室的试管中的生物分子测序的结果。它们不代表共有序列(虽然是多次读 取同一克隆,或相同的基因来源),它们也不代表一些计算机生成的字符串。这在序列分析 的解释中很重要,也意味着在大多数情况下一个给定的序列就是硏究者所需要的全部。每一 个这样的DNA或RNA序列都将被注释以描述对实验结果的分析,这一分析阐明了为什么这一序 列会被这样确定。 在DNA序列记录中的一种常见的注释是编码序列(CDS)。大多数蛋白质序列都不是直接由实 验确定的,而是通过DNA序列得到的。这在实验、计算以及相似性比对工作中占有很大的比 重。这并行于赋予一个产物名称,或者功能说明(通过对相似性比对的分析)。这一方法很 有效,但也有误导的可能。DNA,RNA和蛋白质序列都是计算分析工作的对象,它们是一级数 据库中有价值的成分。 那些在DNA序列记录的基础上进行计算、分析或其他工作的研究者通常认为他们所处理的是原 始信息。但是在很多情况下,氨基酸序列从某种程度上说是解释的结果,而并非是直接测序 得到的。这样,在使用和说明由这些序列得到的结果时就需要格外小心。由mRNA序列数据推 导出蛋白质序列通常并不难,但必须选择正确的启始编码子。对于原核生物或低等真核生物 序列的注释通常相对简单,但研究者同样需要注意避免缺少注释或増加不必要的注释。(见 第10章以及 Cannon et al.,1997)。将序列标记为CDS通常需要格外小心,因为这是蛋白质 file://E:wcb\生物信息学(中译本)\第二章 GenBank序列数据库.htm 2005-1-18

Ϩ↣Ͼ᭄᥂ᑧা䋳䋷᳈ᮄᦤѸࠄ䖭ϔ᭄᥂ᑧⱘ䙷ѯ᭄᥂DŽ⦄೼ϝϾЁᖗ䛑ᬊ䲚Ⳉ᥹ᦤѸⱘ᭄ ᥂ˈᑊ೼ϝ㗙П䯈থᏗDŽ䖭ḋˈӏԩϔϾЁᖗ䛑ᢹ᳝ᑊথᏗ᠔᳝ⱘᑣ᭄߫᥂DŽ䖭⾡ᮍᓣϟ↣ ᴵ䆄ᔩা㹿⫳៤䖭ᴵ䆄ᔩⱘ᭄᥂ᑧ᠔ᢹ᳝ˈгህᰃ䇈া᳝⫳៤䖭ᴵ䆄ᔩⱘ᭄᥂ᑧৃҹᇍ䆄ᔩ 䖯㸠᳈ᮄˈ䖭ህ䰆ℶњĀ᳈ᮄކさāDŽ৺߭བᵰ↣Ͼ᭄᥂ᑧ䛑ৃҹׂᬍӏϔᴵ䆄ᔩˈᑊ㽚Ⲫ ݊Ҫ᭄᥂ᑧⱘ᭄᥂ˈህᖙᅮӮথ⫳䫭䇃DŽ䖥ᑈᴹⱘᅝᥦֱ䆕њ≵᳝ϔϾ᭄᥂ᑧৃҹ㽚Ⲫ݊Ҫ ᭄᥂ᑧ᳈ᮄⱘ䆄ᔩDŽ᠔᳝ⱘᑣ᭄߫᥂ᑧг䛑ᰃ䅵ㅫ⫳⠽ᄺЁᖗˈᑊϨ䍞থ㸼ᯢᑣ᭄߫᥂ϡ㛑 ㅔऩഄ⬅㞾࣪ࡼᮍᓣᴹ⫳៤DŽ↣Ͼ᭄᥂ᑧ䛑៤ЎњϔϾЁᖗˈ೼䙷䞠⫳៤ᑣ᭄߫᥂ˈᑊ⬅⫳ ⠽ᄺᆊ䖯㸠偠䆕ˈৠᯊ䖬ᓔথϔѯ߽⫼䖭ѯֵᙃⱘᎹ݋˄՟བNCBIⱘEntrezˈ㾕㄀ゴˈҹঞ EBI⦄೼ℷ೼ᓔথⱘSRS˅DŽᕜᯢᰒⱘϔ⚍ᰃϔѯϧ㘠ⱘˈҟܹࠄᬊ䲚᭄᥂ǃᦤկথ⦄ϢẔ㋶ Ꮉ݋ˈᑊϨ԰Ўⷨおᴎᵘᴹⷨおᮄㅫ⊩ǃথᥬ᭄݀݅᥂ᑧᑊ೼᳔催∈ᑇ䖯㸠⾥ᄺ⌏ࡼⱘᴎᵘ ᇚ㛑໳᳔໻䰤ᑺഄ᳡ࡵѢ⫼᠋㕸ԧDŽ೼䖭ϔ⦃๗ϟˈⶹ䆚㹿᳔催ᬜ⥛ഄ㦋পϢ݅ѿˈᑊϨᮄ ⱘⷨおϢ⧚㾷䖭ḋ໻䞣᭄᥂ⱘᮍ⊩гϡᮁ⍠⦄DŽ 䖭ϔゴⱘⴔ䞡ҟ㒡GenBankḌ㣋䝌᭄᥂ᑧˈGenBankᰃࣙ৿њϝϾ䞡㽕㲟ⱑ䋼᭄᥂ᑧ˄Swiss￾Prot, PIR੠PDB˅ⱘϔ㋏᭄߫᥂ᑧЁⱘϔϾDŽ䖭ϔ㋏᭄߫᥂ᑧЁⱘ↣ϔϾ䛑ᇍ᭄᥂ᑧ⦄೼੠ ᇚᴹⱘՓ⫼ᮍ⊩ѻ⫳њ៪ѻ⫳䖛䞡໻ᕅડDŽPDBᰃ݇ѢḌ䝌੠㲟ⱑ䋼㒧ᵘⱘ᭄᥂ᑧˈᇚ೼㄀ϝ ゴЁ䆺㒚ҟ㒡DŽSwiss-Prot੠PIRৃҹ⿄ЎѠ㑻᭄᥂ᑧˈᅗ↨Ꮖ㒣ᄬ೼Ѣϔ㑻᭄᥂ᑧЁⱘ᭄᥂ ᦤկњ᳈໮ⱘֵᙃDŽSwiss-Prot੠PIRЁⱘ㲟ⱑ䋼ᑣ߫Џ㽕ᴹ⑤ѢḌ㣋䝌᭄᥂ᑧˈ঺໪ϔᇣ䚼 ߚᰃⳈ᥹৥Swiss-ProtᦤѸⱘ˄䖭ѯ㲟ⱑ䋼ᰃⳈ᥹⌟ᑣⱘ˅៪㗙ᰃҢ݀ᓔথ㸼ⱘ䆎᭛Ё᧰㋶ ࠄⱘDŽ䖭䞠≵᳝䆺㒚䅼䆎䖭ѯᚙމˈ៥Ӏᓎ䆂䇏㗙䗮䖛݊Ҫ䗨ᕘњ㾷᳈໮ⱘ䆺ᚙ˄Bairoch and Apweiller, 1997; George et al., 1997˅DŽ 䳔㽕⊼ᛣⱘᰃˈབৠ೼㄀݁ゴ੠㄀कಯゴЁϔḋˈ䖭䞠ⱘ“GenBank”ᣛⱘᰃ DDBJ/EMBL/GenBankDŽDDBJ੠EMBLḌ㣋䝌᭄᥂ᑧϢGenBank㋻ᆚড়԰ˈ䗤᮹Ѹᤶ᭄᥂DŽҪӀҢ ϡৠⱘഄ⚍ˈ⫼ϡৠⱘḐᓣথᏗৠḋⱘֵᙃDŽҪӀг䛑ᰃᦤկ݊Ҫ᭄᥂ǃᎹ݋੠᳡ࡵⱘⷨお ᴎᵘDŽ䖭ѯ㱑✊Ң⧚䆎Ϟᰃ᮴݇ⱘ⌏ࡼˈԚᅲ䰙Ϟᕜ䲒ߚᓔDŽ՟བˈEntrez˄㾕㄀ゴ˅ᰃ NCBIⱘϔϾ䅵ߦˈᅗࣙ৿њGenBank᭄᥂೼݊ЁDŽԚEntrez੠GenBank˄䛑ᰃNCBIⱘѻક˅Ң ᴀ䋼Ϟᰃϡৠⱘˈࠡ㗙ᰃϔϾֵᙃẔ㋶㋏㒳ˈ㗠ৢ㗙ᰃϔϾEntrezҢЁ䖯㸠Ẕ㋶ⱘ᭄᥂ᑧDŽ ϔ㑻੠Ѡ㑻᭄᥂ᑧ ϔ㑻੠Ѡ㑻᭄᥂ᑧП䯈ᄬ೼ⴔᴀ䋼ⱘᏂ߿DŽᑣ᭄߫᥂ᑧᇍ⾥ᄺ⬠᳔䞡㽕ⱘ䋵⤂ህᰃ䖭ѯᑣ߫ ᴀ䑿DŽϔ㑻᭄᥂ᑧ䆄ᔩњᅲ偠㒧ᵰˈҹঞϔѯ߱ℹⱘ㾷䞞DŽ㗠᳈䖯ϔℹߚᵤᎹ԰ⱘ㒧䆎া㛑 ҢѠ㑻᭄᥂ᑧЁᶹᡒࠄDŽϔ㑻᭄᥂ᑧЁⱘḌ㣋䝌ᑣ߫䆄ᔩᰃҢⳈ᥹ᅲ偠ᕫࠄⱘˈ䖭ѯ䆄ᔩᰃ ᇍᄬ೼ѢᶤϾᅲ偠ᅸⱘ䆩ㅵЁⱘ⫳⠽ߚᄤ⌟ᑣⱘ㒧ᵰDŽᅗӀϡҷ㸼᳝݅ᑣ߫˄㱑✊ᰃ໮⃵䇏 পৠϔܟ䱚ˈ៪Ⳍৠⱘ෎಴ᴹ⑤˅ˈᅗӀгϡҷ㸼ϔѯ䅵ㅫᴎ⫳៤ⱘᄫヺІDŽ䖭೼ᑣ߫ߚᵤ ⱘ㾷䞞Ёᕜ䞡㽕ˈгᛣੇⴔ೼໻໮᭄ᚙމϟϔϾ㒭ᅮⱘᑣ߫ህᰃⷨお㗙᠔䳔㽕ⱘܼ䚼DŽ↣ϔ Ͼ䖭ḋⱘDNA៪RNAᑣ߫䛑ᇚ㹿⊼䞞ҹᦣ䗄ᇍᅲ偠㒧ᵰⱘߚᵤˈ䖭ϔߚᵤ䯤ᯢњЎҔМ䖭ϔᑣ ߫Ӯ㹿䖭ḋ⹂ᅮDŽ ೼DNAᑣ߫䆄ᔩЁⱘϔ⾡ᐌ㾕ⱘ⊼䞞ᰃ㓪ⷕᑣ߫˄CDS˅DŽ໻໮᭄㲟ⱑ䋼ᑣ߫䛑ϡᰃⳈ᥹⬅ᅲ 偠⹂ᅮⱘˈ㗠ᰃ䗮䖛DNAᑣ߫ᕫࠄⱘDŽ䖭೼ᅲ偠ǃ䅵ㅫҹঞⳌԐᗻ↨ᇍᎹ԰Ёऴ᳝ᕜ໻ⱘ↨ 䞡DŽ䖭ᑊ㸠Ѣ䌟ќϔϾѻ⠽ৡ⿄ˈ៪㗙ࡳ㛑䇈ᯢ˄䗮䖛ᇍⳌԐᗻ↨ᇍⱘߚᵤ˅DŽ䖭ϔᮍ⊩ᕜ ᳝ᬜˈԚг᳝䇃ᇐⱘৃ㛑DŽDNAˈRNA੠㲟ⱑ䋼ᑣ߫䛑ᰃ䅵ㅫߚᵤᎹ԰ⱘᇍ䈵ˈᅗӀᰃϔ㑻᭄ ᥂ᑧЁ᳝Ӌؐⱘ៤ߚDŽ 䙷ѯ೼DNAᑣ߫䆄ᔩⱘ෎⸔Ϟ䖯㸠䅵ㅫǃߚᵤ៪݊ҪᎹ԰ⱘⷨお㗙䗮ᐌ䅸ЎҪӀ᠔໘⧚ⱘᰃॳ ྟֵᙃDŽԚᰃ೼ᕜ໮ᚙމϟˈ⇼෎䝌ᑣ߫Ңᶤ⾡⿟ᑺϞ䇈ᰃ㾷䞞ⱘ㒧ᵰˈ㗠ᑊ䴲ᰃⳈ᥹⌟ᑣ ᕫࠄⱘDŽ䖭ḋˈ೼Փ⫼੠䇈ᯢ⬅䖭ѯᑣ߫ᕫࠄⱘ㒧ᵰᯊህ䳔㽕Ḑ໪ᇣᖗDŽ⬅mRNAᑣ᭄߫᥂᥼ ᇐߎ㲟ⱑ䋼ᑣ߫䗮ᐌᑊϡ䲒ˈԚᖙ乏䗝ᢽℷ⹂ⱘਃྟ㓪ⷕᄤDŽᇍѢॳḌ⫳⠽៪ԢㄝⳳḌ⫳⠽ ᑣ߫ⱘ⊼䞞䗮ᐌⳌᇍㅔऩˈԚⷨお㗙ৠḋ䳔㽕⊼ᛣ䙓ܡ㔎ᇥ⊼䞞៪๲ࡴϡᖙ㽕ⱘ⊼䞞DŽ˄㾕 ㄀10ゴҹঞCannon et al., 1997˅DŽᇚᑣ߫ᷛ䆄ЎCDS䗮ᐌ䳔㽕Ḑ໪ᇣᖗˈ಴Ў䖭ᰃ㲟ⱑ䋼 ㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ 义ⷕˈ2/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第二章 Gen Bank序列数据库 页码,3/11 据库全自动或半自动生成的开始步骤 格式与内容:计算机与人 数据库被用来存放原始数据,以及一系列附加的注释。不同的检索工具和程序利用了这些信 息中的不同部分。纵观各种格式,我们可以发现其中应用了一些共同的规则,以使得多种情 况下在不同格式之间生成和交换数据成为可能。最便于人阅读的格式对计算机程序来讲很可 能并非是最有效率的(例如 Gen Bank fl atfile,见附录2.1和2.2,这是一种人可以阅读的 ASN.1版本)。这些记录还有二进代码版,更加紧凑,计算机处理也更快。但不幸的是,由于 历史的原因,对一种固定格式的频繁使用使得引入另一种格式极为困难,尽管新的格式可能 更加富含信息,更加准确,易于复制和计算,易于抽取信息,易于使用。(但我们并未放弃 尝试,见第3、6、14章)。GBFF的简单性,使我们都可以获得易用的工具,这也是EMBL和 GBFF极大通用性的重要原因。 作为最简单的格式,一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个 以 FASTA(或 Pearson格式)文件表示的核苷酸序列数据 >L04459 大大大大大大大大大大大大大大大大大大 或同样的,一个蛋白质记录: >P31373 ★大大大大★大大大大大大大大大大大大大 FASTA格式广泛应用于许多分子生物学软件包之中。作为最简单的情况(正如上面所显示 的),大于号(>)表示一个新文件的开始。标记符&#0:�上面第一个例子开始部分的 L04459��后面是大写或小写字母的DNA序列,通常60个字符一行(但这并非是标准规 定)。如果需要的话,用户或数据库可以在这个简单格式的基础上增加复杂的结构化信息。 例如,在不违反上面规定的前提下,可以在 FASTA的说明行中加入更多的内容,使这个简单的 格式包含更多的信息,就象下面这样 大大大大大大大大大大大大大大大大大大大 现在这个 FASTA文件中包含了qi号码(见下面,以及第6章)、 Gen Bank检索号码、L0CUS名 称、以及 Gen Bank记录中的 DEFINAT0N字段。这个记录是从ASN.1记录生成的,(见附录 2.2),而ASN.1是NCB|用来存储和维护所有数据的格式。(在计算机中这些数据保存为 行,如果打印出来,将比本书的页面宽出许多。所以,这里做了折行处理) 在分子生物学的历史上曾经使用过许多格式,其中有些格式现在还在使用,同时也有许多工 具用来在这些格式之间转换数据。NCB|的asn2ff程序可以将ASN.1文件转换为多种 fl atfi|e文 件格式,它可以生成 Gen Bank、EMBL、 GenPept、 Swi ss-Prot以及 FASTA格式的文件。这一程序 包含在NCB工具软件包之中(见第6章)。 Don gi l bert的 READSEO(见本章末的互联网资源列 表)是另一个广泛使用的工具,已包含在许多软件包中。在使用这些工具进行格式转换时, 用户应当注意,有些 GenBank或EMBL格式下的特性将被丢失。 READSEO只工作于序列自身,并 不处理注释部分。那些只需要序列数据的程序(例如 BLAST,见第7章)最好使用 FASTA格式的 序列来进行査询。尽管 FASTA格式的信息含量比其他格式少,但它提供了人和计算机都可理解 的处理原始数据的简单方 file://E:wcb\生物信息学(中译本)\第二章 GenBank序列数据库.htm 2005-1-18

᭄᥂ᑧܼ㞾ࡼ៪ञ㞾ࡼ⫳៤ⱘᓔྟℹ偸DŽ ḐᓣϢݙᆍ˖䅵ㅫᴎϢҎ ᭄᥂ᑧ㹿⫼ᴹᄬᬒॳྟ᭄᥂ˈҹঞϔ㋏߫䰘ࡴⱘ⊼䞞DŽϡৠⱘẔ㋶Ꮉ݋⿟੠ᑣ߽⫼њ䖭ѯֵ ᙃЁⱘϡৠ䚼ߚDŽ㒉㾖৘⾡Ḑᓣˈ៥Ӏৃҹথ⦄݊Ёᑨ⫼њϔѯ݅ৠⱘ㾘߭ˈҹՓᕫ໮⾡ᚙ މϟ೼ϡৠḐᓣП䯈⫳៤੠Ѹᤶ᭄᥂៤Ўৃ㛑DŽ᳔֓ѢҎ䯙䇏ⱘḐᓣᇍ䅵ㅫᴎ⿟ᑣᴹ䆆ᕜৃ 㛑ᑊ䴲ᰃ᳔᳝ᬜ⥛ⱘ˄՟བGenBank flatfileˈ㾕䰘ᔩ2.1੠2.2ˈ䖭ᰃϔ⾡Ҏৃҹ䯙䇏ⱘ ASN.1⠜ᴀ˅DŽ䖭ѯ䆄ᔩ䖬᳝Ѡ䖯ҷⷕ⠜ˈ᳈ࡴ㋻ޥˈ䅵ㅫᴎ໘⧚г᳈ᖿDŽԚϡᑌⱘᰃˈ⬅Ѣ ग़৆ⱘॳ಴ˈᇍϔ⾡೎ᅮḐᓣⱘ乥㐕Փ⫼Փᕫᓩܹ঺ϔ⾡ḐᓣᵕЎೄ䲒ˈሑㅵᮄⱘḐᓣৃ㛑 ᳈ࡴᆠ৿ֵᙃˈ᳈ޚࡴᯧˈ⹂Ѣ໡ࠊ੠䅵ㅫˈᯧѢᢑপֵᙃˈᯧѢՓ⫼DŽ˄Ԛ៥Ӏᑊ᳾ᬒᓗ ᇱ䆩ˈ㾕㄀ǃǃ14ゴ˅DŽGBFFⱘㅔऩᗻˈՓ៥Ӏ䛑ৃҹ㦋ᕫᯧ⫼ⱘᎹ݋ˈ䖭гᰃEMBL੠ GBFFᵕ໻䗮⫼ᗻⱘ䞡㽕ॳ಴DŽ ԰Ў᳔ㅔऩⱘḐᓣˈϔϾDNAᑣ߫ৃҹ㸼⼎ЎϔϾᏺ᳝ϔѯᷛ䆄ⱘḌ㣋䝌ᄫヺІDŽ䖭䞠ᰃϔϾ ҹFASTA˄៪PearsonḐᓣ˅᭛ӊ㸼⼎ⱘḌ㣋䝌ᑣ᭄߫᥂˖ >L04459 ******************* ៪ৠḋⱘˈϔϾ㲟ⱑ䋼䆄ᔩ˖ >P31373 ******************* FASTAḐᓣᑓ⊯ᑨ⫼Ѣ䆌໮ߚᄤ⫳⠽ᄺ䕃ӊࣙПЁDŽ԰Ў᳔ㅔऩⱘᚙމ˄ℷབϞ䴶᠔ᰒ⼎ ⱘ˅ˈ໻Ѣো˄!˅㸼⼎ϔϾᮄ᭛ӊⱘᓔྟDŽᷛ䆄ヺ��Ϟ䴶㄀ϔϾ՟ᄤᓔྟ䚼ߚⱘ L04459��ৢ䴶ᰃ໻ݭ៪ᇣݭᄫ↡ⱘDNAᑣ߫ˈ䗮ᐌ60Ͼᄫヺϔ㸠˄Ԛ䖭ᑊ䴲ᰃᷛޚ㾘 ᅮ˅DŽབᵰ䳔㽕ⱘ䆱ˈ⫼᠋៪᭄᥂ᑧৃҹ೼䖭ϾㅔऩḐᓣⱘ෎⸔Ϟ๲ࡴ໡ᴖⱘ㒧ᵘֵ࣪ᙃDŽ ՟བˈ೼ϡ䖱ডϞ䴶㾘ᅮⱘࠡᦤϟˈৃҹ೼FASTAⱘ䇈ᯢ㸠Ёࡴ໮᳈ܹⱘݙᆍˈՓ䖭Ͼㅔऩⱘ Ḑᓣࣙ໮᳈৿ⱘֵᙃˈህ䈵ϟ䴶䖭ḋ˖ >| ******************* ⦄೼䖭ϾFASTA᭛ӊЁࣙ৿њgiোⷕ˄㾕ϟ䴶ˈҹঞ㄀ゴ˅ǃGenBankẔ㋶োⷕǃLOCUSৡ ⿄ǃҹঞGenBank䆄ᔩЁⱘDEFINATIONᄫ↉DŽ䖭Ͼ䆄ᔩᰃҢASN.1䆄ᔩ⫳៤ⱘˈ˄㾕䰘ᔩ 2.2˅ˈ㗠ASN.1ᰃNCBI⫼ᴹᄬټ੠㓈ᡸ᠔᭄᳝᥂ⱘḐᓣDŽ˄೼䅵ㅫᴎЁ䖭ѯ᭄᥂ֱᄬЎϔ 㸠ˈབᵰᠧॄߎᴹˈᇚ↨ᴀкⱘ义䴶ᆑߎ䆌໮DŽ᠔ҹˈ䖭䞠خњᡬ㸠໘⧚˅DŽ ೼ߚᄤ⫳⠽ᄺⱘग़৆Ϟ᳒㒣Փ⫼䖛䆌໮Ḑᓣˈ݊Ё᳝ѯḐᓣ⦄೼䖬೼Փ⫼ˈৠᯊг᳝䆌໮Ꮉ ݋⫼ᴹ೼䖭ѯḐᓣП䯈䕀ᤶ᭄᥂DŽNCBIⱘasn2ff⿟ᑣৃҹᇚASN.1᭛ӊ䕀ᤶЎ໮⾡flatfile᭛ ӊḐᓣˈᅗৃҹ⫳៤GenBankǃEMBLǃGenPeptǃSwiss-ProtҹঞFASTAḐᓣⱘ᭛ӊDŽ䖭ϔ⿟ᑣ ࣙ೼৿NCBIᎹ݋䕃ӊࣙПЁ˄㾕㄀ゴ˅DŽDon GilbertⱘREADSEQ˄㾕ᴀゴ᳿ⱘѦ㘨㔥䌘⑤߫ 㸼˅ᰃ঺ϔϾᑓ⊯Փ⫼ⱘᎹ݋ˈᏆࣙ೼৿䆌໮䕃ӊࣙЁDŽ೼Փ⫼䖭ѯᎹ݋䖯㸠Ḑᓣ䕀ᤶᯊˈ ⫼᠋ᑨᔧ⊼ᛣˈ᳝ѯGenBank៪EMBLḐᓣϟⱘ⡍ᗻᇚ㹿϶༅DŽREADSEQাᎹ԰Ѣᑣ߫㞾䑿ˈᑊ ϡ໘⧚⊼䞞䚼ߚDŽ䙷ѯা䳔㽕ᑣ᭄߫᥂ⱘ⿟ᑣ˄՟བBLASTˈ㾕㄀ゴ˅᳔དՓ⫼FASTAḐᓣⱘ ᑣ߫ᴹ䖯㸠ᶹ䆶DŽሑㅵFASTAḐᓣⱘֵᙃ৿䞣↨݊ҪḐᓣᇥˈԚᅗᦤկњҎ੠䅵ㅫᴎ䛑ৃ⧚㾷 ⱘ໘⧚ॳྟ᭄᥂ⱘㅔऩᮍ⊩DŽ ㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ 义ⷕˈ3/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第二章 Gen Bank序列数据库 页码,4/ 数据库 正如上面提到的,所有在EMBL中出现的序列也都包含在DDBJ和 Gen Bank中,反之也如此。 Gen Bank每两个月发布一次新版本,并且每天都通过匿名FTP提供递增式(以及非递增式)的 更新。几个核苷酸数据库之间也每天以如同特性表文档(见下面)所描述的公共数据格式交 换新生成的以及更新过的数据记录。这一特性表是了几个核苷酸数据库进行注释的共同语 言。同时,核苷酸序列数据库还发展了一套数据提交流程(见第14章),这是一系列关于数 据记录内容和格式的指示。(见本章末的互联网资源列表)。 核苷酸记录是主要的序列数据和生物信息来源。大多数蛋白质序列数据库中的序列是从核酸 数据库的记录中推导出来的,这导致了两个重要的结果 1.如果一个编码序列没有能在核酸记录中正确地标识出来,它就不会出现在蛋白质数据库 中。査询蛋白质数据库是最有效的相似性检索方法(见第7章),这样,应当但却没有 在被研究的mRNA或基因序列中标识的CDS就有可能导致丢失重要蛋白质序列 2.不幸的是,在核酸数据库特性表文档中特别应用于蛋白质序列的特性是十分有限的,正 如本章末的列表所显示的那样。 剖析 Gen Bank Flatfil|e Gen Bank fl atfile(GBFF)是 Gen Bank数据库的基本信息单位,也是最广泛地用以表示生物序 列的格式之一。在本书写作的时候,它也是从 Gen Bank到DDBJ和EMBL数据库,以及EMBL、DDB 之间或向其他数据库交换数据时所采用的格式。 DDB flatfile格式与GBF格式是相同的(见 附录2.1)。EMBL格式则每行都带有前缀,以表明本行的信息类型(见附录2.3)。注释部分 (见下面)前缀为“FT”,在内容上与其他数据库相同。所有这些格式实际上都是由更结构 化的ASN.1(见附录2.2)生成的。但是主要由于历史的原因,许多用户(专家或非专家)在 工作中使用GBFF(或 EMBL flatfile格式) GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符)。第二部分包含了注释这 一记录的特性,第三部分是核苷酸序列自身。所有的核苷酸数据库记录(DDBJ/ EMBL/ Gen Bank)都在最后一行以//结尾。 头部 头部是记录中与数据库关联最大的部分。各个的数据库并不一定在这一部分包含相同的信 息,而可能存在着微小的差别。但各数据库已作出努力以在彼此之间保证信息兼容 所有的 Gen Bank fl atfile开始于L0CUS行: 大大大大大大大大大大大大大大大大大大大大大 这一行中的第一项是L0CUS名称。历史上曾用这个名称来表示本记录描述的基因座,提交者和 数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度 不能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。L0CUS名称在以 前是最为有用的,那时大多数DNA序列记录只表示一个基因座,这样在 Gen Bank中寻找一个可 以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。经典的例子包括 HUMHBB:人β-珠蛋白基因座,或SV40:猿猴病毒(拷贝之一,因为存在许多拷贝)。为了可 用起见,L0CUS名称在数据库中必须是独一的。因为几乎所有有意义的命名符都被使用过了, 所以今天 LOCUS名称已不再是一个有用的成分。但仍有许多软件包依赖于一个独一无二的 LOCUS名称,所以数据库还不能将其彻底去掉。可行的办法是代之以一个独一无二的词,最简 file://E:wcb\生物信息学(中译本)\第二章 GenBank序列数据库.htm 2005-1-18

᭄᥂ᑧ ℷབϞ䴶ᦤࠄⱘˈ᠔᳝೼EMBLЁߎ⦃ⱘᑣ߫г䛑ࣙ೼৿DDBJ੠GenBankЁˈডПгབℸDŽ GenBank↣ϸϾ᳜থᏗϔ⃵ᮄ⠜ᴀˈᑊϨ↣໽䛑䗮䖛ओৡFTPᦤկ䗦๲ᓣ˄ҹঞ䴲䗦๲ᓣ˅ⱘ ᳈ᮄDŽ޴ϾḌ㣋䝌᭄᥂ᑧП䯈г↣໽ҹབৠ⡍ᗻ㸼᭛ḷ˄㾕ϟ䴶˅᠔ᦣ䗄ⱘ᭄݀݅᥂ḐᓣѸ ᤶᮄ⫳៤ⱘҹঞ᳈ᮄ䖛ⱘ᭄᥂䆄ᔩDŽ䖭ϔ⡍ᗻ㸼ᰃњ޴ϾḌ㣋䝌᭄᥂ᑧ䖯㸠⊼䞞ⱘ݅ৠ䇁 㿔DŽৠᯊˈḌ㣋䝌ᑣ᭄߫᥂ᑧ䖬থሩњϔ༫᭄᥂ᦤѸ⌕⿟˄㾕㄀14ゴ˅ˈ䖭ᰃϔ㋏߫݇Ѣ᭄ ᥂䆄ᔩݙᆍ੠Ḑᓣⱘᣛ⼎DŽ˄㾕ᴀゴ᳿ⱘѦ㘨㔥䌘⑤߫㸼˅DŽ Ḍ㣋䝌䆄ᔩᰃЏ㽕ⱘᑣ᭄߫᥂੠⫳⠽ֵᙃᴹ⑤DŽ໻໮᭄㲟ⱑ䋼ᑣ᭄߫᥂ᑧЁⱘᑣ߫ᰃҢḌ䝌 ᭄᥂ᑧⱘ䆄ᔩЁ᥼ᇐߎᴹⱘˈ䖭ᇐ㟈њϸϾ䞡㽕ⱘ㒧ᵰ˖ 1. བᵰϔϾ㓪ⷕᑣ߫≵᳝㛑೼Ḍ䝌䆄ᔩЁℷ⹂ഄᷛ䆚ߎᴹˈᅗህϡӮߎ೼⦃㲟ⱑ䋼᭄᥂ᑧ ЁDŽᶹ䆶㲟ⱑ䋼᭄᥂ᑧᰃ᳔᳝ᬜⱘⳌԐᗻẔ㋶ᮍ⊩˄㾕㄀ゴ˅ˈ䖭ḋˈᑨᔧԚै≵᳝ ೼㹿ⷨおⱘmRNA៪෎಴ᑣ߫Ёᷛ䆚ⱘCDSህ᳝ৃ㛑ᇐ㟈϶༅䞡㽕㲟ⱑ䋼ᑣ߫DŽ 2. ϡᑌⱘᰃˈ೼Ḍ䝌᭄᥂ᑧ⡍ᗻ㸼᭛ḷЁ⡍߿ᑨ⫼Ѣ㲟ⱑ䋼ᑣ߫ⱘ⡍ᗻᰃकߚ᳝䰤ⱘˈℷ བᴀゴ᳿ⱘ߫㸼᠔ᰒ⼎ⱘ䙷ḋDŽ ࠪᵤGenBank Flatfile GenBank flatfile˄GBFF˅ᰃGenBank᭄᥂ᑧⱘ෎ᴀֵᙃऩԡˈгᰃ᳔ᑓ⊯ഄ⫼ҹ㸼⼎⫳⠽ᑣ ߫ⱘḐᓣПϔDŽ೼ᴀкݭ԰ⱘᯊ׭ˈᅗгᰃҢGenBankࠄDDBJ੠EMBL᭄᥂ᑧˈҹঞEMBLǃDDBJ П䯈៪৥݊Ҫ᭄᥂ᑧѸᤶ᭄᥂ᯊ᠔䞛⫼ⱘḐᓣDŽDDBJ flatfileḐᓣϢGBFFḐᓣᰃⳌৠⱘ˄㾕 䰘ᔩ2.1˅DŽEMBLḐᓣ߭↣㸠䛑ᏺ᳝ࠡ㓔ˈҹ㸼ᯢᴀ㸠ⱘֵᙃ㉏ൟ˄㾕䰘ᔩ2.3˅DŽ⊼䞞䚼ߚ ˄㾕ϟ䴶˅ࠡ㓔Ў“FT”ˈ೼ݙᆍϞϢ݊Ҫ᭄᥂ᑧⳌৠDŽ᠔᳝䖭ѯḐᓣᅲ䰙Ϟ䛑ᰃ⬅᳈㒧ᵘ ࣪ⱘASN.1˄㾕䰘ᔩ2.2˅⫳៤ⱘDŽԚᰃЏ㽕⬅Ѣग़৆ⱘॳ಴ˈ䆌໮⫼᠋˄ϧᆊ៪䴲ϧᆊ˅೼ Ꮉ԰ЁՓ⫼GBFF˄៪EMBL flatfileḐᓣ˅ GBFFৃҹߚ៤ϝϾ䚼ߚˈ༈䚼ࣙ݇৿ѢᭈϾ䆄ᔩⱘֵᙃ˄ᦣ䗄ヺ˅DŽ㄀Ѡ䚼ࣙߚ৿њ⊼䞞䖭 ϔ䆄ᔩⱘ⡍ᗻˈ㄀ϝ䚼ߚᰃḌ㣋䝌ᑣ߫㞾䑿DŽ᠔᳝ⱘḌ㣋䝌᭄᥂ᑧ䆄ᔩ˄DDBJ/ EMBL/ GenBank˅䛑೼᳔ৢϔ㸠ҹ // 㒧ሒDŽ ༈䚼 ༈䚼ᰃ䆄ᔩЁϢ᭄᥂ᑧ݇㘨᳔໻ⱘ䚼ߚDŽ৘Ͼⱘ᭄᥂ᑧᑊϡϔᅮ೼䖭ϔ䚼ࣙߚ৿Ⳍৠⱘֵ ᙃˈ㗠ৃ㛑ᄬ೼ⴔᖂᇣⱘᏂ߿DŽԚ৘᭄᥂ᑧᏆ԰࡯ࡾߎҹ೼ᕐℸП䯈ֱ䆕ֵᙃݐᆍDŽ ᠔᳝ⱘGenBank flatfileᓔྟѢLOCUS㸠˖ ********************* 䖭ϔ㸠Ёⱘ㄀ϔ乍ᰃLOCUSৡ⿄DŽग़৆Ϟ᳒⫼䖭Ͼৡ⿄ᴹ㸼⼎ᴀ䆄ᔩᦣ䗄ⱘ෎಴ᑻˈᦤѸ㗙੠ ᭄᥂ᑧᎹ԰Ҏਬ㢅䌍њ᮴᭄ⱘᯊ䯈ᴹ䆒䅵䖭ϔৡ⿄DŽ䖭ϔ៤ߚᓔྟѢϔϾ㣅᭛ᄫ↡ˈᘏ䭓ᑺ ϡ㛑䍙䖛10ϾᄫヺDŽ㄀ѠϾᄫヺҹৢৃҹᰃ᭄ᄫ៪ᄫ↡ˈ᠔᳝ᄫヺഛ㽕໻ݭDŽLOCUSৡ⿄೼ҹ ࠡᰃ᳔Ў᳝⫼ⱘˈ䙷ᯊ໻໮᭄DNAᑣ߫䆄ᔩা㸼⼎ϔϾ෎಴ᑻˈ䖭ḋ೼GenBankЁᇏᡒϔϾৃ ҹ⫼ᇥ᭄޴Ͼᄫ↡੠᭄ᄫᴹҷ㸼⫳⠽ԧⱘ⣀⡍ⱘৡᄫᰃᕜᆍᯧⱘџDŽ㒣݌ⱘ՟ᄤࣙᣀ HUMHBB˖Ҏȕ⦴㲟ⱑ෎಴ᑻˈ៪SV40˖⤓⤈⮙↦˄ᣋ䋱Пϔˈ಴Ўᄬ೼䆌໮ᣋ䋱˅DŽЎњৃ ⫼䍋㾕ˈLOCUSৡ⿄೼᭄᥂ᑧЁᖙ乏ᰃ⣀ϔⱘDŽ಴Ў޴Т᠔᳝᳝ᛣНⱘੑৡヺ䛑㹿Փ⫼䖛њˈ ᠔ҹҞ໽LOCUSৡ⿄ᏆϡݡᰃϔϾ᳝⫼ⱘ៤ߚDŽԚҡ᳝䆌໮䕃ӊࣙձ䌪ѢϔϾ⣀ϔ᮴Ѡⱘ LOCUSৡ⿄ˈ᠔ҹ᭄᥂ᑧ䖬ϡ㛑ᇚ݊ᕏᑩএᥝDŽৃ㸠ⱘࡲ⫣ᰃҷПҹϔϾ⣀ϔ᮴Ѡⱘ䆡ˈ᳔ㅔ ㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ 义ⷕˈ4/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第二章 Gen Bank序列数据库 页码,5/11 单的是用一个保证不会重复的检索号码,象例子中的AF010325那样,以满足对L0CUS名称的要 求 下一项是序列长度,从1到350,000bp。在实践中 Gen Bank和其他数据库很少接受50bp以下的记 录。所以一般不鼓励将PCR引物(24bp)作为序列提交给数据库。350kb限制是一个经验值, 各个数据库用不同的方法提供更长的重叠群(见第6、12章以及附录2.4)。 L0CUS行中的下一项表明生物分子的类型。“分子类型”通常是DNA或RMA,但也有少量其他类 型出现,它们也都表明单链或双链(Ss或ds)。这些属性现在已经很少使用了,这也是另 个历史遗留物。这些包括类型:DNA、RNA、tRNA、TRNA、mRMA和uRNA,以表明生物分子的最 初来源。例如,CDNA测序实际上代表了一个mRNA,而mRNA才是这个序列真正的分子类型。如 果tRNA或rRNA是直接或以cDNA为中介测序的,那么tRNA或rR№A就是分子类型。如果序列是通 过聚合酶链反应(PCR)从基因组数据中得到的,那么DNA是分子类型,尽管这一序列实际上 编码结构RNA ★大大大大★大大大大大大大大大大大大大大大大 下一项是 Gen Bank分类码,由三个字母组成,这或者具有物种分类意义,或者出于其他分类目 的。这一代码的存在也是由于历史的原因,可以追溯到 Gen Bank为了保持可管理的文件大小而 将整个数据库按物种分类分割为几个文件的时候。 Gen Bank的分类与EMBL以及DDBJ略有不同, 这在其他文献中有介绍( Quel lette and Boguski,1997)。在历史上这种分类是非常随意 的,现在已不再象历史上那样起到重要的作用,因为物种分类信息已经表现在了“生物体” 行以及“来源”特性中。这比仅用三个字母作为分类码要清晰明确得多。NCBI近几年来没有 代表了功能方面可定义的差别( Quel lette and Boguski,1997)。已表达序列标记(EST) 分类在1993年被采用,其后很快又增加了序列标记位点(STS)类。还有基因组综述序列 (GSS)和未完成的高通量基因组序列(HTG)都代表了按功能划分的一类数据,这些都要求 用户以及数据库工作人员用不同的方法来处理。例如,用户可以在这些数据集中检索(例如 通过 FLASTN在EST或HTG分类中査找),并对命中的记录做进一步分析解释。这时,所有数据 库均以相同的方式来说明功能性分类,并且在任一数据库中所有的数据集都会出现在同一分 类中。CON类是一个正在计划被使用的新的实验性分类,将用来表征通过重叠群构造的片段或 大的整合序列。这样就很有可能超出现在对单一记录的350kb限制。这样的记录可能以如同附 录24的形式出现,这个C0N类记录给出了大肠杆菌的全基因组序列,长度在4.6mb以上。这个 记录没有包含序列或注释,但包含了如何将存在于其他分类中的片段拼接成完整序列的指 示。这一实验性分类中的记录将带有检索号和版本号,并且同其他记录一样,在几个合作者 之间交换。所有被切分的数据也将出现在这一分类中。 大大大大大大大大大大大大大大大大大大大大大 LOCUS行中的日期是数据最后被公开的日期。在许多情况下,也是第一次被公开的日期。记录 中包含的另一个日期是序列提交给数据库的日期(见下面)。必须注意的是,这两个日期并 没有法律保证,数据库并未声明这两个日期是正确的。所以它们只供用户参考,并不能作为 仲裁的判据。就作者的经验,它们也从未被用以作为优先权声明或专利权请求的依据。 DEFINIT0N行(也称为“DEF"行)在 Gen Bank记录中用以总结记录的生物意义。这一行将出 现在NCBI的 FASTA文件中,这样任何人进行 BLAST相似性搜索时都会看到这些信息。生成这 file://E:wcb\生物信息学(中译本)\第二章 GenBank序列数据库.htm 2005-1-18

ऩⱘᰃ⫼ϔϾֱ䆕ϡӮ䞡໡ⱘẔ㋶োⷕˈ䈵՟ᄤЁⱘAF010325䙷ḋˈҹ⒵䎇ᇍLOCUSৡ⿄ⱘ㽕 ∖DŽ ********************** ϟϔ乍ᰃᑣ߫䭓ᑺˈҢࠄ350,000bpDŽ೼ᅲ䏉ЁGenBank੠݊Ҫ᭄᥂ᑧᕜᇥ᥹ফ50bpҹϟⱘ䆄 ᔩDŽ᠔ҹϔ㠀ϡ哧ࢅᇚPCRᓩ⠽˄24bp˅԰Ўᑣ߫ᦤѸ㒭᭄᥂ᑧDŽ350kb䰤ࠊᰃϔϾ㒣偠ؐˈ ৘Ͼ᭄᥂ᑧ⫼ϡৠⱘᮍ⊩ᦤկ᳈䭓ⱘ䞡঴㕸˄㾕㄀ǃ12ゴҹঞ䰘ᔩ2.4˅DŽ ********************** LOCUS㸠Ёⱘϟϔ乍㸼ᯢ⫳⠽ߚᄤⱘ㉏ൟDŽĀߚᄤ㉏ൟā䗮ᐌᰃDNA៪RNAˈԚг᳝ᇥ䞣݊Ҫ㉏ ൟߎˈ⦃ᅗӀг䛑㸼ᯢऩ䫒៪ঠ䫒˄ss៪ds˅DŽ䖭ѯሲᗻ⦄೼Ꮖ㒣ᕜᇥՓ⫼њˈ䖭гᰃ঺ϔ Ͼग़৆䘫⬭⠽DŽ䖭ѯࣙᣀ㉏ൟ˖DNAǃRNAǃtRNAǃrRNAǃmRNA੠uRNAˈҹ㸼ᯢ⫳⠽ߚᄤⱘ᳔ ߱ᴹ⑤DŽ՟བˈcDNA⌟ᑣᅲ䰙Ϟҷ㸼њϔϾmRNAˈ㗠mRNAᠡᰃ䖭Ͼᑣ߫ⳳℷⱘߚᄤ㉏ൟDŽབ ᵰtRNA៪rRNAᰃⳈ᥹៪ҹcDNAЎЁҟ⌟ᑣⱘˈ䙷МtRNA៪rRNAህᰃߚᄤ㉏ൟDŽབᵰᑣ߫ᰃ䗮 䖛㘮ড়䝊䫒ডᑨ˄PCR˅Ң෎಴㒘᭄᥂Ёᕫࠄⱘˈ䙷МDNAᰃߚᄤ㉏ൟˈሑㅵ䖭ϔᑣ߫ᅲ䰙Ϟ 㓪ⷕ㒧ᵘRNADŽ ********************** ϟϔ乍ᰃGenBankߚ㉏ⷕˈ⬅ϝϾᄫ↡㒘៤ˈ䖭៪㗙݋᳝⠽⾡ߚ㉏ᛣНˈ៪㗙ߎѢ݊Ҫߚ㉏Ⳃ ⱘDŽ䖭ϔҷⷕⱘᄬ೼гᰃ⬅Ѣग़৆ⱘॳ಴ˈৃҹ䗑⒃ࠄGenBankЎњֱᣕৃㅵ⧚ⱘ᭛ӊ໻ᇣ㗠 ᇚᭈϾ᭄᥂ᑧᣝ⠽⾡ߚ㉏ࡆߚЎ޴Ͼ᭛ӊⱘᯊ׭DŽGenBankⱘߚ㉏ϢEMBLҹঞDDBJ⬹᳝ϡৠˈ 䖭೼݊Ҫ᭛⤂Ё᳝ҟ㒡˄Ouellette and Boguski, 1997˅DŽ೼ग़৆Ϟ䖭⾡ߚ㉏ᰃ䴲ᐌ䱣ᛣ ⱘˈ⦄೼Ꮖϡݡ䈵ग़৆Ϟ䙷ḋ䍋ࠄ䞡㽕ⱘ԰⫼ˈ಴Ў⠽⾡ߚ㉏ֵᙃᏆ㒣㸼⦄೼њĀ⫳⠽ԧ” 㸠ҹঞĀᴹ⑤ā⡍ᗻЁDŽ䖭↨ҙ⫼ϝϾᄫ↡԰Ўߚ㉏ⷕ㽕⏙᱄ᯢ⹂ᕫ໮DŽNCBI䖥޴ᑈᴹ≵᳝ ݡ䞛⫼᳈໮ⱘ෎Ѣ⫳⠽ԧⱘߚ㉏ˈԚ᳝ѯᮄⱘ෎Ѣࡳ㛑ⱘߚ㉏ैᰒᕫ䍞ᴹ䍞䞡㽕ˈ಴ЎᅗӀ ҷ㸼њࡳ㛑ᮍ䴶ৃᅮНⱘᏂ߿˄Ouellette and Boguski, 1997˅DŽᏆ㸼䖒ᑣ߫ᷛ䆄˄EST˅ ߚ㉏೼1993ᑈ㹿䞛⫼ˈ݊ৢᕜᖿজ๲ࡴњᑣ߫ᷛ䆄ԡ⚍˄STS˅㉏DŽ䖬᳝෎಴㒘㓐䗄ᑣ߫ ˄GSS˅੠᳾ᅠ៤ⱘ催䗮䞣෎಴㒘ᑣ߫˄HTG˅䛑ҷ㸼њᣝࡳ㛑ߚߦⱘϔ㉏᭄᥂ˈ䖭ѯ䛑㽕∖ ⫼᠋ҹঞ᭄᥂ᑧᎹ԰Ҏਬ⫼ϡৠⱘᮍ⊩ᴹ໘⧚DŽ՟བˈ⫼᠋ৃҹ೼䖭ѯ᭄᥂䲚ЁẔ㋶˄՟བ 䗮䖛FLASTN೼EST៪HTGߚ㉏Ёᶹᡒ˅ˈᑊᇍੑЁⱘ䆄ᔩخ䖯ϔℹߚᵤ㾷䞞DŽ䖭ᯊˈ᠔᭄᳝᥂ ᑧഛҹⳌৠⱘᮍᓣᴹ䇈ᯢࡳ㛑ᗻߚ㉏ˈᑊϨ೼ӏϔ᭄᥂ᑧЁ᠔᳝ⱘ᭄᥂䲚䛑Ӯߎ೼⦃ৠϔߚ ㉏ЁDŽCON㉏ᰃϔϾℷ೼䅵ߦ㹿Փ⫼ⱘᮄⱘᅲ偠ᗻߚ㉏ˈᇚ⫼ᴹ㸼ᕕ䗮䖛䞡঴㕸ᵘ䗴ⱘ⠛↉៪ ໻ⱘᭈড়ᑣ߫DŽ䖭ḋህᕜ᳝ৃ㛑䍙ߎ೼⦃ᇍऩϔ䆄ᔩⱘ350kb䰤ࠊDŽ䖭ḋⱘ䆄ᔩৃ㛑ҹབৠ䰘 ᔩ2.4ⱘᔶᓣߎˈ⦃䖭ϾCON㉏䆄ᔩ㒭ߎњ໻㙴ᴚ㦠ⱘܼ෎಴㒘ᑣ߫ˈ䭓ᑺ೼4.6mbҹϞDŽ䖭Ͼ 䆄ᔩ≵᳝ࣙ৿ᑣ߫៪⊼䞞ˈԚࣙ৿њབԩᇚᄬ೼Ѣ݊Ҫߚ㉏Ёⱘ⠛↉ᣐ᥹៤ᅠᭈᑣ߫ⱘᣛ ⼎DŽ䖭ϔᅲ偠ᗻߚ㉏Ёⱘ䆄ᔩᇚᏺ᳝Ẕ㋶ো੠⠜ᴀোˈᑊϨৠ݊Ҫ䆄ᔩϔḋˈ೼޴Ͼড়԰㗙 П䯈ѸᤶDŽ᠔᳝㹿ߚߛⱘ᭄᥂гᇚߎ೼⦃䖭ϔߚ㉏ЁDŽ ********************* LOCUS㸠Ёⱘ᮹ᳳᰃ᭄᥂᳔ৢ㹿݀ᓔⱘ᮹ᳳDŽ೼䆌໮ᚙމϟˈгᰃ㄀ϔ⃵㹿݀ᓔⱘ᮹ᳳDŽ䆄ᔩ Ёࣙ৿ⱘ঺ϔϾ᮹ᳳᰃᑣ߫ᦤѸ㒭᭄᥂ᑧⱘ᮹ᳳ˄㾕ϟ䴶˅DŽᖙ乏⊼ᛣⱘᰃˈ䖭ϸϾ᮹ᳳᑊ ≵᳝⊩ᕟֱ䆕ˈ᭄᥂ᑧᑊ᳾ໄᯢ䖭ϸϾ᮹ᳳᰃℷ⹂ⱘDŽ᠔ҹᅗӀাկ⫼᠋খ㗗ˈᑊϡ㛑԰Ў ӆ㺕ⱘ߸᥂DŽህ԰㗙ⱘ㒣偠ˈᅗӀгҢ᳾㹿⫼ҹ԰ЎӬܜᴗໄᯢ៪ϧ߽ᴗ䇋∖ⱘձ᥂DŽ ********************** DEFINITION㸠˄г⿄Ў“DEF”㸠˅೼GenBank䆄ᔩЁ⫼ҹᘏ㒧䆄ᔩⱘ⫳⠽ᛣНDŽ䖭ϔ㸠ᇚߎ ⦄೼NCBIⱘFASTA᭛ӊЁˈ䖭ḋӏԩҎ䖯㸠BLASTⳌԐᗻ᧰㋶ᯊ䛑Ӯⳟࠄ䖭ѯֵᙃDŽ⫳៤䖭ϔ ㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ 义ⷕˈ5/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第二章 Gen Bank序列数据库 页码,6/11 行时要非常小心,因为许多记录生成工作可以部分地自动进行。所以数据库工作人员要检查 这一行以保证信息的一致性和有效性。但是,用一行文字来说明生物背景并不总是可行的 对此不同的数据库采用了各自的解决方法。其中有一些共识,并且每个数据库也都了解其他 mRNA,可以象法,并尽力与之一致。下面是 DEFINITION行结构标准的一个小结。对于 数据库的解决 属种产物名称(基因符号) mRNA compl ete cds 或者对于基因组记录 属种产物名称(基因符号) gene complete cds 当然,各个数据库采用的解决方法也考虑到了其他类型的记录。下列这些规则应用于细胞器 序列,以保证用户及数据库工作人员明了DNA的来源和生物背景(假定提交者是明了的) DEF|NIT0N属种蛋白质X(XX)gene,(下列选一) compl ete cds ,编码线粒体蛋白质的核基因 编码叶绿体蛋白质的核基因 ,编码线粒体蛋白质的线粒体基因 ,编码叶绿体蛋白质的叶绿体基因 或者 DEF|NIT0N属种XXS核糖体 RNa gene,(下列选一) compl ete sequence 编码线粒体RNA的线粒体基因 ,编码叶绿体RNA的叶绿体基因 基于一项合作数据库之间最近达成的协议,将在 DEFINITI0N行中给出属和种的全名,而不再 使用通用名(如 human)或属名缩写(如H. sapi ens)。数据库中在此协议之前生成的记录将 最终按此协议进行更新。只有一个生物在这个协议之外,那就是人免疫缺陷病毒将在 DEF|NT0N行中表示为HV1和HV2。 大大大大大大大大大大大大大大大大★ 检索号在记录的第三行,是从数据库中检索一个记录的主要关键词(见第6章)。这个号码将 在参考文献中被引用,并始终和序列在一起。就是说,当序列被更新(例如更正一个核苷 酸)时,这个号码不会改变。检索号码采取下列两种方式之一:1+5或2+6格式。1+5格式是指 1个大写字母后跟5位数字;2+6格式是指2个大写字母后跟6位数字。绝大多数新近加入数据库 的记录采取后一种方式。所有的 IGen Bank记录都只有一个单独的 ACCESSI0N行,行中可能有多 个检索号码,但绝大多数情况只有一个检索号。这通常称为主检索号码,其余的是二级检索 号码。 file://E:wcb\生物信息学(中译本)\第二章 GenBank序列数据库.htm 2005-1-18

㸠ᯊ㽕䴲ᐌᇣᖗˈ಴Ў䆌໮䆄ᔩ⫳៤Ꮉ԰ৃҹ䚼ߚഄ㞾ࡼ䖯㸠DŽ᠔ҹ᭄᥂ᑧᎹ԰Ҏਬ㽕Ẕᶹ 䖭ϔ㸠ҹֱ䆕ֵᙃⱘϔ㟈ᗻ੠᳝ᬜᗻDŽԚᰃˈ⫼ϔ㸠᭛ᄫᴹ䇈ᯢ⫳⠽㚠᱃ᑊϡᘏᰃৃ㸠ⱘˈ ᇍℸϡৠⱘ᭄᥂ᑧ䞛⫼њ৘㞾ⱘ㾷އᮍ⊩DŽ݊Ё᳝ϔѯ݅䆚ˈᑊϨ↣Ͼ᭄᥂ᑧг䛑њ㾷݊Ҫ ᭄᥂ᑧⱘ㾷އᮍ⊩ˈᑊሑ࡯ϢПϔ㟈DŽϟ䴶ᰃDEFINITION㸠㒧ᵘᷛޚⱘϔϾᇣ㒧DŽᇍѢ mRNAˈৃҹ䈵䖭ḋ˖ ሲ⾡ѻ⠽ৡ⿄˄෎಴ヺো˅ mRNA complete cds ៪㗙ᇍѢ෎಴㒘䆄ᔩ˖ ሲ⾡ѻ⠽ৡ⿄˄෎಴ヺো˅ gene complete cds ᔧ✊ˈ৘Ͼ᭄᥂ᑧ䞛⫼ⱘ㾷އᮍ⊩г㗗㰥ࠄњ݊Ҫ㉏ൟⱘ䆄ᔩDŽϟ߫䖭ѯ㾘߭ᑨ⫼Ѣ㒚㚲఼ ᑣ߫ˈҹֱ䆕⫼᠋ঞ᭄᥂ᑧᎹ԰ҎਬᯢњDNAⱘᴹ⑤੠⫳⠽㚠᱃˄؛ᅮᦤѸ㗙ᰃᯢњⱘ˅˖ DEFINITION ሲ⾡㲟ⱑ䋼;˄xxx˅ geneˈ˄ϟ߫䗝ϔ˅ complete cds. , 㓪ⷕ㒓㉦ԧ㲟ⱑ䋼ⱘḌ෎಴ , 㓪ⷕ৊㓓ԧ㲟ⱑ䋼ⱘḌ෎಴ , 㓪ⷕ㒓㉦ԧ㲟ⱑ䋼ⱘ㒓㉦ԧ෎಴ , 㓪ⷕ৊㓓ԧ㲟ⱑ䋼ⱘ৊㓓ԧ෎಴ ៪㗙 DEFINITION ሲ⾡ XXS Ḍ㊪ԧRNA geneˈ˄ϟ߫䗝ϔ˅ complete sequence. , 㓪ⷕ㒓㉦ԧRNAⱘ㒓㉦ԧ෎಴ , 㓪ⷕ৊㓓ԧRNAⱘ৊㓓ԧ෎಴ ෎Ѣϔ乍ড়԰᭄᥂ᑧП䯈᳔䖥䖒៤ⱘण䆂ˈᇚ೼DEFINITION㸠Ё㒭ߎሲ੠⾡ⱘܼৡˈ㗠ϡݡ Փ⫼䗮⫼ৡ˄བhuman˅៪ሲৡ㓽ݭ˄བH.sapiens˅DŽ᭄᥂ᑧЁ೼ℸण䆂Пࠡ⫳៤ⱘ䆄ᔩᇚ ᳔㒜ᣝℸण䆂䖯㸠᳈ᮄDŽা᳝ϔϾ⫳⠽೼䖭Ͼण䆂П໪ˈ䙷ህᰃҎܡ⭿㔎䱋⮙↦ᇚ೼ DEFINITION㸠Ё㸼⼎ЎHIV1੠HIV2DŽ ****************** Ẕ㋶ো೼䆄ᔩⱘ㄀ϝ㸠ˈᰃҢ᭄᥂ᑧЁẔ㋶ϔϾ䆄ᔩⱘЏ㽕݇䬂䆡˄㾕㄀ゴ˅DŽ䖭Ͼোⷕᇚ ೼খ㗗᭛⤂Ё㹿ᓩ⫼ˈᑊྟ㒜੠ᑣ߫೼ϔ䍋DŽህᰃ䇈ˈᔧᑣ߫㹿᳈ᮄ˄՟བ᳈ℷϔϾḌ㣋 䝌˅ᯊˈ䖭ϾোⷕϡӮᬍবDŽẔ㋶োⷕ䞛পϟ߫ϸ⾡ᮍᓣПϔ˖1+5៪2+6ḐᓣDŽ1+5Ḑᓣᰃᣛ Ͼ໻ݭᄫ↡ৢ䎳ԡ᭄ᄫ˗2+6ḐᓣᰃᣛϾ໻ݭᄫ↡ৢ䎳ԡ᭄ᄫDŽ㒱໻໮᭄ᮄ䖥ࡴ᭄ܹ᥂ᑧ ⱘ䆄ᔩ䞛পৢϔ⾡ᮍᓣDŽ᠔᳝ⱘGenBank䆄ᔩ䛑া᳝ϔϾऩ⣀ⱘACCESSION㸠ˈ㸠Ёৃ㛑᳝໮ ϾẔ㋶োⷕˈԚ㒱໻໮᭄ᚙމা᳝ϔϾẔ㋶োDŽ䖭䗮ᐌ⿄ЎЏẔ㋶োⷕˈ݊ԭⱘᰃѠ㑻Ẕ㋶ োⷕDŽ ㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ 义ⷕˈ6/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第二章 Gen Bank序列数据库 页码,7 不幸的是,在以前二级检索号码还有一些不同的含义,但定义方式并不统一。二级检索号码 可能与主检索号码相关,或者主检索号码只是已经取消的二级检索号码的替代品。合作数据 库正在努力使后者成为任何情况下的缺省方式。但因为二级检索号码已经使用了15年以上 (在此期间 Gen Bank的管理方式也经过了多次调整),能阐述所有情况的全部数据已无从得 到 ND行是了核苷酸序列的g号码( geni nfo i denti fier)(见第6章)。前缀字母(d,e或g) 表明是哪一个数据库生成了这个号码,或这一号码用于哪个数据库。因为NCB首先使用了这 个号码,所以DDBJ和EMBL用NCBl( Gen Bank)指定的号码来填充他们的数据库。简单地说 个gi号码对应于一个核酸序列(蛋白质序列也有gi号码,见下面以及第6章)。当序列改变 时,gi号码也改变,但检索号码不变。 在本书出版时,将出现第三种标识符。合作数据库已同意将版本号加在不同版本的序列上 (就象ND或gi)。格式是:检索号版本号。例如 ★大大大大★大大大大大大大大大大大★ 这表明序列第1版,检索号为AF010325,gi号为2245686。在本书写作时,还没有确定这个标 识符应放在哪一行中,但肯定会在 ACCESSI0N和ND行之后。很可能就选择在VERS0N行(正如 上面那样)。相关信息请参考最新的 Gen Bank rel ease note。这个标识符中的版本号码将随 每次序列改变而加1,g的更改也是如此(但不是每次加1,而是改变到下一个可能的整 数)。这个标识符格式的检索号码将承担现在由检索号/qgi号(在ND行)所承担的任务,它 最终取代GBFF的ND行将一点也不令人奇怪。 Accessi on行在可预见的将来不会被取消,因为 它还有历史价值,也因为还存在一些由于历史原因而保留的二级号码 大大大大大大大大大大大大大大大大大大大 KEYWORDS是另一个有趣的历史遗留物,并且不幸地在很多情况下被误用了。给一个记录加上 关键词通常并不十分有效,因为在过去的年月中有许多作者选用了不在受控词表中的词,并 且在整个数据库中用法也不一致。因此,NCB|不鼓励使用关键词,但在查询时加入关键词是 可以的,特别是那些没有在其它记录中出现的过词,或以一种受控的方式来使用的词(例 如:对于EST,STS,GSS,HTG记录)。这时,拒绝加入关键词只是NCBI/ Gen Bank的策略 大大大大大大大大大大大大大大大大大大大 S0URCE行中有生物的通用名或科学名称。有些情况下也有其它来源的信息(见下面)。现在 正在一致努力以保证来源特性中包含所有必须的信息(不同于现在的 SOURCE行),并且所有 关于分类的信息(S0URCE行和0 RGANI SMS行)可以从来源特性以及NCB分类服务器中获得。对 于系统族或关于分类的其它方面感兴趣的读者可以访问NCB|的分类主页(见章末列表)。这 分类被所有核苷酸序列数据库以及蛋白质数据库 Swiss-Prot所采用 每个 Gen Bank记录至少要有一篇参考文献。许多情况下有两篇,就象附录2.1那样。前面这个 例子是一篇未发表的论文(应该是“已投”),如果将来文章发表的话则将代替于此。参考 文献提供了科学证据以及一个背景来解释这个特定的序列为何会这样确定。当参考文献发表 时,通常会有一个 MEDLINE标识符,正如下面例子中一样,提供了指向 MEDLI NE/ PubMed数据库 的链接 file://E:wcb\生物信息学(中译本)\第二章 GenBank序列数据库.htm 2005-1-18

********************* ϡᑌⱘᰃˈ೼ҹࠡѠ㑻Ẕ㋶োⷕ䖬᳝ϔѯϡৠⱘ৿НˈԚᅮНᮍᓣᑊϡ㒳ϔDŽѠ㑻Ẕ㋶োⷕ ৃ㛑ϢЏẔ㋶োⷕⳌ݇ˈ៪㗙ЏẔ㋶োⷕাᰃᏆ㒣প⍜ⱘѠ㑻Ẕ㋶োⷕⱘ᳓ҷકDŽড়԰᭄᥂ ᑧℷ೼࡯ࡾՓৢ㗙៤Ўӏԩᚙމϟⱘ㔎ⳕᮍᓣDŽԚ಴ЎѠ㑻Ẕ㋶োⷕᏆ㒣Փ⫼њ15ᑈҹϞ ˄೼ℸᳳ䯈GenBankⱘㅵ⧚ᮍᓣг㒣䖛њ໮⃵䇗ᭈ˅ˈ㛑䯤䗄᠔᳝ᚙމⱘܼ䚼᭄᥂Ꮖ᮴Ңᕫ DŽࠄ ********************* NID㸠ᰃњḌ㣋䝌ᑣ߫ⱘgiোⷕ˄geninfo identifier˅˄㾕㄀ゴ˅DŽࠡ㓔ᄫ↡˄GˈH៪J˅ 㸼ᯢᰃાϔϾ᭄᥂ᑧ⫳៤њ䖭Ͼোⷕˈ៪䖭ϔোⷕ⫼ѢાϾ᭄᥂ᑧDŽ಴ЎNCBI佪ܜՓ⫼њ䖭 Ͼোⷕˈ᠔ҹDDBJ੠EMBL⫼NCBI˄GenBank˅ᣛᅮⱘোⷕᴹ฿ܙҪӀⱘ᭄᥂ᑧDŽㅔऩഄ䇈ˈϔ ϾgiোⷕᇍᑨѢϔϾḌ䝌ᑣ߫˄㲟ⱑ䋼ᑣ߫г᳝giোⷕˈ㾕ϟ䴶ҹঞ㄀ゴ˅DŽᔧᑣ߫ᬍব ᯊˈgiোⷕгᬍবˈԚẔ㋶োⷕϡবDŽ ೼ᴀкߎ⠜ᯊˈᇚߎ㄀⦃ϝ⾡ᷛ䆚ヺDŽড়԰᭄᥂ᑧᏆৠᛣᇚ⠜ᴀোࡴ೼ϡৠ⠜ᴀⱘᑣ߫Ϟ ˄ህ䈵NID៪gi˅DŽḐᓣᰃ˖Ẕ㋶ো⠜ᴀোDŽ՟བ˖ ****************** 䖭㸼ᯢᑣ߫㄀⠜ˈẔ㋶োЎAF010325ˈgiোЎ2245686DŽ೼ᴀкݭˈᯊ԰䖬≵᳝⹂ᅮ䖭Ͼᷛ 䆚ヺᑨᬒ೼ાϔ㸠ЁˈԚ㚃ᅮӮ೼ACCESSION੠NID㸠ПৢDŽᕜৃ㛑ህ䗝ᢽ೼VERSION㸠˄ℷབ Ϟ䴶䙷ḋ˅DŽⳌֵ݇ᙃ䇋খ㗗᳔ᮄⱘGenBank release noteDŽ䖭Ͼᷛ䆚ヺЁⱘ⠜ᴀোⷕᇚ䱣 ↣⃵ᑣ߫ᬍব㗠ࡴˈgiⱘ᳈ᬍгᰃབℸ˄Ԛϡᰃ↣⃵ࡴˈ㗠ᰃᬍবࠄϟϔϾৃ㛑ⱘᭈ ᭄˅DŽ䖭Ͼᷛ䆚ヺḐᓣⱘẔ㋶োⷕᇚᡓᢙ⦄೼⬅Ẕ㋶ো/giো˄೼NID㸠˅᠔ᡓᢙⱘӏࡵˈᅗ ᳔㒜পҷGBFFⱘNID㸠ᇚϔ⚍гϡҸҎ༛ᗾDŽAccession㸠೼ৃ乘㾕ⱘᇚᴹϡӮ㹿প⍜ˈ಴Ў ᅗ䖬᳝ग़৆Ӌؐˈг಴Ў䖬ᄬ೼ϔѯ⬅Ѣग़৆ॳ಴㗠ֱ⬭ⱘѠ㑻োⷕDŽ ******************* KEYWORDSᰃ঺ϔϾ᳝䍷ⱘग़৆䘫⬭⠽ˈᑊϨϡᑌഄ೼ᕜ໮ᚙމϟ㹿䇃⫼њDŽ㒭ϔϾ䆄ᔩࡴϞ ݇䬂䆡䗮ᐌᑊϡकߚ᳝ᬜˈ಴Ў೼䖛এⱘᑈ᳜Ё᳝䆌໮԰㗙䗝⫼њϡ೼ফ᥻䆡㸼Ёⱘ䆡ˈᑊ Ϩ೼ᭈϾ᭄᥂ᑧЁ⫼⊩гϡϔ㟈DŽ಴ℸˈNCBIϡ哧ࢅՓ⫼݇䬂䆡ˈԚ೼ᶹ䆶ᯊࡴܹ݇䬂䆡ᰃ ৃҹⱘˈ⡍߿ᰃ䙷ѯ≵᳝೼݊ᅗ䆄ᔩЁߎ⦃ⱘ䖛䆡ˈ៪ҹϔ⾡ফ᥻ⱘᮍᓣᴹՓ⫼ⱘ䆡˄՟ བ˖ᇍѢESTˈSTSˈGSSˈHTG䆄ᔩ˅DŽ䖭ᯊˈᢦ㒱ࡴܹ݇䬂䆡াᰃNCBI/GenBankⱘㄪ⬹DŽ ******************* SOURCE㸠Ё᳝⫳⠽ⱘ䗮⫼ৡ៪⾥ᄺৡ⿄DŽ᳝ѯᚙމϟг᳝݊ᅗᴹ⑤ⱘֵᙃ˄㾕ϟ䴶˅DŽ⦄೼ ℷ೼ϔ㟈࡯ࡾҹֱ䆕ᴹ⑤⡍ᗻЁࣙ৿᠔᳝ᖙ乏ⱘֵᙃ˄ϡৠѢ⦄೼ⱘSOURCE㸠˅ˈᑊϨ᠔᳝ ݇Ѣߚ㉏ⱘֵᙃ˄SOURCE㸠੠ORGANISMS㸠˅ৃҹҢᴹ⑤⡍ᗻҹঞNCBIߚ㉏᳡ࡵ఼Ё㦋ᕫDŽᇍ Ѣ㋏㒳ᮣ៪݇Ѣߚ㉏ⱘ݊ᅗᮍ䴶ᛳ݈䍷ⱘ䇏㗙ৃҹ䆓䯂NCBIⱘߚ㉏Џ义˄㾕ゴ᳿߫㸼˅DŽ䖭 ϔߚ㉏㹿᠔᳝Ḍ㣋䝌ᑣ᭄߫᥂ᑧҹঞ㲟ⱑ䋼᭄᥂ᑧSwiss-Prot᠔䞛⫼DŽ ******************* ↣ϾGenBank䆄ᔩ㟇ᇥ㽕᳝ϔ㆛খ㗗᭛⤂DŽ䆌໮ᚙމϟ᳝ϸ㆛ˈህ䈵䰘ᔩ2.1䙷ḋDŽࠡ䴶䖭Ͼ ՟ᄤᰃϔ㆛᳾থ㸼ⱘ䆎᭛˄ᑨ䆹ᰃĀᏆᡩā˅ˈབᵰᇚᴹ᭛ゴথ㸼ⱘ䆱߭ᇚҷ᳓ѢℸDŽখ㗗 ᭛⤂ᦤկњ⾥ᄺ䆕᥂ҹঞϔϾ㚠᱃ᴹ㾷䞞䖭Ͼ⡍ᅮⱘᑣ߫ЎԩӮ䖭ḋ⹂ᅮDŽᔧখ㗗᭛⤂থ㸼 ᯊˈ䗮ᐌӮ᳝ϔϾMEDLINEᷛ䆚ヺˈℷབϟ䴶՟ᄤЁϔḋˈᦤկњᣛ৥MEDLINE/PubMed᭄᥂ᑧ ⱘ䫒᥹DŽ ㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ 义ⷕˈ7/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第二章 Gen Bank序列数据库 页码,8/11 在1998年末,又加入了一个新的行,以及其标识符 PUBMED,允许指向 PubMed数据库以及发表 者在线全文电子版的链接。 最后一次引用通常出现于许多 GenBank的记录中,为那些将要围绕这一序列开展工作的研究者 提供科学依据。这其中通常包括第一作者完成此项工作的主要实验室,或作者的通讯地址 日期是记录被提交给数据库的日期,而不是这些数据第一次公开发表的日期,那将在L0CUS行 中出现(见上面),如果这一记录没有被更新过的话。 GBFF头部的最后一部分是评论。这一部分包括关于整个记录的许多不同的注释和评论(也称 之为“描述部分”)。基因中心喜欢在这一部分中加入自己的内容,以及致谢等。有许多 Gen Bank记录没有这一部分,这是可选的。这里也可以包括电子邮件地址和URL,但在实践中 NCBI并不鼓励这样(虽然象上面提到的一样有些基因组测序中心已经这样作了),对此简单 的解释是电子邮件地址通常比建筑物的地址更容易被轻易更换。但DDBJ几年前就已经将电子 邮件地址包含在了记录之中,这又一次体现了政策考虑上的微妙差别。 特性表 GBFF记录的中间部分,也是最重要的一部分,就是注释,它直接表达了记录的生物背景知 识。也许有人争辩说生物背景在记录所引用的参考文献中有最好的表现,但不论怎样,记录 中的一整套注释有助于快速地抽取相关生物信息,并允许提交者指出这一记录当时为什么会 被提交到这个数据库中(见第14章)。这里对于注释的选择就十分关键了。特性表文档(见 第14章)详细描述了合法的特性(允许使用的注释),以及这些特性的允许限制词。不幸的 是,这里经常有一些非法的,推测性的或由计算得出的注释。如果一个注释是仅由计算得到 的,它作为记录说明的可用性就大打折扣了 般考虑 这一节描述 Gen Bank中的一些关键特性,讲述他们的重要性以及包含的信息。由于第14章包含 了关于这一部分的大量最新的GBFF文档,所以这里的讨论只限于生物背景,以及关于这一部 分由NCB工作人员给出的指导性意见。这些材料将引导读者深入了解数据模型(第6章)以及 GBFF在序列分析中的重要地位,并且也作为对特性定义以及 Gen Bank语言中限定语的介绍。这 里的特性与其它在第6章以及第14章中讨论的特性略有不同。在GBFF记录中,GBFF的每项注释 都称之为一个“特性”。而在NCB数据模型中,特性指对于部分序列的注释,但关于整个序 列的注释通常称为“描述符”。这样在 Gen Bank词汇表中,从数据模型的角度看来源实际上是 个描述符( Bi aSource,指整个序列),而不象在其它地方那样是一个特性。但因为本章是 关于 Gen Banl数据库的,所以我们采用了前一种定义。读者应该清楚其中的微妙差别,特别是 在读本书的其他部分时 来源 来源( source)是唯一一个必须在所有 GenBank记录中出现的特性。所有的特性都有一系列合 法的限定词,有些是强制性的(例如来源中的/ organI Sm(生物体))。所有的DNA序列记录 都有出处,即使是合成序列这样极端的特例也一样。大多数情况下一个记录只能有一个来源 特性,并带有/ organi sm限定词。这里是附录2.1中的例子 限定词 organi sm包含属和种的科学名称,有些情况下还可以在亚种水平描述。对于来源 file://E:wcb\生物信息学(中译本)\第二章 GenBank序列数据库.htm 2005-1-18

***************** ೼1998ᑈ᳿ˈজࡴܹњϔϾᮄⱘ㸠ˈҹঞ݊ᷛ䆚ヺPUBMEDˈܕ䆌ᣛ৥PubMed᭄᥂ᑧҹঞথ㸼 㗙೼㒓ܼ᭛⬉ᄤ⠜ⱘ䫒᥹DŽ ***************** ᳔ৢϔ⃵ᓩ⫼䗮ᐌߎ⦃Ѣ䆌໮GenBankⱘ䆄ᔩЁˈЎ䙷ѯᇚ㽕ೈ㒩䖭ϔᑣ߫ᓔሩᎹ԰ⱘⷨお㗙 ᦤկ⾥ᄺձ᥂DŽ䖭݊Ё䗮ᐌࣙᣀ㄀ϔ԰㗙ᅠ៤ℸ乍Ꮉ԰ⱘЏ㽕ᅲ偠ᅸˈ៪԰㗙ⱘ䗮䆃ഄഔDŽ ᮹ᳳᰃ䆄ᔩ㹿ᦤѸ㒭᭄᥂ᑧⱘ᮹ᳳˈ㗠ϡᰃ䖭ѯ᭄᥂㄀ϔ⃵݀ᓔথ㸼ⱘ᮹ᳳˈ䙷ᇚ೼LOCUS㸠 Ёߎ˄⦃㾕Ϟ䴶˅ˈབᵰ䖭ϔ䆄ᔩ≵᳝㹿᳈ᮄ䖛ⱘ䆱DŽ GBFF༈䚼ⱘ᳔ৢϔ䚼ߚᰃ䆘䆎DŽ䖭ϔ䚼ࣙߚᣀ݇ѢᭈϾ䆄ᔩⱘ䆌໮ϡৠⱘ⊼䞞੠䆘䆎˄г⿄ ПЎĀᦣ䗄䚼ߚā˅DŽ෎಴Ёᖗ୰⃶೼䖭ϔ䚼ߚЁࡴܹ㞾Ꮕⱘݙᆍˈҹঞ㟈䇶ㄝDŽ᳝䆌໮ GenBank䆄ᔩ≵᳝䖭ϔ䚼ߚˈ䖭ᰃৃ䗝ⱘDŽ䖭䞠гৃҹࣙᣀ⬉ᄤ䚂ӊഄഔ੠URLˈԚ೼ᅲ䏉Ё NCBIᑊϡ哧ࢅ䖭ḋ˄㱑✊䈵Ϟ䴶ᦤࠄⱘϔḋ᳝ѯ෎಴㒘⌟ᑣЁᖗᏆ㒣䖭ḋ԰њ˅ˈᇍℸㅔऩ ⱘ㾷䞞ᰃ⬉ᄤ䚂ӊഄഔ䗮ᐌ↨ᓎㄥ⠽ⱘഄഔ᳈ᆍᯧ㹿䕏ᯧ᳈ᤶDŽԚDDBJ޴ᑈࠡህᏆ㒣ᇚ⬉ᄤ 䚂ӊഄഔࣙ೼৿њ䆄ᔩПЁˈ䖭জϔ⃵ԧ⦄њᬓㄪ㗗㰥Ϟⱘᖂ཭Ꮒ߿DŽ ⡍ᗻ㸼 GBFF䆄ᔩⱘЁ䯈䚼ߚˈгᰃ᳔䞡㽕ⱘϔ䚼ߚˈህᰃ⊼䞞ˈᅗⳈ᥹㸼䖒њ䆄ᔩⱘ⫳⠽㚠᱃ⶹ 䆚DŽг䆌᳝Ҏѝ䕽䇈⫳⠽㚠᱃೼䆄ᔩ᠔ᓩ⫼ⱘখ㗗᭛⤂Ё᳔᳝དⱘ㸼⦄ˈԚϡ䆎ᗢḋˈ䆄ᔩ Ёⱘϔᭈ༫⊼䞞᳝ࡽѢᖿ䗳ഄᢑপⳌ݇⫳⠽ֵᙃˈᑊܕ䆌ᦤѸ㗙ᣛߎ䖭ϔ䆄ᔩᔧᯊЎҔМӮ 㹿ᦤѸࠄ䖭Ͼ᭄᥂ᑧЁ˄㾕㄀14ゴ˅DŽ䖭䞠ᇍѢ⊼䞞ⱘ䗝ᢽህकߚ݇䬂њDŽ⡍ᗻ㸼᭛ḷ˄㾕 ㄀14ゴ˅䆺㒚ᦣ䗄њড়⊩ⱘ⡍ᗻ˄ܕ䆌Փ⫼ⱘ⊼䞞˅ˈҹঞ䖭ѯ⡍ᗻⱘܕ䆌䰤ࠊ䆡DŽϡᑌⱘ ᰃˈ䖭䞠㒣ᐌ᳝ϔѯ䴲⊩ⱘˈ᥼⌟ᗻⱘ៪⬅䅵ㅫᕫߎⱘ⊼䞞DŽབᵰϔϾ⊼䞞ᰃҙ⬅䅵ㅫᕫࠄ ⱘˈᅗ԰Ў䆄ᔩ䇈ᯢⱘৃ⫼ᗻህ໻ᠧᡬᠷњDŽ ϔ㠀㗗㰥 䖭ϔ㡖ᦣ䗄GenBankЁⱘϔѯ݇䬂⡍ᗻˈ䆆䗄ҪӀⱘ䞡㽕ᗻҹঞࣙ৿ⱘֵᙃDŽ⬅Ѣ㄀14ゴࣙ৿ њ݇Ѣ䖭ϔ䚼ߚⱘ໻䞣᳔ᮄⱘGBFF᭛ḷˈ᠔ҹ䖭䞠ⱘ䅼䆎া䰤Ѣ⫳⠽㚠᱃ˈҹঞ݇Ѣ䖭ϔ䚼 ߚ⬅NCBIᎹ԰Ҏਬ㒭ߎⱘᣛᇐᗻᛣ㾕DŽ䖭ѯᴤ᭭ᇚᓩᇐ䇏㗙⏅ܹњ㾷᭄᥂῵ൟ˄㄀ゴ˅ҹঞ GBFF೼ᑣ߫ߚᵤЁⱘ䞡㽕ഄԡˈᑊϨг԰Ўᇍ⡍ᗻᅮНҹঞGenBank䇁㿔Ё䰤ᅮ䇁ⱘҟ㒡DŽ䖭 䞠ⱘ⡍ᗻϢ݊ᅗ೼㄀ゴҹঞ㄀14ゴЁ䅼䆎ⱘ⡍ᗻ⬹᳝ϡৠDŽ೼GBFF䆄ᔩЁˈGBFFⱘ↣乍⊼䞞 䛑⿄ПЎϔϾĀ⡍ᗻāDŽ㗠೼NCBI᭄᥂῵ൟЁˈ⡍ᗻᣛᇍѢ䚼ߚᑣ߫ⱘ⊼䞞ˈԚ݇ѢᭈϾᑣ ߫ⱘ⊼䞞䗮ᐌ⿄ЎĀᦣ䗄ヺāDŽ䖭ḋ೼GenBank䆡∛㸼ЁˈҢ᭄᥂῵ൟⱘ㾦ᑺⳟᴹ⑤ᅲ䰙Ϟᰃ ϔϾᦣ䗄ヺ˄BioSourceˈᣛᭈϾᑣ߫˅ˈ㗠ϡ䈵೼݊ᅗഄᮍ䙷ḋᰃϔϾ⡍ᗻDŽԚ಴Ўᴀゴᰃ ݇ѢGenBank᭄᥂ᑧⱘˈ᠔ҹ៥Ӏ䞛⫼њࠡϔ⾡ᅮНDŽ䇏㗙ᑨ䆹⏙Ἦ݊Ёⱘᖂ཭Ꮒ߿ˈ⡍߿ᰃ ೼䇏ᴀкⱘ݊Ҫ䚼ߚᯊDŽ ᴹ⑤ ᴹ⑤˄source˅ᰃଃϔϔϾᖙ乏೼᠔᳝GenBank䆄ᔩЁߎ⦃ⱘ⡍ᗻDŽ᠔᳝ⱘ⡍ᗻ䛑᳝ϔ㋏߫ড় ⊩ⱘ䰤ᅮ䆡ˈ᳝ѯᰃᔎࠊᗻⱘ˄՟བᴹ⑤Ёⱘ/organism˄⫳⠽ԧ˅˅DŽ᠔᳝ⱘDNAᑣ߫䆄ᔩ 䛑᳝ߎ໘ˈेՓᰃড়៤ᑣ߫䖭ḋᵕッⱘ⡍՟гϔḋDŽ໻໮᭄ᚙމϟϔϾ䆄ᔩা㛑᳝ϔϾᴹ⑤ ⡍ᗻˈᑊᏺ᳝/organism䰤ᅮ䆡DŽ䖭䞠ᰃ䰘ᔩ2.1Ёⱘ՟ᄤ˖ *************** 䰤ᅮ䆡organismࣙ৿ሲ੠⾡ⱘ⾥ᄺৡ⿄ˈ᳝ѯᚙމϟ䖬ৃҹ೼Ѯ⾡∈ᑇᦣ䗄DŽᇍѢᴹ⑤ˈϔ ㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ 义ⷕˈ8/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第二章 Gen Bank序列数据库 页码,9/11 列限定词将包括了关于 Bi aSource的所有材料,这可能包括图谱、染色体或组织、克隆标识 以及其它库信息。在来源以及其它所有 Gen Bank记录的特性中,作者都必须要注意避免加入冗 余的信息。对于读者来说,对一切不能由计算证实的东西都必须抱一点怀疑态度。组织来源 以及文库也只有和相关的发表文献对照才比较可靠(如果有文献的话),并且只有在这种情 况下这类信息才在 Gen Bank的所有记录中一致地使用。在以系统化的方式使用限定词的一批记 录中,正象许多大的EST集一样,分类可以被证实(就是说,这一生物确实存在于NCB|维护的 关于所有生物的数据库中)。此外如果限定词还在所有记录中一致地使用,对于研究者将是 十分有益的。但不幸的是,许多限定词在数据库中的使用缺乏充分的一致性,这就使得它们 实际上没有很大的价值。 隐含于 Bi aSource以及生物体中的是DNA或RNA使用的基因编码,这将被用以将核苷酸翻译为蛋 白质序列(如果记录中存在的话)。这一信息包含在CDS中 CDS 正如在第六章中详细介绍的,CDS指示读者如何将两个序列连接在一起,或如何根据核苷酸序 列以及基因编码得到氨基酸序列。GBFF以DNA为核心,通过DNA序列坐标系统映射所有特性, 而不是从氨基酸的角度。正如下面 GenBank y11895的例子所显示的(这个例子来自一个提交 到EMBL的记录)。 在分析这些数据时,我们必须从DNA坐标推导出氨基酸位置,并且我们对于所编码蛋白质的了 解也将仅限于从对DNA特性的描述中获得。这一限制可被 Sequi n克服(见第14章)。这一例子 也显示了数据库交叉索引( db xref)的使用。这一受控限制词允许数据库将另一个外部数据 库的序列(第一个标识符)与一个在本数据库中使用的标识符交叉索引。允许 db xref的数据 库都是合作数据库所维护的(见章末列表) 正如上面提到的,以及将在第六章中讨论的,NCB给每个记录赋予一个gi( geni nfo)标识 符。这意味着翻译产物蛋白质序列(不是简单附属于DNA记录,如同在 Gen Bank记录中显示 的),也有自己的gi号码。一个特定的标识符当且仅当序列更改时才更改。蛋白质q号码现 在作为 Pid db xref或蛋白质标识符出现。下面这个例子显示了两种情况: /db xref =" PlD: e322087 / db xref=“P|D:g2415691″ 前缀e和g表示EMBL及 Gen Bank。‘g′前缀后面的整数是NCB|赋予的g(这里的gi没有字母, 只有PD值)。这里可以有两个PD,因为每个数据库各自维护其标识符。在 Gen Bank中,只有 EMBL生成的记录有两个PD,其中一个带有′e′前缀,另一个带有′g′前缀。这一混乱将很 快结束,因为1998年后qi号码的使用将被简化。对于核苷酸序列,还将有一个序列标识符, 带有版本号成分,以及一个固定的序列标识符(或检索号)。 ★大大大大大大大大大大大大大大大大大大大大大★ 在过渡时期,所有的序列标识符需要同时存在,但PD将最终被取消。 Protein_id(或核苷酸 序列数据库生成的蛋白质检索号)将由3个字母加5位数字构成,后跟一个句号和另一个整 数,显示这个蛋白质序列的版本。当序列更新时,这一数字也将增加,就象qi那样。这样如 果旧版本存在的话用户将可以简单地通过版本号来查找以前版本的记录。氨基酸序列是核苷 酸序列数据库最重要的副产品之一,所以已经有大量的努力来保证其正确性(如果对 GenBank 记录进行翻译,必须找到正确的相位,以指导对给定序列的翻译)。这些序列提供了蛋白质 数据库的原始材料,也提供了最有效的发现新基因的方法(见第7章)。当注释可以被证实 file://E:wcb\生物信息学(中译本)\第二章 GenBank序列数据库.htm 2005-1-18

㋏߫䰤ᅮ䆡ᇚࣙᣀњ݇ѢBioSourceⱘ᠔᳝ᴤ᭭ˈ䖭ৃ㛑ࣙᣀ೒䈅ǃᶧ㡆ԧ៪㒘㒛ǃܟ䱚ᷛ䆚 ҹঞ݊ᅗᑧֵᙃDŽ೼ᴹ⑤ҹঞ݊ᅗ᠔᳝GenBank䆄ᔩⱘ⡍ᗻЁˈ԰㗙䛑ᖙ乏㽕⊼ᛣ䙓ࡴܡܹݫ ԭⱘֵᙃDŽᇍѢ䇏㗙ᴹ䇈ˈᇍϔߛϡ㛑⬅䅵ㅫ䆕ᅲⱘϰ㽓䛑ᖙ乏ᢅϔ⚍ᗔ⭥ᗕᑺDŽ㒘㒛ᴹ⑤ ҹঞ᭛ᑧгা᳝੠Ⳍ݇ⱘথ㸼᭛⤂ᇍ✻ᠡ↨䕗ৃ䴴˄བᵰ᳝᭛⤂ⱘ䆱˅ˈᑊϨা᳝೼䖭⾡ᚙ މϟ䖭㉏ֵᙃᠡ೼GenBankⱘ᠔᳝䆄ᔩЁϔ㟈ഄՓ⫼DŽ೼ҹ㋏㒳࣪ⱘᮍᓣՓ⫼䰤ᅮ䆡ⱘϔᡍ䆄 ᔩЁˈℷ䈵䆌໮໻ⱘEST䲚ϔḋˈߚ㉏ৃҹ㹿䆕ᅲ˄ህᰃ䇈ˈ䖭ϔ⫳⠽⹂ᅲᄬ೼ѢNCBI㓈ᡸⱘ ݇Ѣ᠔᳝⫳⠽ⱘ᭄᥂ᑧЁ˅DŽℸ໪བᵰ䰤ᅮ䆡䖬೼᠔᳝䆄ᔩЁϔ㟈ഄՓ⫼ˈᇍѢⷨお㗙ᇚᰃ कߚ᳝ⲞⱘDŽԚϡᑌⱘᰃˈ䆌໮䰤ᅮ䆡೼᭄᥂ᑧЁⱘՓ⫼㔎Уߚܙⱘϔ㟈ᗻˈ䖭ህՓᕫᅗӀ ᅲ䰙Ϟ≵᳝ᕜ໻ⱘӋؐDŽ 䱤৿ѢBioSourceҹঞ⫳⠽ԧЁⱘᰃDNA៪RNAՓ⫼ⱘ෎಴㓪ⷕˈ䖭ᇚ㹿⫼ҹᇚḌ㣋䝌㗏䆥Ў㲟 ⱑ䋼ᑣ߫˄བᵰ䆄ᔩЁᄬ೼ⱘ䆱˅DŽ䖭ϔֵᙃࣙ೼৿CDSЁDŽ CDS ℷབ೼㄀݁ゴЁ䆺㒚ҟ㒡ⱘˈCDSᣛ⼎䇏㗙བԩᇚϸϾᑣ߫䖲᥹೼ϔ䍋ˈ៪བԩḍ᥂Ḍ㣋䝌ᑣ ߫ҹঞ෎಴㓪ⷕᕫࠄ෎⇼䝌ᑣ߫DŽGBFFҹDNAЎḌᖗˈ䗮䖛DNAᑣ߫തᷛ㋏㒳᯴ᇘ᠔᳝⡍ᗻˈ 㗠ϡᰃҢ⇼෎䝌ⱘ㾦ᑺDŽℷབϟ䴶GenBank Y11895ⱘ՟ᄤ᠔ᰒ⼎ⱘ˄䖭Ͼ՟ᄤᴹ㞾ϔϾᦤѸ ࠄEMBLⱘ䆄ᔩ˅DŽ ********************* ೼ߚᵤ䖭ѯ᭄᥂ᯊˈ៥Ӏᖙ乏ҢDNAതᷛ᥼ᇐߎ෎⇼䝌ԡ㕂ˈᑊϨ៥ӀᇍѢ᠔㓪ⷕ㲟ⱑ䋼ⱘњ 㾷гᇚҙ䰤ѢҢᇍDNA⡍ᗻⱘᦣ䗄Ё㦋ᕫDŽ䖭ϔ䰤ࠊৃ㹿Sequinܟ᳡˄㾕㄀14ゴ˅DŽ䖭ϔ՟ᄤ гᰒ⼎њ᭄᥂ᑧѸঝ㋶ᓩ˄db_xref˅ⱘՓ⫼DŽ䖭ϔফ᥻䰤ࠊ䆡ܕ䆌᭄᥂ᑧᇚ঺ϔϾ໪䚼᭄᥂ ᑧⱘᑣ߫˄㄀ϔϾᷛ䆚ヺ˅ϢϔϾ೼ᴀ᭄᥂ᑧЁՓ⫼ⱘᷛ䆚ヺѸঝ㋶ᓩDŽܕ䆌db_xrefⱘ᭄᥂ ᑧ䛑ᰃড়԰᭄᥂ᑧ᠔㓈ᡸⱘ˄㾕ゴ᳿߫㸼˅DŽ ℷབϞ䴶ᦤࠄⱘˈҹঞᇚ೼㄀݁ゴЁ䅼䆎ⱘˈNCBI㒭↣Ͼ䆄ᔩ䌟ќϔϾgi˄geninfo˅ᷛ䆚 ヺDŽ䖭ᛣੇⴔ㗏䆥ѻ⠽㲟ⱑ䋼ᑣ߫˄ϡᰃㅔऩ䰘ሲѢDNA䆄ᔩˈབৠ೼GenBank䆄ᔩЁᰒ⼎ ⱘ˅ˈг᳝㞾ᏅⱘgiোⷕDŽϔϾ⡍ᅮⱘᷛ䆚ヺᔧϨҙᔧᑣ߫᳈ᬍᯊᠡ᳈ᬍDŽ㲟ⱑ䋼giোⷕ⦄ ೼԰ЎPID db_xref៪㲟ⱑ䋼ᷛ䆚ヺߎ⦃DŽϟ䴶䖭Ͼ՟ᄤᰒ⼎њϸ⾡ᚙމ˖ /db_xref = “PID:e322087” /db_xref = “PID:g2415691” ࠡ㓔H੠J㸼⼎EMBLঞGenBankDŽ‘g’ࠡ㓔ৢ䴶ⱘᭈ᭄ᰃNCBI䌟ќⱘgi˄䖭䞠ⱘgi≵᳝ᄫ↡ˈ া᳝PIDؐ˅DŽ䖭䞠ৃҹ᳝ϸϾPIDˈ಴Ў↣Ͼ᭄᥂ᑧ৘㞾㓈ᡸ݊ᷛ䆚ヺDŽ೼GenBankЁˈা᳝ EMBL⫳៤ⱘ䆄ᔩ᳝ϸϾPIDˈ݊ЁϔϾᏺ᳝‘e’ࠡ㓔ˈ঺ϔϾᏺ᳝‘g’ࠡ㓔DŽ䖭ϔ⏋хᇚᕜ ᖿ㒧ᴳˈ಴Ў1998ᑈৢgiোⷕⱘՓ⫼ᇚ㹿ㅔ࣪DŽᇍѢḌ㣋䝌ᑣ߫ˈ䖬ᇚ᳝ϔϾᑣ߫ᷛ䆚ヺˈ ᏺ᳝⠜ᴀো៤ߚˈҹঞϔϾ೎ᅮⱘᑣ߫ᷛ䆚ヺ˄៪Ẕ㋶ো˅DŽ *********************** ೼䖛⏵ᯊᳳˈ᠔᳝ⱘᑣ߫ᷛ䆚ヺ䳔㽕ৠᯊᄬ೼ˈԚPIDᇚ᳔㒜㹿প⍜DŽProtein_id˄៪Ḍ㣋䝌 ᑣ᭄߫᥂ᑧ⫳៤ⱘ㲟ⱑ䋼Ẕ㋶ো˅ᇚ⬅Ͼᄫ↡ࡴԡ᭄ᄫᵘ៤ˈৢ䎳ϔϾহো੠঺ϔϾᭈ ᭄ˈᰒ⼎䖭Ͼ㲟ⱑ䋼ᑣ߫ⱘ⠜ᴀDŽᔧᑣ߫᳈ᮄᯊˈ䖭ϔ᭄ᄫгᇚ๲ࡴˈህ䈵gi䙷ḋDŽ䖭ḋབ ᵰᮻ⠜ᴀᄬ೼ⱘ䆱⫼᠋ᇚৃҹㅔऩഄ䗮䖛⠜ᴀোᴹᶹᡒҹࠡ⠜ᴀⱘ䆄ᔩDŽ⇼෎䝌ᑣ߫ᰃḌ㣋 䝌ᑣ᭄߫᥂ᑧ᳔䞡㽕ⱘࡃѻકПϔˈ᠔ҹᏆ㒣᳝໻䞣ⱘ࡯ࡾᴹֱ䆕݊ℷ⹂ᗻ˄བᵰᇍGenBank 䆄ᔩ䖯㸠㗏䆥ˈᖙ乏ᡒࠄℷ⹂ⱘⳌԡˈҹᣛᇐᇍ㒭ᅮᑣ߫ⱘ㗏䆥˅DŽ䖭ѯᑣ߫ᦤկњ㲟ⱑ䋼 ᭄᥂ᑧⱘॳྟᴤ᭭ˈгᦤկњ᳔᳝ᬜⱘথ⦄ᮄ෎಴ⱘᮍ⊩˄㾕㄀ゴ˅DŽᔧ⊼䞞ৃҹ㹿䆕ᅲ ㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ 义ⷕˈ9/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第二章 Gen Bank序列数据库 页码,10 时,它们就有附加值,所以正确的标识符是十分重要的。产物名称或蛋白质名称有可能是主 观的,并且经常是通过与其它未充分注释的序列的微弱相似性而赋予的,而且它们本身也常 常没有被充分注释。所以用户必须意识到信息缺乏的恶性循环。当一个记录描述了一个单独 基因或全长mRNA序列,并伴有已发表的文章时,往往可以由此获得充分的信息。这样的记录 通常是一个研究组的工作成果,这个组对基因的细节己进行了一定的研究。幸运的是,已有 许多这类记录在数据库中,构成了研究者应用这些数据的知识基础 基因 最近才加入的基因特性实际上自数据库开始时就已经隐含地使用了,它以前经常作为一个基 因限定词出现在一些其它特性中。将其作为一个单独的特性来显式地使用,极大地便利了根 据这一特性来注释的其它数据成分的生成和确定过程。这个新特性也统一了生物学家对 GenBank记录中基因特性的不同定义和使用方法。 虽然很明显不会所有的生物学家都同意关于基因的一个统一定义,但作为最简单的说明,基 因代表了DNA的一个可以用一个名字标识的片段(例如附录2.1的例子中的CHP基因),或经 常在基因组测序计划中使用的数字(例如 GenBank检索号U95973中的T19016.1)。基因特性允 许用户看到感兴趣的基因片段,并在某些情况下作出选择。 RNA 不同的结构RNA可以用来注释基因组序列中的RNA(例如mRNA、rRNA、tRNA)。虽然目前这些 还没有象蛋白质序列那样分成单独的记录,但这些序列(尤其是mRNA)对我们对于基因组高 级构成的理解是十分重要的。RNA有特别的意义,因为它们是可以在实验室中被观测的生物对 象。因此,它们是有关基因组的极有价值的信息片段,并且经常是它们自身的mRNA记录。这 与启动子不同,启动子没有什么特征,不均匀地分布在大量记录中,很难从生物角度定义, 并且实际上对于 Gen Bank记录没有什么用处。基因组记录中的RNA特性代表了一个生物分子存 在的实验依据。 小结 DDBJ/EMBL/ Gen Bank数据库是最常用的核苷酸及蛋白质序列数据库,它储存了大量的公共分子 生物学信息。理解各个数据成分的含义,知道如何从记录中提取生物学知识,将极大有助于 我们对于这个文件格式的理解。虽然这个数据库从来也不是为用计算机读取而设计的,但已 经有一批热衷于计算机的生物学家用整套的计算机程序来对记录进行分析、转换和信息抽取 工作。DDBN/ EMBL/Gen Bank在国际合作DNA序列数据库内部维护一种数据交换格式,这在近几 年可能不会改变,尽管存在着象ASN.1那样更好的,信息更丰富的其它选择。但现在的安排也 有好处,这是一个便于阅读的简单格式,能代表它希望描述的生物背景知识 第二章中涉及的互联网资源 参考文献 附录:数据库文件格式 file://E:wcb\生物信息学(中译本)\第二章 GenBank序列数据库.htm 2005-1-18

ᯊˈᅗӀህ᳝䰘ࡴˈؐ᠔ҹℷ⹂ⱘᷛ䆚ヺᰃकߚ䞡㽕ⱘDŽѻ⠽ৡ⿄៪㲟ⱑ䋼ৡ⿄᳝ৃ㛑ᰃЏ 㾖ⱘˈᑊϨ㒣ᐌᰃ䗮䖛Ϣ݊ᅗ᳾ߚܙ⊼䞞ⱘᑣ߫ⱘᖂᔅⳌԐᗻ㗠䌟ќⱘˈ㗠ϨᅗӀᴀ䑿гᐌ ᐌ≵᳝㹿ߚܙ⊼䞞DŽ᠔ҹ⫼᠋ᖙ乏ᛣ䆚ࠄֵᙃ㔎Уⱘᙊᗻᕾ⦃DŽᔧϔϾ䆄ᔩᦣ䗄њϔϾऩ⣀ ෎಴៪ܼ䭓mRNAᑣ߫ˈᑊԈ᳝Ꮖথ㸼ⱘ᭛ゴᯊˈᕔᕔৃҹ⬅ℸ㦋ᕫߚܙⱘֵᙃDŽ䖭ḋⱘ䆄ᔩ 䗮ᐌᰃϔϾⷨお㒘ⱘᎹ԰៤ᵰˈ䖭Ͼ㒘ᇍ෎಴ⱘ㒚㡖Ꮖ䖯㸠њϔᅮⱘⷨおDŽᑌ䖤ⱘᰃˈᏆ᳝ 䆌໮䖭㉏䆄ᔩ೼᭄᥂ᑧЁˈᵘ៤њⷨお㗙ᑨ⫼䖭ѯ᭄᥂ⱘⶹ䆚෎⸔DŽ ෎಴ ᳔䖥ᠡࡴܹⱘ෎಴⡍ᗻᅲ䰙Ϟ㞾᭄᥂ᑧᓔྟᯊህᏆ㒣䱤৿ഄՓ⫼њˈᅗҹࠡ㒣ᐌ԰ЎϔϾ෎ ಴䰤ᅮ䆡ߎ೼⦃ϔѯ݊ᅗ⡍ᗻЁDŽᇚ݊԰ЎϔϾऩ⣀ⱘ⡍ᗻᴹᰒᓣഄՓ⫼ˈᵕ໻ഄ߽֓њḍ ᥂䖭ϔ⡍ᗻᴹ⊼䞞ⱘ݊ᅗ᭄᥂៤ߚⱘ⫳៤੠⹂ᅮ䖛⿟DŽ䖭Ͼᮄ⡍ᗻг㒳ϔњ⫳⠽ᄺᆊᇍ GenBank䆄ᔩЁ෎಴⡍ᗻⱘϡৠᅮН੠Փ⫼ᮍ⊩DŽ 㱑✊ᕜᯢᰒϡӮ᠔᳝ⱘ⫳⠽ᄺᆊ䛑ৠᛣ݇Ѣ෎಴ⱘϔϾ㒳ϔᅮНˈԚ԰Ў᳔ㅔऩⱘ䇈ᯢˈ෎ ಴ҷ㸼њDNAⱘϔϾৃҹ⫼ϔϾৡᄫᷛ䆚ⱘ⠛↉˄՟བ䰘ᔩ2.1ⱘ՟ᄤЁⱘCHIP෎಴˅ˈ៪㒣 ᐌ೼෎಴㒘⌟ᑣ䅵ߦЁՓ⫼ⱘ᭄ᄫ˄՟བGenBankẔ㋶োU95973ЁⱘT19D16.1˅DŽ෎಴⡍ᗻܕ 䆌⫼᠋ⳟࠄ݈ᛳ䍷ⱘ෎಴⠛↉ˈᑊ೼ᶤѯᚙމϟ԰ߎ䗝ᢽDŽ RNA ϡৠⱘ㒧ᵘRNAৃҹ⫼ᴹ⊼䞞෎಴㒘ᑣ߫ЁⱘRNA˄՟བmRNAǃrRNAǃtRNA˅DŽ㱑✊Ⳃࠡ䖭ѯ 䖬≵᳝䈵㲟ⱑ䋼ᑣ߫䙷ḋߚ៤ऩ⣀ⱘ䆄ᔩˈԚ䖭ѯᑣ߫˄ᇸ݊ᰃmRNA˅ᇍ៥ӀᇍѢ෎಴㒘催 㑻ᵘ៤ⱘ⧚㾷ᰃकߚ䞡㽕ⱘDŽRNA᳝⡍߿ⱘᛣНˈ಴ЎᅗӀᰃৃҹ೼ᅲ偠ᅸЁ㹿㾖⌟ⱘ⫳⠽ᇍ 䈵DŽ಴ℸˈᅗӀᰃ᳝݇෎಴㒘ⱘᵕ᳝Ӌؐⱘֵᙃ⠛↉ˈᑊϨ㒣ᐌᰃᅗӀ㞾䑿ⱘmRNA䆄ᔩDŽ䖭 Ϣਃࡼᄤϡৠˈਃࡼᄤ≵᳝ҔМ⡍ᕕˈϡഛࣔഄߚᏗ೼໻䞣䆄ᔩЁˈᕜ䲒Ң⫳⠽㾦ᑺᅮНˈ ᑊϨᅲ䰙ϞᇍѢGenBank䆄ᔩ≵᳝ҔМ⫼໘DŽ෎಴㒘䆄ᔩЁⱘRNA⡍ᗻҷ㸼њϔϾ⫳⠽ߚᄤᄬ ೼ⱘᅲ偠ձ᥂DŽ ᇣ㒧 DDBJ/EMBL/GenBank᭄᥂ᑧᰃ᳔ᐌ⫼ⱘḌ㣋䝌ঞ㲟ⱑ䋼ᑣ᭄߫᥂ᑧˈᅗټᄬњ໻䞣ⱘ݀݅ߚᄤ ⫳⠽ᄺֵᙃDŽ⧚㾷৘Ͼ᭄᥂៤ߚⱘ৿Нˈⶹ䘧བԩҢ䆄ᔩЁᦤপ⫳⠽ᄺⶹ䆚ˈᇚᵕ໻᳝ࡽѢ ៥ӀᇍѢ䖭Ͼ᭛ӊḐᓣⱘ⧚㾷DŽ㱑✊䖭Ͼ᭄᥂ᑧҢᴹгϡᰃЎ⫼䅵ㅫᴎ䇏প㗠䆒䅵ⱘˈԚᏆ 㒣᳝ϔᡍ⛁㹋Ѣ䅵ㅫᴎⱘ⫳⠽ᄺᆊ⫼ᭈ༫ⱘ䅵ㅫᴎ⿟ᑣᴹᇍ䆄ᔩ䖯㸠ߚᵤǃ䕀ᤶ੠ֵᙃᢑপ Ꮉ԰DŽDDBN/EMBL/GenBank೼೑䰙ড়԰DNAᑣ᭄߫᥂ᑧݙ䚼㓈ᡸϔ⾡᭄᥂ѸᤶḐᓣˈ䖭೼䖥޴ ᑈৃ㛑ϡӮᬍবˈሑㅵᄬ೼ⴔ䈵ASN.1䙷ḋ᳈དⱘˈֵᙃ᳈Єᆠⱘ݊ᅗ䗝ᢽDŽԚ⦄೼ⱘᅝᥦг ᳝ད໘ˈ䖭ᰃϔϾ֓Ѣ䯙䇏ⱘㅔऩḐᓣˈ㛑ҷ㸼ᅗᏠᳯᦣ䗄ⱘ⫳⠽㚠᱃ⶹ䆚DŽ ㄀ѠゴЁ⍝ঞⱘѦ㘨㔥䌘⑤ ************ খ㗗᭛⤂ 䰘ᔩ˖᭄᥂ᑧ᭛ӊḐᓣ ㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ 义ⷕˈ10/11 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѡゴ GenBankᑣ᭄߫᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

共11页,试读已结束,阅读完整版请下载
刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档