中国高校课件下载中心 》 教学资源 》 大学文库

《生物信息学》课程教学资源(中译本)第五章 生物数据库的信息检索

文档信息
资源类别:文库
文档格式:PDF
文档页数:8
文件大小:169.91KB
团购合买:点击进入团购
内容简介
如第二章所述,建立 GenBank是为了适应人类基应组工程等科学研究产生的大量序列数据的信 息爆炸。总的来说, GenBank是带有注释的公用DNA蛋白质序列的集合。写作本书时, GenBank中有160万条链的纪录,含超过10亿个核苷酸碱基。向GenBank存入新的序列有两种方 法:通过 Sequi nBankl和等工具直接提交,或通过国际核苷酸序列数据库的组成部分 GenBank,eml,和DDB等相互之间传递数据的共享协议。
刷新页面文档预览

第五章生物数据库的信息检索 页 第五章生物数据库的信息检索 Andreas d baxevanis 国家人类基因组研究学会,基因组技术部 国家保健学会 马里兰州, Bethesda 如第二章所述,建立 Gen Bank是为了适应人类基应组工程等科学研究产生的大量序列数据的信 息爆炸。总的来说, Gen Bank是带有注释的公用DNA,蛋白质序列的集合。写作本书时 Gen Bank中有160万条链的纪录,含超过10亿个核苷酸碱基。向 Gen Bank存入新的序列有两种方 法:通过 Sequi n和 Bankl t等工具直接提交,或通过国际核苷酸序列数据库的组成部分 Gen Bank,EMBL,和DDBJ等相互之间传递数据的共享协议。关于提交工具及这种数据协作的性 质的进一步的信息参见第14章。 Gen Bank或其他任何有关的生物数据库必须容易查找而且查出的记录的格式便于使用??,否则 就不会有很大的用处。??另外,因为总的来说生物学界还不能有效的利用隐藏在这些上百 万的碱基及氨基酸之中的信息,排序的工作也没有很大的用处。为了使这些数据对于一般的 使用者容易利用而做过很多努力,这些工作的结果一一程序和界面是本章的重点。因为这些 更通用的数据库与生物学家通常使用的那些数据库相差很远,所以本章的论述集中在如何查 询NCBI数据库上,但是本章同时也注意到一些较小的较专门的数据库,它们提供的信息在 Gen Bank中未必能找到。 检索数据库记录:检索服务器 查询NCB数据库最简单的方法可能是使用名为 Retrieve的邮件服务器。检索服务器通过简单 的关键字搜索来查询记录。一次可以检索一个可用的数据库,可以是简单的(只含有一个关 键字)或复合的(含有由逻辑算符组合的多个关键字)。服务器的地址为 retri eveancbi.nlm.nih.gov。同大多数邮件服务器一样,如果向服务器发送一封正文只含一 个单词Help的邮件将会返回一个关于如何使用检索服务器的详尽的解释。 回顾第一章,使用一个邮件服务器时,向服务器发送的消息必须是严格的符合服务器可以理 解的指令格式。如下例所示: 此处,消息的标题与服务器无关。由于返回查询结果时将会带有原来的标题,因此发送多条 消息给服务器的时候加上一个描述性的标题有助于使用者区分不同的查询结果。消息正文以 名为 DATALIB的査询参数开始,该参数表示应检索那一个可用的数据库(这里是查询SWSS PROT)。标志“ BEGIN”表示没有别的检索参数了,紧接着的词都是搜索条件。可以用逻辑符 号AND,OR,及№0T组合检索条件;圆括用于分隔检索条件;引号表示必须组合在一起的短 语。本例中,服务器将会返回所有含有短语 hi stone h1"且含有单词 Saccharomyces及 Schi zosaccharomyces之一的记录。如果不用逻辑运算符及分隔符(即,检索条件为 hi stone H1 Saccharomyces Schi zosaccharomyces),则在条件之间将会自动加上0R,这不符合使用 者的要求。这个复合查询的结果显示于图5.1。 通常,提交的检索范围过大,返回的记录数远多于对查询者有用的数目。例如,前面的检索 如果没写种类名的话将会失败,因为含有" hi stone h1"的记录太多。况且,即使这条短语并 不是某条记录的真正主题,它也有可能出现在该记录之中:例如,这个短语是某篇论文的标 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

㄀Ѩゴ ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ Andreas D Baxevanis ೑ᆊҎ㉏෎಴㒘ⷨおᄺӮˈ෎಴㒘ᡔᴃ䚼 ೑ᆊֱعᄺӮ 偀䞠݄ᎲˈBethesda བ㄀Ѡゴ᠔䗄ˈᓎゟGenBankᰃЎњ䗖ᑨҎ㉏෎ᑨ㒘Ꮉ⿟ㄝ⾥ᄺⷨおѻ⫳ⱘ໻䞣ᑣ᭄߫᥂ⱘֵ ᙃ⟚⚌DŽᘏⱘᴹ䇈ˈGenBankᰃᏺ᳝⊼䞞ⱘ݀⫼DNA,㲟ⱑ䋼ᑣ߫ⱘ䲚ড়DŽݭ԰ᴀкᯊˈ GenBankЁ᳝160ϛᴵ䫒ⱘ㑾ᔩˈ৿䍙䖛10ғϾḌ㣋䝌⺅෎DŽ৥GenBankᄬܹᮄⱘᑣ᳝߫ϸ⾡ᮍ ⊩˖䗮䖛Sequin੠BankItㄝᎹ݋Ⳉ᥹ᦤѸˈ៪䗮䖛೑䰙Ḍ㣋䝌ᑣ᭄߫᥂ᑧⱘ㒘៤䚼ߚ GenBankˈEMBLˈ੠DDBJㄝⳌѦП䯈Ӵ䗦᭄᥂ⱘ݅ѿण䆂DŽ݇ѢᦤѸᎹ݋ঞ䖭⾡᭄᥂ण԰ⱘᗻ 䋼ⱘ䖯ϔℹⱘֵᙃখ㾕㄀14ゴDŽ GenBank៪݊Ҫӏԩ᳝݇ⱘ⫳⠽᭄᥂ᑧᖙ乏ᆍᯧᶹᡒ㗠Ϩᶹߎⱘ䆄ᔩⱘḐᓣ֓ѢՓ⫼??ˈ৺߭ ህϡӮ᳝ᕜ໻ⱘ⫼໘Dޞ˛঺໪ˈ಴Ўᘏⱘᴹ䇈⫳⠽ᄺ⬠䖬ϡ㛑᳝ᬜⱘ߽⫼䱤㮣೼䖭ѯϞⱒ ϛⱘ⺅෎ঞ⇼෎䝌ПЁⱘֵᙃˈᥦᑣⱘᎹ԰г≵᳝ᕜ໻ⱘ⫼໘DŽЎњՓ䖭ѯ᭄᥂ᇍѢϔ㠀ⱘ Փ⫼㗙ᆍᯧ߽⫼㗠خ䖛ᕜ໮࡯ࡾˈ䖭ѯᎹ԰ⱘ㒧ᵰˉˉ⿟ᑣ੠⬠䴶ᰃᴀゴⱘ䞡⚍DŽ಴Ў䖭ѯ ᳈䗮⫼ⱘ᭄᥂ᑧϢ⫳⠽ᄺᆊ䗮ᐌՓ⫼ⱘ䙷ѯ᭄᥂ᑧⳌᏂᕜ䖰ˈ᠔ҹᴀゴⱘ䆎䗄䲚Ё೼བԩᶹ 䆶NCBI᭄᥂ᑧϞˈԚᰃᴀゴৠᯊг⊼ᛣࠄϔѯ䕗ᇣⱘ䕗ϧ䮼ⱘ᭄᥂ᑧˈᅗӀᦤկⱘֵᙃ೼ GenBankЁ᳾ᖙ㛑ᡒࠄDŽ Ẕ㋶᭄᥂ᑧ䆄ᔩ˖Ẕ㋶᳡ࡵ఼ ᶹ䆶NCBI᭄᥂ᑧ᳔ㅔऩⱘᮍ⊩ৃ㛑ᰃՓ⫼ৡЎRetrieveⱘ䚂ӊ᳡ࡵ఼DŽẔ㋶᳡ࡵ఼䗮䖛ㅔऩ ⱘ݇䬂ᄫ᧰㋶ᴹᶹ䆶䆄ᔩDŽϔ⃵ৃҹẔ㋶ϔϾৃ⫼ⱘ᭄᥂ᑧˈৃҹᰃㅔऩⱘ˄া৿᳝ϔϾ݇ 䬂ᄫǓ៪໡ড়ⱘ˄৿᳝⬅䘏䕥ㅫヺ㒘ড়ⱘ໮Ͼ݇䬂ᄫ˅DŽ᳡ࡵ఼ⱘഄഔЎ retrieve@ncbi.nlm.nih.govDŽৠ໻໮᭄䚂ӊ᳡ࡵ఼ϔḋˈབᵰ৥᳡ࡵ఼থ䗕ϔᇕℷ᭛া৿ϔ Ͼऩ䆡Helpⱘ䚂ӊᇚӮ䖨ಲϔϾ݇ѢབԩՓ⫼Ẕ㋶᳡ࡵ఼ⱘ䆺ሑⱘ㾷䞞DŽ ಲ乒㄀ϔゴˈՓ⫼ϔϾ䚂ӊ᳡ࡵ৥ˈᯊ఼᳡ࡵ఼থ䗕ⱘ⍜ᙃᖙ乏ᰃϹḐⱘヺড়᳡ࡵৃ఼ҹ⧚ 㾷ⱘᣛҸḐᓣDŽབϟ՟᠔⼎˖ ℸ໘ˈ⍜ᙃⱘᷛ乬Ϣ᳡ࡵ఼᮴݇DŽ⬅Ѣ䖨ಲᶹ䆶㒧ᵰᯊᇚӮᏺ᳝ॳᴹⱘᷛ乬ˈ಴ℸথ䗕໮ᴵ ⍜ᙃ㒭᳡ࡵ఼ⱘᯊࡴ׭ϞϔϾᦣ䗄ᗻⱘᷛ乬᳝ࡽѢՓ⫼㗙ऎߚϡৠⱘᶹ䆶㒧ᵰDŽ⍜ᙃℷ᭛ҹ ৡЎDATALIBⱘᶹ䆶খ᭄ᓔྟˈ䆹খ᭄㸼⼎ᑨẔ㋶䙷ϔϾৃ⫼ⱘ᭄᥂ᑧ˄䖭䞠ᰃᶹ䆶SWISSˉ PROT˅DŽᷛᖫ“BEGIN”㸼⼎≵᳝߿ⱘẔ㋶খ᭄њˈ㋻᥹ⴔⱘ䆡䛑ᰃ᧰㋶ᴵӊDŽৃҹ⫼䘏䕥ヺ োANDˈORˈঞNOT㒘ড়Ẕ㋶ᴵӊ˗೚ᣀ⫼Ѣߚ䱨Ẕ㋶ᴵӊ˗ᓩো㸼⼎ᖙ乏㒘ড়೼ϔ䍋ⱘⷁ 䇁DŽᴀ՟Ёˈ᳡ࡵ఼ᇚӮ䖨ಲ᠔᳝৿᳝ⷁ䇁"histone H1"Ϩ৿᳝ऩ䆡Saccharomycesঞ SchizosaccharomycesПϔⱘ䆄ᔩDŽབᵰϡ⫼䘏䕥䖤ㅫヺঞߚ䱨ヺ˄ेˈẔ㋶ᴵӊЎhistone H1 Saccharomyces SchizosaccharomycesǓˈ߭೼ᴵӊП䯈ᇚӮ㞾ࡴࡼϞORˈ䖭ϡヺড়Փ⫼ 㗙ⱘ㽕∖DŽ䖭Ͼ໡ড়ᶹ䆶ⱘ㒧ᵰᰒ⼎Ѣ೒5.1DŽ 䗮ᐌˈᦤѸⱘẔ㋶㣗ೈ䖛໻ˈ䖨ಲⱘ䆄ᔩ᭄䖰໮Ѣᇍᶹ䆶㗙᳝⫼ⱘ᭄ⳂDŽ՟བˈࠡ䴶ⱘẔ㋶ བᵰ≵ݭ辵㉏ৡⱘ䆱ᇚӮ༅䋹ˈ಴Ў৿᳝"histone H1"ⱘ䆄ᔩ໾໮DŽމϨˈेՓ䖭ᴵⷁ䇁ᑊ ϡᰃᶤᴵ䆄ᔩⱘⳳℷЏ乬ˈᅗг᳝ৃ㛑ߎ೼⦃䆹䆄ᔩПЁ˖՟བˈ䖭Ͼⷁ䇁ᰃᶤ㆛䆎᭛ⱘᷛ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ 义ⷕˈ1/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索 页码,2/8 的一部分,但论文是讨论别的序列的。当査到的记录太多无法处理的时候,将会产生错 误。输出行数及检索到的记录数都有上限;这主要是由于很多电子邮件系统不能处理太大的 电子邮件信息,而且过多的泛泛的査询只会降低系统的速度。为了提高检索质量,用户可以 设定额外的检索参数;用于改变行数或记录数的限制,或只返回记录的标题而不是全部列 出。用户也可以限制实际检索的域。回到上面的例子,如果检索条件以" hi stone h1"[DEF]开 始,则表示仅在记录的定义行中查找这个短语。可以在检索帮助文档中找到检索参数和域限 制条件的完整的清单,以及可以检索的数据库的列表 图5.1提交检索服务器的一个复合查询的结果。注意检索在SMSS一PR0T和更新过的SWSS PROT上运行共两次(后者含有上一个数据库主版本之后的新的记录)。此处提交的查询只返 回了一条记录。 集成信息检索: ENTREZ系统 检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到 记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明 显,这些大量的公用数据库之间存在着逻辑联系。例如, MEDLINE中的一篇论文可能描述一个 基因的序列,该基因又在 GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白 质数据库中。这种蛋白质的三维结构可能又是己知的,结构的数据可能出现在结构数据库 中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。 在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学 实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为 Entrez的分子检索 系统。它由NCB|开发和维护, Entrez在所有的主要的数据库计算机平台上均可使用,允许对 PubMed(MED№E)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成 的访问。全部信息只需经过一次查询。 Entrez能够通过数据库之间的两种类型联系:相近性 和硬连接来提供集成的信息检索。 相近性 相近性联系着一个给定的数据库之内的记录。使用者在查看MEDL|NE中某条记录时可以要求 Entrez"找出所有类似的论文”,类似的,使用者在查看一个序列的同时可以要求 Entrez"找出 所有与这个序列类似的序列"。一个数据库之内的相近性关系是建立在对相似性的统计计算上 的 BLAST序列数据可以用基本局部对比搜索工具( Basi c Local Al i gnment Search Tool,即 简记为HSPs),即能够无缺口的对齐且达到一定的分数的成对的序列。第7章详细的讨论了 BLAST算法系列及它们的应用。 VAST几套坐标数据之间的比较采用一种名为ⅥAST的基于向量的算法。VAST即 Vector Al i gnment Search Tool( Madej等,195; Gi brat等,1996)。VAST的比较有三个步骤: 1.第一,在坐标数据的基础上,标出所有的构成蛋白质的核心部分的α螺旋和β片层。然后根 据这些二级结构单位的位置计算向量。以下的步骤使用这些向量来做对比而不是整个一套坐 标 2.然后,算法试图最佳的匹配这些向量,寻找类型和相对方位相同的成对的结构单位,并且 在这些单位之间还要有同样的连接方式。其目标在于识别高度相似的″核心结构",这些成对 结构的匹配性要比随机的选择蛋白质相互比较得到的高得多。 3.最后,在每个残基位置上使用蒙特一卡洛方法对结构的排列进行优化。 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

乬ⱘϔ䚼ߚˈԚ䆎᭛ᰃ䅼䆎߿ⱘᑣ߫ⱘDŽᔧᶹࠄⱘ䆄ᔩ໾໮᮴⊩໘⧚ⱘᯊ׭ˈᇚӮѻ⫳䫭 䇃DŽ䕧ߎ㸠᭄ঞẔ㋶ࠄⱘ䆄ᔩ᭄䛑᳝Ϟ䰤˗䖭Џ㽕ᰃ⬅Ѣᕜ໮⬉ᄤ䚂ӊ㋏㒳ϡ㛑໘⧚໾໻ⱘ ⬉ᄤ䚂ӊֵᙃˈ㗠Ϩ䖛໮ⱘ⊯⊯ⱘᶹ䆶াӮ䰡Ԣ㋏㒳ⱘ䗳ᑺDŽЎњᦤ催Ẕ㋶䋼䞣ˈ⫼᠋ৃҹ 䆒ᅮ乱໪ⱘẔ㋶খ᭄˗⫼Ѣᬍব㸠᭄៪䆄ᔩ᭄ⱘ䰤ࠊ៪ˈা䖨ಲ䆄ᔩⱘᷛ乬㗠ϡᰃܼ䚼߫ ߎDŽ⫼᠋гৃҹ䰤ࠊᅲ䰙Ẕ㋶ⱘඳDŽಲࠄϞ䴶ⱘ՟ᄤˈབᵰẔ㋶ᴵӊҹ"histone H1"[DEF]ᓔ ྟˈ߭㸼⼎ҙ೼䆄ᔩⱘᅮН㸠Ёᶹᡒ䖭Ͼⷁ䇁DŽৃҹ೼Ẕ㋶ᐂࡽ᭛ḷЁᡒࠄẔ㋶খ᭄੠ඳ䰤 ࠊᴵӊⱘᅠᭈⱘ⏙ऩˈҹঞৃҹẔ㋶ⱘ᭄᥂ᑧⱘ߫㸼. ೒5.1 ᦤѸẔ㋶᳡ࡵ఼ⱘϔϾ໡ড়ᶹ䆶ⱘ㒧ᵰDŽ⊼ᛣẔ㋶೼SWISSˉPROT੠᳈ᮄ䖛ⱘSWISSˉ PROTϞ䖤㸠݅ϸ⃵˄ৢ㗙৿᳝ϞϔϾ᭄᥂ᑧЏ⠜ᴀПৢⱘᮄⱘ䆄ᔩ˅DŽℸ໘ᦤѸⱘᶹ䆶া䖨 ಲњϔᴵ䆄ᔩDŽ 䲚៤ֵᙃẔ㋶˖ENTREZ㋏㒳 Ẕ㋶᳡ࡵৃ఼ҹᇍ᳝ⳂᷛⱘẔ㋶䆄ᔩˈԚᅗЏ㽕ⱘ㔎䱋೼Ѣϔ⃵া㛑ҢϔϾ᭄᥂ᑧЁẔ㋶ࠄ 䆄ᔩ˗ᛇᇍϔᡍ᭄᥂ᑧ䖯㸠Ẕ㋶ⱘ⫼᠋ᖙ乏Ў↣ϔϾⳂ᭄ᷛ᥂ᑧ߿ߚথߎϔ⃵⬇䇋DŽᕜᯢ ᰒˈ䖭ѯ໻䞣ⱘ݀⫼᭄᥂ᑧП䯈ᄬ೼ⴔ䘏䕥㘨㋏DŽ՟བˈMEDLINEЁⱘϔ㆛䆎᭛ৃ㛑ᦣ䗄ϔϾ ෎಴ⱘᑣ߫ˈ䆹෎಴জ೼GenBankЁߎ⦃DŽ݊Ḍ㣋䝌ᑣ߫᠔㓪ⷕⱘ㲟ⱑ䋼ⱘᑣ߫জᄬᬒ೼㲟ⱑ 䋼᭄᥂ᑧЁDŽ䖭⾡㲟ⱑ䋼ⱘϝ㓈㒧ᵘৃ㛑জᰃᏆⶹⱘˈ㒧ᵘⱘ᭄᥂ৃ㛑ߎ೼⦃㒧ᵘ᭄᥂ᑧ ЁDŽ᳔ৢˈ෎಴ৃ㛑ᅮԡ೼ᶤᴵᶧ㡆ԧⱘᶤϾऎඳˈ䖭㉏ֵᙃᄬᬒ೼೒䈅᭄᥂ᑧЁDŽ ೼䖭ѯ⫳⠽ᄺϞⱘ㘨㋏ⱘ෎⸔Ϟᓔথњϔ⾡ᮍ⊩˗ৃҹ䗮䖛ᅗᶹ䆶᠔᳝Ϣᶤϔ⡍⅞ⱘ⫳⠽ᄺ ᅲԧ᳝݇ⱘ᠔ֵ᳝ᙃˈ㗠ϡᖙᣝ⃵ᑣᶹ䆶ߚゟⱘ᭄᥂ᑧDŽ䖭ህᰃϔϾৡЎEntrezⱘߚᄤẔ㋶ ㋏㒳DŽᅗ⬅NCBIᓔথ੠㓈ᡸˈEntrez೼᠔᳝ⱘЏ㽕ⱘ᭄᥂ᑧ䅵ㅫᴎᑇৄϞഛৃՓ⫼ˈܕ䆌ᇍ PubMed˄MEDINE˅ⱘ䆄ᔩˈḌ㣋䝌੠㲟ⱑ䋼ⱘᑣ᭄߫᥂ˈϝ㓈㒧ᵘֵᙃˈ೒䈅ֵᙃ䖯㸠䲚៤ ⱘ䆓䯂DŽܼ䚼ֵᙃা䳔㒣䖛ϔ⃵ᶹ䆶DŽEntrez㛑໳䗮䖛᭄᥂ᑧП䯈ⱘϸ⾡㉏ൟ㘨㋏˖Ⳍ䖥ᗻ ੠⹀䖲᥹ᴹᦤկ䲚៤ⱘֵᙃẔ㋶DŽ Ⳍ䖥ᗻ Ⳍ䖥ᗻ㘨㋏ⴔϔϾ㒭ᅮⱘ᭄᥂ᑧПݙⱘ䆄ᔩDŽՓ⫼㗙೼ᶹⳟMEDLINEЁᶤᴵ䆄ᔩᯊৃҹ㽕∖ Entrez"ᡒߎ᠔᳝㉏Ԑⱘ䆎᭛ˈ㉏ԐⱘˈՓ⫼㗙೼ᶹⳟϔϾᑣ߫ⱘৠᯊৃҹ㽕∖Entrez"ᡒߎ ᠔᳝Ϣ䖭Ͼᑣ߫㉏Ԑⱘᑣ߫DŽϔϾ᭄᥂ᑧПݙⱘⳌ䖥ᗻ݇㋏ᰃᓎゟ೼ᇍⳌԐᗻⱘ㒳䅵䅵ㅫϞ ⱘ˖ BLASTᑣ᭄߫᥂ৃҹ⫼෎ᴀሔ䚼ᇍ↨᧰㋶Ꮉ݋˄Basic Local Alignment Search Tool,े BLAST˅ⳌѦ↨䕗DŽ䖭Ͼㅫ⊩䆩೒ᡒࠄ催ᑺऍ䜡ⱘ⠛↉ᇍ˄high-scoring segment pairs, ㅔ䆄ЎHSPs˅ˈे㛑໳᮴㔎ষⱘᇍ唤Ϩ䖒ࠄϔᅮⱘߚ᭄ⱘ៤ᇍⱘᑣ߫DŽ㄀ゴ䆺㒚ⱘ䅼䆎њ BLASTㅫ⊩㋏߫ঞᅗӀⱘᑨ⫼DŽ VAST޴༫ത᭄ᷛ᥂П䯈ⱘ↨䕗䞛⫼ϔ⾡ৡЎVASTⱘ෎Ѣ৥䞣ⱘㅫ⊩DŽVASTेVector Alignment Search Tool˄Madejㄝˈ1995˗Gibratㄝˈ1996˅DŽVASTⱘ↨䕗᳝ϝϾℹ偸˖ 1.㄀ϔˈ೼ത᭄ᷛ᥂ⱘ෎⸔Ϟˈᷛߎ᠔᳝ⱘᵘ៤㲟ⱑ䋼ⱘḌᖗ䚼ߚⱘĮ㶎ᮟ੠ȕ⠛ሖDŽ✊ৢḍ ᥂䖭ѯѠ㑻㒧ᵘऩԡⱘԡ㕂䅵ㅫ৥䞣DŽҹϟⱘℹ偸Փ⫼䖭ѯ৥䞣ᴹخᇍ↨㗠ϡᰃᭈϾϔ༫ത ᷛDŽ 2.✊ৢˈㅫ⊩䆩೒᳔Շⱘऍ䜡䖭ѯ৥䞣ˈᇏᡒ㉏ൟ੠ⳌᇍᮍԡⳌৠⱘ៤ᇍⱘ㒧ᵘऩԡˈᑊϨ ೼䖭ѯऩԡП䯈䖬㽕᳝ৠḋⱘ䖲᥹ᮍᓣDŽ݊Ⳃᷛ೼Ѣ䆚߿催ᑺⳌԐⱘḌᖗ㒧ᵘˈ䖭ѯ៤ᇍ 㒧ᵘⱘऍ䜡ᗻ㽕↨䱣ᴎⱘ䗝ᢽ㲟ⱑ䋼ⳌѦ↨䕗ᕫࠄⱘ催ᕫ໮DŽ 3.᳔ৢˈ೼↣Ͼ⅟෎ԡ㕂ϞՓ⫼㩭⡍ˉव⋯ᮍ⊩ᇍ㒧ᵘⱘᥦ߫䖯㸠Ӭ࣪DŽ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ 义ⷕˈ2/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索 页码,3/8 使用这个方法有可能找到一些序列相似性不明显的蛋白质之间的结构上的关系(可能在功能 上也有关系)。最后的对齐结果不一定是全局的,可能在不同的蛋白质的单独的结构域之间 配对。 需要重点注意的是ⅥAST不是确定结构相似性的最好办法,因为还可以利用三维坐标文件中的 其它信息来做更进一步的修正,如考虑侧链的位置及侧链之间的相互作用的热力学特点。而 把结构压缩成一列矢量必然会导致信息的丢失。然而,考虑到这个问题的数量级一即需要做 的成对比较的次数一及采用更高级的方法所需要的计算能力和时间,VAST至少为结构相似性 问题提供了一个简单和快速的答案。关于别的基于X射线或№R坐标数据的结构预测方法可以 加权的关键词序列数据对比问题与 MEDLI NE记录的对比相比较还是容易一点, MEDLI NE的记录 是自由书写的文本,语法上不固定。 Entrez使用了名为"相关配对模式检索"的方法来做这种 对比,该方法依靠的基础是加权关键词(Wi|bur和 Caffee,1994; Wi l bur和Yang1996),这个 概念用具体的例子来描述比较合适。考虑具有下面两个标题的两篇文稿 这两个标题含有公共词BRCA, Breast,和 Cancer,这些公共词的存在显示这些文稿的主题可能 是相似的。同时也考虑单词之间的距离,对两条记录中的公共词距离较近的给予较高的分 数,分开较远的给予较低的分数。在这个例子中,对词 Breast和 Cancer将给予较高的分数, 因为这两个词是相邻的,比它们之中的任何一个与BRCA之间的距离短。标题中找到的公共的 词比摘要中的公共词得分高,因为一般认为标题的词比摘要中的词″更重要"。一个词的总的 权重取决于它在MEDL№E中的所有记录中出现的频率,在数据库中总的来说出现较少的词得到 较高的权重。 如果不算相近关系所基于的那些方法,实际确定和利用这些关系的能力是基于所有这些分支 数据库的数据的底层格式。这种格式称为抽象语法形式( Abstract Syntax Notati on,即 ASNI),所有类似的域(如引用书目)可以以完全一样的方式在这种格式中结构化,而不管 这条记录是在蛋白质数据库,核酸数据库或其它数据库之中。№CBI的这种数据模式将在第6 中深入的讨论。 硬连接 硬连接的概念比相近性的概念更容易接受。硬连接用于联系不同的数据库中的记录,只要这 些记录之间存在逻辑联系,就存在硬连接。举例来说,如果一条 MEDLI NE记录是关于??装配型 质粒的,那么在这条记录和对应的核酸记录之间就建立一条硬连接。如果这个装配型质粒?? 上的一个开放阅读框架编码某种已知的蛋白质,那么在核酸记录和蛋白质记录之间就建立一 条硬连接。如果这种蛋白质恰好已经有实验测出了它的结构,那么在这条蛋白质记录和结构 记录之间也会建立一条硬连接。 相近性和硬连接的关系可以用图5.2来解释。每个分支数据库( MEDLI NE,蛋白质,核酸,结 构及基因)用一个五角形表示。从每个五角形引出又回到自身的曲线表示相近性关系,根据 相近性关系可以在同一数据库内寻找相关的记录。图的中心从五角形到五角形的直线连接代 表硬连接关系。根据硬连接关系可以在几个数据库之间寻找相关记录。使用者通过合理的使 用这两种类型的关系可以只进行一次查询就可以获取多得不可思议的信息,比对单个的数据 库分别进行查询所花的时间少得多 ##图5.2 Entrez集成信息查询相同中的关系的示意图。每个五角形表示一个数据库;每个 五角形上指向自身的曲线代表相近性关系,图的中心的直线表示硬连接 搜索的入口点 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

Փ⫼䖭Ͼᮍ⊩᳝ৃ㛑ᡒࠄϔѯᑣ߫ⳌԐᗻϡᯢᰒⱘ㲟ⱑ䋼П䯈ⱘ㒧ᵘϞⱘ݇㋏˄ৃ㛑೼ࡳ㛑 Ϟг᳝݇㋏˅DŽ᳔ৢⱘᇍ唤㒧ᵰϡϔᅮᰃܼሔⱘˈৃ㛑೼ϡৠⱘ㲟ⱑ䋼ⱘऩ⣀ⱘ㒧ᵘඳП䯈 䜡ᇍDŽ 䳔㽕䞡⚍⊼ᛣⱘᰃVASTϡᰃ⹂ᅮ㒧ᵘⳌԐᗻⱘ᳔དࡲ಴ˈ⫣Ў䖬ৃҹ߽⫼ϝ㓈തᷛ᭛ӊЁⱘ ݊ᅗֵᙃᴹخ᳈䖯ϔℹⱘׂℷˈབ㗗㰥ջ䫒ⱘԡ㕂ঞջ䫒П䯈ⱘⳌѦ԰⫼ⱘ⛁࡯ᄺ⡍⚍DŽ㗠 ᡞ㒧ᵘय़㓽៤ϔ߫ⶶ䞣ᖙ✊Ӯᇐ㟈ֵᙃⱘ϶༅DŽ✊㗠ˈ㗗㰥ࠄ䖭Ͼ䯂乬ⱘ᭄䞣㑻ˉे䳔㽕خ ⱘ៤ᇍ↨䕗ⱘ⃵᭄ˉঞ䞛⫼᳈催㑻ⱘᮍ⊩᠔䳔㽕ⱘ䅵ㅫ㛑࡯ᯊ੠䯈ˈVAST㟇ᇥЎ㒧ᵘⳌԐᗻ 䯂乬ᦤկњϔϾㅔऩ੠ᖿ䗳ⱘㄨḜDŽ݇Ѣ߿ⱘ෎Ѣ;ᇘ㒓៪NMRത᭄ᷛ᥂ⱘ㒧ᵘ乘⌟ᮍ⊩ৃҹ খ㾕㄀11ゴDŽ ࡴᴗⱘ݇䬂䆡ᑣ᭄߫᥂ᇍ↨䯂乬ϢMEDLINE䆄ᔩⱘᇍ↨Ⳍ↨䕗䖬ᰃᆍᯧϔ⚍ˈMEDLINEⱘ䆄ᔩ ᰃ㞾⬅кݭⱘ᭛ᴀˈ䇁⊩Ϟϡ೎ᅮDŽEntrezՓ⫼њৡЎⳌ݇䜡ᇍ῵ᓣẔ㋶ⱘᮍ⊩ᴹخ䖭⾡ ᇍ↨ˈ䆹ᮍ⊩ձ䴴ⱘ෎⸔ᰃࡴᴗ݇䬂䆡˄Wilbur੠Caffee,1994;Wilbur੠Yang 1996˅ˈ䖭Ͼ ὖᗉ⫼݋ԧⱘ՟ᄤᴹᦣ䗄↨䕗ড়䗖DŽ㗗㰥݋᳝ϟ䴶ϸϾᷛ乬ⱘϸ㆛᭛〓˖ 䖭ϸϾᷛ乬৿᳝݀݅䆡BRCAI,Breast,੠Cancerˈ䖭ѯ݀݅䆡ⱘᄬ೼ᰒ⼎䖭ѯ᭛〓ⱘЏ乬ৃ㛑 ᰃⳌԐⱘDŽৠᯊг㗗㰥ऩ䆡П䯈ⱘ䎱⾏ˈᇍϸᴵ䆄ᔩЁⱘ݀݅䆡䎱⾏䕗䖥ⱘ㒭ќ䕗催ⱘߚ ᭄ˈߚᓔ䕗䖰ⱘ㒭ќ䕗Ԣⱘߚ᭄DŽ೼䖭Ͼ՟ᄤЁˈᇍ䆡Breast੠Cancerᇚ㒭ќ䕗催ⱘߚ᭄ˈ ಴Ў䖭ϸϾ䆡ᰃⳌ䚏ⱘˈ↨ᅗӀПЁⱘӏԩϔϾϢBRCAIП䯈ⱘ䎱⾏ⷁDŽᷛ乬Ёᡒࠄⱘ݀݅ⱘ 䆡↨ᨬ㽕Ёⱘ݀݅䆡ᕫߚ催ˈ಴Ўϔ㠀䅸Ўᷛ乬ⱘ䆡↨ᨬ㽕Ёⱘ䆡᳈䞡㽕DŽϔϾ䆡ⱘᘏⱘ ᴗ䞡পއѢᅗ೼MEDLINEЁⱘ᠔᳝䆄ᔩЁߎ⦃ⱘ乥⥛ˈ೼᭄᥂ᑧЁᘏⱘᴹ䇈ߎ⦃䕗ᇥⱘ䆡ᕫࠄ 䕗催ⱘᴗ䞡DŽ བᵰϡㅫⳌ䖥݇㋏᠔෎Ѣⱘ䙷ѯᮍ⊩ˈᅲ䰙⹂ᅮ੠߽⫼䖭ѯ݇㋏ⱘ㛑࡯ᰃ෎Ѣ᠔᳝䖭ѯߚᬃ ᭄᥂ᑧⱘ᭄᥂ⱘᑩሖḐᓣDŽ䖭⾡Ḑᓣ⿄Ўᢑ䈵䇁⊩ᔶᓣ˄Abstract Syntax Notation,े ASNI˅ˈ᠔᳝㉏Ԑⱘඳ˄བᓩ⫼кⳂ˅ৃҹҹᅠܼϔḋⱘᮍᓣ೼䖭⾡ḐᓣЁ㒧ᵘ࣪ˈ㗠ϡㅵ 䖭ᴵ䆄ᔩᰃ೼㲟ⱑ䋼᭄᥂ᑧˈḌ䝌᭄᥂ᑧ៪݊ᅗ᭄᥂ᑧПЁDŽNCBIⱘ䖭⾡᭄᥂῵ᓣᇚ೼㄀ゴ Ё⏅ܹⱘ䅼䆎DŽ ⹀䖲᥹ ⹀䖲᥹ⱘὖᗉ↨Ⳍ䖥ᗻⱘὖᗉ᳈ᆍᯧ᥹ফDŽ⹀䖲᥹⫼Ѣ㘨㋏ϡৠⱘ᭄᥂ᑧЁⱘ䆄ᔩˈা㽕䖭 ѯ䆄ᔩП䯈ᄬ೼䘏䕥㘨㋏ˈህᄬ೼⹀䖲᥹DŽВ՟ᴹ䇈ˈབᵰϔᴵMEDLINE䆄ᔩᰃ݇Ѣ??㺙䜡ൟ 䋼㉦ⱘˈ䙷М೼䖭ᴵ䆄ᔩ੠ᇍᑨⱘḌ䝌䆄ᔩП䯈ህᓎゟϔᴵ⹀䖲᥹DŽབᵰ䖭Ͼ㺙䜡ൟ䋼㉦?? ϞⱘϔϾᓔᬒ䯙䇏Ḛᶊ㓪ⷕᶤ⾡Ꮖⶹⱘ㲟ⱑ䋼ˈ䙷М೼Ḍ䝌䆄ᔩ੠㲟ⱑ䋼䆄ᔩП䯈ህᓎゟϔ ᴵ⹀䖲᥹DŽབᵰ䖭⾡㲟ⱑ䋼ᙄདᏆ㒣᳝ᅲ偠⌟ߎњᅗⱘ㒧ᵘˈ䙷М೼䖭ᴵ㲟ⱑ䋼䆄ᔩ੠㒧ᵘ 䆄ᔩП䯈гӮᓎゟϔᴵ⹀䖲᥹DŽ Ⳍ䖥ᗻ੠⹀䖲᥹ⱘ݇㋏ৃҹ⫼೒5.2ᴹ㾷䞞DŽ↣Ͼߚᬃ᭄᥂ᑧ˄MEDLINEˈ㲟ⱑ䋼ˈḌ䝌ˈ㒧 ᵘঞ෎಴˅⫼ϔϾѨ㾦ᔶ㸼⼎DŽҢ↣ϾѨ㾦ᔶᓩߎজಲࠄ㞾䑿ⱘ᳆㒓㸼⼎Ⳍ䖥ᗻ݇㋏ˈḍ᥂ Ⳍ䖥ᗻ݇㋏ৃҹ೼ৠϔ᭄᥂ᑧݙᇏᡒⳌ݇ⱘ䆄ᔩDŽ೒ⱘЁᖗҢѨ㾦ᔶࠄѨ㾦ᔶⱘⳈ㒓䖲᥹ҷ 㸼⹀䖲᥹݇㋏DŽḍ᥂⹀䖲᥹݇㋏ৃҹ೼޴Ͼ᭄᥂ᑧП䯈ᇏᡒⳌ݇䆄ᔩDŽՓ⫼㗙䗮䖛ড়⧚ⱘՓ ⫼䖭ϸ⾡㉏ൟⱘ݇㋏ৃҹা䖯㸠ϔ⃵ᶹ䆶ህৃҹ㦋প໮ᕫϡৃᗱ䆂ⱘֵᙃˈ↨ᇍऩϾⱘ᭄᥂ ᑧ߿ߚ䖯㸠ᶹ䆶᠔㢅ⱘᯊ䯈ᇥᕫ໮DŽ ʿʿ೒5.2 Entrez䲚៤ֵᙃᶹ䆶ⳌৠЁⱘ݇㋏ⱘ⼎ᛣ೒DŽ↣ϾѨ㾦ᔶ㸼⼎ϔϾ᭄᥂ᑧ˗↣Ͼ Ѩ㾦ᔶϞᣛ৥㞾䑿ⱘ᳆㒓ҷ㸼Ⳍ䖥ᗻ݇㋏ˈ೒ⱘЁᖗⱘⳈ㒓㸼⼎⹀䖲᥹DŽ ᧰㋶ⱘܹষ⚍ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ 义ⷕˈ3/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索 页码,4/8 如图5.2所指出的,基本上可以从任何地方开始使用 Entre系统搜索一使用者不必考虑从何处 进入信息的空间。然而,选取不同的数据库作为搜索的起点就会有不同的域可以用于搜索。 这显然是由于不同类型的数据库中的记录必须有不同的组织方式,以反映了它们所编目的实 体的生物学特点。表5.1列出了每个 Entrez系统中的数据库可以用于搜索的域。 实现 不考虑平台的差异, Entrez的搜索可以用两种界面进行。第一种称为 Networκ K Entrez,是用 客户一服务器方式实现的。这是 Entrez程序中最快的,它直接连接到一个NCB的"发送者 其图形用户界面的特点是一套窗口。由于客户软件存于用户的计算机上,需要用户去获取, 安装和维护软件,软件加入了新的特征时可以下载更新的部分。安装的过程相当简单。 第二种实现方法是在环球网上,称为 WW Entrez或者 b entrez。可以利用各种可用的网页 浏览器,例如 nternet explorer或 Netscape,它们把搜索结果传回桌面上。使用网络浏览器 的用户不必再确认是否安装了最新的 Entrez版本一只要浏览器是较新的版本,查询的结果总 是通过最新的 Entrez版本得到的。Web版还有另外一项用处,上述所有的相近性关系和硬连接 关系都可以用超文本表示,用户可以通过点击记录上的特定的词来浏览 用网页实现比网络版进步的地方在于网页可以有连接到外部数据源的能力。如由某个杂志或 出版社维护的论文的全文版本,或某些本来不是 Entrez组成部分的专门的数据库。网络版的 速度上的优势同时导致了这方面的限制,直接连接到NCB发送者意味着用户一旦连接到NCB 就不能再转移到别的任何地方。这两种方法的另一个主要区别在于表达方式上,网络版用 套窗口而网页版用一系列的网页,服从标准的网页规范。选择哪一种是用户的爱好问题,两 种方法在 Entrez的搜索空间中得到的一样的结果。 Entrez的查询方法:举例 ## 图5.3从 MEDLINE开始作 entrez查询,使用网页版的 Entrez版本 (http://ww.ncbi.nlm.nih.gov/entrez)详细说明参见正文 为了解释前面的Eηtrez系统的集成特性并且把相近性联系的特性讲透彻,最好的方法是考虑 个生物学的实例。此处使用Web版的 Entrez界面。从NCB|网址上的 Entrez主页开始,用户可 以选择组成Enηtrez系统的五个数据库之一作为查询的起点。此处查询从 MEDLINE开始。 PubMed 的査询主页显示于图5.3,此页上的表格要求进行两项选择然后提交査询。首先用户必须选择 査询域,把搜索范围限制在数据库入口的一个特定的域上(例如,生物学分类或标题)。其 次,用户必须选择一种查询模式,指定客户和服务器的交互方法。如果是 Automatic模式,服 务器会自动的査看搜索框中输入的词条,在数据库中査找符合得最好的词条。显然 Automati c 模式和 ist terms模式常常返回同样的结果,但由于在开始查询的时候记录的可能的索引方 式用户可能还不太清楚,建议使用 List terms模式。 假设用户要检索关于hiv1的摘要。使用 Entrez査询窗口,在查询框中输入hiv1,选定Text Words为检索域(即在标题和摘要中査找HⅤ1的出现),选择 Li st terms为査询模式。(当 然也可以用 Organi sm作为检索域;使用两种不同的方法进行检索并观察输出的不同对用户来 说是一个很好的练习。)检索命中后会打开一个新的网页(图5.4)。这一页包含一个词条选 择窗口,用户可以浏览与原来的词条(HV1)最接近的词条。注意选择窗口在HV1后面还 显示了很多略有区别的其它条目。如果用户选择的是 Automati c模式,就会忽略这些额外的条 目,这样可能忽略了重要的信息。采用 Li st terms模式,就可以使用户看到原来的检索词的 各种变种 ##图5.4在 MEDLINE数据库上进行 Entrez检索查的所有条目。详细说明参见正文 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

བ೒5.2᠔ᣛߎⱘˈ෎ᴀϞৃҹҢӏԩഄᮍᓔྟՓ⫼Entrz㋏㒳᧰㋶ˉՓ⫼㗙ϡᖙ㗗㰥Ңԩ໘ 䖯ֵܹᙃⱘぎ䯈DŽ✊㗠ˈ䗝পϡৠⱘ᭄᥂ᑧ԰Ў᧰㋶ⱘ䍋⚍ህӮ᳝ϡৠⱘඳৃҹ⫼Ѣ᧰㋶DŽ 䖭ᰒ✊ᰃ⬅Ѣϡৠ㉏ൟⱘ᭄᥂ᑧЁⱘ䆄ᔩᖙ乏᳝ϡৠⱘ㒘㒛ᮍᓣˈҹড᯴њᅗӀ᠔㓪Ⳃⱘᅲ ԧⱘ⫳⠽ᄺ⡍⚍DŽ㸼5.1߫ߎњ↣ϾEntrez㋏㒳Ёⱘ᭄᥂ᑧৃҹ⫼Ѣ᧰㋶ⱘඳDŽ ᅲ⦄ ϡ㗗㰥ᑇৄⱘᏂᓖˈEntrezⱘ᧰㋶ৃҹ⫼ϸ⾡⬠䴶䖯㸠DŽ㄀ϔ⾡⿄ЎNetwork Entrezˈᰃ⫼ ᅶ᠋ˉ᳡ࡵ఼ᮍᓣᅲ⦄ⱘDŽ䖭ᰃEntrez⿟ᑣЁ᳔ᖿⱘˈᅗⳈ᥹䖲᥹ࠄϔϾNCBIⱘথ䗕㗙DŽ ݊೒ᔶ⫼᠋⬠䴶ⱘ⡍⚍ᰃϔ༫にষDŽ⬅Ѣᅶ᠋䕃ӊᄬѢ⫼᠋ⱘ䅵ㅫᴎϞˈ䳔㽕⫼᠋এ㦋পˈ ᅝ㺙੠㓈ᡸ䕃ӊˈ䕃ӊࡴܹњᮄⱘ⡍ᕕᯊৃҹϟ䕑᳈ᮄⱘ䚼ߚDŽᅝ㺙ⱘ䖛⿟ⳌᔧㅔऩDŽ ㄀Ѡ⾡ᅲ⦄ᮍ⊩ᰃ೼⦃⧗㔥Ϟˈ⿄ЎWWW Entrez៪㗙Web EntrezDŽৃҹ߽⫼ৃ辵৘⫼ⱘ㔥义 ⌣㾜఼ˈ՟བInternet explorer៪Netscape,ᅗӀᡞ᧰㋶㒧ᵰӴಲḠ䴶ϞDŽՓ⫼㔥㒰⌣㾜఼ ⱘ⫼᠋ϡᖙݡ⹂䅸ᰃ৺ᅝ㺙њ᳔ᮄⱘEntrez⠜ᴀˉা㽕⌣㾜఼ᰃ䕗ᮄⱘ⠜ᴀˈᶹ䆶ⱘ㒧ᵰᘏ ᰃ䗮䖛᳔ᮄⱘEntrez⠜ᴀᕫࠄⱘDŽWeb⠜䖬᳝঺໪ϔ乍⫼໘ˈϞ䗄᠔᳝ⱘⳌ䖥ᗻ݇㋏੠⹀䖲᥹ ݇㋏䛑ৃҹ⫼䍙᭛ᴀ㸼⼎ˈ⫼᠋ৃҹ䗮䖛⚍ߏ䆄ᔩϞⱘ⡍ᅮⱘ䆡ᴹ⌣㾜DŽ ⫼㔥义ᅲ⦄↨㔥㒰⠜䖯ℹⱘഄᮍ೼Ѣ㔥义ৃҹ᳝䖲᥹ࠄ໪䚼᭄᥂⑤ⱘ㛑࡯DŽབ⬅ᶤϾᴖᖫ៪ ߎ⠜⼒㓈ᡸⱘ䆎᭛ⱘܼ᭛⠜ᴀˈ៪ᶤѯᴀᴹϡᰃEntrez㒘៤䚼ߚⱘϧ䮼ⱘ᭄᥂ᑧDŽ㔥㒰⠜ⱘ 䗳ᑺϞⱘӬ࢓ৠᯊᇐ㟈њ䖭ᮍ䴶ⱘ䰤ࠊˈⳈ᥹䖲᥹ࠄNCBIথ䗕㗙ᛣੇⴔ⫼᠋ϔᮺ䖲᥹ࠄNCBI ህϡ㛑ݡ䕀⿏߿ࠄⱘӏԩഄᮍDŽ䖭ϸ⾡ᮍ⊩ⱘ঺ϔϾЏ㽕ऎ߿೼Ѣ㸼䖒ᮍᓣϞˈ㔥㒰⠜⫼ϔ ༫にষ㗠㔥义⠜⫼ϔ㋏߫ⱘ㔥义ˈ᳡Ңᷛޚⱘ㔥义㾘㣗DŽ䗝ᢽાϔ⾡ᰃ⫼᠋ⱘ⠅ད䯂乬ˈϸ ⾡ᮍ⊩೼Entrezⱘ᧰㋶ぎ䯈Ёᕫࠄⱘϔḋⱘ㒧ᵰDŽ Entrezⱘᶹ䆶ᮍ⊩˖В՟ ʿʿ ೒5.3 ҢMEDLINEᓔྟ԰entrezᶹ䆶ˈՓ⫼㔥义⠜ⱘEntrez⠜ᴀ ˄http://www.ncbi.nlm.nih.gov/entrez˅DŽ䆺㒚䇈ᯢখ㾕ℷ᭛DŽ Ўњ㾷䞞ࠡ䴶ⱘEntrez㋏㒳ⱘ䲚៤⡍ᗻᑊϨᡞⳌ䖥ᗻ㘨㋏ⱘ⡍ᗻ䆆䗣ᕏˈ᳔དⱘᮍ⊩ᰃ㗗㰥 ϔϾ⫳⠽ᄺⱘᅲ՟DŽℸ໘Փ⫼Web⠜ⱘEntrez⬠䴶DŽҢNCBI㔥ഔϞⱘEntrezЏ义ᓔྟˈ⫼᠋ৃ ҹ䗝ᢽ㒘៤Entrez㋏㒳ⱘѨϾ᭄᥂ᑧПϔ԰Ўᶹ䆶ⱘ䍋⚍DŽℸ໘ᶹ䆶ҢMEDLINEᓔྟDŽPubMed ⱘᶹ䆶Џ义ᰒ⼎Ѣ೒5.3ˈℸ义Ϟⱘ㸼Ḑ㽕∖䖯㸠ϸ乍䗝ᢽ✊ৢᦤѸᶹ䆶DŽ佪ܜ᠋⫼ᖙ乏䗝ᢽ ᶹ䆶ඳˈᡞ᧰㋶㣗ೈ䰤ࠊ೼᭄᥂ᑧܹষⱘϔϾ⡍ᅮⱘඳϞ˄՟བˈ⫳⠽ᄺߚ㉏៪ᷛ乬˅DŽ݊ ⃵ˈ⫼᠋ᖙ乏䗝ᢽϔ⾡ᶹ䆶῵ᓣˈᣛᅮᅶ᠋੠᳡ࡵ఼ⱘѸѦᮍ⊩DŽབᵰᰃAutomatic῵ᓣˈ᳡ ࡵ఼Ӯ㞾ࡼⱘᶹⳟ᧰㋶ḚЁ䕧ܹⱘ䆡ᴵˈ೼᭄᥂ᑧЁᶹᡒヺড়ᕫ᳔དⱘ䆡ᴵDŽᰒ✊Automatic ῵ᓣ੠List Terms῵ᓣᐌᐌ䖨ಲৠḋⱘ㒧ᵰˈԚ⬅Ѣ೼ᓔྟᶹ䆶ⱘᯊ׭䆄ᔩⱘৃ㛑ⱘ㋶ᓩᮍ ᓣ⫼᠋ৃ㛑䖬ϡ໾⏙Ἦˈᓎ䆂Փ⫼List Terms῵ᓣDŽ ؛䆒⫼᠋㽕Ẕ㋶݇Ѣhiv 1ⱘᨬ㽕DŽՓ⫼Entrezᶹ䆶にষˈ೼ᶹ䆶ḚЁ䕧ܹhiv 1ˈ䗝ᅮText WordsЎẔ㋶ඳ˄े೼ᷛ乬੠ᨬ㽕ЁᶹᡒHIV 1ⱘߎˈ˅⦃䗝ᢽList TermsЎᶹ䆶῵ᓣDŽ˄ᔧ ✊гৃҹ⫼Organism԰ЎẔ㋶ඳ˗Փ⫼ϸ⾡ϡৠⱘᮍ⊩䖯㸠Ẕ㋶ᑊ㾖ᆳ䕧ߎⱘϡৠᇍ⫼᠋ᴹ 䇈ᰃϔϾᕜདⱘ㒗дDŽ˅Ẕ㋶ੑЁৢӮᠧᓔϔϾᮄⱘ㔥义˄೒5.4˅DŽ䖭ϔ义ࣙ৿ϔϾ䆡ᴵ䗝 ᢽにষˈ⫼᠋ৃҹ⌣㾜Ϣॳᴹⱘ䆡ᴵ˄HIV 1˅᳔᥹䖥ⱘ䆡ᴵDŽ⊼ᛣ䗝ᢽにষ೼HIV 1ৢ䴶䖬 ᰒ⼎њᕜ໮⬹᳝ऎ߿ⱘ݊ᅗᴵⳂDŽབᵰ⫼᠋䗝ᢽⱘᰃAutomatic῵ᓣˈህӮᗑ⬹䖭ѯ乱໪ⱘᴵ Ⳃˈ䖭ḋৃ㛑ᗑ⬹њ䞡㽕ⱘֵᙃDŽ䞛⫼List Terms῵ᓣˈህৃҹՓ⫼᠋ⳟࠄॳᴹⱘẔ㋶䆡ⱘ ৘⾡ব⾡DŽ ʿʿ೒5.4 ೼MEDLINE᭄᥂ᑧϞ䖯㸠EntrezẔ㋶ᶹⱘ᠔᳝ᴵⳂDŽ䆺㒚䇈ᯢখ㾕ℷ᭛DŽ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ 义ⷕˈ4/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索 页码,5/8 到这一步还没有实际检索到记录。要检索记录用户要先在词条选择框中点击需要的词条(此 处为hiv1)然后点击 Select按钮。随后打开的网页的上部显示了现在检索的状态和查到的记 录数(图5.5)。执行上面所述的查询返回了17,943条记录,数量太大了,任何人都无法完 全过滤一遍。因此有必要进行修正以减少返回的摘要的数量。如果用户对HV1的杂二聚体?? 的折叠感兴趣,可以用 heterodi mers和 fol di ng作为附加的检索词,重复上面的步骤。虽然每 个单独的词都能检索到成千上万条记录,它们的组合只查到6条记录(图5.6)。在 Entrez系 统中,缺省的逻辑算符是AND,在检索词下方的修正窗口中可以看到。 为了看到实际的检索结果,用户应点击标记为 Retri eve6 Documents的那个按钮;随后会打 开新的窗口(图5.7)。窗口中每一条记录有下面几个部分:检查框,第一作者的名字,出版 年份,标题,引用信息。选中窗口底部的 Jacopo- Mol i na1993年的记录;点击作者名字打开 另一个窗口,这个窗口包括引用信息,论文名称,所有作者列表,来源及摘要,以标准的引 用格式书写。 图5.7所示的页面上,在 Di spl ay按钮后面的下拉菜单中可以选择一些别的格式。切换到 Abstract格式将得到起来非常相似的记录。差别在于在摘要后面显示了一些分类信息如MeSH 条目以及与这条记录有关的编有索引的材料。使用MEDL|NE格式将打开MEDL|NE/ MEDLL ARS页 面,记录的左边有每个域都对应的两个字母的代码(如作者域的代码为AU)。这种格式的记 录可以存储而且能容易的输入到第三方的目录管理程序,例如 EndNote和 Reference Manager。 在图5.8的上端是一排连接按钮。这是用户可以进一步查看刚才讲过的相近性和硬连接关系的 入口点。如果用户点击 Rel ated articles按钮, Entrez会显示出有133条与 Jacobo- Mol i na这 条记录相关的记录一即有133条具有相似的主题的记录。一这些论文的前20篇显示在图5.9的 个新的列表中。第一篇是原来的那篇关于H∨1反转录酶的晶体结构的论文。这一篇称为原 记录,它显示在列表的上端,相近的记录列在后。这些相近记录的排列是按照相似程度降序 排列的。因此最靠近原记录的被认为是与原记录最接近的。浏览一下标题用户就可以很容易 的找到与HV1的蛋白质有关的结构和功能研究的有关信息,可以很快的得到相关索引的目 录。当用户在写论文的时候这种功能尤为有用而且节省时间。因为用户在到图书馆的书架中 去寻找之前就可以浏览摘要并选定真正感兴趣的论文 从这个新的论文列表中,用户可以通过使用列表中每一项旁边的检査框来找到硬连接的记 录。仍然用这个例子,将 Di spl ay按钮后面的下拉菜单选为 Proteins inks然后点击 Di spl ay 按钮,将会从蛋白质数据库中找到与本页这条 MEDLI NE记录有关的19条记录并列表;图5.10显 示了其中的6条。这一页的格式与已经在 MEDLINE中见过的那些格式相同,区别在于每条记录 后面有一些超链接对应可用的其它格式或对应相近和有硬连接的记录。有用的格式之一是 FASTA,它提供了一种格式可以输入到大多数序列分析程序中去。点击相近蛋白质的超链接所 得到的输出大体上是对这个蛋白质序列用 BLAST搜索的结果。用户可以以相似的步骤访问核酸 数据库。 这次查询得到的蛋白质记录的列表中有HV-A和HVB的记录,是一种HV-1反转录酶在一个 点发生突变的突变体(Cys280→Ser)。点击 Graphic View连接将打开一个图形方式的视图 看到这条记录的特征表中的所有信息。这个蛋白质有大量的二级结构单元,用这种类型的视 图可以很容易的准确的整理出沿着蛋白质链有那些二级结构单元。如果点击标有1 Structure Link的超链接,将打开一个结构一览页面(5.12)。这一页显示的细节是从源PDB文档的标题 开始,还有三字母格式的原始结构,到其它信息的链接,如ⅥAST相近记录的列表。如果点 击"view/Save:IHV"下面的Ⅵiew按钮,则将调用Cn3D软件,打开新的窗口显示结构透视图。 有些用户对于蛋白质的外形的直观形象感兴趣,Cn3D为此提供了强大的界面。它所给出的信 息比任何人从观察字符串(蛋白质的序列)中所能得到的信息更多。可以通过窗口底部和右 边的滚动条沿着轴旋转蛋白质分子,或者当光标在窗口中时用点击然后拖拉的方式随意的旋 转它。用户也可以放大观察结构的某部分,必要时用数字给残基编号;如本例中的一处变异 的位点可以标出。用户也可以改变图的着色方案以确定该蛋白质的特殊的结构特征。在图 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

ࠄ䖭ϔℹ䖬≵᳝ᅲ䰙Ẕ㋶ࠄ䆄ᔩDŽ㽕Ẕ㋶䆄ᔩ⫼᠋㽕ܜ೼䆡ᴵ䗝ᢽḚЁ⚍ߏ䳔㽕ⱘ䆡ᴵ˄ℸ ໘Ўhiv 1˅✊ৢ⚍ߏSelectᣝ䪂DŽ䱣ৢᠧᓔⱘ㔥义ⱘϞ䚼ᰒ⼎њ⦄೼Ẕ㋶ⱘ⢊ᗕ੠ᶹࠄⱘ䆄 ᔩ᭄˄೒5.5˅DŽᠻ㸠Ϟ䴶᠔䗄ⱘᶹ䆶䖨ಲњ17ˈ943ᴵ䆄ᔩˈ᭄䞣໾໻њˈӏԩҎ䛑᮴⊩ᅠ ܼ䖛Ⓒϔ䘡DŽ಴ℸ᳝ᖙ㽕䖯㸠ׂℷҹޣᇥ䖨ಲⱘᨬ㽕ⱘ᭄䞣DŽབᵰ⫼᠋ᇍHIV 1ⱘᴖѠ㘮ԧ?? ⱘᡬ঴ᛳ݈䍷ˈৃҹ⫼heterodimers੠folding԰Ў䰘ࡴⱘẔ㋶䆡ˈ䞡໡Ϟ䴶ⱘℹ偸DŽ㱑✊↣ Ͼऩ⣀ⱘ䆡䛑㛑Ẕ㋶ࠄ៤गϞϛᴵ䆄ᔩˈᅗӀⱘ㒘ড়াᶹࠄᴵ䆄ᔩ˄೒5.6˅DŽ೼Entrez㋏ 㒳Ёˈ㔎ⳕⱘ䘏䕥ㅫヺᰃANDˈ೼Ẕ㋶䆡ϟᮍⱘׂℷにষЁৃҹⳟࠄDŽ Ўњⳟࠄᅲ䰙ⱘẔ㋶㒧ᵰˈ⫼᠋ᑨ⚍ߏᷛ䆄ЎRetrieve 6 Documentsⱘ䙷Ͼᣝ䪂˗䱣ৢӮᠧ ᓔᮄⱘにষ˄೒5.7˅DŽにষЁ↣ϔᴵ䆄ᔩ᳝ϟ䴶޴Ͼ䚼ߚ˖ẔᶹḚˈ㄀ϔ԰㗙ⱘৡᄫˈߎ⠜ ᑈӑˈᷛ乬ˈᓩ⫼ֵᙃDŽ䗝Ёにষᑩ䚼ⱘJacoco-Molina 1993ᑈⱘ䆄ᔩ˗⚍ߏ԰㗙ৡᄫᠧᓔ ঺ϔϾにষˈ䖭Ͼにষࣙᣀᓩ⫼ֵᙃˈ䆎᭛ৡ⿄ˈ᠔᳝԰㗙߫㸼ˈᴹ⑤ঞᨬ㽕ˈҹᷛޚⱘᓩ ⫼ḐᓣкݭDŽ ೒5.7᠔⼎ⱘ义䴶Ϟˈ೼Displayᣝ䪂ৢ䴶ⱘϟᢝ㦰ऩЁৃҹ䗝ᢽϔѯ߿ⱘḐᓣDŽߛᤶࠄ AbsttractḐᓣᇚᕫࠄ䍋ᴹ䴲ᐌⳌԐⱘ䆄ᔩDŽᏂ߿೼Ѣ೼ᨬ㽕ৢ䴶ᰒ⼎њϔѯߚ㉏ֵᙃབMeSH ᴵⳂҹঞϢ䖭ᴵ䆄ᔩ᳝݇ⱘ㓪᳝㋶ᓩⱘᴤ᭭DŽՓ⫼MEDLINEḐᓣᇚᠧᓔMEDLINE/MEDLIARS义 䴶ˈ䆄ᔩⱘᎺ䖍᳝↣Ͼඳ䛑ᇍᑨⱘϸϾᄫ↡ⱘҷⷕ˄བ԰㗙ඳⱘҷⷕЎAU˅DŽ䖭⾡Ḑᓣⱘ䆄 ᔩৃҹᄬټ㗠Ϩ㛑ᆍᯧⱘ䕧ܹࠄ㄀ϝᮍⱘⳂᔩㅵ⧚⿟ᑣˈ՟བEndNote੠Reference ManagerDŽ ೼೒5.8ⱘϞッᰃϔᥦ䖲᥹ᣝ䪂DŽ䖭ᰃ⫼᠋ৃҹ䖯ϔℹᶹⳟ߮ᠡ䆆䖛ⱘⳌ䖥ᗻ੠⹀䖲᥹݇㋏ⱘ ܹষ⚍DŽབᵰ⫼᠋⚍ߏRelated Articlesᣝ䪂ˈEntrezӮᰒ⼎ߎ᳝133ᴵϢJacobo-Molina䖭 ᴵ䆄ᔩⳌ݇ⱘ䆄ᔩˉे᳝133ᴵ݋᳝ⳌԐⱘЏ乬ⱘ䆄ᔩDŽˉ䖭ѯ䆎᭛ⱘࠡ20㆛ᰒ⼎೼೒5.9ⱘ ϔϾᮄⱘ߫㸼ЁDŽ㄀ϔ㆛ᰃॳᴹⱘ䙷㆛݇ѢHIV 1ড䕀ᔩ䝊ⱘ᱊ԧ㒧ᵘⱘ䆎᭛DŽ䖭ϔ㆛⿄Ўॳ 䆄ᔩˈᅗᰒ⼎೼߫㸼ⱘϞッˈⳌ䖥ⱘ䆄ᔩ߫೼ৢDŽ䖭ѯⳌ䖥䆄ᔩⱘᥦ߫ᰃᣝ✻ⳌԐ⿟ᑺ䰡ᑣ ᥦ߫ⱘDŽ಴ℸ᳔䴴䖥ॳ䆄ᔩⱘ㹿䅸ЎᰃϢॳ䆄ᔩ᳔᥹䖥ⱘDŽ⌣㾜ϔϟᷛ乬⫼᠋ህৃҹᕜᆍᯧ ⱘᡒࠄϢHIV 1ⱘ㲟ⱑ䋼᳝݇ⱘ㒧ᵘ੠ࡳ㛑ⷨおⱘֵ᳝݇ᙃˈৃҹᕜᖿⱘᕫࠄⳌ݇㋶ᓩⱘⳂ ᔩDŽᔧ⫼᠋೼ݭ䆎᭛ⱘᯊ׭䖭⾡ࡳ㛑ᇸЎ᳝⫼㗠Ϩ㡖ⳕᯊ䯈DŽ಴Ў⫼᠋೼ࠄ೒к佚ⱘкᶊЁ এᇏᡒПࠡህৃҹ⌣㾜ᨬ㽕ᑊ䗝ᅮⳳℷᛳ݈䍷ⱘ䆎᭛DŽ Ң䖭Ͼᮄⱘ䆎᭛߫㸼Ёˈ⫼᠋ৃҹ䗮䖛Փ⫼߫㸼Ё↣ϔ乍ᮕ䖍ⱘẔᶹḚᴹᡒࠄ⹀䖲᥹ⱘ䆄 ᔩDŽҡ✊⫼䖭Ͼ՟ᄤˈᇚDisplayᣝ䪂ৢ䴶ⱘϟᢝ㦰ऩ䗝ЎProteins links✊ৢ⚍ߏDisplay ᣝ䪂ˈᇚӮҢ㲟ⱑ䋼᭄᥂ᑧЁᡒࠄϢᴀ义䖭ᴵMEDLINE䆄ᔩ᳝݇ⱘ19ᴵ䆄ᔩᑊ߫㸼˗೒5.10ᰒ ⼎њ݊ЁⱘᴵDŽ䖭ϔ义ⱘḐᓣϢᏆ㒣೼MEDLINEЁ㾕䖛ⱘ䙷ѯḐᓣⳌৠˈऎ߿೼Ѣ↣ᴵ䆄ᔩ ৢ䴶᳝ϔѯ䍙䫒᥹ᇍᑨৃ⫼ⱘ݊ᅗḐᓣ៪ᇍᑨⳌ䖥੠᳝⹀䖲᥹ⱘ䆄ᔩDŽ᳝⫼ⱘḐᓣПϔᰃ FASTAˈᅗᦤկњϔ⾡Ḑᓣৃҹ䕧ܹࠄ໮໻᭄ᑣ߫ߚᵤ⿟ᑣЁএDŽ⚍ߏⳌ䖥㲟ⱑ䋼ⱘ䍙䫒᥹᠔ ᕫࠄⱘ䕧ߎԧ໻Ϟᰃᇍ䖭Ͼ㲟ⱑ䋼ᑣ߫⫼BLAST᧰㋶ⱘ㒧ᵰDŽ⫼᠋ৃҹҹⳌԐⱘℹ偸䆓䯂Ḍ䝌 ᭄᥂ᑧDŽ 䖭⃵ᶹ䆶ᕫࠄⱘ㲟ⱑ䋼䆄ᔩⱘ߫㸼Ё᳝IHIV-A੠IHIV_Bⱘ䆄ᔩˈᰃϔ⾡HIV-1ড䕀ᔩ䝊೼ϔϾ ⚍থ⫳さবⱘさবԧ˄Cys280ėSer˅DŽ⚍ߏGraphic View䖲᥹ᇚᠧᓔϔϾ೒ᔶᮍᓣⱘ㾚೒ˈ ⳟࠄ䖭ᴵ䆄ᔩⱘ⡍ᕕ㸼Ёⱘ᠔ֵ᳝ᙃDŽ䖭Ͼ㲟ⱑ䋼᳝໻䞣ⱘѠ㑻㒧ᵘऩܗ⫼ˈ䖭⾡㉏ൟⱘ㾚 ೒ৃҹᕜᆍᯧⱘޚ⹂ⱘᭈ⧚ߎ⊓ⴔ㲟ⱑ䋼䫒᳝䙷ѯѠ㑻㒧ᵘऩܗDŽབᵰ⚍ߏ᳝ᷛ1 Structure Linkⱘ䍙䫒᥹ˈᇚᠧᓔϔϾ㒧ᵘϔ㾜义䴶˄5.12˅DŽ䖭ϔ义ᰒ⼎ⱘ㒚㡖ᰃҢ⑤PDB᭛ḷⱘᷛ乬 ᓔྟˈ䖬᳝ϝᄫ↡Ḑᓣⱘॳྟ㒧ᵘˈࠄ݊ᅗֵᙃⱘ䫒᥹ˈབVASTⳌ䖥䆄ᔩⱘ߫㸼DŽབᵰ⚍ ߏ"View/Save:IHIV"ϟ䴶ⱘViewᣝ䪂ˈ߭ᇚ䇗⫼Cn3D䕃ӊˈᠧᓔᮄⱘにষᰒ⼎㒧ᵘ䗣㾚೒DŽ ᳝ѯ⫼᠋ᇍѢ㲟ⱑ䋼ⱘ໪ᔶⱘⳈ㾖ᔶ䈵ᛳ݈䍷ˈCn3DЎℸᦤկњᔎ໻ⱘ⬠䴶DŽᅗ᠔㒭ߎⱘֵ ᙃ↨ӏԩҎҢ㾖ᆳᄫヺІ˄㲟ⱑ䋼ⱘᑣ߫˅Ё᠔㛑ᕫࠄⱘֵᙃ᳈໮DŽৃҹ䗮䖛にষᑩ䚼੠ে 䖍ⱘ⒮ࡼᴵ⊓ⴔ䕈ᮟ䕀㲟ⱑ䋼ߚᄤˈ៪㗙ᔧܝ೼ᷛにষЁᯊ⫼⚍ߏৢ✊ᢪᢝⱘᮍᓣ䱣ᛣⱘᮟ 䕀ᅗDŽ⫼᠋гৃҹᬒ໻㾖ᆳ㒧ᵘⱘᶤ䚼ߚˈᖙ㽕ᯊ⫼᭄ᄫ㒭⅟෎㓪ো˗བᴀ՟Ёⱘϔ໘বᓖ ⱘԡ⚍ৃҹᷛߎDŽ⫼᠋гৃҹᬍব೒ⱘⴔ㡆ᮍḜҹ⹂ᅮ䆹㲟ⱑ䋼ⱘ⡍⅞ⱘ㒧ᵘ⡍ᕕDŽ೼೒ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ 义ⷕˈ5/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索 页码,6/8 5.13的例子中,涂刷和着色的方案分别空白填充和疏水性。这个组合的方案可以用于观察表 面的电荷分布,指示出蛋白质的那些是蛋白质之间相互作用的部位,那些是蛋白质和DNA作用 的部位。关于Cn3D的进一步的资料在地3章中。Cn3D的文档中也有。另外,用户也可以把坐标 信息存入到一个文件中,用第三方的程序来观看,如 Kinemage( Ri chardon与 Ri chardon 1992)和 Rasmol( Sayl e与 Mi I ner-Whi te,1995) 集成的信息访问:查询服务器 有时候用户没有 Entrez平台可用,他将只好通过电子邮件来进行检索。也有可能用户在实验 室通过π1连接在环球网上访问 Entrez但速度又不够快。ery是一种使用电子邮件的 Entrez, 它能满足需要。uery的思想与 Retrieve非常类似,但是一次能查询不止一个数据库。Oueu 可以在一个指定的数据库范围中査询(蛋白质,核酸,结构或 MEDLI NE),而且能返回相近 的和有硬连接的记录。 同使用 Retrieve一样, Query的用户向服务器发岀査询请求时必须遵循规定的格式。图5.14概 括了0uery的申请的一般的格式,显示出在搜索之中可以使用的标志和选项。(uery也支持 Retrieve的语法,所以向 Query服务器发送 Retrieve格式的査询请求也能正确执行。)最简单 的査询是使用检索词。执行这种查询要先给定目标数据库和一个或几个检索词。用0uery和用 Retri eve一样,基于词的检索可以限定在数据库记录的特定域中,这样得到的结果更好。为 了显示uery和 Retrieve的区别,我们将用图5.3至图5.14中用过的例子,而按uery的格式 表达 查询以一行"DBp.“开始,指出要检索的是蛋白质数据库。对比 Retrieve一次只允许检索一个 数据库; Query允许一次检索所有同类的数据库(此处由蛋白质数据库构成无冗余的查询 集)。数据库由一个单字符代码指定:p表示蛋白质,n表示核酸,m表示 MEDLINE,t表示结 构,s表示对蛋白质和核酸同时检索。检索空间与Enηtrez检索时用过的相同。 与原来 Retrieve检索不同的是,对检索词分别限定了几个域:只在蛋白质名称域中查 找" hi stone h1",只在生物名称域中査找生物名。注意符号&用于表示逻辑与AND,竖线符 (|)用于表示逻辑或0R,逻辑非用连字符表示(-);因为检索词中也有可能出现连字符 所以表示逻辑算符的连字符必须在左边或右边至少有一个空格,以与实际的检索词区分 到此为止,uery看来与 Retri eve的区别还不大。实际上执行前面的查询得到的结果与 Retrieve相同。然而使用D0PT标志(显示选项)能够彻底改变査询结果,对于用户更为有 用。继续看这个例子,可能用户需要有 FASTA格式的结果而不是标准的 Entrez文档的摘要格 式。另外,用户不想看蛋白质记录本身,而是想要与它们有关的核酸链。为了达到这种效 果,可以如下的修改检索语句: p TERM hi stone H1 PROT] &( Saccharomyces [ORGN] Schi zosaccharomyces [ORGN]) doPT fn D0PT语句中的f表示与检索条件确定的蛋白质记录有关的核酸记录(n)要用 FASTA格式(f) 显示。这次检索的结果如图5.15所示。D0PT语句的多种功能使得uery可以输出由别的程序 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

5.13ⱘ՟ᄤЁˈ⍖ࠋ੠ⴔ㡆ⱘᮍḜ߿ߚぎⱑ฿ܙ∋⭣੠ᗻDŽ䖭Ͼ㒘ড়ⱘᮍḜৃҹ⫼Ѣ㾖ᆳ㸼 䴶ⱘ⬉㥋ߚᏗˈᣛ⼎ߎ㲟ⱑ䋼ⱘ䙷ѯᰃ㲟ⱑ䋼П䯈ⳌѦ԰⫼ⱘ䚼ԡˈ䙷ѯᰃ㲟ⱑ䋼੠DNA԰⫼ ⱘ䚼ԡDŽ݇ѢCn3Dⱘ䖯ϔℹⱘ䌘᭭೼ഄゴЁDŽCn3Dⱘ᭛ḷЁг᳝DŽ঺໪ˈ⫼᠋гৃҹᡞതᷛ ֵᙃᄬܹࠄϔϾ᭛ӊЁˈ⫼㄀ϝᮍⱘ⿟ᑣᴹ㾖ⳟˈབKinemage˄RichardsonϢRichardsonˈ 1992˅੠Rasmol˄SayleϢMilner-Whiteˈ1995˅DŽ 䲚៤ⱘֵᙃ䆓䯂˖ᶹ䆶᳡ࡵ఼ ᳝ᯊ׭᳝≲/᠋⫼Entrezᑇৄৃ⫼ˈҪᇚাད䗮䖛⬉ᄤ䚂ӊᴹ䖯㸠Ẕ㋶DŽг᳝ৃ㛑⫼᠋೼ᅲ偠 ᅸ䗮䖛T1䖲᥹೼⦃⧗㔥Ϟ䆓䯂EntrezԚ䗳ᑺজϡ໳ᖿDŽQueryᰃϔ⾡Փ⫼⬉ᄤ䚂ӊⱘEntrezˈ ᅗ㛑⒵䎇䳔㽕DŽQueryⱘᗱᛇϢRetrieve䴲ᐌ㉏ԐˈԚᰃϔ⃵㛑ᶹ䆶ϡℶϔϾ᭄᥂ᑧDŽQuery ৃҹ೼ϔϾᣛᅮⱘ᭄᥂ᑧ㣗ೈЁᶹ䆶˄㲟ⱑ䋼ˈḌ䝌ˈ㒧ᵘ៪MEDLINE˅ˈ㗠Ϩ㛑䖨ಲⳌ䖥 ⱘ੠᳝⹀䖲᥹ⱘ䆄ᔩDŽ ৠՓ⫼RetrieveϔḋˈQueryⱘ⫼᠋৥᳡ࡵ఼থߎᶹ䆶䇋∖ᯊᖙ乏䙉ᕾ㾘ᅮⱘḐᓣDŽ೒5.14ὖ ᣀњQueryⱘ⬇䇋ⱘϔ㠀ⱘḐᓣˈᰒ⼎ߎ᧰೼㋶ПЁৃҹՓ⫼ⱘᷛᖫ੠䗝乍DŽ˄Queryгᬃᣕ Retrieveⱘ䇁⊩ˈ᠔ҹ৥Query᳡ࡵ఼থ䗕RetrieveḐᓣⱘᶹ䆶䇋∖г㛑ℷ⹂ᠻ㸠DŽ˅᳔ㅔऩ ⱘᶹ䆶ᰃՓ⫼Ẕ㋶䆡DŽᠻ㸠䖭⾡ᶹ䆶㽕ܜ㒭ᅮⳂ᭄ᷛ᥂ᑧ੠ϔϾ៪޴ϾẔ㋶䆡DŽ⫼Query੠⫼ Retrieveϔḋˈ෎Ѣ䆡ⱘẔ㋶ৃҹ䰤ᅮ೼᭄᥂ᑧ䆄ᔩⱘ⡍ᅮඳЁˈ䖭ḋᕫࠄⱘ㒧ᵰ᳈དDŽЎ њᰒ⼎Query੠Retrieveⱘऎ߿ˈ៥Ӏᇚ䞛⫼೒5.3㟇೒5.14Ё⫼䖛ⱘ՟ᄤˈ㗠ᣝQueryⱘḐᓣ 㸼䖒DŽ ᶹ䆶ҹϔ㸠"DB p."ᓔྟˈᣛߎ㽕Ẕ㋶ⱘᰃ㲟ⱑ䋼᭄᥂ᑧDŽᇍ↨Retrieveϔ⃵াܕ䆌Ẕ㋶ϔϾ ᭄᥂ᑧ˗Queryܕ䆌ϔ⃵Ẕ㋶᠔᳝ৠ㉏ⱘ᭄᥂ᑧ˄ℸ໘⬅㲟ⱑ䋼᭄᥂ᑧᵘ៤᮴ݫԭⱘᶹ䆶 䲚˅DŽ᭄᥂ᑧ⬅ϔϾऩᄫヺҷⷕᣛᅮ˖S㸼⼎㲟ⱑ䋼ˈQ㸼⼎Ḍ䝌ˈP㸼⼎MEDLINEˈW㸼⼎㒧 ᵘˈV㸼⼎ᇍ㲟ⱑ䋼੠Ḍ䝌ৠᯊẔ㋶DŽẔ㋶ぎ䯈ϢEntrezẔ㋶ᯊ⫼䖛ⱘⳌৠDŽ ϢॳᴹRetrieveẔ㋶ϡৠⱘᰃˈᇍẔ㋶䆡߿ߚ䰤ᅮњ޴Ͼඳ˖া೼㲟ⱑ䋼ৡ⿄ඳЁᶹ ᡒ"histone H1"ˈা೼⫳⠽ৡ⿄ඳЁᶹᡒ⫳⠽ৡDŽ⊼ᛣヺো ⫼Ѣ㸼⼎䘏䕥ϢANDˈオ㒓ヺ ˄_˅⫼Ѣ㸼⼎䘏䕥៪ORˈ䘏䕥䴲⫼䖲ᄫヺ㸼⼎˄ˉ˅˗಴ЎẔ㋶䆡Ёг᳝ৃ㛑ߎ⦃䖲ᄫヺˈ ᠔ҹ㸼⼎䘏䕥ㅫヺⱘ䖲ᄫヺᖙ乏೼Ꮊ䖍៪ে䖍㟇ᇥ᳝ϔϾぎḐˈҹϢᅲ䰙ⱘẔ㋶䆡ऎߚDŽ ࠄℸЎℶˈQueryⳟᴹϢRetrieveⱘऎ߿䖬ϡ໻DŽᅲ䰙Ϟᠻ㸠ࠡ䴶ⱘᶹ䆶ᕫࠄⱘ㒧ᵰϢ RetrieveⳌৠDŽ✊㗠Փ⫼DOPTᷛᖫ˄ᰒ⼎䗝乍˅㛑໳ᕏᑩᬍবᶹ䆶㒧ᵰˈᇍѢ⫼᠋᳈Ў᳝ ⫼DŽ㒻㓁ⳟ䖭Ͼ՟ᄤˈৃ㛑⫼᠋䳔㽕᳝FASTAḐᓣⱘ㒧ᵰ㗠ϡᰃᷛޚⱘEntrez᭛ḷⱘᨬ㽕Ḑ ᓣDŽ঺໪ˈ⫼᠋ϡᛇⳟ㲟ⱑ䋼䆄ᔩᴀ䑿ˈ㗠ᰃᛇ㽕ϢᅗӀ᳝݇ⱘḌ䝌䫒DŽЎњ䖒ࠄ䖭⾡ᬜ ᵰˈৃҹབϟⱘׂᬍẔ㋶䇁হ˖ DB p TERM histone H1 [PROT] &(Saccharomyces [ORGN] | Schizosaccharomyces [ORGN]) DOPT fn DOPT䇁হЁⱘfn㸼⼎ϢẔ㋶ᴵӊ⹂ᅮⱘ㲟ⱑ䋼䆄ᔩ᳝݇ⱘḌ䝌䆄ᔩ˄Q˅㽕⫼FASTAḐᓣ˄I˅ ᰒ⼎DŽ䖭⃵Ẕ㋶ⱘ㒧ᵰབ೒5.15᠔⼎DŽDOPT䇁হⱘ໮⾡ࡳ㛑ՓᕫQueryৃҹ䕧ߎ⬅߿ⱘ⿟ᑣ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ 义ⷕˈ6/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索 页码,7/8 (如序列对比编辑器或预测工具)处理的信息,尤其是 FASTA格式的结果,这使得 Query非常 有用。 最后,uery用户还可以用一下三个附加的标志选项。HML可以使得返回的结果为HM格式, 可以用网页浏览器来看, DI SPMAX可以控制返回的最大记录数:如果不使用 DI SPMAX,则该缺 省值为200,另外还有电子邮件的行数限制为10万行。最后,PATH使返回的查询结果送到另外 一个电子邮件地址而不是发出检索请求的地址。 NCB|上的序列数据库 从上面的论述看起来,NCB|似乎是序列数据领域的中心,但世界上还有其它的一些专门的数 据库也在科学交流中发挥特殊的作用。这些数据库通常提供一些辅助的信息,如性状,实验 条件,杂交??,以及图谱特征。这些数据对于科学交流的某些领域来说很重要,因为它们 有助于合理的实验设计。然而这些数据不完全符合NCBl的数据模式的限制,因此建立了这些 专门的数据库,它们将被用来作为 GenBank的附件而不是作为它的一部分 这些特殊的数据库之中的两个是酵母基因组数据库( Saccharomyces Genome Database,即 SGD)和 Arabi dopsi s thal i ana数据库(AtDB),两者都在斯坦福的人类基因组中心。关注 SGD是因为 酵母的全基因组已经被测序,这个数据库提供了一个非常简单的查询界面,使用基因名,基 因信息,无性系,蛋白质信息,序列名,作者名,或全文来作文本方式的查询。例如,用 GeneName作为检索主题,hho1为基因名查询,将会打开一个 SacchDB信息窗口,显示所有的关 于H01座位的信息(图5.16)。座位窗口中还有连接到别的数据库的跳转点,如 MEDLI NE,酵 母蛋白质数据库( Yeast protei n database,即YPD)。从这条记录到 Sacch3D的连接提供了 PDB中找到的HH01的蛋白质产物的同结构族的信息。还有到二级结构和三级结构预测的站点的 连接。及??根据查询一些数据库预先计算出的 BLAST报告。返回到原座位窗口,点击 Seq& Di spl y连接,用户将能看到序列的座位周围区域的图形显示。可用的视图包括物理图 谱,遗传图谱,染色体特征图谱以及其它。HH01的物理图谱显示在图5.17(注意着色)。注 意图形上部的黄色的粗棒,它给出了目前视图的位点相对于着丝点的位置。在黄色棒上点击 就可以在染色体上移动査看,点击单独的基因,无性系,或序列名就会给出与特定的区域有 关的详细信息。 还有一个这样的专门一种生物的数据库即 FI yBase,它的目标是维护果蝇( Drosophi l a)的基 因和分子生物学方面的综合信息。可以用 Worl d wi de web, Gopher,FTP访问 Fl yBase。可查 到的信息包括大范围的果蝇方面的书刊目录,涉及果蝇的项目的研究者的地址,11,0多个 基因的38,000多个等位基因的信息汇编,13,000多种染色体畸变,图谱信息,基因产物功 能的信息,存储中心和基因组无性系的列表,同类数据库的信息。所有这些方面的检索都可 以通过一种简单的检索机制完成。 例如,查找基因符号,capu为检索词,将找到一条名为 cappucci no的基因的记录,在果蝇卵 母细胞周期的正确极化中需要用到它( Emmons等,1995)。调用图形视图可以显示 cappuccI no的基因及其细胞学定位及邻近区域的其它基因,用户可以在基因条上点击任何地 方査看某个基因的具体细节信息(图5.18)。在这个视图上可以清楚的看到重叠的情况:这 儿的 cappucci no看来与为转录因子编码的slp1和sp2重叠了。选择窗口底部的类别按钮之 就能改为以査看无性系,缺失,重复,倒置,易位,转座,或其它变异的图形视图。 医学数据库 虽然本章的重点在于序列,但对于生物学家来说,除了分类和组织序列信息的数据库之外 还有别的类型的数据库也很有用。例如不基于序列的信息源0 nl i ne mendel i an i nheri tance i n man(OMM),它是由约翰霍普金斯大学的 Vi ctor mckusi ck编辑的关于人类基因和基因异 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

˄བᑣ߫ᇍ↨㓪䕥఼៪乘⌟Ꮉ݋˅໘⧚ⱘֵᙃˈᇸ݊ᰃFASTAḐᓣⱘ㒧ᵰˈ䖭ՓᕫQuery䴲ᐌ ᳝⫼DŽ ᳔ৢˈQuery⫼᠋䖬ৃҹ⫼ϔϟϝϾ䰘ࡴⱘᷛᖫ䗝乍DŽHTMLৃҹՓᕫ䖨ಲⱘ㒧ᵰЎHTMLḐᓣˈ ৃҹ⫼㔥义⌣㾜఼ᴹⳟˈDISPMAXৃҹ᥻ࠊ䖨ಲⱘ᳔໻䆄ᔩ᭄˖བᵰϡՓ⫼DISPMAXˈ߭䆹㔎 ⳕؐЎ200ˈ঺໪䖬᳝⬉ᄤ䚂ӊⱘ㸠᭄䰤ࠊЎ10ϛ㸠DŽ᳔ৢˈPATHՓ䖨ಲⱘᶹ䆶㒧ᵰ䗕ࠄ໪঺ ϔϾ⬉ᄤ䚂ӊഄഔ㗠ϡᰃথߎẔ㋶䇋∖ⱘഄഔDŽ NCBIϞⱘᑣ᭄߫᥂ᑧ ҢϞ䴶ⱘ䆎䗄ⳟ䍋ᴹˈNCBIԐТᰃᑣ᭄߫᥂乚ඳⱘЁᖗˈԚϪ⬠Ϟ䖬᳝݊ᅗⱘϔѯϧ䮼ⱘ᭄ ᥂ᑧг೼⾥ᄺѸ⌕Ёথ᣹⡍⅞ⱘ԰⫼DŽ䖭ѯ᭄᥂ᑧ䗮ᐌᦤկϔѯ䕙ࡽⱘֵᙃˈབᗻ⢊ˈᅲ偠 ᴵӊˈᴖѸ˛˛ˈҹঞ೒䈅⡍ᕕDŽ䖭ѯ᭄᥂ᇍѢ⾥ᄺѸ⌕ⱘᶤѯ乚ඳᴹ䇈ᕜ䞡㽕ˈ಴ЎᅗӀ ᳝ࡽѢড়⧚ⱘᅲ偠䆒䅵DŽ✊㗠䖭ѯ᭄᥂ϡᅠܼヺড়NCBIⱘ᭄᥂῵ᓣⱘ䰤ࠊ಴ˈℸᓎゟњ䖭ѯ ϧ䮼ⱘ᭄᥂ᑧˈᅗӀᇚ㹿⫼ᴹ԰ЎGenBankⱘ䰘ӊ㗠ϡᰃ԰Ўᅗⱘϔ䚼ߚDŽ 䖭ѯ⡍⅞ⱘ᭄᥂ᑧПЁⱘϸϾᰃ䝉↡෎಴㒘᭄᥂ᑧ˄Saccharomyces Genome Database,े SGD˅੠Arabidopsis thaliana᭄᥂ᑧ˄AtDB˅ˈϸ㗙䛑೼ᮃഺ⽣ⱘҎ㉏෎಴㒘ЁᖗDŽ݇⊼ SGDᰃ಴Ў 䝉↡ⱘܼ෎಴㒘Ꮖ㒣㹿⌟ᑣˈ䖭Ͼ᭄᥂ᑧᦤկњϔϾ䴲ᐌㅔऩⱘᶹ䆶⬠䴶ˈՓ⫼෎಴ৡˈ෎ ಴ֵᙃˈ᮴ᗻ㋏ˈ㲟ⱑ䋼ֵᙃˈᑣ߫ৡˈ԰㗙ৡˈ៪ܼ᭛ᴹ԰᭛ᴀᮍᓣⱘᶹ䆶DŽ՟བˈ⫼ GeneName԰ЎẔ㋶Џ乬ˈhho1Ў෎಴ৡᶹ䆶ˈᇚӮᠧᓔϔϾSacchDBֵᙃにষˈᰒ⼎᠔᳝ⱘ݇ ѢHHO1ᑻԡⱘֵᙃ˄೒5.16˅DŽᑻԡにষЁ䖬᳝䖲᥹߿ࠄⱘ᭄᥂ᑧⱘ䏇䕀⚍ˈབMEDLINEˈ䝉 ↡㲟ⱑ䋼᭄᥂ᑧ˄Yeast Protein DatabaseˈेYPD˅DŽҢ䖭ᴵ䆄ᔩࠄSacch3Dⱘ䖲᥹ᦤկњ PDBЁᡒࠄⱘHHO1ⱘ㲟ⱑ䋼ѻ⠽ⱘৠ㒧ᵘᮣⱘֵᙃDŽ䖬᳝ࠄѠ㑻㒧ᵘ੠ϝ㑻㒧ᵘ乘⌟ⱘキ⚍ⱘ 䖲᥹DŽঞ˛˛ḍ᥂ᶹ䆶ϔѯ᭄᥂ᑧ乘ܜ䅵ㅫߎⱘBLAST᡹ਞDŽ䖨ಲࠄॳᑻԡにষˈ⚍ߏ Seq&Disply䖲᥹ˈ⫼᠋ᇚ㛑ⳟࠄᑣ߫ⱘᑻԡ਼ೈऎඳⱘ೒ᔶᰒ⼎DŽৃ⫼ⱘ㾚೒ࣙᣀ⠽⧚೒ 䈅ˈ䘫Ӵ೒䈅ˈᶧ㡆ԧ⡍ᕕ೒䈅ҹঞ݊ᅗDŽHHO1ⱘ⠽⧚೒䈅ᰒ⼎೼೒5.17˄⊼ᛣⴔ㡆˅DŽ⊼ ᛣ೒ᔶϞ䚼ⱘ咘㡆ⱘ㉫Ầˈᅗ㒭ߎњⳂࠡ㾚೒ⱘԡ⚍ⳌᇍѢⴔϱ⚍ⱘԡ㕂DŽ೼咘㡆ẦϞ⚍ߏ ህৃҹ೼ᶧ㡆ԧϞ⿏ࡼᶹⳟˈ⚍ߏऩ⣀ⱘ෎಴ˈ᮴ᗻ㋏ˈ៪ᑣ߫ৡህӮ㒭ߎϢ⡍ᅮⱘऎඳ᳝ ݇ⱘ䆺㒚ֵᙃDŽ 䖬᳝ϔϾ䖭ḋⱘϧ䮼ϔ⾡⫳⠽ⱘ᭄᥂ᑧेFlyBaseˈᅗⱘⳂᷛᰃ㓈ᡸᵰ㴛˄Drosophila˅ⱘ෎ ಴੠ߚᄤ⫳⠽ᄺᮍ䴶ⱘ㓐ড়ֵᙃDŽৃҹ⫼World Wide WebˈGopherˈFTP䆓䯂FlyBaseDŽৃᶹ ࠄⱘֵᙃࣙᣀ໻㣗ೈⱘᵰ㴛ᮍ䴶ⱘкߞⳂᔩˈ⍝ঞᵰ㴛ⱘ乍Ⳃⱘⷨお㗙ⱘഄഔˈ11ˈ000໮Ͼ ෎಴ⱘ38ˈ000໮Ͼㄝԡ෎಴ⱘֵᙃ∛㓪ˈ13ˈ000໮⾡ᶧ㡆ԧ⭌বˈ೒䈅ֵᙃˈ෎಴ѻ⠽ࡳ 㛑ⱘֵᙃˈᄬټЁᖗ੠෎಴㒘᮴ᗻ㋏ⱘ߫㸼ˈৠ㉏᭄᥂ᑧⱘֵᙃDŽ᠔᳝䖭ѯᮍ䴶ⱘẔ㋶䛑ৃ ҹ䗮䖛ϔ⾡ㅔऩⱘẔ㋶ᴎࠊᅠ៤DŽ ՟བˈᶹᡒ෎಴ヺোˈcapuЎẔ㋶䆡ˈᇚᡒࠄϔᴵৡЎcappuccinoⱘ෎಴ⱘ䆄ᔩˈ೼ᵰ㴛ॉ ↡㒚㚲਼ᳳⱘℷ⹂ᵕ࣪Ё䳔㽕⫼ࠄᅗ˄Emmonsㄝˈ1995˅DŽ䇗⫼೒ᔶ㾚೒ৃҹᰒ⼎ cappuccinoⱘ෎಴ঞ݊㒚㚲ᄺᅮԡঞ䚏䖥ऎඳⱘ݊ᅗ෎಴ˈ⫼᠋ৃҹ೼෎಴ᴵϞ⚍ߏӏԩഄ ᮍᶹⳟᶤϾ෎಴ⱘ݋ԧ㒚㡖ֵᙃ˄೒5.18˅DŽ೼䖭Ͼ㾚೒Ϟৃҹ⏙Ἦⱘⳟࠄ䞡঴ⱘᚙމ˖䖭 ܓⱘcappuccinoⳟᴹϢЎ䕀ᔩ಴ᄤ㓪ⷕⱘslp1੠slp2䞡঴њDŽ䗝ᢽにষᑩ䚼ⱘ㉏߿ᣝ䪂Пϔ ህ㛑ᬍЎҹᶹⳟ᮴ᗻ㋏ˈ㔎༅ˈ䞡໡ˈצ㕂ˈᯧԡˈ䕀ᑻˈ៪݊ᅗবᓖⱘ೒ᔶ㾚೒DŽ एᄺ᭄᥂ᑧ 㱑✊ᴀゴⱘ䞡⚍೼Ѣᑣ߫ˈԚᇍѢ⫳⠽ᄺᆊᴹ䇈ˈ䰸њߚ㉏੠㒘㒛ᑣֵ߫ᙃⱘ᭄᥂ᑧП໪ˈ 䖬᳝߿ⱘ㉏ൟⱘ᭄᥂ᑧгᕜ᳝⫼DŽ՟བϡ෎Ѣᑣ߫ⱘֵᙃ⑤Online Mendelian Inheritance in Man˄OMIM˅ˈᅗᰃ⬅㑺㗄䳡᱂䞥ᮃ໻ᄺⱘVictor McKusick㓪䕥ⱘ݇ѢҎ㉏෎಴੠෎಴ᓖ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ 义ⷕˈ7/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索 页码,8/8 常的目录的电子版。OMM提供了来源于出版物的简明扼要的文本方式的信息,内容是关于大 多数有遗传学基础的人的正常条件,附有图片解释这些条件和异常情况,配有完备的引用信 息。OMM的在线版位于NCB|,每条记录引用的参考资料都有到 Entrez系统的连接 OMM提供了一个编号系统对每条记录有一个唯一的编号,与登录代号相似,但数字的某些位 表示了与基因异常本身有关的信息。例如,第位表示异常的遗传模式:1表示显性遗传,2表 示隐性遗传,3表示X连锁的座位或性状,4表示Y连锁的基因或性状,5表示线粒体,6表示常 染色体的基因或性状。(1或2与6的区别是:在1994年5月之前的记录赋予1或2,以后的记录 则不论显性或隐性都赋予6。)数字之前的星号表示这个座位上的基因引起的性状不受其它地 方的基因的影响:然而异常本身可能是由于多处变异引起的。未确定遗传模式的异常不带星 号。最后,#号表示性状由两处或两处以上的基因异常引起的。 0MIM的査询很容易进行。检索引擎根据输入到检索窗口的一个或几个词执行简单的査询,返 回含有该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其OMM记录的全 文。记录含有各种信息,如基因符号,病变的名称,对病变的描述(包括临床的,生物化学 的,细胞遗传学的特征),遗传模式上的细节(包括图谱信息),临床的说明,还有参考文 献。由于篇幅的限制不能在此显示一条完全的记录,建议读者可以试用检索词A| zhei mer作输 入进行检索,可以得到一条包含OMM提供的大多数特性的记录 上一页 下一页 返回目录 返回茶庄 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

ᐌⱘⳂᔩⱘ⬉ᄤ⠜DŽOMIMᦤկњᴹ⑤Ѣߎ⠜⠽ⱘㅔᯢᡐ㽕ⱘ᭛ᴀᮍᓣⱘֵᙃˈݙᆍᰃ݇Ѣ໻ ໮᭄᳝䘫Ӵᄺ෎⸔ⱘҎⱘℷᐌᴵӊˈ䰘᳝೒⠛㾷䞞䖭ѯᴵӊ੠ᓖᐌᚙމˈ䜡᳝ᅠ໛ⱘᓩ⫼ֵ ᙃDŽOMIMⱘ೼㒓⠜ԡѢNCBIˈ↣ᴵ䆄ᔩᓩ⫼ⱘখ㗗䌘᭭䛑᳝ࠄEntrez㋏㒳ⱘ䖲᥹DŽ OMIMᦤկњϔϾ㓪ো㋏㒳ᇍ↣ᴵ䆄ᔩ᳝ϔϾଃϔⱘ㓪োˈϢⱏᔩҷোⳌԐˈԚ᭄ᄫⱘᶤѯԡ 㸼⼎њϢ෎಴ᓖᐌᴀ䑿᳝݇ⱘֵᙃDŽ՟བˈ㄀ԡ㸼⼎ᓖᐌⱘ䘫Ӵ῵ᓣ˖㸼⼎ᰒᗻ䘫Ӵˈ㸼 ⼎䱤ᗻ䘫Ӵˈ㸼⼎;䖲䫕ⱘᑻԡ៪ᗻ⢊ˈ㸼⼎<䖲䫕ⱘ෎಴៪ᗻ⢊ˈ㸼⼎㒓㉦ԧˈ㸼⼎ᐌ ᶧ㡆ԧⱘ෎಴៪ᗻ⢊DŽ˄៪Ϣⱘऎ߿ᰃ˖೼1994ᑈ᳜Пࠡⱘ䆄ᔩ䌟ќ៪ˈҹৢⱘ䆄ᔩ ߭ϡ䆎ᰒᗻ៪䱤ᗻ䛑䌟ќDŽ˅᭄ᄫПࠡⱘ᯳ো㸼⼎䖭ϾᑻԡϞⱘ෎಴ᓩ䍋ⱘᗻ⢊ϡফ݊ᅗഄ ᮍⱘ෎಴ⱘᕅડ˖✊㗠ᓖᐌᴀ䑿ৃ㛑ᰃ⬅Ѣ໮໘বᓖᓩ䍋ⱘDŽ᳾⹂ᅮ䘫Ӵ῵ᓣⱘᓖᐌϡᏺ᯳ োDŽ᳔ৢˈʿো㸼⼎ᗻ⢊⬅ϸ໘៪ϸ໘ҹϞⱘ෎಴ᓖᐌᓩ䍋ⱘDŽ OMIMⱘᶹ䆶ᕜᆍᯧ䖯㸠DŽẔ㋶ᓩ᪢ḍ᥂䕧ܹࠄẔ㋶にষⱘϔϾ៪޴Ͼ䆡ᠻ㸠ㅔऩⱘᶹ䆶ˈ䖨 ಲ৿᳝䆹䆡ⱘ᭛ḷⱘ߫㸼ˈ⫼᠋ৃҹ೼߫㸼Ё䗝ᢽϔϾ៪᳈໮ⱘᓖᐌᶹⳟ݊OMIM䆄ᔩⱘܼ ᭛DŽ䆄ᔩ৿᳝৘⾡ֵᙃˈབ෎಴ヺোˈ⮙বⱘৡ⿄ˈᇍ⮙বⱘᦣ䗄˄ࣙᣀЈᑞⱘˈ⫳⠽࣪ᄺ ⱘˈ㒚㚲䘫Ӵᄺⱘ⡍ᕕ˅ˈ䘫Ӵ῵ᓣϞⱘ㒚㡖˄ࣙᣀ೒䈅ֵᙃ˅ˈЈᑞⱘ䇈ᯢˈ䖬᳝খ㗗᭛ ⤂DŽ⬅Ѣ㆛ᐙⱘ䰤ࠊϡ㛑೼ℸᰒ⼎ϔᴵᅠܼⱘ䆄ᔩˈᓎ䆂䇏㗙ৃҹ䆩⫼Ẕ㋶䆡Alzheimer԰䕧 ܹ䖯㸠Ẕ㋶ˈৃҹᕫࠄϔᴵࣙ৿OMIMᦤկⱘ໻໮᭄⡍ᗻⱘ䆄ᔩDŽ Ϟϔ义 ϟϔ义 䖨ಲⳂᔩ 䖨ಲ㤊ᑘ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ 义ⷕˈ8/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

已到末页,全文结束
刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档