内蒙古科技大学：《生物信息学》课程考试试题A卷2010.pdf_大学文库

文档信息

资源类别：文库
文档格式：PDF
文档页数：5
文件大小：204.13KB
团购合买：点击进入团购

内容简介

内蒙古科技大学：《生物信息学》课程考试试题A卷2010

内蒙古科技大学2010/2011学年第一学期 4、构建系统发生树，应使用 A、BLAST B、FASTA 《生物信息学》考试试题 C、UPGMA D、Entrez 课程号：66149304 考试方式：开卷 5、在蛋白质一级数据库基础上，构建二级数据库应使用使用专业、年级：生工08，生技7任课教师：蔡禄考试时间：2010年12月 B、序列比对备注：A卷 A、近邻归并法一、名词解释（每题2分，共10分） C、基因融合法 D、Entrez 1、基序(motif)2、可读框(ORF) 3、剪切变体 6、做DNA结构分析可使用 4、表达标签序列(EST)5、系统发生学 A、GenB&ank数据库 B、PIR数据库二、填空题（共20分，每空1分） C、NDB数据库 D、BL.OCKS数据库、列举至少2种权威的核酸序列数据库等。 7、欧洲生物信息研究所简称： 2、列举至少3种权城的蛋白质序列数据库等。 A、SIB B、EBI 3、核酸序列比对使用的得分矩阵类型有」、和等。 C、NCBI D、MIPS 4、蛋白质结构分类数据库主要有」和等。 8、在蛋白质序列数据库中比较查询蛋白质序列，应使用 5、构建系统树的主要方法有等 A,BLASTn B、BLASTp 6、列举至少4中NCBI的服务功能等 C、tBLASTn D、BLASTx 三、选择题（从每愿的A、B、C、D四个被选答案中选择一个最佳答案。共20分，每 9、Profiles数据库是小愿2分) A、蛋白质序列数据库 B、核酸序列数据库 C、蛋白质二级数据库 D、蛋白质结构数据阵 1、下列那一数据库最有可能存放蛋白质跨膜区信息 A、NDB数据库 B、SWISS-PROT数据库 IO、TreeBASE系统主要用于 C、GenBank数据库 D、PDB数据库 A、发现新基因 B、系统生物学研究 2、下列那一数据库是核酸序列数据库 C、类群间系统发育关系研究D、序列比对 A、PROSITE数据库 B、DDBJ数据库四、问答题（每愿5分，共20分） C、PDB数据库 D、PIR数据库 1、为什么说Swiss-Pro1是重要的蛋白质序列数据库？ 3、下列哪一数据库是表达序列标签数据库？ 2、下面是Genbank中一条记录，是解释其主要含义 A.PROSITE B.dbSNP C、dbEST D、PDB LOCUS U627251 159930 bp DNA circular PLN 15.APR.2005 me 知1页共1页

第 1 页共 1 页内蒙古科技大学 2010/2011 学年第一学期《生物信息学》考试试题课程号：66149304 考试方式：开卷使用专业、年级：生工 08、生技 07 任课教师：蔡禄考试时间：2010 年 12 月备注： A 卷一、名词解释（每题 2 分，共 10 分） 1、基序（motif） 2、可读框（ORF） 3、剪切变体 4、表达标签序列（EST） 5、系统发生学二、填空题（共 20 分，每空 1 分） l、列举至少 2 种权威的核酸序列数据库、等。 2、列举至少 3 种权威的蛋白质序列数据库、、等。 3、核酸序列比对使用的得分矩阵类型有、、和等。 4、蛋白质结构分类数据库主要有、和等。 5、构建系统树的主要方法有、、、、等。 6、列举至少 4 中 NCBI 的服务功能、、和等。三、选择题（从每题的 A、B、C、D 四个被选答案中选择一个最佳答案。共 20 分，每小题 2 分） 1、下列那一数据库最有可能存放蛋白质跨膜区信息 A、NDB 数据库 B、SWISS-PROT 数据库 C、GenBank 数据库 D、PDB 数据库 2、下列那一数据库是核酸序列数据库 A、PROSITE 数据库 B、DDBJ 数据库 C、PDB 数据库 D、PIR 数据库 3、下列哪一数据库是表达序列标签数据库？ A、PROSITE B、dbSNP C、dbEST D、PDB 学生班级_学生学号：□□□□□□□□□□□□学生姓名：_ .装订线.装订线.装订线.试卷须与答题纸一并交监考教师.装订线.装订线.装订线. 4、构建系统发生树，应使用 A、BLAST B、FASTA C、UPGMA D、Entrez 5、在蛋白质一级数据库基础上，构建二级数据库应使用 A、近邻归并法 B、序列比对 C、基因融合法 D、Entrez 6、做 DNA 结构分析可使用 A、GenBank 数据库 B、PIR 数据库 C、NDB 数据库 D、BLOCKS 数据库 7、欧洲生物信息研究所简称： A、SIB B、EBI C、NCBI D、MIPS 8、在蛋白质序列数据库中比较查询蛋白质序列，应使用 A、BLASTn B、BLASTp C、tBLASTn D、BLASTx 9、Profiles 数据库是 A、蛋白质序列数据库 B、核酸序列数据库 C、蛋白质二级数据库 D、蛋白质结构数据库 10、TreeBASE 系统主要用于 A、发现新基因 B、系统生物学研究 C、类群间系统发育关系研究 D、序列比对四、问答题（每题 5 分，共 20 分） 1、为什么说 Swiss-Prot 是重要的蛋白质序列数据库? 2、下面是 Genbank 中一条记录，是解释其主要含义 LOCUS AJ627251 159930 bp DNA circular PLN 15-APR-2005 DEFINITION Nymphaea alba chloroplast, complete genome

ACCESSION AJ627251 E21390 VERSION U627251.1G:50250306 KEYWORDS complete genome. SOURCE chloroplast Nymphaca alba REFERENCE AUTHORS Goremmykin,V.VHirsch-Ernst,K.I.,Wolfl,S.and Hellwig.F.H. The chloroplst genom of whole-genome the problem of identifying the most basal angiosperm JOURNAL Mol.Biol.Eol.21(7,144s1454004 PUBMED 15084685 FEATURES L.159930 rleplastidchloroplast /md_type-"genomic DNA" /db xref-"taom:34101 159465159395 /gene-rpl2 ORIGIN 61 accc tactctgactcalg油cgt恤 3、构建蛋白质二级数据库的主要方法有哪些 4、概括总结序列比较的主要用途。五、计算题（共30分） I、对两条序列“SQYHDEKRPW”和“ISQYHAEKRP”进行局部比对。(I5分) 2、对于下列距离矩阵，用UPGMA构建系统发生树。(15分) AB A 0 B 30 650 D 9 910 第2页共1页

第 2 页共 1 页 ACCESSION AJ627251 VERSION AJ627251.1 GI:50250306 KEYWORDS complete genome. SOURCE chloroplast Nymphaea alba REFERENCE 1 AUTHORS Goremykin,V.V., Hirsch-Ernst,K.I., Wolfl,S. and Hellwig,F.H. TITLE The chloroplast genome of Nymphaea alba: whole-genome analyses and the problem of identifying the most basal angiosperm JOURNAL Mol. Biol. Evol. 21 (7), 1445-1454 (2004) PUBMED 15084683 FEATURES Location/Qualifiers source 1.159930 /organism="Nymphaea alba" /organelle="plastid:chloroplast" /mol_type="genomic DNA" /db_xref="taxon:34301" exon 159465.159895 /gene="rpl2" /number=2 ORIGIN 1 atgggcgaac gacgggaatt gaacccgcga atggtggatt cacaatccac taccttaatc 61 cacttggcta catccgcccc tactctgact caattaagag tcatgtcata tttcgtttta . 159841 gagtaggaaa aggaataaat atagtgatat ttttattctt cgtcgccgta agtaaataga 159901 aagagaaata ataaataatg aatgatgtga // 3、构建蛋白质二级数据库的主要方法有哪些? 4、概括总结序列比较的主要用途。五、计算题（共 30 分） l、对两条序列“SQYHDEKRPW”和“ISQYHAEKRP”进行局部比对。（15 分） 2、对于下列距离矩阵，用 UPGMA 构建系统发生树。（15 分） A B C D E A 0 B 3 0 C 6 5 0 D 9 9 10 0 E 12 11 13 9 0

内蒙古科技大学2010/2011学年第一学期四、问答题（每题5分，共20分）《生物信息学》考试试题答案 1、为什么说Swiss-Prot是重要的蛋白质序列数据库？课程号：66149304 考试方式：开卷 SwissProt数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家使用专业、年级：生工08，生技07任课教师：蔡禄通过计算机工具并查阅有关文献资斜仔细核实。SB和EBI共有0多人的研究队考试时间：2010年12月备注：A卷伍，专门从事蛋白质序列数据的搜集、整理、分析、注释、发布，力图提供高质量一、名词解释（每题2分，共10分）的蛋白质序列和注释信息。 1、基序(moD:通过多序列比对，将同源序列收集在一起，以得到保守区域。这 SwissPr©数据库的每个条日都有详细的注程，包括结构域、功能位点、跨膜区域、些保守区域称为基序(mois) 二破键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库 2、可读框(ORF):没有终止密码子(TGA,TAA或TAG)打断的阅读框。 EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二 3、剪切变体：从同一DNA,转录得到不同mRNA,并最终翻译成不同的蛋白质称次数据库的交叉引用代码。 ■ 为剪接变体特别值得一提的是，专门聘请了由200多位因际知名生物学家组成的网上专家评审 4、表达标签序列(EST):是从cDNA文库中生成的一些很短的序列(300一50Obp), 团，并将SwissProt数据库中的蛋白质分成200多个类别，每个类别由1位或2位评它们代表在特定组织或发育阶段表达的基因，有时可代表特定的©DNA. 审专家负责，通过计算机网络进行审核。网站上列出了这些评审专家的姓名、电子 5、系统发生学：通过比较五种的特征，认为特征相似的五种在遗传学上相近，研究邮件地址和他们所负责评审蛋白质种类。用户若对某个蛋白质条日有疑义，可以直五种之见的进化关系接和相应的评审专家取得联系。二、填空题（共20分，每空1分） 2、下面是Genbank中一条i记录，是解释其主要含义 1、列举至少2种权威的核酸序列数据库Genbank、MBL等。序列识别码：AJ627251,长度159930bp,环状DNA分子，植物类，2005年4月 2、列举至少3种权城的蛋白质序列数据库PIR、Swiss-prot、MPs等。 15日建立 3、核酸序列比对使用的得分矩阵类型有等价矩阵、BLAS工、和我换颠换矩阵等。睡莲叶绿体全基因组 4、蛋白质结构分类数据库主要有SCOP和CAH和PDBsum等。参考文献显示作者、论文标题、期刊年卷期页等信息及于Pubmed链接 5、构建系统树的主要方法有UPGMA法、邻近归并法、Fich-Margoliash法、外显子位于159465-159895，基因名pl2 最小进化法(ME)_、最大似然法(ML)、等。详细序列顺序 6、列举至少4中NCBI的服务功能Pubmed、Enre丝、BLAS工和OMM等。 3、构建蛋白质二级数据库的主要方法有哪些？三、选择题（共20分，每小题2分）单基序法、多基序法和全城对位排列法 BB CC B C BB CC 4、概括总结序列比较的主要用途。 I).用于系统发有分析(phylogeneticanalysis 知3页共1页

第 3 页共 1 页内蒙古科技大学 2010/2011 学年第一学期《生物信息学》考试试题答案课程号：66149304 考试方式：开卷使用专业、年级：生工 08、生技 07 任课教师：蔡禄考试时间：2010 年 12 月备注： A 卷一、名词解释（每题 2 分，共 10 分） 1、基序（motif）：通过多序列比对，将同源序列收集在一起，以得到保守区域。这些保守区域称为基序(motifs) 2、可读框（ORF）：没有终止密码子（TGA,TAA 或 TAG）打断的阅读框。 3、剪切变体：从同一 DNA，转录得到不同 mRNA，并最终翻译成不同的蛋白质称为剪接变体 4、表达标签序列（EST）：是从 cDNA 文库中生成的一些很短的序列(300—500bp)，它们代表在特定组织或发育阶段表达的基因，有时可代表特定的 cDNA. 5、系统发生学：通过比较五种的特征，认为特征相似的五种在遗传学上相近，研究五种之见的进化关系二、填空题（共 20 分，每空 1 分） l、列举至少 2 种权威的核酸序列数据库 Genbank 、 EMBL 等。 2、列举至少 3 种权威的蛋白质序列数据库 PIR 、 Swiss-prot 、 MIPs 等。 3、核酸序列比对使用的得分矩阵类型有等价矩阵、 BLAST 、和转换-颠换矩阵等。 4、蛋白质结构分类数据库主要有 SCOP 和 CAH 和 PDBsum 等。 5、构建系统树的主要方法有 UPGMA 法、邻近归并法、 Fitch-Margoliash 法、最小进化法（ME）、最大似然法（ML）、等。 6、列举至少 4 中NCBI的服务功能 Pubmed 、 Entrez 、 BLAST 和 OMIM 等。三、选择题（共 20 分，每小题 2 分）学生班级_学生学号： B B C C B C B B C C □□□□□□□□□□□□学生姓名：_ .装订线.装订线.装订线.试卷须与答题纸一并交监考教师.装订线.装订线.装订线. 四、问答题（每题 5 分，共 20 分） 1、为什么说 Swiss-Prot 是重要的蛋白质序列数据库? SwissProt 数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SIB 和 EBI 共有 70 多人的研究队伍，专门从事蛋白质序列数据的搜集、整理、分析、注释、发布，力图提供高质量的蛋白质序列和注释信息。 SwissProt数据库的每个条目都有详细的注释，包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库 EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二次数据库的交叉引用代码。特别值得一提的是，专门聘请了由 200 多位国际知名生物学家组成的网上专家评审团，并将SwissProt数据库中的蛋白质分成200多个类别，每个类别由 1 位或 2 位评审专家负责，通过计算机网络进行审核。网站上列出了这些评审专家的姓名、电子邮件地址和他们所负责评审蛋白质种类。用户若对某个蛋白质条目有疑义，可以直接和相应的评审专家取得联系。 2、下面是 Genbank 中一条记录，是解释其主要含义序列识别码:AJ627251，长度 159930bp，环状 DNA 分子，植物类，2005 年 4 月 15 日建立睡莲叶绿体全基因组参考文献显示作者、论文标题、期刊年卷期页等信息及于 Pubmed 链接外显子位于 159465-159895，基因名 rpl2 详细序列顺序 3、构建蛋白质二级数据库的主要方法有哪些? 单基序法、多基序法和全域对位排列法 4、概括总结序列比较的主要用途。 1). 用于系统发育分析 (phylogenetic analysis)

通过序列比对，可以寻找序列间的同源性（相似性），这种同源相似性是序列间进化 X S Q YH D E R P 0.00.00.00.00.00.00.0 0.0 0.0 0.0. 0.0 关系的一种反映，所构建的数据矩阵成为系统发有分析的基础。 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 2.结构预测(structure prediction) 0.0 1.0 000000 0.0 0.0 0.0 0.0 0.0 0 0.0 0.0 2.0 0.0 0.0 0.0 0.0 0 0.0 将新获得的序列与已知结构的蛋白质序列进行比对，可以通过序列同源性来粗略 00 0.0 0.0 0.0 0.0 3000 0.0 0.0 0.0 0.0 0.0 0 地推测其结构的相似性。 H 0.0 0.0 0.00.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.0 0.0 0.0 3.7 0 0.0 0.0 0.0 0. 3).序列基序鉴定(sequence motifidentification) 0.0 0.0 0.0 0.0 0.0 0.0 34 1.0 0.0 0.0 0.0 局部排列可以鉴定蛋白质和核苷酸序列中潜在的序列和功能基序。个 0.00.00.00.00.0 0.0 0.0 3.0 2.0 0.0 0.0 0.00.0 0.00.0 0.0 0.0 0.0 2.7 3.0 0.0 4).功能预测(function prediction) 0.0 P0.00.00.00.00.00.0 0.0 0.0 0.0 2.3 4.0 蛋白质序列间的高度相似性通常意味着同源序列间的功能相似性。 4分 S).数据库搜索(database search) 接下来进行递推，用两个函数分别计算由二条路径到达该单元的分值并找出其中五、计算题（共30分）的最大值，若此分值小于0，则用0替代。这两个函数分别计算： I、对两条序列“SQYHDEKRPW”和“ISQYHAEKRP”进行局部比对。(I5分) ④当前行前面各分值与相应空位罚分值之差，并取最大值：求空位罚分值的函数为W 答：首先，矩阵最上面一行和最左边一列前面插入一个边界行和边界列，图中用字符 =1.0+0.333k,k表示连续的第k个空位。 “X”表示，称为第0行和第0列。该边界行和边界列所有单元的分值均为0.0。可以 (四当前列前面各分值与相应的空位罚分值之差，并取最大值。出现负值就用0代替，把这些单元理解为序列片段的起始端，其长度为0。它们的相似性分数值自然也为0。表示没有相似性比对可以延续到当前位置。至于用小数还是整数表示，没有实质性区别。 x S Q W E X S Q Y H D W X0.00.00.00.00.00.0 0.0 EKRP 0.00.00.00.0 X0.00.00.00.00.00.0 0.0 0.0 0.0 0.0 0.0 0.00.00.00.00.00.0 0.0 0.0 0.0 0 0.0 1.0.00.00.00.00.00.0 0.0 0.0 0.0 0.0 0.0 f 0.0 1.00.00.00.0 0.0 0.0 0.0 0 0 s0.00.00.00.00.00.0 0.0 0.0 0.0 0.0 0.00.02.0 0.70.3 0 0.0 0.0 0.7 88 88 88 Q0.00.00.00.00.00.0 0.0 0.0 0.0 0.0 0.0 0.0 0.00.73.01.7 3 0.0 0.00.31.7 4.0 2.7 2.3 2.0 Y0.00.00.00.00.00.0 0.0 0.0 0.0 0.0 1.7 1.3 1.0 0.0 0.0 0.0 0.00.0 H0.00.00.00.00.00.0 0.0 0.0 0.0 1.0 2.7 3.7 2.3 2.0 1.3 1.0 A0.00.00.00.00.00.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.7 2.3 2.3 1.9 品 1.0 E0.00.00.00.00.0 0.0 0.0 0.0 88 0.0 0.0 0.0 0.00.00.32.0 2.0l 3.0 0.3 0.0 0.00.00.00.01.71.7 1.7 1.7 2.7 3.0 K 0.00.00.00.00.0 0.0 0.0 0.0 0.0 0.0 1.7 R0.00.00.00.00.00.0 0.0 0.0 0.0 0.0 0.00.00.00.01.3 1.3 13 1.3 1.3 2.3 4.0 0.0 P0.00.00.00.00.00.0 0.0 00 0.0 0.0 00 -7分一1分一旦矩阵中所有单元的分值计算完毕，就可以找出具有最高分值的单元，也就是接下来计算矩阵中每个单元的计分值。当前单元对角线方向前一格的分值与当前代表两个序列间高分匹配的终点。到达这个单元的其他矩阵元素可以通过回溺方法确单元相似性数值之和，相似性数值匹配时为1.0，不匹配时为-0.333。定。然后根据回溯路径求得一个片段的比对。如果需要，还可以找出在上述回溯范围第4页共1页

第 4 页共 1 页通过序列比对，可以寻找序列间的同源性(相似性)，这种同源相似性是序列间进化关系的一种反映，所构建的数据矩阵成为系统发育分析的基础。 2). 结构预测 (structure prediction) 将新获得的序列与已知结构的蛋白质序列进行比对，可以通过序列同源性来粗略地推测其结构的相似性。 3). 序列基序鉴定 (sequence motif identification) 局部排列可以鉴定蛋白质和核苷酸序列中潜在的序列和功能基序。 4). 功能预测（function prediction) 蛋白质序列间的高度相似性通常意味着同源序列间的功能相似性。 5). 数据库搜索(database search) 五、计算题（共 30 分） l、对两条序列“SQYHDEKRPW”和“ISQYHAEKRP”进行局部比对。（15 分）答：首先，矩阵最上面一行和最左边一列前面插入一个边界行和边界列，图中用字符 “X”表示，称为第 0 行和第 0 列。该边界行和边界列所有单元的分值均为 0.0。可以把这些单元理解为序列片段的起始端，其长度为 0。它们的相似性分数值自然也为 0。至于用小数还是整数表示，没有实质性区别。 X S Q Y H D W E K R P X 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 I 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 S 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Q 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Y 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 H 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 A 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 E 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 K 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 R 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 P 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 -1 分接下来计算矩阵中每个单元的计分值。当前单元对角线方向前一格的分值与当前单元相似性数值之和，相似性数值匹配时为 1.0，不匹配时为-0.333 。 X S Q Y H D W E K R P X 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 I 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 S 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Q 0.0 0.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Y 0.0 0.0 0.0 3.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 H 0.0 0.0 0.0 0.0 4.0 0.0 0.0 0.0 0.0 0.0 0.0 A 0.0 0.0 0.0 0.0 0.0 3.7 0.0 0.0 0.0 0.0 0.0 E 0.0 0.0 0.0 0.0 0.0 0.0 3.4 1.0 0.0 0.0 0.0 K 0.0 0.0 0.0 0.0 0.0 0.0 0.0 3.0 2.0 0.0 0.0 R 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 2.7 3.0 0.0 P 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 2.3 4.0 -4 分接下来进行递推，用两个函数分别计算由二条路径到达该单元的分值并找出其中的最大值，若此分值小于 0，则用 0 替代。这两个函数分别计算： (I) 当前行前面各分值与相应空位罚分值之差，并取最大值；求空位罚分值的函数为 W ＝1.0+0.333 k，k 表示连续的第 k 个空位。 (II) 当前列前面各分值与相应的空位罚分值之差，并取最大值。出现负值就用 0 代替，表示没有相似性比对可以延续到当前位置。 X S Q Y H D W E K R P X 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 I 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 S 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Q 0.0 0.0 2.0 0.7 0.3 0.0 0.0 0.0 0.0 0.0 0.0 Y 0.0 0.0 0.7 3.0 1.7 1.3 1.0 0.7 0.3 0.0 0.0 H 0.0 0.0 0.3 1.7 4.0 2.7 2.3 2.0 1.7 1.3 1.0 A 0.0 0.0 0.0 1.0 2.7 3.7 2.3 2.0 1.7 1.3 1.0 E 0.0 0.0 0.0 0.7 2.3 2.3 3.3 1.9 1.7 1.3 1.0 K 0.0 0.0 0.0 0.3 2.0 2.0 2.0 3.0 2.0 0.7 0.3 R 0.0 0.0 0.0 0.0 1.7 1.7 1.7 1.7 2.7 3.0 1.7 P 0.0 0.0 0.0 0.0 1.3 1.3 1.3 1.3 1.3 2.3 4.0 -7 分一旦矩阵中所有单元的分值计算完毕，就可以找出具有最高分值的单元，也就是代表两个序列间高分匹配的终点。到达这个单元的其他矩阵元素可以通过回溯方法确定。然后根据回溯路径求得一个片段的比对。如果需要，还可以找出在上述回溯范围

以外其他具有较高分值的矩阵单元，再进行回溯，即找出多个具有较高分值的相似性根据最小距离值5.523（对角线元素0除外），将AB和C聚合为ABC。ABC与D、片段。本例中发现有两个区域SQYH和EKRP具有局部相似性。 E间的距离分别为：一-3分 1 2、对于下列距离矩阵，用UPGMA构建系统发生树。(15分) d'i= d2。=181/2 dac.=9.5 -2分营首先，根据最小距离值3（对角线元素0除外），将A和B聚合为AB。 d'sc 2d.+2d8.=603/4dr4=1228 -2分 AB与C、D、E间的距离分别为：新的距离矩阵为： D A 0 ABC D E B 3 ABC 0 0 D 9.5 0 C 6 5 0 E 12.28 9 0 D 990 0 E1211139 0 根据最小距离值%对角线元素0除外)，将D和E聚合为DE。ABC与DE间的 + 1 -61/2 1 ds.c=5.523 距离为： -2分 did9518 do -2分 1 2 d=81 d=9 -2分 .-+=212 da.s=11.51 -2分根据以上结果，可以构建一个系统树新的距离矩阵为 AB D E AB 0 .5230 D 9 10 E 11.5113 9 -3分知5页共1页

第 5 页共 1 页以外其他具有较高分值的矩阵单元，再进行回溯，即找出多个具有较高分值的相似性片段。本例中发现有两个区域 SQYH 和 EKRP 具有局部相似性。 -3 分 2、对于下列距离矩阵，用 UPGMA 构建系统发生树。（15 分）答：首先，根据最小距离值 3(对角线元素 0 除外)，将 A 和 B 聚合为 AB。 AB 与 C、D、E 间的距离分别为： A B C D E A 0 B 3 0 C 6 5 0 D 9 9 10 0 E 12 11 13 9 0 - 新的距离矩阵为： AB C D E AB 0 C 5.523 .51 0 D 9 10 0 E 11 13 9 0 根据最小距离值 5.523(对角线元素 0 除外)，将 AB 和 C 聚合为 ABC。ABC 与 D、 E 新的距离矩阵为： ABC D E 间的距离分别为： ABC 0 D 9.5 0 E 12.28 9 0 根据最小距离值 9(对线元素外)， D 和 E 聚合为 DE。ABC 与 DE 间的根据以上结果，可以构建一个系统树 A D E -3 分角 0 除将距离为： B C 2/61 2 1 2 2 1 2 ,CAB dd ,CA += 2 d ,CB = d ,CAB = 523.5 81 2 1 2 1 2 , ,D ,DA dd DB =+= 2 2 d AB d ,DAB = 9 2/265 2 1 2 , 2 2 ,EAB dd EA += EB = 51.11 1 2 , d = d ,EAB 2/181 2 1 2 2 2 2 ,DABC ,DAB ddd ,DC =+= d ,DABC = 5.9 1 4/03 2 1 2 1 6 d ,EABC = 28.12 2 2 2 ,EABC ,EAB ddd ,EC =+= 8/965 22 2 2 2 ,ABCD ddd ,ABCE =+= ,ABCDE 11 ,ABCDE d = 11 − − − 2分 − − − 2分 − − − 2分 −− −−− 2分分 − 2分 −−− 2

已到末页，全文结束

刷新页面下载完整文档

VIP每日下载上限内不扣除下载券和下载次数；
按次数下载不扣除下载券；
注册用户24小时内重复下载只扣除一次；
顺序：VIP每日次数-->可用次数-->下载券；