内蒙古科技大学:《生物信息学》课程授课教案(讲义,共八章,授课教师:蔡禄)

生物信息学 教案 2010/2011第一学期 教师 蔡禄 内蒙古科技大学 数理与生物工程学院 2010年9月
1 生 物 信 息 学 教 案 2010/2011 第一学期 教师 蔡 禄 内蒙古科技大学 数理与生物工程学院 2010 年 9 月

教材: 蔡禄生物学信息教程2006年北京化学工业出版社 主要参考书: 1、孙啸等生物信息基础2004年清华大学出版社 &、TK Attwood等Introduction to Bioinformatics2002年北京大学出版社 3、李衍达孙之荣译Bioinformatics:A practice guide to the analysis of genes and proteins2000年清华大学出版社 R.Durbin Biological sequence analysis-Probabilistic models of proteins and nucleic acids2002年清华大学出版社 授课对象:生物技术生物工程本科 课程性质:生物技术专业必修课 生物工程专业选修课 学时:课堂40学时,上机10学时(自愿)
2 教材: 蔡禄 生物学信息教程 2006 年 北京 化学工业出版社 主要参考书: 1、 孙啸 等 生物信息基础 2004 年 清华大学出版社 2、 T K Attwood 等 Introduction to Bioinformatics2002 年 北京大学出版社 3、 李衍达 孙之荣译 Bioinformatics:A practice guide to the analysis of genes and proteins 2000 年清华大学出版社 4、 R. Durbin 等 Biological sequence analysis-Probabilistic models of proteins and nucleic acids 2002 年 清华大学出版社 授课对象:生物技术 生物工程本科 课程性质:生物技术专业必修课 生物工程专业选修课 学时:课堂 40 学时,上机 10 学时(自愿)

课程名称:生物信息辱 授课章节 第1章生物信息学引论(6学时) 目的要求 介绍生物信息学的基本概念,指出生物信息学的研究目标和任务、研究意义、基本 方法和前沿书术 重占,生物信自学概今 重点难点 难点:生物信息学与其他生物学科的观念上的革新 还原论思 对照“综合 生物并非只是物质的简单堆积,生物体的生长发育是生命信息控制之下的复杂论”解释 而有序的过程。如果说物理学是研究物质和能量的学科,那么生命科学就是研究生 命物质其出上的信息的学科」 “生物信自 我们对生命的奥秘还不甚了解,对生命信息的组 、传递和表达还知之其少 学”产生的背 既然这牵涉到信息的组织、传递和表达,我们就可以用信息科学的方法和技术来尝 试认识和分析生命信息 §1.1引言 随着基因组计划的迅速发展,生物数据的积累速度不断加快。因此,也就对生 物数据的科学分析方法和实用分析工具提出了更新、更高的要求。在这个过程中 需要对实验数据进行处理并及时进行理论分析,在此基础上解释实验现象,认识导 致实验现象发生的本质,在“整合”、“系统”等全新理念下探索固有的生物学规律, 进而了解和堂据生命的物质基础和生命的本质。 1.11生物信息学基本概念 无论从理论上来讲还是从实际情况来看,生物信息学的实质就是利用数理知识、 信息和计算机科学及技术来研究生物学信息的组织、传递和表达规律等问题。 广义的生物信息学是指以核酸蛋白质等生物大分子为主要研究对象,以信息 广义概念 数理、计算机科学为主要研究手段,以计算机网络为主要研究环境,以计算机软件 为主要研究 对序列数 居进行存储、管理、注释、 加工,对各种数据库进 询、搜索、比较、分析,构建各种类型的专用数据库信息系统,研究开发面向生物 学家的新一代计算机软件:并利用数理统计、模式识别、动态规划、密码解读、语 意解析、信令传递、神经网络、遗传算法以及隐马氏模型等各种方法,对序列、结 构数据进行定性和定量分析,从中获取基因编码、基因调控、序列结构功能关系等 理性知识阐明细陶、婴宫和个休的发生、发有、恋、 衰亡的基本规律和时空联 系,探索生命起源、生物进化、生命本质等重大理论问题 立“生物学周期表 计算分子生物学主要研究分析方法,开发分析工具,促进生物分子数据的分析。 相关领域定 生物计算主要是用计算机技术分析和处理生物学数据。 1.1.2生物信息学的研究目标和任务 羯示生物分子数据隐含的生物学信息是其长远目标和根本任务 从三个方面 目前生物信息学的主要任务包括3个方面: 论述 第一是收集和管理生物分子数据。 第二是进行数据处理和分析。目前生物信息学的主要研究对象是DNA和蛋白 质。在DNA分析方面,若重分析DNA序列中的基因信息及基因表达调控信息,分 析基因表达数据,分析基因之间的相互作用关系,比较不同种属的基因组,研究基 2
2 课程名称:生物信息学 授课章节 第 1 章 生物信息学引论(6 学时) 目的要求 介绍生物信息学的基本概念,指出生物信息学的研究目标和任务、研究意义、基本 方法和前沿技术。 重点难点 重点:生物信息学概念。 难点:生物信息学与其他生物学科的观念上的革新 还原论思想 生物并非只是物质的简单堆积,生物体的生长发育是生命信息控制之下的复杂 而有序的过程。如果说物理学是研究物质和能量的学科,那么生命科学就是研究生 命物质基础上的信息的学科。 我们对生命的奥秘还不甚了解,对生命信息的组织、传递和表达还知之甚少。 既然这牵涉到信息的组织、传递和表达,我们就可以用信息科学的方法和技术来尝 试认识和分析生命信息。 §1.1 引言 随着基因组计划的迅速发展,生物数据的积累速度不断加快。因此,也就对生 物数据的科学分析方法和实用分析工具提出了更新、更高的要求。在这个过程中, 需要对实验数据进行处理并及时进行理论分析,在此基础上解释实验现象,认识导 致实验现象发生的本质,在“整合”、“系统”等全新理念下探索固有的生物学规律, 进而了解和掌握生命的物质基础和生命的本质。 1.1.1 生物信息学基本概念 无论从理论上来讲还是从实际情况来看,生物信息学的实质就是利用数理知识、 信息和计算机科学及技术来研究生物学信息的组织、传递和表达规律等问题。 广义的生物信息学是指以核酸蛋白质等生物大分子为主要研究对象,以信息、 数理、计算机科学为主要研究手段,以计算机网络为主要研究环境,以计算机软件 为主要研究工具,对序列数据进行存储、管理、注释、加工,对各种数据库进行查 询、搜索、比较、分析,构建各种类型的专用数据库信息系统,研究开发面向生物 学家的新一代计算机软件;并利用数理统计、模式识别、动态规划、密码解读、语 意解析、信令传递、神经网络、遗传算法以及隐马氏模型等各种方法,对序列、结 构数据进行定性和定量分析,从中获取基因编码、基因调控、序列-结构-功能关系等 理性知识,阐明细胞、器官和个体的发生、发育、病变、衰亡的基本规律和时空联 系,探索生命起源、生物进化、生命本质等重大理论问题,最终建立“生物学周期表”。 计算分子生物学主要研究分析方法,开发分析工具,促进生物分子数据的分析。 生物计算主要是用计算机技术分析和处理生物学数据。 1.1.2 生物信息学的研究目标和任务 揭示生物分子数据隐含的生物学信息是其长远目标和根本任务。 目前生物信息学的主要任务包括 3 个方面: 第一是收集和管理生物分子数据。 第二是进行数据处理和分析。目前生物信息学的主要研究对象是 DNA 和蛋白 质。在 DNA 分析方面,着重分析 DNA 序列中的基因信息及基因表达调控信息,分 析基因表达数据,分析基因之间的相互作用关系,比较不同种属的基因组,研究基 对照“综合 论”解释 “生物信息 学”产生的背 景 广义概念 相关领域定 义 从三个方面 论述

因组中非编码区域的生物学功能。在蛋白质分析方面,若重分析蛋白质序列与蛋白 质结构及功能之间的关系,预测蛋白质的结构和功能,研究蛋白质的进化关系。 第三个方面是开发分析工具和实用软件,解决具体的问题, 为具体的生物信 学应用服务。 1.1.3生物信息学的研究意义 从5个方面论 生物信息学研究是从理论上认识生物本质的必要途径 生物信息学的出现将改变生物学的研究方式 随着分子生物学研究的深入,必然需要生物信息学。 生物信息学在指导实验、精心没计实验方面将会发挥重要的作用。 生物信息学研究在医学上也有重要的意义。 S1.2生物信息学的产生与发展 1.2.1生物信息学的发展历史 生物信息学的发展大致经历了3个阶段: 按历史顺序 (1)前基因组时代(20世纪90年代前) 介绍重要事 20世纪50年代,生物信息学就已经开始孕育。 1962年,Zucherkandl和Pauling研究序列变化与进化之间的关系,开创了一个 新的领域 分子进化 1964年,蛋白质结构预测的研究由Davies的工作开始。氨基酸序列的收集是这 注意结合领 个时期的一项重要工作,1967年Dayhoff发表了蛋白质序列图集,该图集后来演变 域前沿问题 进解,调动学 为著名的蛋白质信息源(PR)。 生学习兴趣 20世纪60年代是生物信息学形成雏形的阶段。 从20世纪70年代初期到80年代初期 出现 一系列若名的序列比较方法 在20世纪70年代,还不断涌现出许多生物信息分析方法。 20世纪80年代以后,出现了一批生物信息服务机构和生物信息数据库。 (②)基因组时代(20世纪90年代后至2001年) 生物信息学的真正发展则是在20世纪90年代,在人类基因组计划的推动下, 主物信息学 (3)后基因组时代(2001年至今) 随若后基因组时代的到来,生物信息学研究的重点逐步转移到功能基因组信息 研究。其具体表现在: (1)将已知基因的序列与功能联系在一起进行研究: 从以常规克隆为基础的基因分离转向以序列分析和功能分析为基础的 志因分离 (3) 从单个基因致病机理的研究转向多个基因致病机理的研究: (4)从组织与组织之间的比较来研究功能基因组和蛋白质组,组织与组织 之间的比较主要表现在:正常与疾病组织之间的比较,正常与激活组 织之间的比较,疾病与处理(或治疗)组织之间的比较,不同发育过 程的比较等 (5) 标志是大规模基因组分析、蛋白质组分析以及各种数据的比较和整合 出现了蛋白质组学、药物基因组学、比较基因组学、功能基因组学、 系统生物学、整合生物学等学科。 (6)研究思路也发生了本质的变化,从传统的还原论研究生命过程转到了
3 因组中非编码区域的生物学功能。在蛋白质分析方面,着重分析蛋白质序列与蛋白 质结构及功能之间的关系,预测蛋白质的结构和功能,研究蛋白质的进化关系。 第三个方面是开发分析工具和实用软件,解决具体的问题,为具体的生物信息 学应用服务。 1.1.3 生物信息学的研究意义 生物信息学研究是从理论上认识生物本质的必要途径。 生物信息学的出现将改变生物学的研究方式。 随着分子生物学研究的深入,必然需要生物信息学。 生物信息学在指导实验、精心没计实验方面将会发挥重要的作用。 生物信息学研究在医学上也有重要的意义。 §1.2 生物信息学的产生与发展 1.2.1 生物信息学的发展历史 生物信息学的发展大致经历了 3 个阶段: (1) 前基因组时代(20 世纪 90 年代前) 20 世纪 50 年代,生物信息学就已经开始孕育。 1962 年,Zucherkandl 和 Pauling 研究序列变化与进化之间的关系,开创了一个 新的领域——分子进化。 1964 年,蛋白质结构预测的研究由 Davies 的工作开始。氨基酸序列的收集是这 个时期的一项重要工作,1967 年 Dayhoff 发表了蛋白质序列图集,该图集后来演变 为著名的蛋白质信息源(PIR)。 20 世纪 60 年代是生物信息学形成雏形的阶段。 从 20 世纪 70 年代初期到 80 年代初期,出现了一系列著名的序列比较方法。 在 20 世纪 70 年代,还不断涌现出许多生物信息分析方法。 20 世纪 80 年代以后,出现了一批生物信息服务机构和生物信息数据库。 (2) 基因组时代 (20 世纪 90 年代后至 2001 年) 生物信息学的真正发展则是在 20 世纪 90 年代,在人类基因组计划的推动下, 生物信息学才得以迅猛发展。 (3) 后基因组时代 (2001 年至今) 随着后基因组时代的到来,生物信息学研究的重点逐步转移到功能基因组信息 研究。其具体表现在: (1) 将已知基因的序列与功能联系在一起进行研究; (2) 从以常规克隆为基础的基因分离转向以序列分析和功能分析为基础的 基因分离; (3) 从单个基因致病机理的研究转向多个基因致病机理的研究; (4) 从组织与组织之间的比较来研究功能基因组和蛋白质组,组织与组织 之间的比较主要表现在:正常与疾病组织之间的比较,正常与激活组 织之间的比较,疾病与处理(或治疗)组织之间的比较,不同发育过 程的比较等 (5) 标志是大规模基因组分析、蛋白质组分析以及各种数据的比较和整合。 出现了蛋白质组学、药物基因组学、比较基因组学、功能基因组学、 系统生物学、整合生物学等学科。 (6) 研究思路也发生了本质的变化,从传统的还原论研究生命过程转到了 综合论思想 综合论方法研究基因和各种生物大分子是怎样通过网络 从 5 个方面论 述 按历史顺序 介绍重要事 件 注意结合领 域前沿问题 讲解,调动学 生学习兴趣

综合论思想。综合论方法研究基因和各种生物大分子是怎样通过网络 丽控方式形成一个生物系统的。提出了层次抽提和相互作用网路等概 1.2.2我国生物信息学发展现状 我国的生物信息学工作是逐步发展起来的。20世纪80年就有若干科研院所的介绍国内有 生物、物理、信息、数学等学科的工作者从事生物信息学的研究工作。 关单位和有 近几年来,国内对生物信息学的研究和应用越来越重视。 关专家 我国在基因组信息的收集与发布方面开展了 一些工 目前,我国基因组和蛋白质组研究在国际上己经占据了重要的地位:在生物信 息学研究和应用方面,相信经过科学家的努力,经过多学科专家的合作,完全有可 能赶上甚至超过世界先进水平。 12.3我国生物信息学研究的发展方向 以国家自然 从国内权威的政府科学研究基金“国家自然科学基金”的资助方向可大致了解 科学基金 我国生物信息学研究的主流发展方向。 863计划、香 数理学部设立了一个“理论物理学及其交叉科学若干前沿问题”的重大项目 山会议等介 数理学部环设立了重点项日“基因功能流测的生物信息学”,项日强调发展物理绍 与生物、化学、数学结合的新实验和理论方法来探索生物系统调控的基本规律 生命科学学部的“生物化学与分子生物学学科” “遗传学与发育生物学学科 “生物物理与生物医学工程学科”,信息学部的“电子科学学科”均把“生物信息学 方向作为重要的前沿领域资助。 目前我国生物信息学研究的主要方向: 束立国家生物医学箭摇库与服条系纷 2 人类基因组的信息结构 (3)、功能基因组相关信息分析 (④以、遗传密码起源与生物进化(尤其是分子进化)的过程与机制 (⑤、非编码区分析和DNA语言研究,是最重要的课题之一。 (6、基于结构的药物设计 此外,结合重大科学间题的研究,发挥我国在理论生物学和信息科学领域的研 究特色,发展生物信息学的新理论、新方法、新技术和新软件也是重要的发展方向 如何进一步根据我国在生物学方面的特点,建立高水平的理论与实验体系,加 快培养优秀的青年人才,是发展我国生物信息学研究最为迫切的任务之一。 $13生物信息学的基本方法与前沿技术 1.3.1基本方法 目前,生物信息学研究的基本方法主要有以下几种 ()、建立生物数据库 针对生物信息学特定的研究与开发工作,必须建立自己的数据库或数据获取界 面 (②、数据库检索 越来越多的数据库检索工具已投入实际应用。 (3)、序列分析 分子序列分析是生物信息学的核心方法,包括从序列对位排列(Sequence
4 综合论思想。综合论方法研究基因和各种生物大分子是怎样通过网络 调控方式形成一个生物系统的。提出了层次抽提和相互作用网络等概 念。 1.2.2 我国生物信息学发展现状 我国的生物信息学工作是逐步发展起来的。20 世纪 80 年就有若干科研院所的 生物、物理、信息、数学等学科的工作者从事生物信息学的研究工作。 近几年来,国内对生物信息学的研究和应用越来越重视。 我国在基因组信息的收集与发布方面开展了一些工作 目前,我国基因组和蛋白质组研究在国际上已经占据了重要的地位;在生物信 息学研究和应用方面,相信经过科学家的努力,经过多学科专家的合作,完全有可 能赶上甚至超过世界先进水平。 1.2.3 我国生物信息学研究的发展方向 从国内权威的政府科学研究基金“国家自然科学基金”的资助方向可大致了解 我国生物信息学研究的主流发展方向。 数理学部设立了一个“理论物理学及其交叉科学若干前沿问题”的重大项目 数理学部还设立了重点项目“基因功能预测的生物信息学”,项目强调发展物理 与生物、化学、数学结合的新实验和理论方法来探索生物系统调控的基本规律。 生命科学学部的“生物化学与分子生物学学科”、“遗传学与发育生物学学科”、 “生物物理与生物医学工程学科”,信息学部的“电子科学学科”均把“生物信息学” 方向作为重要的前沿领域资助。 目前我国生物信息学研究的主要方向: (1)、建立国家生物医学数据库与服务系统 (2)、人类基因组的信息结构分析 (3)、功能基因组相关信息分析 (4)、遗传密码起源与生物进化(尤其是分子进化)的过程与机制 (5)、非编码区分析和 DNA 语言研究,是最重要的课题之一。 (6)、基于结构的药物设计 此外,结合重大科学问题的研究,发挥我国在理论生物学和信息科学领域的研 究特色,发展生物信息学的新理论、新方法、新技术和新软件也是重要的发展方向 之一。 如何进一步根据我国在生物学方面的特点,建立高水平的理论与实验体系,加 快培养优秀的青年人才,是发展我国生物信息学研究最为迫切的任务之一。 §1.3 生物信息学的基本方法与前沿技术 1.3.1 基本方法 目前,生物信息学研究的基本方法主要有以下几种 (1)、建立生物数据库 针对生物信息学特定的研究与开发工作,必须建立自己的数据库或数据获取界 面。 (2)、数据库检索 越来越多的数据库检索工具已投入实际应用。 (3)、序列分析 分子序列分析是生物信息学的核心方法,包括从序列对位排列(Sequence 介绍国内有 关单位和有 关专家 以国家自然 科学基金、 863 计划、香 山会议等介 绍

alignment),到序列同源比较和进化分析,直至基因组分析和蛋白质组分析等 ④队、统计模型 越来越多的统计模型已用于生物信息学研究。例如,隐马尔可夫模型(hidde Markov model,HMM)在基因识别和药物设计中具有重要的应用价值:最大似然模 型(maximum likelihood model,MLM)已成为序列进化分析中的一种常规方法。 (5)、算法 在生物信息学实际工作中已建立了大量算法,如自动序列拼接、外显子预测和 同源比较算法等。 13.2前沿技术 (、数据管理技术 集中式大型分子据库(如GenBank embl和DDB】第). 新的发展趋势是应用互操作()以及数字图书馆(digita library)技术来进行异构数据库集成。 (②小数据仓库、数据挖掘与数据库中的知识发现技术 (仔、图像处理与可视化技术 S1.4生物信息学的主要研究内容 研究范畴是以基因组DNA序列的信息分析作为出发点,分析基因组结构,寻找 或发现新基因,分析基因调控信息,并在此基础上研究基因的功能,研究基因的产 结合最新发 物即蛋白质,模拟和预测蛋白质的空间结构,分析蛋白质的性质,其结果将为基于 展方向讲解, 靶分子结构的药物分子设计和蛋白质分子改性设计提供依据。 力求让学理 生物信息学主要有以下几个方面的研究内容。 学习生物信 1.4.1生物分子数据的收集与管理 息学最新的 动态 有组织地搜集和管理这些数据是各项工作的前提。具体的工作包括构建数据库 系统,建立网络服务器,开发数据查询和搜索工具,设计数据分析软件和数据可视 化软件。 生物信息学发展很快,各种数据库不断涌现,并各有不同的特色 对于核酸序列,有3个权威组织在管理各自的数据库,EMBL、GenBank和DDB 蛋白质序列数据库:美国生物医学基金会建立的P叫R及瑞士生物信息学研究所 和欧洲分子生物学实验室共同维护的SWISS-PROT 著名的蛋白质结构数据库是:美国Brookhaven实验室的大分子数据库PDB。 数据库的内容十分丰富,除上述DNA序列、蛋白质序列和结构数据库之外,还 有表达序列标记数据库、序列标记位点数据库、蛋白质序列功能位点数据库、 基因 图谱数据库等一些具有特殊功能的数据库 1.4.2数据库搜索及序列比较 生物学研究人员希望能够通过搜索序列数据库找到与新序列同源的已知序列, 并根据同源性推测新序列的生物功能 搜索同源 予列在 一定程度 就是通过序列比较寻找相似序列.。在分子生物学中 DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构 的相似,也可能是功能的相似。 对于DNA序列,同源搜索除有助于确定其功能之外,还有助于确定编码区域, 确定基因。对于蛋白质,我们希望能够直接从蛋白质序列准确地预测蛋白质的结构 5
5 alignment),到序列同源比较和进化分析,直至基因组分析和蛋白质组分析等。 (4)、统计模型 越来越多的统计模型已用于生物信息学研究。例如,隐马尔可夫模型(hidden Markov model,HMM)在基因识别和药物设计中具有重要的应用价值;最大似然模 型(maximum likelihood model,MLM)已成为序列进化分析中的一种常规方法。 (5)、算法 在生物信息学实际工作中已建立了大量算法,如自动序列拼接、外显子预测和 同源比较算法等。 1.3.2 前沿技术 (1)、数据管理技术 集中式大型分子数据库(如 GenBank, EMBL 和 DDBJ 等)。 新的发展趋势是应用互操作(database interoperation)以及数字图书馆(digital library)技术来进行异构数据库集成。 (2)、数据仓库、数据挖掘与数据库中的知识发现技术 (3)、图像处理与可视化技术 §1.4 生物信息学的主要研究内容 研究范畴是以基因组 DNA 序列的信息分析作为出发点,分析基因组结构,寻找 或发现新基因,分析基因调控信息,并在此基础上研究基因的功能,研究基因的产 物即蛋白质,模拟和预测蛋白质的空间结构,分析蛋白质的性质,其结果将为基于 靶分子结构的药物分子设计和蛋白质分子改性设计提供依据。 生物信息学主要有以下几个方面的研究内容。 1.4.1 生物分子数据的收集与管理 有组织地搜集和管理这些数据是各项工作的前提。具体的工作包括构建数据库 系统,建立网络服务器,开发数据查询和搜索工具,设计数据分析软件和数据可视 化软件。 生物信息学发展很快,各种数据库不断涌现,并各有不同的特色。 对于核酸序列,有3个权威组织在管理各自的数据库,EMBL、GenBank和DDBJ。 蛋白质序列数据库:美国生物医学基金会建立的 PIR 及瑞士生物信息学研究所 和欧洲分子生物学实验室共同维护的 SWISS-PROT 著名的蛋白质结构数据库是:美国 Brookhaven 实验室的大分子数据库 PDB。 数据库的内容十分丰富,除上述 DNA 序列、蛋白质序列和结构数据库之外,还 有表达序列标记数据库、序列标记位点数据库、蛋白质序列功能位点数据库、基因 图谱数据库等一些具有特殊功能的数据库。 1.4.2 数据库搜索及序列比较 生物学研究人员希望能够通过搜索序列数据库找到与新序列同源的已知序列, 并根据同源性推测新序列的生物功能。 搜索同源序列在一定程度上就是通过序列比较寻找相似序列。在分子生物学中 DNA 或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构 的相似,也可能是功能的相似。 对于 DNA 序列,同源搜索除有助于确定其功能之外,还有助于确定编码区域, 确定基因。对于蛋白质,我们希望能够直接从蛋白质序列准确地预测蛋白质的结构 结合最新发 展方向讲解, 力求让学生 学习生物信 息学最新的 动态

和功能。 序列比较的基本操作就是比对(alignment),即将两个序列的各个字符(代表核君 酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列 其结果是找出两个 序列共有的排列顺序,这是序列相似程度的一种定性描述, 它反映出在什么部位两 个序列相似,在什么部位两个序列存在差别。最优比对反映了两个序列的最大相似 程度,寻找最优比对的基本算法就是动态规划算法。 与序列两两比对不一样,多重序列比对研究的是多个序列的共性。序列的多重 比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 1.4.3基因组序列分析 目前生物信息学的大量工作是针对基因组DNA序列的。 在DNA序列分析方面,识别蛋白质编码区域或识别基因是最关赞的 从编平风域可以推导出其因的结构及其对成的蛋白质序列。实哈则定DNA序列 要比测定蛋白质序列容易得多,因此可以通过实验测定 一段基因的序列,并由此推 导蛋白质的氨基酸序列。 有许多线索可用于帮助寻找基因,如蛋自质编码区域的统计特征、基因结构中 的一些特殊信号位点、基因转录调控区域的蛋白质结合位点等。 在寻找基因的过程中,首先试图发现在DNA序列中哪一部分为蛋白质编码, 果在一段DNA区域含有许多终止密码子,则它成为编码区域的可 。这虽然 不能准确地说明蛋白质编码区域从什么地方开始,到什么地方结束,但却可以帮助 猜测编码区域位于何处。 编码区域统计特征、基因结构特征及基因调控信息组织特征,都可用以推测在 DNA序列中为蛋白质编码的区域处于什么地方。 除寻找基因之外,详细分析非编码区域也是非常有意义的,目前的主要工作是 分析与基因表达调控相关 信息,分析各种功能位点 分析基因转 录调控元件 功能位点是DNA序列上一些特殊的片段,是蛋白质因子作用的位点,是与基因 转录、翻译有关的信号序列,包括启动子、起始编码、转录剪切位点等。 1.4.4基因表达数据的分析与处理 分析基因表达数据是目前生物信息学研究的热点和重点 块基因芯片就可以产生 千个基因的表达数据,数据处理量大幅度增加,数 据之间的关系也更加复杂。对基因表达数据,在大规模数据集上进行分析、归纳, 可以了解基因表达的时空规律,探索基因表达的代谢控制,了解基因的功能,理解 遗传网络,提供疾病发病机理的信息。 目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为 类,在此基础上寻找相关基因,分析基因的功能。 分析基因的转录调控 所用方法主要有相关分析方法、模式识别技术中的聚类方法和分类方法、人工 智能中的自组织映射神经网络等。此外,还有主成分分析方法,利用主成分分析可 以在多维数据集合中确定关键变量的特点,分析在不同条件下基因响应的规律和特 征 国际上在基因调控网络分析方面进行了许多有意义的工作 1.4.5蛋白质结构预测 蛋白质是组成生物体的基本物质,是生命活动的主要承担者,一切生命活动都 与蛋白质有关
6 和功能。 序列比较的基本操作就是比对(alignment),即将两个序列的各个字符(代表核苷 酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是找出两个 序列共有的排列顺序,这是序列相似程度的一种定性描述,它反映出在什么部位两 个序列相似,在什么部位两个序列存在差别。最优比对反映了两个序列的最大相似 程度,寻找最优比对的基本算法就是动态规划算法。 与序列两两比对不一样,多重序列比对研究的是多个序列的共性。序列的多重 比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 1.4.3 基因组序列分析 目前生物信息学的大量工作是针对基因组 DNA 序列的。 在 DNA 序列分析方面,识别蛋白质编码区域或识别基因是最关键的。 从编码区域可以推导出基因的结构及其对应的蛋白质序列。实验测定 DNA 序列 要比测定蛋白质序列容易得多,因此可以通过实验测定一段基因的序列,并由此推 导蛋白质的氨基酸序列。 有许多线索可用于帮助寻找基因,如蛋白质编码区域的统计特征、基因结构中 的一些特殊信号位点、基因转录调控区域的蛋白质结合位点等。 在寻找基因的过程中,首先试图发现在 DNA 序列中哪一部分为蛋白质编码,如 果在一段 DNA 区域含有许多终止密码子,则它成为编码区域的可能性极小。这虽然 不能准确地说明蛋白质编码区域从什么地方开始,到什么地方结束,但却可以帮助 猜测编码区域位于何处。 编码区域统计特征、基因结构特征及基因调控信息组织特征,都可用以推测在 DNA 序列中为蛋白质编码的区域处于什么地方。 除寻找基因之外,详细分析非编码区域也是非常有意义的,目前的主要工作是 分析与基因表达调控相关的信息,分析各种功能位点,分析基因转录调控元件。 功能位点是 DNA 序列上一些特殊的片段,是蛋白质因子作用的位点,是与基因 转录、翻译有关的信号序列,包括启动子、起始编码、转录剪切位点等。 1.4.4 基因表达数据的分析与处理 分析基因表达数据是目前生物信息学研究的热点和重点。 一块基因芯片就可以产生上千个基因的表达数据,数据处理量大幅度增加,数 据之间的关系也更加复杂。对基因表达数据,在大规模数据集上进行分析、归纳, 可以了解基因表达的时空规律,探索基因表达的代谢控制,了解基因的功能,理解 遗传网络,提供疾病发病机理的信息。 目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为 一类,在此基础上寻找相关基因,分析基因的功能,分析基因的转录调控。 所用方法主要有相关分析方法、模式识别技术中的聚类方法和分类方法、人工 智能中的自组织映射神经网络等。此外,还有主成分分析方法,利用主成分分析可 以在多维数据集合中确定关键变量的特点,分析在不同条件下基因响应的规律和特 征。 国际上在基因调控网络分析方面进行了许多有意义的工作。 1.4.5 蛋白质结构预测 蛋白质是组成生物体的基本物质,是生命活动的主要承担者,一切生命活动都 与蛋白质有关

因此,分析处理蛋白质数据的重要性并不低于分析DNA序列数据。在分析处理 蛋白质序列时将面对一个问题,即根据蛋白质序列预测蛋白质结构,也就是第二遗 传密码的问题 蛋白质的生物功能由蛋白质的结构所决定,因此在研究蛋白质的功能时需要了 解蛋白质的空间结构。 已知蛋白质序列数与己知的结构数严重不平衡,蛋白质序列数据库中的数据量 大大超过结物数据库中的数据量。虽然蛋白质结构的测定方法省所改进,但仍不的 满足实际需要,需要发展理论预测的方法。 蛋白质结构预测分为二级结构预测和空间结构预测。 在二级结构预测方面主要有以下几种不同的方法,即立体化学方法、图论方法、 统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神 经网络方法。 预测蛋白质二级结构时需要考虑全局信息和进化信息等。预测准确率超过 %的 个软件是基于神经网络的PHDsec系统,该系统除使用序列的局部信息外 还使用了序列的进化信息。 在空间结构预测方面,比较成功的理论方法是同源模型法。 §1.5生物信息学的应用 生物信息学在理论上促进了生物学(特别是分子生物学)的发展,使人类对生 命本质的认识更加深刻。生物信息学改变了传统的生物学研究方法,提高了生物学 实验的科学性和研究的效率。 在应用方面,生物信息学大大促进了人类基因组的研究,己成为生物工程、生 物医药产业和高科技农业的巨大推动力,今后还将在功能基因组学研究和蛋白组学 研究中发挥其突出的作用。 1.5.1生物信息的经济价值与生物信息学市场 公司和企业都在重点从事基因组学、蛋白组学、药物基因组学或生物芯片的研 究和开发工作,而这些领域的研究和应用完全依赖于生物信息学。 国际生物信息学产业和市场逐步形成。 生物信息蕴藏着巨大的经济价值。许多国家的政府机构和公司纷纷投资生物信 息产业,其中制药业对生物信息的需求最大, 尽管生物信息学实际和潜在的市场规模很难分析,但确已呈现出良好的势头。 表1山粗略地反映了国外生物信息学的市场调查和预测情况。表12则列出了国外 些主要的生物信息公司的研究计和项目。从中可以发现信息集成技术、疾病基因 和药物设计己成为热门项目。 1.5.2基因组分析 生物信息学在基因组分析中的应用反映出以下几个方面的特点: ①、将已知基因的序列与功能联系在一起: ②、从基于常规克隆的基因分类转向基于序列及功能分析的基因分类 从单个基因致病机制的研究转向 个基因致病机制的研究: ④、从组织与组织之间的比较来研究功能基因组和蛋白质组 ⑤、从基因组和蛋白质组的结构与功能关系来预测三级结构和功能,并从三级 结构和功能反推可能的序列: 通过比较不同生物物种的基因组来进行分子进化研究。其中,组织与组织之何
7 因此,分析处理蛋白质数据的重要性并不低于分析 DNA 序列数据。在分析处理 蛋白质序列时将面对一个问题,即根据蛋白质序列预测蛋白质结构,也就是第二遗 传密码的问题。 蛋白质的生物功能由蛋白质的结构所决定,因此在研究蛋白质的功能时需要了 解蛋白质的空间结构。 已知蛋白质序列数与已知的结构数严重不平衡,蛋白质序列数据库中的数据量 大大超过结构数据库中的数据量。虽然蛋白质结构的测定方法有所改进,但仍不能 满足实际需要,需要发展理论预测的方法。 蛋白质结构预测分为二级结构预测和空间结构预测。 在二级结构预测方面主要有以下几种不同的方法,即立体化学方法、图论方法、 统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神 经网络方法。 预测蛋白质二级结构时需要考虑全局信息和进化信息等。预测准确率超过 70 %的第一个软件是基于神经网络的 PHDsec 系统,该系统除使用序列的局部信息外, 还使用了序列的进化信息。 在空间结构预测方面,比较成功的理论方法是同源模型法。 §1.5 生物信息学的应用 生物信息学在理论上促进了生物学(特别是分子生物学)的发展,使人类对生 命本质的认识更加深刻。生物信息学改变了传统的生物学研究方法,提高了生物学 实验的科学性和研究的效率。 在应用方面,生物信息学大大促进了人类基因组的研究,已成为生物工程、生 物医药产业和高科技农业的巨大推动力,今后还将在功能基因组学研究和蛋白组学 研究中发挥其突出的作用。 1.5.1 生物信息的经济价值与生物信息学市场 公司和企业都在重点从事基因组学、蛋白组学、药物基因组学或生物芯片的研 究和开发工作,而这些领域的研究和应用完全依赖于生物信息学。 国际生物信息学产业和市场逐步形成。 生物信息蕴藏着巨大的经济价值。许多国家的政府机构和公司纷纷投资生物信 息产业,其中制药业对生物信息的需求最大。 尽管生物信息学实际和潜在的市场规模很难分析,但确已呈现出良好的势头。 表 1-1 粗略地反映了国外生物信息学的市场调查和预测情况。表 1-2 则列出了国外一 些主要的生物信息公司的研究计划和项目。从中可以发现信息集成技术、疾病基因 和药物设计已成为热门项目。 1.5.2 基因组分析 生物信息学在基因组分析中的应用反映出以下几个方面的特点: ①、将已知基因的序列与功能联系在一起; ②、从基于常规克隆的基因分类转向基于序列及功能分析的基因分类; ③、从单个基因致病机制的研究转向多个基因致病机制的研究; ④、从组织与组织之间的比较来研究功能基因组和蛋白质组 ⑤、从基因组和蛋白质组的结构与功能关系来预测三级结构和功能,并从三级 结构和功能反推可能的序列; 通过比较不同生物物种的基因组来进行分子进化研究。其中,组织与组织之间

的比较主要包括:正常组织与疾病组织之间的比较:正常组织与激活组织之间的比 较:疾病组织与处理(治疗)的组织之间的比较:相同组织在不同发育过程中的比 较 不同生物的基因组比较具有重要的理论与应用价值。 1.5.3基因芯片 芯片技术的突出特点是高度并行化、多样化、微型化和自动化等,因而被广泛 用于测序、转录情况分析、不同基因型细胞的表型分析以及基因诊断、药物设计等 领域 成为后基因组时代基因功能分析的支摔技术 随若DNA芯片或蛋白质芯片的高通量检测获得数据能力的迅速增加,如何进行 快速有效的数据分析成为生物信息学的一项重要任务。 1.5.4药物开发 基因组研究对现代与未来药物学和药理学产生了重大影响 ,尤其为新药筛选 药靶设计和分子药理学研究,以及疑难病的药物设计和途径选择等提供了新的方法 论基础。 1.5.5基因组到生命 美国能源部又提出一个新的战略计划 -“基因组到生命”计划(genomes tolife) 该计划旨在认识基因组是如何转化为生命的。基因组中的基因按照一定的时间和空 间规律被表达成蛋白质,而蛋白质需要和其他蛋白质或者核酸合作,结合起来形成 有机的“分子机器”。 1.5.6其他应用领域 1、寄生虫与流行病学研究 在寄生虫学研究中,以下几个方面涉及生物信息学的工作: (1)基因组测序 2)电子古隆 (3)种下比较 (④)种间比较 (⑤)基因表达式村 2.农作物基因组分析 对重要农作物及经济植物进行基因组分析也需要生物信息学工具。 3.神经科学 每年全世界约新增1500个神经图像研究项目,所产生的数据量达10“数 量级。在这一领域中,数据共享问题已十分突出。 §1.6生物信息学教育与学习 1.6.1生物信息学教育项目 由于对生物信息学的需求如此迅猛,即使是像美国这样的发达国家也面临着生 物信息学人才供不应求的局面。 英国鉴于国内对生物信息学专业人才日益迫切的需求。 生物信息学人才培养是当务之急。生物信息学是一个交叉学科研究领域,这对 生物信息学研究人员在知识结构上提出了非常高的要求,特别是对于来自数学或计 8
8 的比较主要包括:正常组织与疾病组织之间的比较;正常组织与激活组织之间的比 较;疾病组织与处理(治疗)的组织之间的比较;相同组织在不同发育过程中的比 较。 不同生物的基因组比较具有重要的理论与应用价值。 1.5.3 基因芯片 芯片技术的突出特点是高度并行化、多样化、微型化和自动化等,因而被广泛 用于测序、转录情况分析、不同基因型细胞的表型分析以及基因诊断、药物设计等 领域,成为后基因组时代基因功能分析的支撑技术之一。 随着 DNA 芯片或蛋白质芯片的高通量检测获得数据能力的迅速增加,如何进行 快速有效的数据分析成为生物信息学的一项重要任务。 1.5.4 药物开发 基因组研究对现代与未来药物学和药理学产生了重大影响,尤其为新药筛选、 药靶设计和分子药理学研究,以及疑难病的药物设计和途径选择等提供了新的方法 论基础。 1.5.5 基因组到生命 美国能源部又提出一个新的战略计划—“基因组到生命”计划(genomes to life), 该计划旨在认识基因组是如何转化为生命的。基因组中的基因按照一定的时间和空 间规律被表达成蛋白质,而蛋白质需要和其他蛋白质或者核酸合作,结合起来形成 有机的“分子机器”。 1.5.6 其他应用领域 1、寄生虫与流行病学研究 在寄生虫学研究中,以下几个方面涉及生物信息学的工作: (1) 基因组测序 (2) 电子克隆 (3) 种下比较 (4) 种间比较 (5) 基因表达式样 2. 农作物基因组分析 对重要农作物及经济植物进行基因组分析也需要生物信息学工具。 3. 神经科学 每年全世界约新增 1500 个神经图像研究项目,所产生的数据量达 1014数 量级。在这一领域中,数据共享问题已十分突出。 §1.6 生物信息学教育与学习 1.6.1 生物信息学教育项目 由于对生物信息学的需求如此迅猛,即使是像美国这样的发达国家也面临着生 物信息学人才供不应求的局面。 英国鉴于国内对生物信息学专业人才日益迫切的需求。 生物信息学人才培养是当务之急。生物信息学是一个交叉学科研究领域,这对 生物信息学研究人员在知识结构上提出了非常高的要求,特别是对于来自数学或计

算机专业的研究人员,不仅要掌握生物学的基础知识,还要求深入了解生物学中的 相关问顺。显妖,这样的人才不是单一学科能够培养出来的,要求路学科地培养 物学和信息科学的复合型人才 ,高等院校具有多学科交叉的优势 是培养这类人才 的主要场所。我们一方面要培养生物学与信息科学的高水平复合型人才,另一方面, 需要加强对现有从事生物研究的科技人员进行生物信息学的培训。 国外生物信息学教有主要是研究生学位教有。 我围生物信息学教有也在春起直追 表13部分生物信息学网上课程 1.7.2生物信息学的学习与实践 具有一定生物学和计算机基础的学生,应通过学习逐渐掌握以下内容: ①、搏索网上生物信息学资源 ②、建立自己的生物信息学数据库和网页 运用BLAST等 工具检索数据库 ④、识别和翻译基因组序列中的可读框(ORF) )、申子克降 ⑥、多序列对位排列 ①、构建系统发有树 国、基因组分析和蛋白质组分析基础 与其他学科相比,生物信息学更应强调学生的实践。许多方法和工具都是针对 特定问题发展起来的,既不太成熟也不系统,这就需要学习者进行实际操作,发现 问题,探索解决途径。 问题与练习 1、什么是生物信息学? 2、生物信息学的主要研究任务是什么? 3、我国生物信息学的主要发展方向是什么 4、简述你所了解的人类基因组计划 简述你所了解的生物信息学的基本方法和前沿技术 6、生物信息学目前的主要研究内容 课堂小结:1、本章主要让学生对生物信息学产生兴趣 2、强调生物信息学在现代生物学发展中的重要地位,学习的意义 3、一定要结合前沿知识和科研问题,让学生感受到这一学科日新月异的变化。 9
9 算机专业的研究人员,不仅要掌握生物学的基础知识,还要求深入了解生物学中的 相关问题。显然,这样的人才不是单一学科能够培养出来的,要求跨学科地培养生 物学和信息科学的复合型人才。高等院校具有多学科交叉的优势,是培养这类人才 的主要场所。我们一方面要培养生物学与信息科学的高水平复合型人才,另一方面, 需要加强对现有从事生物研究的科技人员进行生物信息学的培训。 国外生物信息学教育主要是研究生学位教育。 我国生物信息学教育也在奋起直追。 表 1-3 部分生物信息学网上课程 1.7.2 生物信息学的学习与实践 具有一定生物学和计算机基础的学生,应通过学习逐渐掌握以下内容: ①、搜索网上生物信息学资源 ②、建立自己的生物信息学数据库和网页 ③、运用 BLAST 等工具检索数据库、 ④、识别和翻译基因组序列中的可读框(ORF) ⑤、电子克隆 ⑥、多序列对位排列 ⑦、构建系统发育树 ⑧、基因组分析和蛋白质组分析基础 与其他学科相比,生物信息学更应强调学生的实践。许多方法和工具都是针对 特定问题发展起来的,既不太成熟也不系统,这就需要学习者进行实际操作,发现 问题,探索解决途径。 问题与练习 1、 什么是生物信息学? 2、 生物信息学的主要研究任务是什么? 3、 我国生物信息学的主要发展方向是什么? 4、 简述你所了解的人类基因组计划 5、 简述你所了解的生物信息学的基本方法和前沿技术 6、 生物信息学目前的主要研究内容 课堂小结: 1、本章主要让学生对生物信息学产生兴趣 2、强调生物信息学在现代生物学发展中的重要地位,学习的意义 3、一定要结合前沿知识和科研问题,让学生感受到这一学科日新月异的变化
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 内蒙古科技大学:《生物信息学》课程教学大纲 Bioinformatics.pdf
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第十五章-高等植物多样性.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第一章 植物细胞的结构与功能.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第五章 根的结构发育与生理功能.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第四章 组织形成.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)绪论 Plant Biology.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第三章 细胞分裂分化衰老与死亡.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第二章 细胞代谢.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第八章 植物的生殖.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第六章叶的结构发育与生理功能.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第七章 茎的结构发育与生理功能.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第十章 植物激素对生长发育的调节.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第十三章 原核生物.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第九章 器官间的相互联络和相关性.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第十二章 植物的运动.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第十一章 环境因子对植物生长发育的调节.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第十九章 植物生活与环境.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第十四章 真核藻类.pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第十六章 被子植物主要类群(二).pps
- 中国农业大学:《植物生物学》课程教学课件(PPT讲稿)第十六章 被子植物主要类群(三).pps
- 内蒙古科技大学:《生物信息学》课程f考试试卷A卷2009.pdf
- 内蒙古科技大学:《生物信息学》课程考试试卷A卷2009答案.pdf
- 内蒙古科技大学:《生物信息学》课程考试试题A卷2010.pdf
- 内蒙古科技大学:《生物信息学》课程考试试题A卷2010答案.pdf
- 内蒙古科技大学:《生物信息学》课程教学课件(PPT讲稿)第四章 序列分析.ppt
- 内蒙古科技大学:《生物信息学》课程教学课件(PPT讲稿)第一章 生物信息学引论.ppt
- 内蒙古科技大学:《生物信息学》课程教学课件(PPT讲稿)第三章 生物信息学资源与数据挖掘工具.ppt
- 内蒙古科技大学:《生物信息学》课程教学课件(PPT讲稿)第二章 生物学基础.ppt
- 内蒙古科技大学:《生物信息学》课程教学课件(PPT讲稿)第七章 生物芯片.ppt
- 内蒙古科技大学:《生物信息学》课程教学课件(PPT讲稿)第六章 分子系统发生分析.ppt
- 内蒙古科技大学:《生物信息学》课程教学课件(PPT讲稿)第五章 序列比对.ppt
- 内蒙古科技大学:《生物信息学》课程教学课件(PPT讲稿)第八章 后基因组时代的生物信息学.ppt