bioinformation
作者:Broneyn Parry, Beth Greenhough
出版社:Polity
索书号:Q811.4/G264/2018/Y
ISBN:9781509505456
藏书地点:武大外教中心
生物信息是反映生物运动状态和方式的信息。碱基序列便是生物信息。自然界经过漫长时期的演变,产生了生物,逐渐形成了复杂的生物世界。生物信息形形色色,千变万化,不同类的生物发出不同的信息。目前,人们对生物信息的研究已取得了一些可观的成果,人们发现,鸟有“鸟语”,兽有“兽语”,甚至花也有“花语”。人们还发现生物信息与非生物信息之间有着某种必然的联系,如燕子、大雁的飞来飞去,预示着季节的变换和气温的升降;鱼儿浮出水面预示着大雨即将来临;动物的某些反常现象,预示着地震即将发生的信息。遗传信息以密码形式存储在DNA分子上,通过DNA的复制传递给子代。在后代生长发育过程中,遗传信息自DNA转录给RNA,后翻译成特异的蛋白质,以执行各种生命功能。随着计算机科学与基因组技术的发展,生物信息的概念又成为了基因的计算机数据库、数据处理、基因序列信息、生物系统的计算机分析与软件设计等含义,属于生物信息学或计算生物学的内容,从而形成了另外一种概念。
20世纪50年代早期,DNA的历史地位还没有被建立,那个时候人们普遍认为蛋白质才是遗传信息的载体。直到1952年的噬菌体感染实验,人们才第一次证明DNA是真正的遗传物质。因为这个历史原因,生物信息学在DNA中的应用要落后于蛋白质研究将近20年时间。50年代后期,人们得到了胰岛素的蛋白质序列,这一成就激励人们去开发获得蛋白质序列更有效的方法。Edman降解法就是其中之一,肽链的第一个N-末端氨基酸用异硫氰酸苯酯(PITC)标记,然后通过降低pH来进行切割。通过重复该过程,一次一个N-末端氨基酸进而可以确定肽序列。
Margaret
Dayhoff(1925-1983)是一位美国物理化学家,他开创了计算方法在生物化学领域的应用。Dayhoff 对这一领域的贡献非常重要,NCBI前主任 David J. Lipman 称她为“生物信息学的母亲和父亲”。1970年,Needleman和Wunsch 开发了第一个成对蛋白质序列比对的动态编程算法,80年代早期,Needleman-Wunsch算法的推广,第一个多序列比对(MSA)算法首次公布,但是这个算法并没有太大的价值。
随着20世纪80年代早期x86和RISC微处理器的出现,出现了一类新的个人计算机。桌面工作站专为技术和科学应用而设计,具有与微型计算机相当的尺寸,但具有更高的硬件性能,以及更类似于大型计算机的软件架构。20世纪80年代中期出现了几种脚本语言,这些语言在今天的生物信息学家中仍然很受欢迎。这些语言抽象了计算系统的重要领域并利用了自然语言特征,从而简化了程序开发的过程。用脚本编写的程序通常不需要编译(即它们在启动时被解释),但执行速度比从C或Fortran代码编译的等效程序要慢。
首个全基因组测序项目是1995年由遗传学家 J. Craig Venter领导的对流感嗜血杆菌进行的测序,然而正如我们所知道的那样,开始基因组时代的真正转折点是人类基因组在21世纪初的正式公布。
人类基因组计划于1991年由美国国立卫生研究院(NIH)发起,13年内耗费27亿美元。1998年,Celera Genomics(一家由Venter运营的生物技术公司)领导了一项竞争性私人形式的人类基因组测序组装项目。最终Celera支持的该计划用NIH项目花费的十分之一成功完成人类基因组进行了测序和组装。两者成本之间的10倍差异主要是由于不同的实验策略和Celera项目使用了部分NIH的数据。
从前,尽管科学发展迅速,但全基因组测序仍需要数百万美元和数年才能完成,甚至对于细菌基因组也是如此。相比之下,如今进行一个人类基因组测序只需花费数百美元和不到一周的时间。这种巨大的差异并不令人惊讶,那时即使存在各种文库制备方案,但测序的 reads 仍然要使用Sanger毛细管测序仪产生。最大的测序量也不过是每个run产生96个长度800 bp 的 reads,这比二代测序仪要低几个数量级。对人类基因组进行测序(3.0 Gbp)需要大约40000个runs 才能得到一倍的覆盖率。
最近与生物信息学相关的一项“进化”是专门研究该领域的研究人员的出现:生物信息学家(bioinformaticians)。不过即使经过50多年的生物信息学研究,人们对什么是生物信息学家仍然没有明确的共识。例如,一些作者建议将“生物信息学家”这一术语保留给生物信息学领域的专业人士,包括那些开发,维护和部署生物信息学工具的人。另一方面,还有人建议任何生物信息学工具的使用者都应被授予生物信息学家的地位。当然,还有另一个试探性的方法,即通过反面来定义如何不成为一个生物信息学家。然而可以肯定的是,随着用户友好型工具的显著增加,通常可通过Galaxy 等综合Web服务器获得,以及诸如SEQanswers和BioStar等社区的发展。在学术和企业就业市场上,生物信息学家也存在着爆炸性的需求。为了满足这一需要,有必要督促大学调整其生物科学课程的设置。
20世纪后期见证了生物学中计算机的出现,它们的使用以及不断改进的实验室技术使得研究工作日益复杂。尽管对单个蛋白质或基因的测序可能是20世纪90年代早期的博士论文主题,但博士生现在可以在他/她的研究生阶段就分析许多微生物群落的集体基因组。当时确定蛋白质的一级结构都是复杂的,但是现在可以识别样品的整个蛋白质组。生物学现在已经采用了很多整体方法,但在不同的大分子类别(例如基因组学,蛋白质组学和糖组学)中,每个子学科之间还鲜有交叉。
人们可以预见到下一个飞跃:不是独立研究整个基因组,整个转录组或整个代谢组,而是对整个生物体及其环境进行计算建模,同时考虑所有分子类别。事实上,这一壮举已经在生殖支原体的全细胞模型中实现,其中所有基因,它们的产物和已知代谢相互作用都已在计算机中重建。也许我们很快就会见证一个电子计算机多细胞生物模型。尽管对于数百万到几万亿的细胞建模似乎是不可行的,但必须记住我们现在做的也是十年前在计算能力和技术上认为不可能实现的事情。
在这本开创性的书中,作者布朗温·帕里(Bronwyn Parry)和贝丝·格林霍夫(Beth Greenhough)探讨了生物信息的创造和使用带来的经济、社会和政治问题。他们借鉴了一系列高热门的案例,包括人类基因序列数据的商业化;生物信息的法医鉴定应用以及生物库和系谱研究,向我们展示了对这种资源的需求如何显著增长,如何推动了全球生物信息经济的蓬勃发展。我们试图创造了一个可供所有子孙后代使用的动态开源“生物信息共享空间”,两位作者认为随着这种新模式的出现与发展,一系列挑战将会出现在我们面前。此书很具有教育意义,风格有趣生动,具有很高的可读性并且广受绝大多数读者的一致好评,值得我们来读去简单了解生物信息这片领域的历史。
目录
1.起源:什么是生物信息?
2.来源:生物信息来源于什么?
3.所有权:谁拥有生物信息?
4.市场:谁消费生物信息?
5.大数据演化
6.生物信息学的未来:一切事物的数据通信
朱旺 武汉大学生命科学学院 硕士研究生