R语言分析生命科学数据——Data Analysis for and Life Science with R

 

作者:Rafael A. LrizarryMicheal I.Love

出版社:CRC Press

索书号:Q-332/I-68/2017/Y

ISBN978-1-4987-7567-0

藏书地点:武大外教中心

 

 

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。可以认为RS语言的一种实现。而S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析和作图的解释型语言。最初S语言的实现版本主要是S-PLUSS-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来新西兰奥克兰大学的Robert GentlemanRoss Ihaka及其他志愿人员开发了一个R系统。由“R开发核心团队”负责开发。R可以看作贝尔实验室(AT&T BellLaboratories)的RickBeckerJohnChambersAllanWilks开发的S语言的一种实现。当然,S语言也是S-Plus的基础。所以,两者在程序语法上可以说是几乎一样的,可能只是在函数方面有细微差别,程序十分容易地就能移植到一程序中,而很多一的程序只要稍加修改也能运用于R

R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,WindowsMacintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:1.R是自由软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。3. 所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:baseR的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等。4.R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地。R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自SchemeR的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。

代数式包括有理式(整式,分式)和无理式。在线性代数中用矩阵(向量)代替代数式中的实数,得到的代数式称为矩阵代数式。矩阵代数式遵守代数式的规律,同时具备特殊规律。根据矩阵的性质,矩阵代数式的使用范围不同。例如相似矩阵代数式只能在相似矩阵之间使用。对等价,相似,合同矩阵代数式,加单位矩阵(或者常量矩阵),不改变矩阵性质,等式仍然成立。矩阵等式“除法”用两端乘以逆矩阵实现,要求矩阵(因式)可逆。

线性模型是一类统计模型的总称,制作方法是用一定的流程将各个环节连接起来,包括线性回归模型、方差分析模型,应用于生物、医学、经济、管理。一般线性模型或多元回归模型是一个统计线性模型。公式为:说明: https://gss1.bdstatic.com/9vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D84/sign=237b7f4815178a82ca3c72a4f703a847/37d3d539b6003af39bda59e43e2ac65c1138b6d6.jpg其中Y是具有一系列多变量测量的矩阵(每列是一个因变量的测量集合),X是独立变量的观察矩阵,其可以是设计矩阵(每列是关于一个自变量),B是包含通常要被估计的参数的矩阵,并且U是包含误差(噪声)的矩阵。错误通常被认为是不相关的测量,并遵循多元正态分布。如果错误不遵循多元正态分布,广义线性模型可以用来放松关于YU的假设。一般线性模型包含了许多不同的统计模型:ANOVAANCOVAMANOVAMANCOVA,普通线性回归,t检验和F检验。一般线性模型是多元线性回归模型对多个因变量情况的推广。如果YBU是列向量,则上面的矩阵方程将表示多重线性回归。用一般线性模型进行的假设检验可以用两种方法进行:多变量或多个独立的单变量检验。在多元测试中,Y的列被一起测试,而在单变量测试中,Y的列被独立地测试,即具有相同设计矩阵的多个单变量测试。

《用R语言分析生命科学数据》一书于2017年由CRC Press出版社出版,作者是Rafael A. LrizarryMicheal I.Love

《用R语言分析生命科学数据》一书是生物统计学领域的专业书籍,内容包括:起始、上下文推理、探索的数据分析、矩阵代数、线性模型、高维数据的推理、统计模型、距离和维度的减少、基本学习机器和批量处理的影响。

《用R语言分析生命科学数据》一书观点新颖独到,内容饱满详实、语言浅显易懂,除此之外,还包括一些其他的特点:

1、本书详尽地介绍了R语言的知识,并使其为生命科学服务。从统计学方面探讨生命科学数据。使生物学专业或非专业人员都能直观更好地看待生物学数据。

2、索引文献丰富,证明了这本书的知识性,真实性。而且,这些索引文献绝大部分都是最新研究,这就是这本书与世界最新研究同步,让读者全面了解该领域的前沿进展。

3、本书还具有很强的专业性,让我们在短时间内了解更全面,更专业的资料。

4、本书最鲜明的特点就是,图片生动形象,语言浅显易懂。语言介绍的同时,附上可以说明问题的图片,本来复杂枯燥的统计学知识变得简单易懂,增加了本书的趣味性,对于初学者有很大的帮助。

总的说来,《用R语言分析生命科学数据》一书为想要了解统计学的人员提供了清晰的导读路径,作为统计学领域的一本前沿研究书籍,是一本值得为想要涉足该领域的人员推荐的专业书籍。

 

 

本书目录

图片列表

感谢

介绍

1、 起始

2、 上下文推理

3、 探索的数据分析

4、 矩阵代数

5、 线性模型

6、 高维数据的推理

7、 统计模型

8、 距离和维度的减少

9、 基本学习机器

10、            批量处理的影响

索引