Population Genomics with R

使用R语言进行种群基因组学分析

作者:Emmanuel Paradis

出版:CRC Press

索书号:Q348/P222/2020/ Y

ISBN: 978-1-138-60818-4

藏书地点:武大外教中心

使用 R 的种群基因组学提供了一种多学科的方法来分析种群基因组学。所处理的方法涵盖了大量主题,从传统的群体遗传学到具有高通量测序数据的大规模基因组学。检查并集成了几十个 R 包,以提供具有广泛计算、统计和图形工具的连贯软件环境。小例子用于说明基础知识,已发表的数据用作案例研究。读者应具备生物学、遗传学和统计推断方法的基本知识。研究生和博士后研究人员将找到资源来分析他们的群体遗传和基因组数据,并帮助他们设计新的研究。

前四章回顾了群体基因组学、数据获取以及使用 R 存储和操作基因组数据的基础知识。第 5 章讨论基因组数据的探索,这是分析大型数据集时的一个重要问题。其他五章涵盖连锁不平衡、种群基因组结构、地理结构、过去的人口统计事件和自然选择。这些章节包括监督和非监督方法、混合分析、多变量方法的深入处理以及有关如何处理 GIS 数据的建议。自然选择分析是进化生物学中的一个传统问题,随着现代种群基因组数据的出现而复兴。所有章节都包含练习。补充材料可在线获取。

作者精心收录了几个对读者非常有用的重要和新兴主题(数据采集、下一代测序)。建议本书面向具有一定基础知识背景的研究生和研究人员。遗传学或正在攻读研究生水平的种群遗传学课程,数据采集章节、DNA 样本质量描述和文件格式是本文优势。案例研究非常有价值,将提供更多关于特定种群遗传学工作的实践培训问题。这些章节的优势在于基于广泛的统计方法提供了种群遗传学领域的全球覆盖。作者建议在统一的编程框架中处理种群遗传分析,该框架使用特定类别的 R 包。

这本书既可以作为参考书,也可以作为教科书。人口遗传学、应用生物信息学、基因组学、分子生态学和保护遗传学课程以及本科和研究生水平的实验室组成部分可以从这本书中教授。研究生和可能的博士后在进化生物学和应用生物信息学方面的研究人员可以将此作为参考。此外,为保护和管理目的处理遗传样本的政府和非营利组织会发现此说明很有用。本文提供的独特之处在于它专注于实际使用用户可以安装的现有程序来分析数据的步骤,鉴于学科和分析类型的多样性,这对许多学生来说可能是一种宝贵的资源。

《使用R语言进行种群基因组学分析》一书于2020年由CRC Press出版,作者是Emmanuel Paradis

《使用R语言进行种群基因组学分析》一书中,研究人员介绍了种群基因组学的技术和方法,重点是最近的技术发展,讨论的主题主要包括十个章节。《使用R语言进行种群基因组学分析》一书从各个方面讲解了使用R语言进行种群基因组学分析的基础内容和研究方法,旨在为想要进一步研究使用R语言进行种群基因组学分析的研究人员提供简明易懂的介绍以及方法技术指导。

《使用R语言进行种群基因组学分析》一书作为生物学专业研究读物,观点新颖独到,内容饱满详实、语言浅显易懂, 除此之外,还包括一些其他的特点:

1、本书分为十个章节,既讲解了使用R语言进行种群基因组学分析过程的基础知识,还讲解了深入研究种群基因组学在细胞内的相互作用,是一本应用性很强的书籍,对于想要学习研究种群基因组学的研究人员来说是一本很有意义的指导书籍。

2、每个章节都是由相关领域的专业人士所撰写,因此,本书讲解既详细又专业,读者能够从中了解到种群基因组学相关的专业知识以及最新的前沿进展。

总的说来,《使用R语言进行种群基因组学分析》一书为想要了解种群基因组学的研究方法的人员提供了清晰的导读路径,作为种群基因组学领域的一本前沿研究图书,是一本值得为想要涉足该领域的人员推荐的专业书籍。

 

关于作者:

       Emmanuel Paradis 是法国发展研究所(IRD)的高级研究员。 他的研究重点是进化模型及其应用。 二十多年来,与他的研究相关的软件的开发和出版一直是他活动的一个重要方面。 他于 2000 年采用 R 作为他的主要数据分析软件,此后发布并维护了多个软件包,包括 2002 年以来的 ape 2009 年以来的 pegas。他在多个国家定期举办研讨会和培训。

本书目录:

1、简介

遗传、遗传学和基因组学

群体基因组学原理

单位

基因组结构

突变

漂移和选择

R 包和约定

所需知识和其他阅读材料

2、数据采集

样本和抽样设计

样本中有多少 DNA

退化样品

抽样设计

低通量技术

来自表型的基因型

DNA 切割方法

重复长度多态性

桑格和猎枪测序

DNA 甲基化和亚硫酸氢盐测序

高通量技术

DNA微阵列

高通量测序

限制性位点相关 DNA

RNA测序

外显子组测序

合并个体的测序

使用 HTS 设计研究

DNA测序的未来

文件格式

数据文件

存档和压缩

生物信息学和基因组学

使用 sangerseqR 处理 Sanger 测序数据

使用 Rsubread 读取映射

使用 Rsamtools 管理读取对齐

高通量测序数据的模拟

3. R 中的基因组数据

什么是 R 数据对象?

基因组数据的数据类

“轨迹”类(飞马)

genind”类(adegenet

SNPbin”“genlight”类(adegenet

类“SnpMatrix”snpStats

DNAbin”类(猿)

类“XString”“XStringSet”(生物字符串)

SNPRelat

数据输入和输出

读取文本文件

读取电子表格文件

读取 VCF 文件

读取 PED BED 文件

读取序列文

读取注释文件

写文件

互联网数据库

管理文件和项目

练习

4. 数据操作

R 中的基本数据操作

子集、替换和删除

常用函数

回收和强制

逻辑向量

内存管理

转化次数

实例探究

亚洲金猫的线粒体基因组

果蝇的完整基因组

人类基因组

流感 HN 病毒序列

捷豹微型卫星

细菌全基因组序列

鱼类群落的元条形码

练习

5. 数据探索与总结

基因型和等位基因频率

等位基因丰富度

缺失数据

单体型和核苷酸多样性

“单倍型”类

DNA 序列的单倍型和核苷酸多样性

遗传和基因组距离

理论背景

汉明距离

DNA 序列的距离

等位基因共享的距离

与微型卫星的距离

按组汇总

滑动窗口

DNA序列

基因组位置摘要

SNPRelate

多元方法

矩阵分解

特征分解

奇异值分解

幂法和随机矩阵

主成分分析

基因组

SNP相关

flashpcaR

多维缩放

实例探究

亚洲金猫线粒体基因组

果蝇的完整基因组

人类基因组

流感 HN 病毒序列

捷豹微型卫星

细菌全基因组序列

鱼类群落的元条形码

练习

 

6. 连锁不平衡和单倍型结构

为什么连锁不平衡很重要?

连锁不平衡:两个位点

定相基因型

理论背景

pegas 中的实现

非相基因型

超过两个位点

来自未定相基因型的单倍型

期望最大化算法

在单倍体中的实施

位点特定插补

连锁不平衡图

使用 pegas 进行分相基因型

SNP相关

snpStats

实例探究

果蝇的完整基因组

人类基因组

捷豹微型卫星

练习

7. 种群遗传结构

哈代-温伯格均衡

F-统计

理论背景

pegas mmod 中的实现

snpStats SNPRelate 中的实现

树和网

最小生成树和网络

统计简约

中值网络

系统发育树

多元方法

判别分析原理

主成分的判别分析

聚类

最大似然法

贝叶斯聚类

混合物

似然法

Coancestry 的主成分分析

再看 F 统计

实例探究

亚洲金猫的线粒体基因组

果蝇的完整基因

流感 HN 病毒序列

捷豹微型卫星

8. 地理结构

R中的地理数据

包和类

计算地理距离

第三次看 F 统计

遗传多样性的等级组成

分子变异分析

Moran I 和空间自相关

空间主成分分析

寻找人口之间的界限

空间祖先(tessr

贝叶斯方法(Geneland

实例探究

果蝇的完整基因组

人类基因组

练习

9. 过去的人口统计事件

聚结剂

标准聚结剂

序马尔可夫凝聚

聚结数据的模拟

杂合度

等位基因数

隔离站点

微卫星

树木

基于聚结的推理

最大似然法

马尔可夫链分析

蒙特卡罗输出

天际线图

贝叶斯方法

异时采样

站点频谱方法

阶梯法

CubSFS

棒冰

全基因组方法 (psmcr)

实例探究

亚洲金猫的线粒体基因组

果蝇的完整基因组

流感 HN 病毒序列

细菌全基因组序列

练习

10. 自然选择

测试中立性

简单测试

蛋白质编码序列中的选

选择扫描

第四次看 F 统计

协会研究 (LEA)

主成分分析 (pcadapt)

使用扩展单倍型扫描选择

FST异常值

等位基因频率的时间序列

实例探究

亚洲金猫线粒体基因组

果蝇的完整基因组

流感 HN 病毒序列

练习

A 安装 R

B 压缩大序列文件

C 群体中等位基因的采样

 

 

林岚 武汉大学生命科学学院 博士研究生