查看: 2052|回复: 7

转录组图形专题之差异基因相关图形介绍

[复制链接]

迅猛龙

Rank: 8Rank: 8

主题
166
注册时间
2020.6.16
在线时间
99 小时

发表于 2020.10.30 09:30:05 | 显示全部楼层 |阅读模式
本帖最后由 基迪奥-Jt桃 于 2020.10.30 09:30 编辑

RNA-Seq是目前二代测序中应用最广泛的技术之一,由于价格低廉、测序技术和分析技术更加成熟等多方面的原因,逐渐演变成生物学研究者的一项常规研究思路和方法。其中RNA-Seq数据分析流程最值得研究者们关注的部分必然是差异基因分析,同时怎样将得到的差异基因相关数据绘制成我们便于观察和得出结果的“高颜值”图形也很重要。

在“差异基因相关图形介绍”的专题系列中,我们将分别介绍雷达图、热图、柱状图、韦恩图、火山图图形应用和解释生物学意义,并且与您分享这些图形的绘制方法。

雷达图

①简介

雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。雷达图也称为蜘蛛图,星图,不规则多边形等。它相当于平行坐标图,轴径向排列。

②应用和解读

雷达图可用于转录组、代谢组、蛋白、16S、等所有适合两组比较的数据。这里重点说一下转录组的应用,需要输入两组样本的丰度数据和分组文件,其中丰度数据表格中需要包括比较组间的基因表达量(fpkm值)、差异倍数、p值、FDR值等。根据下图所示,我们可以展示两组样本间根据P值或者Q值整体展示差异程度最大的TOP n基因的信息(最大可展示30个基因)。

最外圈的数字表示log2(FC)值,即log以2为底差异倍数的对数;
天蓝色圈和绿色圈分别代表上调基因和下调基因,圈的大小根据log2(FC)值的大小而变化;
第3圈蓝色和红色数据分别代表样本A和样本B的平均表达量值;
图中不规则形状表示各个轴上的样本A、B的表达量丰度。如:某基因在A中的表达量很高,那图中就会出现尖峰;
最里面的圆心表达图例,上面是样本的分组,下面是区分上调或下调的分组颜色。

图1 差异基因雷达图

图2 差异基因雷达图

如下图3所示就是雷达图的应用,作者主要展示了30条MFS超家族和ATP转运蛋白相关基因的差异表达情况。

图3 文章中的雷达图

③绘图方法

(1)R包ggradar绘制雷达图

同时需要ggplot2对图形美化

(2)用Omicshare小工具动态雷达图

工具网址:
https://www.omicshare.com/tools/home/report/reportradar.html

按照示例数据整理好输入文件和分组文件,提交运行即可,后续的一些关于图形微调的参数根据自己的需求设置即可。

热图

①简介

在组学研究的相关文章中,常常看到热图的展示。热图是用渐变颜色显示不同区域值的一种图形。作为目前最常见的一种可视化手段,热图因其丰富的色彩变化和生动饱满的信息表达被广泛应用于各种大数据分析中。

②应用及解读

在转录组分析的相关文章中,出现频次最高的图形应该就是热图了。差异基因分析完成后,相对感兴趣的基因展示在文章中,就可以用热图展示。

图中每个小方格表示每个基因在不同样本中的表达量情况,每列表示每个样品中所有基因的表达量情况,其颜色表示该基因表达量大小,表达量越大颜色越深(例如:红色为上调基因,蓝色为下调基因)。上方树形图表示对来自不同实验分组的不同样品的聚类分析结果,左侧树形图表示对来自不同样本的不同基因的聚类分析结果,如下图所示:

图4 热图样式

热图在转录组的应用一般有三个:

(1)直观呈现多样本多个基因的全局表达量变化。即通过使用颜色来展示多个样本多个基因的表达量高低,既直观又美观。

(2)呈现多样本或多基因表达量的聚类关系。即聚类的对象是什么,是否需要聚类。从样本角度看,聚类可以观察到你采集的不同组别样本是否被分类到一起了。从基因表达角度看,聚类可以观察到那些基因群具体比较一致的表达变化。

(3)对全部样本的全部基因进行展示或聚类。聚类的结果可呈现不同样本的基因表达趋势。

图5 列聚类和行聚类热图

③绘制

绘制热图的方法有很多,这里就介绍两种,一种是需要熟悉代码的R包pheatmap,如果您不懂编程语言,那就用简单的在线工具Omicshare tools小工具。

静态热图:
https://www.omicshare.com/tools/Home/Soft/heatmap

动态热图:

https://www.omicshare.com/tools/home/report/reportheatmap.html

不管绘制您用什么工具,在绘图过程中的参数您需要了解。其中对图形调整的参数就不一一介绍,这里重点说说归一化和聚类

在进行归一化时,我们是选择按行归一化、按列归一化、行和列都归一化还是不做归一化?也就是将一组数据通过归一化处理,使其符合均值为0 ,方差为1 的标准正态分布。

(1)按行均一化:
将每一行数值分别单独处理,使其符合标准正态分布。通常我们是以基因为单位来观测这些表达量数值的变化。例如,A基因表达量从10变化到20,B基因表达量从100变化到200,我们更关心它们变化的倍数,这时我们应该选择以基因为单位进行归一化。
因此,按基因归一化处理,可以最大程度地呈现每个基因的变化信息,避免一个超高表达的基因掩盖了其他基因的变化。在绘制热图时,它是最常用的一种归一化策略。

(2)按列均一化:
将每一列数值分别单独处理,使其符合标准正态分布。如果我们想通过基因的表达量来观测样本的重复性好坏或样本分类,这时您可以通过按列归一化处理。


(3)行和列都均一化:
将所有的行列数据一起处理,使其符合标准正态分布。如果您想让高表达的基因对样本的分类起到更大的作用,这时可以选择对所有数值归一化。


(4)不做归一化处理:
表示只想通过颜色的渐变来观察基因的表达量变化,您可以选择不做归一化处理。

还有一个参数是聚类。即对行或列进行聚类处理,距离相近的将呈现在图片的相邻区域,横坐标或纵坐标的名称顺序将发生变化,您需要选择行、列、行和列或无来对图形进行聚类。

柱状图

①简介

柱状图,又称条形图,柱形图(bar chart),该图形的别名叫法很多,其实质是一种以长方形的长度为变量的统计图表。条形图用来比较两个或以上的价值(一般比如不同时间或不同条件),只有一个变量,通常利用于较小的数据集分析。

②应用及意义

差异基因分析完成后,需要对不同组间的差异基因上调和下调数目进行统计并可视化,这个时候就可以用柱状图展示分析结果,它能反映如下生物学意义:

(1)通过组内组间上调和下调基因数量的多少,反映基因的表达情况是否与预期的实验结果相符。例如,图中第3天的基因表达数量较少,推测原因是真菌入侵植物的数量较少,植物的应答系统或者防御系统的基因表达也相对较少,随着入侵时间的推移,第7天和14天的植物相关基因表达数量也逐渐增多。

(2)反映不同阶段或不同样品的基因表达数量,能让我们对数据的多少一目了然。

图6 差异基因统计柱状图

这个图形是转录组类型文章中最基础,也是高频出现的经典图形。在很多期刊论文中都有出现,这里就简单的列举两篇转录组文章中的差异基因数目统计柱状图。

图7 文章中出现的差异基因统计柱状图

③图形绘制方法

柱状图原理和构图都很简单,因此绘制方法也有很多,主要有以下方法:

(1)在R中用内置的高水平绘图函数barplot()绘制条形图。要求较高,需要较好的R语言基础。

(2)调用R程序包ggplot2来绘制条形图,同样要求会用R语言,不过您可以利用R包中的函数精确调整,做出较好看且直接发表文章所用的图形。

(3)利用sigmaplot、origin、python的绘图程序包、excel等都可以绘制条形图。

(4)如果觉得以上工具操作都很困难或者想解决一时之需时,您可以使用基迪奥云平台omicshare小工具来绘制条形图,只需要输入表达量矩阵(count数),可帮您分析差异基因,并绘制差异基因统计柱状图和差异基因表达分布火山图。

工具地址:
https://www.omicshare.com/tools/Home/Soft/diffanalysis

韦恩图

①简介

韦恩图(Venn diagram),或Venn图等别名,早在1880年由英国哲学家和数学家John Venn提出。韦恩图用于展示在不同的事物群组(集合)之间的数学或逻辑联系,尤其适合用来表示集合(或)类之间的“大致关系”。

图8 韦恩图常见图形样式

②应用和解读

在统计完各个比较组间差异基因数目后,可以使用韦恩图展示各个比较组间差异基因的交集和并集。如下图的三维(3个集合)韦恩图所示,三个集合s1、s2、s3相互交错,形成了7个集合,这里如果表示的是3个不同比较组间差异基因数目,那s1∩s2∩s3表示3个比较组共有的差异基因,可以理解为3个组共有的显著差异基因集;(s1∩s2)-(s1∩s2∩s3)表示s1和s2两个基因集去除3个基因集的共有部分而剩下的两个基因集的共有部分,可以理解为只在s1和s2两个基因集共同显著差异表达的基因集;s2-(s1∩s2)-(s1∩s2∩s3)表示s2基因集去除3个基因集的共有部分,再去除只在2个基因的共有部分而剩下的显著差异表达基因集,可以理解为只在s2中表达的基因集(s2基因集的unique部分)。

图9 韦恩图图解

下图所示是一些文章中出现的韦恩图,作者可以用韦恩图展示3个不同比较组上调和下调的差异基因集合。

图10 文章中出现的韦恩图

③绘制

韦恩图的构图也非常简单,因此绘制韦恩图的方法也是非常多,例如常见的origin、R程序包(Venn diagram)、OmicShare tools、excel等。其中Omicshare平台提供了静态韦恩图和动态韦恩图两种工具。

静态韦恩图:
https://www.omicshare.com/tools/Home/Soft/venn

动态韦恩图:

https://www.omicshare.com/tools/home/report/reportvenn.html

火山图

①简介

火山图是一类用来展示不同比较组间差异基因表达情况的图形。该图形本质是散点图的一种,它能将统计显著性数值(如pvalue ,qvalue)和变化幅度相结合,从而能够帮助人们识别那些变化幅度较大且具有统计学意义的数据(如基因等)。如下图所示,由于这类图形往往呈现类似火山爆发的样子,于是就被称做“火山图”(volcano plot)。

图11 火山图图例

②应用和解读

火山图常用于转录组研究中差异基因分析完成后展示两组样本间所有基因表达水平差异的分布状况。其中图中每一个点代表所研究的基因,灰色的点代表这些基因在实验组和对照组的表达情况没有显著性,绿色和红色的点代表具有显著性的上调基因和下调基因。

横坐标log2FC代表差异倍数(Fold Change值,简称FC,根据log2fold change值的正负判断这些基因的表达量是上升了还是下降了),离坐标原点越远,说明差异倍数越大。纵坐标-log10(FDR)代表对FDR值进行-log10的转化,-log10(FDR=0.05)约等于1.30,(-log10(0.01))=2,可知纵轴越往上走FDR值越小,而FDR值越小表示越显著。所以我们进行-log10(FDR)转化后,值越大就表示差异越显著。

下图中将实验组和对照组中差异倍数最大的前二十个基因的名称在图中展示出来,包括十个上调基因和十个下调基因,当然您也可以将自己感兴趣的基因展示在图上中。

图12 文章中出现的火山图

③绘制

这里就介绍两种比较常见的方法:

(1)R程序包ggplot2

(2)Omicshare Tools

平台提供了静态火山图小工具和动态火山图小工具。

静态火山图:
https://www.omicshare.com/tools/Home/Soft/volcano

动态火山图:

https://www.omicshare.com/tools/home/report/reportvolcano.html

其中动态火山图小工具只需输入一次数据,可在运行后根据自己的需求对各种参数调整(如:字体型号、大小、点的颜色等20+参数)。

今天的内容就先到这里~

本文作者:基迪奥-Jusser
               


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
新的一天加油!
回复

使用道具 举报

中华鲟

Rank: 5Rank: 5

主题
1
注册时间
2016.9.4
在线时间
138 小时

发表于 2020.10.30 10:01:31 | 显示全部楼层
今日已签到
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.12.8
在线时间
5 小时

发表于 2020.10.30 11:12:49 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.10.11
在线时间
5 小时

发表于 2020.10.30 11:23:27 | 显示全部楼层
啦啦啦啦啦啦啦啦啦啦啦啦啦啦绿绿绿绿绿绿绿绿绿绿绿绿绿
回复

使用道具 举报

帝王蝶

Rank: 4

主题
0
注册时间
2020.2.12
在线时间
35 小时

发表于 2020.10.31 11:53:40 | 显示全部楼层
新的一天加油!
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
1
注册时间
2019.11.26
在线时间
2 小时

发表于 2020.11.2 19:11:09 | 显示全部楼层
哈哈哈哈哈
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2016.4.15
在线时间
10 小时

发表于 2020.11.16 15:53:51 | 显示全部楼层
回复

使用道具 举报

钵水母

Rank: 3Rank: 3

主题
0
注册时间
2020.12.9
在线时间
10 小时

发表于 2020.12.18 20:47:57 | 显示全部楼层
哇塞
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表