一文读懂进化树_进化树构建好了咋分析-程序员宅基地

技术标签: 进化  

一、什么是进化树

系统发育进化树 (Phylogenetic tree): 一般也叫系统进化树,进化树。它可以利用树状分支图形来表示各物种或基因间的亲缘关系。

建进化树的过程,用术语讲:

分支系统发育分析 (Molecular phylogenetic analysis): 是用来研究物种或序列进化和系统分类的一种方法。一般研究对象是碱基序列或氨基酸序列,通过数理统计算法来计算生物间进化关系。最后,根据计算结果,可视化为系统进化树。

二、进化树的构成

我们模拟一个项目,使用人和鼠的各两个基因做进化树,结果如下:

mark

可以看到上面有一堆标注,下面来看看它们代表什么意义:

1. 根 (Root)

所有分支的共同祖先叫做根

根据有无根可分为:

有根树:上面的图就是有根树,可以从树中找到共同的祖先。

无根树:顾名思义,没有根,也就找不到共同的祖先。比如后边会提到的 Straight Tree

2. 结点 (Node)

每个结点代表一个分类单元,物种上可以是属,种群等,基因上可以是基因家族,同源物等。

这里需要注意,有的人会把 node 翻译为节点,但是节点与结点有着不一样的含义:

**节点:**通常被认为是一个实体,比如互联网上的每台计算机,蛋白互作网络的每个蛋白质。

**结点:**只是一个交叉点,指交汇点,并不代表一个实体或事物

所以,在进化树中 node 最好翻译为结点。在计算机数据结构链表也需要注意二者区别。

但是,也有另外一种解释:

这种解释将 node 分为 外部节点与内部节点:

外部节点又叫叶节点,也就是最外层的人基因1,人基因2等,代表参与分析的序列样本

内部节点,也就是我们使用蓝色标注的位置,代表假定祖先。

3. 进化支 (Branch)

也叫分支,指两种及以上的生物或序列组成的进化关系。

可以利用这个来看同源。比如,上图中人基因1与人基因2可能是旁系同源基因,而人基因1与鼠基因1可能是直系同源基因。

4. 外群

与分析序列相关的生物序列,但是具有较远的亲缘关系。

5. 进化分支长度

也叫遗传变异度,进化距离。一般会标注在分支线上,代表进化支变化的程度,越短代表差异越小,进化距离越近。比如人基因1与人基因2的遗传变异度为 0.21+0.22=0.43。
遗传变异度实际代表基因组序列中每个位点碱基的替换频率,计算方法也很简单:变异度=变异碱基数/总碱基数(%)。我们常见的形式,通常以0-1的小数来表示,代表100个碱基位点的变异度大小。

我们可以从水平方向上的分支及长度,看到进化谱系随着时间的变化,进化分支长度越长代表着该分支对应的物种或基因的变化越大。比如,对应上图,我们可以描述为人基因1相对其他基因在进化时间上更早,而且在进化时间上鼠基因2最晚。

有意思的是,根据基因序列相似度与进化时间假说对这种进化距离进行转换,就可以得到分子钟。比如,用它分析病毒进化树,甚至可以推断出初代病毒产生的时间点。

6. 距离标尺

生物或序列间差异数值的单位长度,相当于进化树的比例尺。

7. Bootstrap value

一般会标注在结点,用来评估该分支的可信度。

Bootstrap value 对于我们后续分析比较重要,尤其在进化树评估中。

三、进化树评估

1. Bootstrap检验

对于进化树评估一般会使用 Bootstrap 进行检验。

Bootstrap检验,自举法检验,也叫自展,自助法。其实就是放回式抽样统计法的一种,通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

2. 重复取样值

那么重复取样的次数会在建树时设置,现在一般文章要求Bootstrap 取样值 >1000。

3. Bootstrap value 阈值

虽然根据严格的统计学概念,自展值需要要大于95%才较为可信。

然而在实际应用中,我们一般认为结点的 Bootstrap value > 70,这个分支就是可靠的。特别是微生物等相似度比较大的分类中,一般大于50%就认为可信(小于50%不会显示)。

4. Bootstrap value 与分支

如果低 Bootstrap value 更靠近分支末端,代表相似度太高而很难区分

如果低 Bootstrap value 更靠近根,代表相似度太低

四、几种进化树图

1.经典树图(Traditional)
Rectangle Tree

优点很明显,就是可以清晰的展示出样本间进化距离和进化分支。缺点就是展示出来效果不炫。
mark

有时候也可以这样显示,相对来说,更酷一点:

Straight Tree
mark

再酷一点:

Curved Tree

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WLdqvhP6-1589796648372)(http://baimoc.ziptop.top/blog/20200517/XG77wrqmX6W8.png)]

2.圈图(Circle Tree)

本质上是将树图极坐标化。这种图,可以说是进化树最炫的一种展示,而且在分析样本数量大的时候,效果更佳。但是,致命缺点是可读性不好,比如很难横向对比进化距离。因此,适用于展示差异较大的物种或基因样本。
mark

3.辐射树(Radiation Tree)

这种图用于根不确定的进化树构建。它可以将相似度高的样本序列聚集在一起。因此,更适合做亲缘关系近的物种或差异小的基因样本。
mark

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/yu_bio/article/details/115005433

智能推荐

UnityHub登录不上问题解决_unity恢复码在哪-程序员宅基地

文章浏览阅读1.7w次,点赞12次,收藏12次。问题详情:UnityHub正确输入邮箱账号和密码(或手机号和手机验证码,或微信扫码登录、再或者UnityConnect扫码登录)后,点击登录后,登录页关闭,但是仍未登录成功。更换wifi网络和4G热点均无效。问题分析:与Unity客服及技术沟通,通过Logs里的报错显示是因为系统里的cert被重写坏了,导致登录cert验证失败。某些破解软件和vpn会重写root下面的cert。解决方法:如果遇到此种情况,在系统的环境变量里添加个变量NODE_TLS_REJECT_UNAUTHORIZED,值设成0_unity恢复码在哪

【Proteus仿真】【STM32单片机】红外无线遥控器系统_protues红外线接收器-程序员宅基地

文章浏览阅读473次,点赞6次,收藏11次。本项目使用Proteus8仿真STM32单片机控制器,使用2个单片机,一个作为发射,一个作为接收,按键、LED等。主要功能:系统运行后,可通过发射机操作K1-K5键控制接收机LED1-LED5指示灯亮灭。_protues红外线接收器

3D目标检测-OpenPCDet使用realsense采集的.ply文件进行训练_realsense ply-程序员宅基地

文章浏览阅读518次,点赞10次,收藏7次。OpenPCDet的3D目标检测的初步实践环节_realsense ply

net framework 3.5怎么安装 / 无法安装怎么办_net framework 3.5无法安装-程序员宅基地

文章浏览阅读6.1w次,点赞14次,收藏80次。netframework3.5怎么安装以及netframework3.5无法安装的解决方法_net framework 3.5无法安装

可视化数据库管理工具:SQLPro Studio for Mac_mac 免费 sql 可视化-程序员宅基地

文章浏览阅读567次,点赞6次,收藏9次。它支持多种数据库类型,包括MySQL、PostgreSQL、SQLite等,方便用户进行数据库的管理和操作。SQLPro Studio for Mac提供了直观的界面和丰富的功能,使用户可以轻松地连接和管理数据库。用户可以通过该软件执行SQL查询、浏览和编辑数据、创建和管理数据库对象等操作。此外,SQLPro Studio for Mac还提供了数据导入和导出功能,方便用户在不同数据库之间迁移数据或与其他应用程序交换数据。_mac 免费 sql 可视化

自适应滤波-最小均方误差滤波_方差 误差滤波-程序员宅基地

文章浏览阅读2.2k次,点赞3次,收藏14次。最小均方误差滤波原理低通滤波不能像中值滤波那样很好的滤除冲激噪声。因为低通滤波的最终结果混合了图像信号无关的噪声和信号本身。相反,中值滤波能够在保护图像边缘不受损失的情况下,滤除与图像信号无关的噪声。但是当噪声不完全和图像信号无关,比如被混合了图像本身信号和一定噪声的加性噪声或乘性噪声污染的图像,我们该如何消除此种噪声呢?或许需要构造一种更加智能的滤波。自适应滤波的提出就是为了解决上述问题。自适应滤波利用图像局部特性和结构自适应选择合适的方法滤除噪声。根据图像局部邻域统计信息自适应滤波的时候,如果我_方差 误差滤波

随便推点

alibab仓库 idea_《阿里巴巴Java开发手册》IDEA插件与Eclipse插件使用指南-阿里云开发者社区...-程序员宅基地

文章浏览阅读82次。扫码或点我直达 免费领自10月14日《阿里巴巴Java开发手册》规约插件发布以来,就吸引了很多开发者的关注。如何更快速的掌握插件使用技巧,快速体验令人激动的自动化、智能化的插件协同工作?相信这是大家想要了解的。在搜集了一些开发者的使用反馈后,阿里巴巴Java开发手册P3C项目IDE插件主要开发者骏烈针对需求,整理了一份详细的插件使用指南,帮助大家更好地使用插件。阿里巴巴Java开发手册IDEA插件..._eclipse alibab

Weka安装后无法打开_weka打不开-程序员宅基地

文章浏览阅读6.8k次。前段时间在学习Weka时,下载了Weka,由于之前写过Java配置过相关JDK、JRE,所以下载了without JVM版本。在相关安装之后,重新打开却发现一直停在那只鸟的界面,并不能打开weka。在我打开了Weka 3.8 (with console)之后,并对报的错误进行了百度,找到了以下解决方法。1、WEKA似乎不太能友好支持JDK9,建议使用JDK9以下的版本。2、若控制台显示无法打开ma..._weka打不开

1-5、服务器2308RAID卡配置_2308阵列卡-程序员宅基地

文章浏览阅读8.7k次,点赞2次,收藏22次。RAID卡型号:2308RAID配置参考设备开机过程中,开机过程中开机自检到SCSI控制器时按Ctrl+C进入raid卡配置界面,如下进入RAID配置界面在此界面中按“Alt+N”,可查看RAID卡全局属性也可以直接回车进入“Adapter Properties”界面选择“RAID Properties”,按“Enter”键。进入“Select New Volume Type”界面选择“Create RAID 0 Volume”,按“Enter”键。打开“Create New Volu._2308阵列卡

Port Windows IPC apps to Linux, Part 2: Semaphores and events_semop namedevent-程序员宅基地

文章浏览阅读1.2k次。A mapping guide for complex, multithreaded, multiprocess applicationsSrinivasan Muthuswamy ([email protected]), Software Engineer, IBM Global Services GroupSrinivasan S. Muthuswamy works as a Software Engineer for IBM Global Services Group. He jo_semop namedevent

AD证书-CA故障:由于吊销服务器已脱机,吊销功能无法检查吊销-程序员宅基地

文章浏览阅读7.1k次。在证书服务器搭建好了之后,通过网页申请证书时,会报“由于吊销服务器已脱机,吊销功能无法检查吊销”的情况,导致不能正常下载证书解决方法:在活动目录服务器上,打开运行,输入cmdcertutil.exe -setreg CA\LogLevel 2提示旧值LogLevel REG_DWORD = 3新值LogLevel REG_DWO..._数字证书 吊销服务器已脱机

pandas用法详解_df.head()-程序员宅基地

文章浏览阅读6.3k次,点赞11次,收藏88次。一、生成数据表1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd2、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv(‘name.csv’,header=1))df = pd.DataFrame(pd.read_excel(‘name.xlsx’))3、用pandas创建数据表:df = pd.DataFrame({“id”:[1001,1002,1003,_df.head()

推荐文章

热门文章

相关标签