ggplot2 | 使用小提琴图+箱形图+抖动图展示数据分布情况-程序员宅基地

技术标签: css  ggplot2  svg  html  数据可视化  

小提琴图、箱形图和抖动图都可以用来展现数据的分布情况,但是侧重点又有所不同,通过ggplot2的图层叠加功能可以很容易地将三者合一,从而使图形的信息量更加丰富。

本篇使用的示例数据是iris

library(ggplot2)
library(dplyr)
data <- iris
head(data)

##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa
  • Species变量是因子变量,描述的是鸢尾属植物的种类。

1 相关图形绘制函数

绘制小提琴图的函数及语法结构:

geom_violin(
  mapping = NULL,
  data = NULL,
  stat = "ydensity",
  position = "dodge",
  ...,
  draw_quantiles = NULL,
  trim = TRUE,
  scale = "area",
  na.rm = FALSE,
  orientation = NA,
  show.legend = NA,
  inherit.aes = TRUE
)
  • draw_quantiles:在小提琴图内部绘制对应数据分位数的水平线,默认值为无;

  • trim:是否去除小提琴两端的尖角,默认为是;

  • scale:默认值area表示所有小提琴面积相等,可选项count表示小提琴面积与对应样本数成正比,width表示小提琴图的最大宽度相等。

前面推文已经介绍过基础绘图系统中箱形图的绘制方法:

ggplot2中对应的函数以及参数大体与基础系统类似:

geom_boxplot(
  mapping = NULL,
  data = NULL,
  stat = "boxplot",
  position = "dodge2",
  ...,
  outlier.colour = NULL,
  outlier.color = NULL,
  outlier.fill = NULL,
  outlier.shape = 19,
  outlier.size = 1.5,
  outlier.stroke = 0.5,
  outlier.alpha = NULL,
  notch = FALSE,
  notchwidth = 0.5,
  varwidth = FALSE,
  na.rm = FALSE,
  orientation = NA,
  show.legend = NA,
  inherit.aes = TRUE
)
  • notch:调整箱形形状;

  • varwidth:默认值为FASLE,为TRUE时表示箱形宽度与样本数成正比。

抖动图是对散点在横坐标方向做随机抖动,以更好地展现数据在纵坐标方向的分布状态。相关函数的语法结构如下:

geom_jitter(
  mapping = NULL,
  data = NULL,
  stat = "identity",
  position = "jitter",
  ...,
  width = NULL,
  height = NULL,
  na.rm = FALSE,
  show.legend = NA,
  inherit.aes = TRUE
)

2 三图合一

在绘制图形之前,需要明确的一点是,这三类图形都要求x参数必须是因子变量。示例数据中Species本身已经是因子变量了,因此不需要再进行类型转换。

class(data$Species)

## [1] "factor"

首先,不用对图形做过多的美化,只使用必要的函数,顺便查看某些参数取值的效果:

  • 小提琴图:将trim参数设置为FALSE,观察不去除尖角的效果;通过draw_quantiles参数在小提琴图内部绘制出对应四分位的水平线;

  • 箱形图:通过width参数控制宽度,使其能够落在小提琴内部;

  • 抖动图:通过width参数控制随机抖动程度。

ggplot(data, aes(x = Species, y = Sepal.Length )) +
  geom_violin(trim = F,
              draw_quantiles = c(0.25, 0.5, 0.75)) +
  geom_boxplot(width = 0.2) +
  geom_jitter(width = 0.2)
  • 从图中可以发现,小提琴图绘制出的四分位水平线与箱形图对应的水平线并不完全重合。

然后,可以通过映射函数aes对图形进行美化。此外,根据前图的效果,对相应参数的取值进行调整:

  • 所有图形的颜色都根据Species变量进行分组;

  • 小提琴图:trimdraw_quantiles参数恢复默认值。

ggplot(data, aes(x = Species, y = Sepal.Length )) +
  geom_violin(aes(col = Species)) +
  geom_boxplot(aes(col = Species),width = 0.2) +
  geom_jitter(aes(col = Species), width = 0.2)

因为绘图函数较多,可以直接在ggplot中的映射函数中对颜色进行设置。

此外,图中的图例显得多余。因为它是由于在aes函数中对col参数设置而产生的,在guides函数中设置col = F可以将其去除。

ggplot(data, aes(x = Species, y = Sepal.Length, col = Species)) +
  geom_violin() +
  geom_boxplot(width = 0.2) +
  geom_jitter(width = 0.2) +
  guides(col = F)

抖动图的散点颜色没必要进行分组设置,想让它始终保持为黑色,单独在相应函数中进行设置即可。

ggplot(data, aes(x = Species, y = Sepal.Length, col = Species),
       show.legend = F) +
  geom_violin() +
  geom_boxplot(width = 0.2) +
  geom_jitter(width = 0.2, col = "black") +
  guides(col = F) -> p
p

确定了图形的基本形态,再使用theme函数对其细节进行调整。这里仍然使用前篇推文的相关设置,直接复制过来即可。

p +
  theme( axis.line = element_line(color = "black", size = 0.2),
         axis.title = element_text(size = 12),
         axis.text = element_text(size = 10),
         axis.ticks = element_line(colour = "grey"),
         
         panel.background = element_blank(),
         panel.border = element_rect(fill = NA, size = 0.3),
         panel.grid.major = element_line(linetype = 2, colour = "grey", size = 0.5),
         
         plot.title = element_text(size = 12, hjust = 0.5)) -> p2
p2
  • ggplot2theme函数的设置具有很好的可移植性。

最后,我们再调整下图中文本的字体:

  • text参数可以调整图中所有文本类要素的属性。

p2 +
  theme(text = element_text(family = "mono")) -> p3
p3

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_54000907/article/details/116618870

智能推荐

使用JDBC连接数据库出现 The server time zone value ‘�й���׼ʱ��‘ is unrecognized or represents more than one解决方案_jdbc.properties timezone-程序员宅基地

文章浏览阅读553次。在 jdbc.properties 文件中的 url 后面加上 ?serverTimezone=UTC加入之前的jdbc.properties文件:user=rootpassword=12345678url=jdbc:mysql://localhost:3306/testdriverClass=com.mysql.cj.jdbc.Driver加入之后:user=rootpassword=12345678url=jdbc:mysql://localhost:3306/test?serv_jdbc.properties timezone

计算机图形学孔令德基础知识,计算机图形学基础教程孔令德答案-程序员宅基地

文章浏览阅读1.4k次。计算机图形学基础教程孔令德答案【篇一:大学计算机图形学课程设】息科学与工程学院课程设计任务书题目:小组成员:巴春华、焦国栋成员学号:专业班级:计算机科学与技术、2009级本2班课程:计算机图形学指导教师:燕孝飞职称:讲师完成时间: 2011年12 月----2011年 12 月枣庄学院信息科学与工程学院制2011年12 月20日课程设计任务书及成绩评定12【篇二:计算机动画】第一篇《计算机图形学》..._计算机图形学基础教程 孔令德 答案

python xlwings追加数据_大数据分析Python库xlwings提升Excel工作效率教程-程序员宅基地

文章浏览阅读1k次。原标题:大数据分析Python库xlwings提升Excel工作效率教程Excel在当今的企业中非常非常普遍。在AAA教育,我们通常建议出于很多原因使用代码,并且我们的许多数据科学课程旨在教授数据分析和数据科学的有效编码。但是,无论您偏爱使用大数据分析Python的程度如何,最终,有时都需要使用Excel来展示您的发现或共享数据。但这并不意味着仍然无法享受大数据分析Python的某些效率!实际上,..._xlwings通过索引添加数据

java8u211_jre864位u211-程序员宅基地

文章浏览阅读911次。iefans为用户提供的jre8 64位是针对64位windows平台而开发的java运行环境软件,全称为java se runtime environment 8,包括Java虚拟机、Java核心类库和支持文件,不包含开发工具--编译器、调试器和其它工具。jre需要辅助软件--JavaPlug-in--以便在浏览器中运行applet。本次小编带来的是jre8 64位官方版下载,版本小号u211版..._jre8是什么

kasp技术原理_KASP基因分型-程序员宅基地

文章浏览阅读5k次。KASP基因分型介绍KASP(Kompetitive Allele-Specific PCR),即竞争性等位基因特异性PCR,原理上与TaqMan检测法类似,都是基于终端荧光信号的读取判断,每孔反应都是采用双色荧光检测一个SNP位点的两种基因型,不同的SNP对应着不同的荧光信号。KASP技术与TaqMan法类似,它与TaqMan技术不同的是,它不需要每个SNP位点都合成特异的荧光引物,它基于独特的..._kasp是什么

华为p50预装鸿蒙系统,华为p50会不会预装鸿蒙系统_华为p50会预装鸿蒙系统吗-程序员宅基地

文章浏览阅读154次。华为现在比较火的还真就是新开发的鸿蒙系统了,那么在即将上市的华为p50手机上会不会预装鸿蒙系统呢?接下来我们就来一起了解一下华为官方发布的最新消息吧。1.华为p50最新消息相信大家都知道,随着华为鸿蒙OS系统转正日期临近,似乎全网的花粉们都在关注华为鸿蒙OS系统优化、生态建设等等,直接忽略了不断延期发布的华为P50手机,如今华为P50系列手机终于传来了最新的好消息,在经过一系列方案修改以后,终于被..._华为手机p50直接预装鸿蒙系统

随便推点

python用什么软件编程好-初学python编程,有哪些不错的软件值得一用?-程序员宅基地

文章浏览阅读2.1k次。Python编程的软件其实许多,作为一门面向大众的编程言语,许多修正器都有对应的Python插件,当然,也有特地的PythonIDE软件,下面我简单引见几个不错的Python编程软件,既有修正器,也有IDE,感兴味的朋友可以本人下载查验一下:1.VSCode:这是一个轻量级的代码修正器,由微软规划研发,免费、开源、跨途径,轻盈活络,界面精练,支撑常见的自动补全、语法提示、代码高亮、Git等功用,插..._python入门学什么好

pytorch一步一步在VGG16上训练自己的数据集_torch vgg训练自己的数据集-程序员宅基地

文章浏览阅读3.2w次,点赞30次,收藏307次。准备数据集及加载,ImageFolder在很多机器学习或者深度学习的任务中,往往我们要提供自己的图片。也就是说我们的数据集不是预先处理好的,像mnist,cifar10等它已经给你处理好了,更多的是原始的图片。比如我们以猫狗分类为例。在data文件下,有两个分别为train和val的文件夹。然后train下是cat和dog两个文件夹,里面存的是自己的图片数据,val文件夹同train。这样我们的..._torch vgg训练自己的数据集

毕业论文管理系统设计与实现(论文+源码)_kaic_论文系统设计法-程序员宅基地

文章浏览阅读968次。论文+系统+远程调试+重复率低+二次开发+毕业设计_论文系统设计法

在python2与python3中转义字符_Python 炫技操作:五种 Python 转义表示法-程序员宅基地

文章浏览阅读134次。1. 为什么要有转义?ASCII 表中一共有 128 个字符。这里面有我们非常熟悉的字母、数字、标点符号,这些都可以从我们的键盘中输出。除此之外,还有一些非常特殊的字符,这些字符,我通常很难用键盘上的找到,比如制表符、响铃这种。为了能将那些特殊字符都能写入到字符串变量中,就规定了一个用于转义的字符 \ ,有了这个字符,你在字符串中看的字符,print 出来后就不一定你原来看到的了。举个例子>..._pytyhon2、python3对%转义吗

java jar 文件 路径问题_「问答」解决jar包运行时相对路径问题-程序员宅基地

文章浏览阅读1.3k次。我这几天需要做一个Java程序,需要通过jar的形式运行,还要生成文件。最终这个程序是要给被人用的,可能那个用的人还不懂代码。于是我面临一个问题:生成的文件一定不能存绝对路径。刚开始我想得很简单,打绝对路径改成相对路径不就行了吗?于是有了这样的代码:String path = "../test.txt";File file = new File(path);……这个写法本身并没有问题,直接运行代码..._jar启动文件路径中存在!

微信读书vscode插件_曾经我以为 VSCode 是程序员专属的工具,直到发现了这些……...-程序员宅基地

文章浏览阅读598次。如果你知道 VSCode,一说起它,你可能第一个想到的就是把它当做一个代码编辑器,而它的界面应该可能大概率是这样的——如果你恰好又是个程序员,那你可能经常会用到它,不管是 Python、JS 还是 C++ 等各种语言对应的文件,都可以用它来进行简单的编辑和整理,甚至是运行和 debug......但是今天要讲的显然不是这些,经过小美的多方研究,发现了即使是对于大多数并不了解 VSCode,也完全不..._vscode weixin read

推荐文章

热门文章

相关标签