io_uring通过使用先进的IO特性,以及内核支持下的各种免拷贝、免context switch特性,成为kernel下一代高性能异步IO接口,不同于libaio,io_uring支持direct和非direct IO。
Fundamentally, io_uring is just ring based communication channel. ---- Jens
IO请求通过submission queue SQ下发到内核中,内核完成IO之后通过completion queue CQ放回IO result。两个队列在用户态和内核态之间通过共享内存的方式沟通,从而免拷贝,每个SQE
(submission queue entry)的大小为64byte,正好容纳近一个cache line。内核通过memory ordering、fense等技巧保证整个IO链路是不出错且高效的。
作者Jens在文章中明确列出了io_uring的设计目标:
Easy to use
。从笔者的角度来看,与现有的IO接口相比,io_uring相关syscall接口其实并不算易用,甚至理解起来也不算容易。作者自己也说,这些设计目标之间是有冲突的,特性丰富、高效还可伸缩的接口必然是很难用的。为了解决这个问题,作者为io_uring开发了一个配套的库liburing。既然支持全部需求的接口对于一般开发者来说使用难度过高,那就对其中最常用的部分再封装一层,提供一个更简单易用的接口。使用liburing无法使用io_uring全部的功能,特别是一些为高性能目标设计的功能,但能够使用一套风格与io_uring类似,但简单的多的接口来使用io_uring的基本功能,这对于大部分开发者来说也已经足够了。对于需要高级特性的开发者来说,也可以在使用liburing的基础上调用io_uring syscall接口来获取自己需要的特性,因为这类开发者一般也不会同时需要所有高级特性,而只是使用其中很小的一部分。这个设计方式值得我们学习,如何解决功能强大和接口易用之间的矛盾,“加一个中间层”永远是一个有效的思路。Extendable
。这里的可扩展指的是io_uring操作的IO设备类型是可扩展的,io_uring实现的异步接口不止能够用于块设备,也能够支持socket网络IO等非块设备,后续还可能支持更多fd类型,从接口语义方面没有限制。Feature rich
。这一项是针对linux aio机制的局限性而来的。aio机制由于支持的特性不多,使用限制却很多,因此使用场景非常有限。作者的目标是在所有需要异步IO的场景都能够使用io_uring接口,并且不需要程序本身做架构级别的调整。Efficiency
。这里的高效主要体现在两个方面:
Scalability
。这里的Scalability不同于上文的Extendable,Scalability主要指随着使用IO使用系统资源的增多(主要指cpu计算之资源),IO性能会得到线性增长。因此io_uring占用系统资源是可调的。创建并配置io_uring
#include <linux/io_uring.h>
int io_uring_setup(u32 entries, struct io_uring_params *p);
通过io_uring_params
设置申请uring的参数:
struct io_uring_params {
__u32 sq_entries; // 指定分配多少个sqe
__u32 cq_entries; // 指定分配多少个cqe
__u32 flags; // io_uring各种参数,包括IORING_SETUP_IOPOLL设置用户态polling,IORING_SETUP_SQPOLL设置内核态polling,IORING_SETUP_SQ_AFF设置内核态polling的绑核等等
__u32 sq_thread_cpu; // 内核态绑核
__u32 sq_thread_idle; // 内核态polling 如果idle超过sq_thread_idle milliseconds会进入休眠,进入休眠后用户态进程必须通过调用io_uring_enter设置IORING_SQ_NEED_WAKEUP 来唤醒内核polling线程
__u32 features; // 由内核填写,表明内核支持那些io_uring特性
__u32 wq_fd; // 可以指定一个已经存在的io_uring,而不重新创建
__u32 resv[3];
struct io_sqring_offsets sq_off; // 指定sq的一些特性
struct io_cqring_offsets cq_off;
};
ring创建好之后是以fd的形式呈现的,用户可以通过mmap
的方式访问特定的ring
#define IORING_OFF_SQ_RING 0ULL
#define IORING_OFF_CQ_RING 0x8000000ULL
#define IO_RING_OFF_SQES 0x10000000ULL
// 通过以上三个flag来mmap对应的三片IOring的区域
// 下面举例:
sq->ring_ptr = mmap(0, sq->ring_sz, PROT_READ | PROT_WRITE,
MAP_SHARED | MAP_POPULATE, fd, IORING_OFF_SQ_RING);
if (sq->ring_ptr == MAP_FAILED)
return -errno;
sq->khead = sq->ring_ptr + p->sq_off.head; // p就是之前设置的io_uring_params
sq->ktail = sq->ring_ptr + p->sq_off.tail;
// sq配置好之后,用户态进程作为生产者在sq tail追加sqe,kernel作为消费者从head获取待处理的sqe
上述讲解的是io_uring系统调用的方法,我们也可以使用上层封装liburinginclude/liburing.h
中的函数进行初始化和下发IO
我们可以通过io_uring_params
配置io_uring不同的特性
hipri
模式,通过配置flag参数IORING_SETUP_IOPOLL
,可以使用用户态poll模式处理IO。这种场景下适配的硬件的completion事件不会中断上来更改uring的cq。用户需要自己收割查看硬件队列。这样可以带来更低是时延和更好的性能,经典的场景有如下两种:
polled IO submission
,通过配置flag参数IORING_SETUP_SQPOLL
,启动内核态poll,这意味着用户提交IO不用进入内核态通知内核,内核会持续的poll sq,
IORING_SETUP_SQ_AFF
绑定内核态polling的核sq_thread_idle
控制内核的polling线程(某cpu core 的sys cpu会跑到100%)在空闲多少时间之后可以进入休眠。io_uring_enter
收割IO的时候会进入sleep(min>0
),等待cq中有完成时entry,目前spdk uring_bdev 使用min=0
的模式轮询查看CQ队列。 fio使用min>0
阻塞等待cq返回。int io_uring_enter(unsigned int fd, unsigned int to_submit, unsigned int min_complete, unsigned int flags, sigset_t sig);
在程序向sq,即请求队列中插入了IO请求后(可以通过io_uring_get_sqe
插入),需要通知内核开始处理,这时就需要调用io_uring_enter
。参数中的fd是io_uring的fd
,to_submit是提交的IO请求数。
min_complete
可以用来阻塞等待内核完成特定数量的请求,前提是flags中设置IORING_ENTER_GETEVENTS
。这个功能可以单独调用来等待内核处理完成。需要注意的是由于采用共享内存队列的方式来同步请求完成情况,因此程序也可以不使用这个接口而是直接判断cqring的状态来获取IO完成情况并处理cqring中的完成事件(使用liburing
中的io_uring_peek_cqe
)。
int io_uring_register(unsigned int fd, unsigned int opcode, void *arg, unsigned int nr_args);
这个syscall用于支持一些高级的优化用法,主要有两种模式,opcode分别为:
IORING_REGISTER_FILES
。内核异步处理sqe请求时,需要保证fd不会在处理过程中被关闭,因此需要在开始处理前增加fd引用计数,结束后再减少。而调用这个接口后就可以避免这种反复的引用计数操作。在调用后指定的文件fd的引用计数会增加,后续提交请求时只要在sqe的flags中指定IOSQE_FIXED_FILE
就不会再修改引用计数。如果不再需要操作这个fd,可以用IORING_UNREGISTER_FILES
这个opcode解除注册。IORING_REGISTER_BUFFERS
。在使用O_DIRECT
模式时,内核在处理IO时需要先映射用户态的页面,处理完后再解除映射(When O_DIRECT is used, the kernel must map the application pages into the kernel before it can do IO to them, and subsequently unmap those same pages when IO is done)(这意味着directIO应该是免拷贝的),这也是一种重复开销。使用这个opcode后,就可以把指定的buffer
页面固定映射到内核中,处理请求时就不需要反复映射、解除映射。用户可以在下发IO的时候使用IORING_OP_READ_FIXED
和IORING_OP_WRITE_FIXED
指定当前IO使用fixed buffer中的空间。IOURING_REGISTER_EVENTFD
。和libaio类似,io_uring也可以注册一个eventfd,用户随后可以poll这个eventfd获取相关事件通知。IO entry中不同的opcode可指示kernel做不同的事情:
IORING_OP_NOP
不做任何事,测试系统开销。IORING_OP_READV
常规读IORING_OP_WRITEV
常规写IORING_OP_READ_FIXED
使用fixed buffer进行读IORING_OP_WRITE_FIXED
使用fixed buffer进行写IORING_OP_FSYNC
类似fsync()
系统调用,只不过是以异步的形式。IORING_OP_POLL_ADD
和IORING_OP_POLL_REMOVE
可以使用io_uring poll特定的fd,只不过每次poll完成之后需要重新添加。IORING_OP_TIMEOUT
和IORING_OP_TIMEOUT_REMOVE
,使用该OP下发的entry会在特定的timeout时间之后才会返回。使用io_uring_get_sqe
获取一个新的sqe之后,可以通过sqe->flages
设置特性,一些比较重要的特性列述如下:
IOSQE_IO_DRAIN
,同步等待之前下发的io_uring command
全部返回IOSQE_IO_LINK
,linked commands,设置在中,设置feature的command会在IO_uring中顺序完成,liburingexamples/link-cp.c
SW overhead | synchronous I/O | libaio | io_uring |
---|---|---|---|
system calls | at least 1 per I/O | 2 per I/O batch | 1 per patch, zero when using SQ submission thread |
memory copy | yes | yes - SQE & CEQ | zero-copy for SQE&CQE |
context switches | yes | yes | minimal context switching polling |
interrupts | Interupt driven | Interupt driven | supports both interrupts and polling I/O |
Blocking I/O | synchronous | asynchronous | asynchronous |
buffer I/O | yes | no | yes |
目前spdk已经支持了io_uring,具体代码可见pdk/module/bdev/uring/bdev_uring.c
,由于目前有一些远程挂载设备不支持IORING_SETUP_IOPOLL
特性,spdk为了维护模块的通用性,目前的spdk实现也没有启用IORING_SETUP_IOPOLL
特性,当然定制添加的工作量并不大。
使用如下命令可以在spdk中测试io_uring
./scripts/rpc.py -s /var/tmp/spdk.sock bdev_uring_create /dev/nvme0n1 nvme0n1 512 # 创建uring_bdev
LD_PRELOAD=/root/spdk_bdev ./fio ./example_config.fio # 使用fio_plugin测试io_uring,需要更改对应的bdev参数配置。
文章浏览阅读645次。这个肯定是末尾的IDAT了,因为IDAT必须要满了才会开始一下个IDAT,这个明显就是末尾的IDAT了。,对应下面的create_head()代码。,对应下面的create_tail()代码。不要考虑爆破,我已经试了一下,太多情况了。题目来源:UNCTF。_攻防世界困难模式攻略图文
文章浏览阅读2.9k次,点赞3次,收藏10次。偶尔会用到,记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录,执行导库操作 导出语句:./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log 注释: cwy_init/init_123..._达梦数据库导入导出
文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件,可以删掉不需要要到的jsp,asp,asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件,在页面引入js文件:<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js
文章浏览阅读2.3k次,点赞6次,收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA,我们的数据线就会变为10101010,通过修改不同的内容,即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平,后半周期为低电平的状态。在SPI的通信模式中,CPHA配置会影响该实验,下图展示了不同采样位置的SPI时序图[1]。CPOL = 0,CPHA = 1:CLK空闲状态 = 低电平,数据在下降沿采样,并在上升沿移出CPOL = 0,CPHA = 0:CLK空闲状态 = 低电平,数据在上升沿采样,并在下降沿移出。_stm32g431cbu6
文章浏览阅读1.2k次,点赞2次,收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决?5.如果在数据链路层不进行帧定界,会发生什么问题?6.PPP协议的主要特点是什么?为什么PPP不使用帧的编号?PPP适用于什么情况?为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输
文章浏览阅读587次。软件测试工程师移民加拿大 无证移民,未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...
文章浏览阅读304次。Thinkpad X250笔记本电脑,装的是FreeBSD,进入BIOS修改虚拟化配置(其后可能是误设置了安全开机),保存退出后系统无法启动,显示:secure boot failed ,把自己惊出一身冷汗,因为这台笔记本刚好还没开始做备份.....根据错误提示,到bios里面去找相关配置,在Security里面找到了Secure Boot选项,发现果然被设置为Enabled,将其修改为Disabled ,再开机,终于正常启动了。_安装完系统提示secureboot failure
文章浏览阅读10w+次,点赞93次,收藏352次。1、用strtok函数进行字符串分割原型: char *strtok(char *str, const char *delim);功能:分解字符串为一组字符串。参数说明:str为要分解的字符串,delim为分隔符字符串。返回值:从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它:strtok函数线程不安全,可以使用strtok_r替代。示例://借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割
文章浏览阅读2.3k次。1 .高斯日记 大数学家高斯有个好习惯:无论如何都要记日记。他的日记有个与众不同的地方,他从不注明年月日,而是用一个整数代替,比如:4210后来人们知道,那个整数就是日期,它表示那一天是高斯出生后的第几天。这或许也是个好习惯,它时时刻刻提醒着主人:日子又过去一天,还有多少时光可以用于浪费呢?高斯出生于:1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答
文章浏览阅读851次,点赞17次,收藏22次。摘要:本文利用供需算法对核极限学习机(KELM)进行优化,并用于分类。
文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功,进入系统4、测试如下:二、MySQL弱密码登录:1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功,进入MySQL系统3、测试效果:三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入
文章浏览阅读257次。本文将为初学者提供Python学习的详细指南,从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文,您将能够掌握Python编程的核心概念,为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf