百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

编程硬核技术:高性能低延迟内存池实现技术

wptr33 2025-01-23 21:51 19 浏览

调用malloc分配内存大概是微秒级别,高并发低延迟系统的关键路径上,要慎用malloc/new,特别是在线程数量很大的情况下。


给一个测试数据:linux 64位系统,标准库malloc,单线程,gcc开O3优化,分配的size在4M以下随机,平均每次分配大概0.1-3微秒,具体数值跟分配行为有关,跟分配后是否free有关。


多线程下的malloc性能开销,我没有测,应该会比单线程下差很多很多。


微秒级的执行时间是什么概念?一般而言,简单的函数调用,里面做个加减乘除+拷贝几十个字节+逻辑判断,应该是几十个纳秒级别,由此可见,malloc/new调用是比较慢的。


我们来看看doris是怎么做内存管理的,推测这个方案是从某个开源库借鉴(chao)过来的,any way,性能不错,值得研究。


Doris内存管理分三层

系统配置器(system_allocator)

  • 封装系统/标准接口,提供allocate/free接口
  • allocate(size)根据size调用posix_memalign()或者mmap()
  • free()接口调用munmap()或者free()
  • 会在分配的时候做内存对齐。

块配置器(chunk_allocator)

  • 块(Chunk):通过system_allocator::allocate接口分配的内存块,包含内存块首地址指针、尺寸、core_id等信息
  • 为每个CPU core维护一个chunk_arena
  • 每个chunk_arena包含一个chunk_list
  • chunk_list为每个size维护一个该size的chunk集合
  • 为了减少各种size的数量,只维护固定size的chunk集合,比如8、16、32、64、128、256...,所以如果分配请求的大小是34字节,那么会向上圆整到64
  • 块配置器会使用系统配置器分配/回收内存
  • 块配置器是单件(唯一实例)

内存池(MemPool)

  • 对外提供allocate()、clear()、free_all()等接口
  • 维护通过allocate接口分配的ChunkInfo的列表,ChunkInfo在Chunk上增加了一个已分配字节数
  • 内存池会通过块分配器分配大块,每次分配的大块的大小会按X2(策略决定)增加,从而确保不会频繁调用块分配器的allocate接口
  • 通过内存池的allocate接口分配的内存,不支持单个块free,只支持统一释放:free_all()
  • clear()接口支持内存复用


三者之间的关系如下

system_allocator的作用

屏蔽了动态内存管理相关的底层系统调用和标准C/Posix编程接口

  • 如果单次申请的chunk size大于某个阈值,那就调用mmap/munmap
  • 否则调用posix_memalign
  • 上层应用不再直接调用底层API,而是调用system_allocator封装的编程接口:allocate/free


chunk_allocator是怎么工作的?

chunk_allocator是system_allocator的上层,会使用system_allocator的allocate/free接口申请和回收内存块。


chunk_allocator是MemPool的下层,提供allocate和free接口供MemPool使用。


chunk_allocator主要是减少了多线程竞争,chunk_allocator维护core_num个ChunkArena对象,该对象内维护一个chunk_list,为size=2^n的每个块维护一个free list,内存申请的时候,会对请求的size向上圆整。



因为每个core都有一个ChunkArena对象,所以上层应用代码申请内存的时候,先获取代码正在哪个核上执行,从而找到对应的ChunkArena对象,再通过size找到对应的free列表,再从该free list上摘除一个块。


多个逻辑线程依然可能调度到同一个核上执行,虽然多个线程不会在一个核上同时执行申请动态内存,但多个线程在一个核上交错执行(申请内存)的情况,依然会引发对free list的数据竞争(虽然这种情况出现的概率很小),这时候只需要用test_and_swap原子操作不停尝试就行了,如果尝试一定次数还不成功,则执行线程主动yield,让出CPU,从而让另一个在该核上执行内存分配的线程有机会继续执行,进而修改atomic_flag,然后之前yield CPU的线程被重新调度执行。


TAS(test and swap)是很快的,且冲突概率变得非常小(因为每个核都有一个atomic_flag,不会所有线程竞争一个锁),这样的免锁设计,让分配内存变得很高效。


chunk_allocator也做了一层cache,通过chunk_allocator::free释放的内存块,并不一定会真正调用底层的free,只在预留size超过限额的情况下,才会调用system_allocator的free(),这样进一步减少了对系统底层动态内存管理相关API的调用。


chunk_allocator是单件,唯一实例。


MemPool设计

咱们进一部分分析MemPool的设计,先给一张MemPool的图:


MemPool的作用

内存池在system_allocator/chunk_allocator/MemPool的层次结构中,位于顶层,它依赖于下层chunk_allocator,间接依赖system_allocator,下层的类不反向依赖于MemPool。


先说Chunk和ChunkInfo。


Chunk就是底层接口单次分配的内存块,Chunk持有内存块首地址data,内存块大小size,以及分配的时候执行线程在哪个core上执行。


ChunkInfo包含Chunk,同时多了一个int allocated_size,这是因为,为了减少对
system_allocator::allocate()的调用次数,所以单次分配的chunk会比较大,几K,几十K,甚至XX M(兆),这个大的size记录在chunk->size上。但是,上层应用一次分配的内存可能比较小,几十字节之类,所以,该chunk还有多少字节可用(已经使用了多少字节),需要有一个记录,这就是allocated_size,相当于一个游标,每次从该chunk分配x字节,那就把allocated_size这个游标往增长的方向移动x字节(实际上会考虑到对齐)。


所以,对
system_allocator::allocate()的调用,相当于批发进货。对MemPool::allocate()的调用,相当于零售。
效果上,就是减少了底层API的调用频率,减少了多线程竞争


MemPool持有一个next_chunk_size,它表示下次调用ChunkAllocator分配接口allocator的时候,需要分配多大,它被初始化为4K,下次分配的时候,会增加到8K,当然如果下次申请的size大于8K,则会取max。


next_chunk_size会一直增加,直到触达最大配置值,这样的设计,目的还是为了减少底层分配次数。


每次ChunkAllocator::allocate()都会返回一个Chunk,进而包装为ChunkInfo,被MemPool管理起来,所以MemPool会有多个ChunkInfo,用chunk_index标识chunk。


MemPool记录一个current_chunk_idx,这个idx记录了上次成功分配的ChunkInfo,下次分配的时候,先从current_chunk_idx指向的chunkInfo里尝试分配,如果该ChunkInfo的剩余内存空间不够,则会查找其他ChunkInfo,直到找到能满足分配请求的ChunkInfo,如果现有的所有ChunkInfo都不满足,那就走ChunkAllocator的allocate,并把新申请的Chunk,放入ChunkInfo list。


MemPool不支持单次分配的内存free,但是支持free_all,这会free该MemPool的所有Chunk。


MemPool::Clear()接口不会真正free Chunk,而是会重置allocated_size,复用原内存chunk。


一个细节,关于ChunkAllocator,分配的时候,会首先从线程运行的core上的ChunkArena分配,如果没有合适的,会从其他Core的ChunkArena里分配,再分配不到,才会从system_allocate,这样做的目的,是减少内存cache量。


我们做内存池有几个目标

  1. 吞吐,吞吐越大越好,能满足各种不同size,各种内存分配场景的大吞吐最好。
  2. 提高存储空间利用率,千方百计减少碎片(内碎片+外碎片,不懂请补课)。
  3. 为了提高速度,我们经常要做cache,但是cache多了,会造成宝贵的内存资源的浪费,所以,需要balance。
  4. 最后,非常重要的一点,提高cache利用率。


大家可以结合以上几点,慢慢体会该内存池的方式,是如何做到的。


很多人会质疑内存池的必要性,我只能说,如果线程很多,并发很大,时延要求也高,那可能真的需要加这么一层,不信你可以去测试一下。


不过,所有的方案都有缺点都有优点,都需要通用性,专用性,性能,效率,内存利用率等各个方面做出权衡,要结合业务,结合上层代码来定制。


nginx,clickhouse的内存管理方案也不错,读者有兴趣可以去找来看看。

相关推荐

Linux文件系统操作常用命令(linux文件内容操作命令)

在Linux系统中,有一些常用的文件系统操作命令,以下是这些命令的介绍和作用:#切换目录,其中./代表当前目录,../代表上一级目录cd#查看当前目录里的文件和文件夹ls#...

别小看tail 命令,它难倒了技术总监

我把自己以往的文章汇总成为了Github,欢迎各位大佬star...

lnav:基于 Linux 的高级控制台日志文件查看器

lnav是一款开源的控制台日志文件查看器,专为Linux和Unix-like系统设计。它通过自动检测日志文件的格式,提取时间戳、日志级别等关键信息,并将多个日志文件的内容按时间顺序合并显示,...

声明式与命令式代码(声明模式和命令模式)

编程范式中的术语和差异信不信由你,你可能已经以开发人员的身份使用了多种编程范例。因为没有什么比用编程理论招待朋友更有趣的了,所以这篇文章可以帮助您认识代码中的流行范例。命令式编程命令式编程是我们从As...

linux中的常用命令(linux常用命令和作用)

linux中的常用命令linux中的命令统称shell命令shell是一个命令行解释器,将用户命令解析为操作系统所能理解的指令,实现用户与操作系统的交互shell终端:我们平时输入命令,执行程序的那个...

提高工作效率的--Linux常用命令,能够决解95%以上的问题

点击上方关注,第一时间接受干货转发,点赞,收藏,不如一次关注评论区第一条注意查看回复:Linux命令获取linux常用命令大全pdf+Linux命令行大全pdf...

如何限制他人操作自己的电脑?(如何控制别人的电脑不让发现)

这段时间,小猪罗志祥正处于风口浪尖,具体是为啥?还不知道的小伙伴赶紧去补一下最近的娱乐圈八卦~简单来说,就是我们的小罗同事,以自己超强的体力,以及超强的时间管理能力,重新定义了「多人运动」的含义,重新...

最通俗易懂的命令模式讲解(命令模式百科)

我们先不讲什么是命令模式,先通过一个场景来引出命令模式,看看命令模式能解决什么样的问题。现在有一个渣男张三,他有还几个女朋友,你现在是不是还是单身狗,你就说你气不气?然后他需要每天分别叫几个女朋友起床...

互联网大厂后端必看!Spring Boot 中Runtime执行与停止命令?

你是否曾在使用SpringBoot开发项目时,遇到需要执行系统命令的场景?比如调用脚本进行文件处理,又或是启动外部程序?很多后端开发人员会使用Processexec=Runtime.get...

Linux 常用命令(linux常用的20个命令面试)

日志排查类操作命令...

Java字节码指令:if_icmpgt(0xA3)(java字节码使用的汇编语言)

if_icmpgt是Java字节码中的一条条件跳转指令,其全称是"IfIntegerCompareGreaterThan"。它用于比较两个整数值的大小。如果栈顶的第一个...

外贸干货|如何增加领英的曝光量和询盘

#跨境电商#...

golang执行linux命令(golang调用shell脚本)

需求需要通过openssl生成rsa秘钥,然后保存该秘钥。代码实例packagemainimport("io/ioutil""bytes"&...

LINUX磁盘挂载(linux磁盘挂载到windows)

1、使用root用户查看磁盘挂载情况:fdisk-l2、使用df查看当前磁盘挂载情况,根据和fdisk-l的结果进行对比,查看还有那些磁盘未使用3、挂载:mount磁盘挂载路径...

Linux命令学习——nl命令(linux ln命令的使用)

nl命令主要功能为每一个文件添加行号,每一个输入的文件添加行号后发送到标准输出。当没有文件或文件为-时,读取标准输入...