在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
基于 Go 1.4,相关文件位于 src/runtime 目录。文章忽略了 32bit 代码,有兴趣的可自行查看源码文件。为便于阅读,示例代码做过裁剪。 1. Memory AllocatorGo 内存分配器基于 tcmalloc 模型,这在 malloc.h 头部注释中有明确说明。 Memory allocator, based on tcmalloc.
http://goog-perftools.sourceforge.net/doc/tcmalloc.html
核心目标很简单:
分配器以页为单位向操作系统申请大块内存。这些大块内存由 n 个地址连续的页组成,并用名为 span 的对象进行管理。 malloc.h PageShift" = 13,
PageSize" = 1<<PageShift, // 8192 bytes
当需要时,span 所管理内存被切分成多个大小相等的小块,每个小块可存储一个对象,故称作 object。 分配器以 32KB 为界,将对象分为大小两种。 malloc.h MaxSmallSize = 32<<10,
大对象直接找一个大小合适的 span,这个无需多言。小对象则以 8 的倍数分为不同大小等级 (size class)。比如 class1 为 8 字节,可存储 1 ~ 8 字节大小的对象。 NumSizeClasses = 67,
当然,实际的对应规则并不是连续和固定的,会根据一些经验和测试结果进行调整,以获得最佳的性能和内存利用率。 malloc.h // Size classes. Computed and initialized by InitSizes.
//
// SizeToClass(0 <= n <= MaxSmallSize) returns the size class,
//" 1 <= sizeclass < NumSizeClasses, for n.
//" Size class 0 is reserved to mean "not small".
//
// class_to_size[i] = largest size in class i
// class_to_allocnpages[i] = number of pages to allocate when
//" making new objects in class i
int32" runtime·SizeToClass(int32);
extern"int32" runtime·class_to_size[NumSizeClasses];
extern"int32" runtime·class_to_allocnpages[NumSizeClasses];
extern"int8" runtime·size_to_class8[1024/8 + 1];
extern"int8" runtime·size_to_class128[(MaxSmallSize-1024)/128 + 1];
为了管理好内存,分配器使用三级组件来完成不同操作。
简单描述一下内存分配和回收流程。 分配流程:
回收流程:
从 heap 申请和回收 span 的过程中,分配器会尝试合并地址相邻的 span 块,以形成更大内存块,减少碎片。 1.1 初始化分配器管理算法依赖连续内存地址。因此,在初始化时,分配器会预留一块巨大的虚拟地址空间。该空间被成三个部分:
在 64 位系统下,arena 最大容量是 128GB,bitmap 8GB,spans 128MB。这些内存并非一次性分配,而是随着 arena 线性增加,每个区域都有指针标记当前分配位置。 malloc.h struct MHeap
{
// span lookup
MSpan** spans;
uintptr spans_mapped;
// range of addresses we might see in the heap
byte *bitmap;
uintptr bitmap_mapped;
byte *arena_start;
byte *arena_used;
byte *arena_end;
bool arena_reserved;
};
虚拟地址预留操作并非物理内存分配,因此看到 “Hello, World” 消耗上百 GB “内存”,无需大惊小怪。 在运行时初始化时,会调用内存分配器初始化函数。 proc.c void runtime·schedinit(void)
{
runtime·mallocinit();
}
malloc.c void runtime·mallocinit(void)
{
// 初始化 size class 反查表。
runtime·InitSizes();
// 64-bit
if(sizeof(void*) == 8 && (limit == 0 || limit > (1<<30))) {
arena_size = MaxMem; // 128GB
bitmap_size = arena_size / (sizeof(void*)*8/4); // 8GB
spans_size = arena_size / PageSize * sizeof(runtime·mheap.spans[0]);
spans_size = ROUND(spans_size, PageSize); // 128MB
// 尝试从 0xc000000000 开始设置保留地址。
// 如果失败,则尝试 0x1c000000000 ~ 0x7fc000000000。
for(i = 0; i <= 0x7f; i++) {
p = (void*)(i<<40 | 0x00c0ULL<<32);
p_size = bitmap_size + spans_size + arena_size + PageSize;
p = runtime·SysReserve(p, p_size, &reserved);
if(p != nil)
break;
}
}
// 32-bit
if (p == nil) {
// 忽略
}
// 按 PageSize 对齐地址。
// 分配器使用 Address<<PageShift 作为 PageID。
p1 = (byte*)ROUND((uintptr)p, PageSize);
// 设定不同区域的起始地址。
runtime·mheap.spans = (MSpan**)p1;
runtime·mheap.bitmap = p1 + spans_size;
runtime·mheap.arena_start = p1 + spans_size + bitmap_size;
runtime·mheap.arena_used = runtime·mheap.arena_start;
runtime·mheap.arena_end = p + p_size;
runtime·mheap.arena_reserved = reserved;
// 初始化 heap 和当前 cache。
runtime·MHeap_Init(&runtime·mheap);
g->m->mcache = runtime·allocmcache();
}
内存地址预留操作通过 mmap PORT_NONE 实现。不过,在 darwin/OSX 中,并未使用 MAP_FIXED 参数,因此未必从 0xc000000000 开始。 mem_darwin.c void* runtime·SysReserve(void *v, uintptr n, bool *reserved)
{
void *p;
*reserved = true;
p = runtime·mmap(v, n, PROT_NONE, MAP_ANON|MAP_PRIVATE, -1, 0);
if(p < (void*)4096)
return nil;
return p;
}
分配器根对象 heap 的初始化工作,主要是几个 span 管理链表和 central 数组的创建。 malloc.h MaxMHeapList = 1<<(20 - PageShift), // Maximum page length for fixed-size list in MHeap.
struct MHeap
{
MSpan free[MaxMHeapList]; // free lists of given length
MSpan busy[MaxMHeapList]; // busy lists of large objects of given length
MSpan freelarge; // free lists length >= MaxMHeapList
MSpan busylarge; // busy lists of large objects length >= MaxMHeapList
struct MHeapCentral {
MCentral mcentral;
byte pad[CacheLineSize];
} central[NumSizeClasses];
};
其中,free 和 busy 数组以 span 页数为序号管理多个链表。当 central 有需要时,只需从 free 找到页数合适的链表,从中提取可用 span 即可。busy 记录的自然是已经被使用的 span。 至于 large 链表,用于保存所有超出 free/busy 页数限制的 span。 mheap.c void runtime·MHeap_Init(MHeap *h)
{
uint32 i;
// 初始化一些管理类型的固定分配器。
runtime·FixAlloc_Init(&h->spanalloc, sizeof(MSpan), RecordSpan, ...);
runtime·FixAlloc_Init(&h->cachealloc, sizeof(MCache), ...);
runtime·FixAlloc_Init(&h->specialfinalizeralloc, sizeof(SpecialFinalizer), ...);
runtime·FixAlloc_Init(&h->specialprofilealloc, sizeof(SpecialProfile), ...);
// 初始化 free/busy 数组。
for(i=0; i<nelem(h->free); i++) {
runtime·MSpanList_Init(&h->free[i]);
runtime·MSpanList_Init(&h->busy[i]);
}
// 初始化 large 链表。
runtime·MSpanList_Init(&h->freelarge);
runtime·MSpanList_Init(&h->busylarge);
// 创建所有等级的 central 对象。
for(i=0; i<nelem(h->central); i++)
runtime·MCentral_Init(&h->central[i].mcentral, i);
}
像 span、cache 这类管理对象,并不从 arena 区域分配,而是使用专门的 FixAlloc 分配器单独管理。其具体实现细节可参考后续章节。 在 span 内部有两个指针,用于将多个对象串成双向链表。 malloc.h struct MSpan
{
MSpan *next; // in a span linked list
MSpan *prev; // in a span linked list
pageID start; // starting page number
uintptr npages; // number of pages in span
MLink *freelist; // list of free objects
uint8 sizeclass; // size class
uint8 state; // MSpanInUse etc
uintptr elemsize; // computed from sizeclass or from npages
};
mheap.c void runtime·MSpanList_Init(MSpan *list)
{
list->state = MSpanListHead;
list->next = list;
list->prev = list;
}
至于 central,同样是完成两个 span 管理链表的初始化操作。其中 nonempty 链表保存有剩余 object 空间,等待被 cache 获取的 span。而 empty 则保存没有剩余空间或已被 cache 获取的 span。 malloc.h struct MCentral
{
int32 sizeclass;
MSpan nonempty; // list of spans with a free object
MSpan empty; // list of spans with no free objects (or cached in an MCache)
};
mcentral.c void runtime·MCentral_Init(MCentral *c, int32 sizeclass) { c->sizeclass = sizeclass; runtime·MSpanList_Init(&c->nonempty); runtime·MSpanList_Init(&c->empty); } 最后,用固定分配器创建 cache 对象,并初始化其 alloc 数组。 malloc.h struct MCache
{
MSpan* alloc[NumSizeClasses]; // spans to allocate from
};
mcache.c // dummy MSpan that contains no free objects.
MSpan runtime·emptymspan;
MCache* runtime·allocmcache(void)
{
// 使用固定分配器创建 cache 对象。
c = runtime·FixAlloc_Alloc(&runtime·mheap.cachealloc);
// 初始化内存。
runtime·memclr((byte*)c, sizeof(*c));
// 初始化 alloc 数组,用来保存从 central 获取的不同等级 span 对象。
for(i = 0; i < NumSizeClasses; i++)
c->alloc[i] = &runtime·emptymspan;
return c;
}
1.2 分配流程相关包装函数,最终通过 mallocgc 函数完成内存分配操作。 malloc.go func newobject(typ *_type) unsafe.Pointer {
return mallocgc(uintptr(typ.size), typ, flags)
}
func newarray(typ *_type, n uintptr) unsafe.Pointer {
return mallocgc(uintptr(typ.size)*n, typ, flags)
}
在分配过程中,需要判断大小对象,还有对小于 16 字节的微小对象做额外处理。 malloc.h MaxSmallSize = 32<<10,
TinySize = 16,
TinySizeClass = 2,
malloc.go func mallocgc(size uintptr, typ *_type, flags uint32) unsafe.Pointer {
// 当前 cache 对象。
c := gomcache()
var s *mspan
var x unsafe.Pointer
// 判断是否小对象。
if size <= maxSmallSize {
// 对于小于 16 字节的微小对象,做额外处理。
if flags&flagNoScan != 0 && size < maxTinySize {
// 获取当前 cache tiny 块剩余大小。
tinysize := uintptr(c.tinysize)
// 如果 tiny 块空间足够...
if size <= tinysize {
tiny := unsafe.Pointer(c.tiny)
// 地址对齐。
if size&7 == 0 {
tiny = roundup(tiny, 8)
} else if size&3 == 0 {
tiny = roundup(tiny, 4)
} else if size&1 == 0 {
tiny = roundup(tiny, 2)
}
// 实际大小 = 对象大小 + 对齐所需大小(对齐后地址 - 原地址)。
size1 := size + (uintptr(tiny) - uintptr(unsafe.Pointer(c.tiny)))
// 再次判断空间是否足够...
if size1 <= tinysize {
// x = 对齐后地址
x = tiny
// 调整剩余空间记录。
c.tiny = (*byte)(add(x, size))
c.tinysize -= uintptr(size1)
c.local_tinyallocs++
return x
}
}
// 如果 tiny 块空间不足,则从 alloc[2] 获取新的 tiny/object 块。
s = c.alloc[tinySizeClass]
v := s.freelist
// 如果该 span 没有可用 object ...
if v == nil {
// 从 central 获取新的 span。
mp := acquirem()
mp.scalararg[0] = tinySizeClass
onM(mcacheRefill_m)
releasem(mp)
// 获取 tiny/object 块。
s = c.alloc[tinySizeClass]
v = s.freelist
}
// 提取 tiny 块后,调整 span.freelist 链表。
s.freelist = v.next
s.ref++
// 初始化 tiny 块内存。
x = unsafe.Pointer(v)
(*[2]uint64)(x)[0] = 0
(*[2]uint64)(x)[1] = 0
// 如果新 tiny 块剩余空间大于原 tiny 块,那么就换一下。
if maxTinySize-size > tinysize {
// 调整剩余位置指针和大小。
c.tiny = (*byte)(add(x, size))
c.tinysize = uintptr(maxTinySize - size)
}
size = maxTinySize
} else { // 普通小对象
var sizeclass int8
// 计算对应的等级。
if size <= 1024-8 {
sizeclass = size_to_class8[(size+7)>>3]
} else {
sizeclass = size_to_class128[(size-1024+127)>>7]
}
size = uintptr(class_to_size[sizeclass])
// 从 alloc 数组获取对应的 span。
s = c.alloc[sizeclass]
// 从 span 链表提取 object。
v := s.freelist
// 如果 span 没有剩余 object,则从 central 获取新的 span。
if v == nil {
mp := acquirem()
mp.scalararg[0] = uintptr(sizeclass)
onM(mcacheRefill_m)
releasem(mp)
s = c.alloc[sizeclass]
v = s.freelist
}
// 调整 span 链表。
s.freelist = v.next
s.ref++
// 初始化内存。
x = unsafe.Pointer(v)
if flags&flagNoZero == 0 {
v.next = nil
if size > 2*ptrSize && ((*[2]uintptr)(x))[1] != 0 {
memclr(unsafe.Pointer(v), size)
}
}
}
c.local_cachealloc += intptr(size)
} else { // 大对象
mp := acquirem()
mp.scalararg[0] = uintptr(size)
mp.scalararg[1] = uintptr(flags)
// 直接从 heap 分配一个适用的 span。
// onM 是切换到 M.g0 栈执行函数,相关细节参考后续章节。
onM(largeAlloc_m)
s = (*mspan)(mp.ptrarg[0])
mp.ptrarg[0] = nil
releasem(mp)
x = unsafe.Pointer(uintptr(s.start << pageShift))
size = uintptr(s.elemsize)
}
// 在 bitmap 做标记。
{
arena_start := uintptr(unsafe.Pointer(mheap_.arena_start))
off := (uintptr(x) - arena_start) / ptrSize
xbits := (*uint8)(unsafe.Pointer(arena_start - off/wordsPerBitmapByte - 1))
shift := (off % wordsPerBitmapByte) * gcBits
// ...
}
marked:
// 检查分配计数器,以决定是否触发垃圾回收操作。
if memstats.heap_alloc >= memstats.next_gc {
gogc(0)
}
return x
}
函数虽然有点长,但不算太复杂。
malloc.h struct MCache
{
// Allocator cache for tiny objects w/o pointers.
byte* tiny;
uintptr tinysize;
MSpan* alloc[NumSizeClasses]; // spans to allocate from
};
除基本的分配操作外,还需要关注内存不足时的 “扩张” 过程。这需要一点耐心和细心。 首先,当 cache.alloc[] 中对应的 span 没有剩余 object 时,会触发从 central 获取新span 操作。 malloc.c void runtime·mcacheRefill_m(void)
{
runtime·MCache_Refill(g->m->mcache, (int32)g->m->scalararg[0]);
}
mcache.c MSpan* runtime·MCache_Refill(MCache *c, int32 sizeclass)
{
MSpan *s;
// 当前没有剩余空间的 span。
s = c->alloc[sizeclass];
if(s->freelist != nil)
runtime·throw("refill on a nonempty span");
// 取消 incache 标记。
if(s != &runtime·emptymspan)
s->incache = false;
// 从 heap.central[] 数组找到对应的 central,并获取新的 span。
s = runtime·MCentral_CacheSpan(&runtime·mheap.central[sizeclass].mcentral);
// 保存到 cache.alloc 数组。
c->alloc[sizeclass] = s;
return s;
}
从 central 新获取的 span 会替代原有对象,被保存到 alloc 数组中。 需要提前说明一点背景知识:从 Go 1.3 开始,垃圾回收算法就有很大变动。其中标记阶段需要执行 StopTheWorld,然后用多线程并发执行标记操作。待标记结束后,立即恢复StartTheWorld,用单独的 goroutine 执行清理操作。 因此在执行 CacheSpan 时,某些 span 可能还未完成清理。此时主动触发回收操作,有助于提高内存复用率,避免向操作系统过度申请内存。 malloc.h sweep generation:
if sweepgen == h->sweepgen - 2, the span needs sweeping
if sweepgen == h->sweepgen - 1, the span is currently being swept
if sweepgen == h->sweepgen, the span is swept and ready to use
h->sweepgen is incremented by 2 after every GC
mcentral.c MSpan* runtime·MCentral_CacheSpan(MCentral *c)
{
// 当前垃圾回收代龄 (随每次回收操作递增)。
sg = runtime·mheap.sweepgen;
retry:
// 尝试从 nonempty 链表中获取可用 span。
for(s = c->nonempty.next; s != &c->nonempty; s = s->next) {
// 如果 span 标记为等待回收,那么主动执行清理操作。
if(s->sweepgen == sg-2 && runtime·cas(&s->sweepgen, sg-2, sg-1)) {
// 将 span 移动到链表尾部。
runtime·MSpanList_Remove(s);
runtime·MSpanList_InsertBack(&c->empty, s);
// 执行垃圾清理。
runtime·MSpan_Sweep(s, true);
goto havespan;
}
// 如果正在后台回收,则跳过。
if(s->sweepgen == sg-1) {
// the span is being swept by background sweeper, skip
continue;
}
// 可用 span,将其转移到 empty 链表。
runtime·MSpanList_Remove(s);
runtime·MSpanList_InsertBack(&c->empty, s);
goto havespan;
}
// 尝试从 emtpy 链表获取 span,目标是那些等待清理的 span。
for(s = c->empty.next; s != &c->empty; s = s->next) {
// 如果是等待回收的 span,主动执行回收操作。
if(s->sweepgen == sg-2 && runtime·cas(&s->sweepgen, sg-2, sg-1)) {
// 将该 span 移到 empty 链表尾部。
runtime·MSpanList_Remove(s);
runtime·MSpanList_InsertBack(&c->empty, s);
// 执行垃圾清理操作。
runtime·MSpan_Sweep(s, true);
// 如果回收后 freelist 链表不为空,表示有可用空间。
if(s->freelist != nil)
goto havespan;
goto retry;
}
// 如果正在后台回收,跳过。
if(s->sweepgen == sg-1) {
continue;
}
// 处理过的 span,其代龄都已经标记为 sg,终止尝试。
break;
}
// 如果 central 中没有找到可用 span,则向 heap 获取新的 span。
s = MCentral_Grow(c);
if(s == nil)
return nil;
// 将 span 插入到 empty 链表。
runtime·MSpanList_InsertBack(&c->empty, s);
havespan:
// 设置待返回 span 的相关属性。
cap = (s->npages << PageShift) / s->elemsize;
n = cap - s->ref;
// 标记被 cache 使用。
s->incache = true;
return s;
}
相比 Go 1.3,cache 部分又做了很大的改进。代码更加简洁,流程也更加清晰。 而当 central 空间不足时,就需要从 heap 获取新 span 来完成扩张操作。这其中就包括对 span 所管理内存进行切分,形成 object freelist 链表。 mcentral.c static MSpan* MCentral_Grow(MCentral *c)
{
MLink **tailp, *v;
byte *p;
MSpan *s;
// 计算所需 span 的大小信息。
npages = runtime·class_to_allocnpages[c->sizeclass];
size = runtime·class_to_size[c->sizeclass];
n = (npages << PageShift) / size;
// 从 heap 获取 span。
s = runtime·MHeap_Alloc(&runtime·mheap, npages, c->sizeclass, 0, 1);
if(s == nil)
return nil;
// 将 span 所管理的内存切分成 freelist/object 链表。
tailp = &s->freelist;
p = (byte*)(s->start << PageShift); // 起始地址。PageID(start) = p >> PageShift
s->limit = p + size*n;
for(i=0; i<n; i++) {
v = (MLink*)p;
*tailp = v;
tailp = &v->next;
p += size;
}
*tailp = nil;
// 标记。
runtime·markspan((byte*)(s->start<<PageShift), size, n, ...));
return s;
}
前面在 mallocgc 中提及的大对象分配,也是用的 MHeap_Alloc 函数。 malloc.c void runtime·largeAlloc_m(void)
{
size = g->m->scalararg[0];
npages = size >> PageShift;
s = runtime·MHeap_Alloc(&runtime·mheap, npages, 0, 1, !(flag & FlagNoZero));
g->m->ptrarg[0] = s;
}
mheap.c MSpan* runtime·MHeap_Alloc(MHeap *h, uintptr npage, int32 sizeclass, bool large, ...)
{
// 判断是否在 g0 栈执行。
if(g == g->m->g0) {
s = mheap_alloc(h, npage, sizeclass, large);
} else {
...
}
return s;
}
static MSpan* mheap_alloc(MHeap *h, uintptr npage, int32 sizeclass, bool large)
{
MSpan *s;
// 如果垃圾回收操作未结束,那么尝试主动收回一些空间,以避免内存过度增长。
// we need to sweep and reclaim at least n pages.
if(!h->sweepdone)
MHeap_Reclaim(h, npage);
// 返回可用 span。
s = MHeap_AllocSpanLocked(h, npage);
if(s != nil) {
// 标记代龄等状态。
runtime·atomicstore(&s->sweepgen, h->sweepgen);
s->state = MSpanInUse;
s->freelist = nil;
s->ref = 0;
s->sizeclass = sizeclass;
s->elemsize = (sizeclass==0
s->npages<<PageShift : runtime·class_to_size[sizeclass]);
// 如果是大对象...
if(large) {
mstats.heap_objects++;
mstats.heap_alloc += npage<<PageShift;
// 根据页数,插入到合适的 busy 链表。
if(s->npages < nelem(h->free))
runtime·MSpanList_InsertBack(&h->busy[s->npages], s);
else
runtime·MSpanList_InsertBack(&h->busylarge, s);
}
}
return s;
}
从 heap 获取 span 算法:
mheap.c static MSpan* MHeap_AllocSpanLocked(MHeap *h, uintptr npage)
{
uintptr n;
MSpan *s, *t;
pageID p;
// 以页数为序号,从 heap.free[] 中查找链表。
// 如果当前链表没有可用 span,则从页数更大的链表中提取。
for(n=npage; n < nelem(h->free); n++) {
if(!runtime·MSpanList_IsEmpty(&h->free[n])) {
s = h->free[n].next;
goto HaveSpan;
}
}
// 如果 free 所有链表都没找到合适的 span,则尝试更大的 large 链表。
if((s = MHeap_AllocLarge(h, npage)) == nil) {
// 还没找到,就只能新申请内存了。
if(!MHeap_Grow(h, npage))
return nil;
// 重新查找合适的 span。
// 每次向操作系统申请内存最少 1MB/128Pages,而 heap.free 最大下标 127,
// 因此 FreeSpanLocked 函数会将其放到 freelarge 链表中。
if((s = MHeap_AllocLarge(h, npage)) == nil)
return nil;
}
HaveSpan:
// 将找到的 span 从 free 链表中移除。
runtime·MSpanList_Remove(s);
// 如果该 span 曾释放过物理内存,那么重新映射。
if(s->npreleased > 0) {
runtime·SysUsed((void*)(s->start<<PageShift), s->npages<<PageShift);
mstats.heap_released -= s->npreleased<<PageShift;
s->npreleased = 0;
}
// 如果返回的 span 页数多于需要 ...
if(s->npages > npage) {
// 新建一个 span 对象 t,用来管理尾部多余内存空间。
t = runtime·FixAlloc_Alloc(&h->spanalloc);
runtime·MSpan_Init(t, s->start + npage, s->npages - npage);
// 调整实际所需的内存大小。
s->npages = npage;
p = t->start;
p -= ((uintptr)h->arena_start>>PageShift);
// 在 spans 区域标记 span 指针。
if(p > 0)
h->spans[p-1] = s;
h->spans[p] = t;
h->spans[p+t->npages-1] = t;
// 将切出来的多余 span,重新放回 heap 管理链表中。
MHeap_FreeSpanLocked(h, t, false, false);
s->state = MSpanFree;
}
// 在 spans 中标记待所有页对应指针。
p = s->start;
p -= ((uintptr)h->arena_start>>PageShift);
for(n=0; n<npage; n++)
h->spans[p+n] = s;
return s;
}
当找到的 span 大小超出预期时,分配器会执行切割操作,将多余的内存做成新 span 放回 heap 管理链表中。 从 large 里查找 span 的算法被称作 BestFit。很简单,通过循环遍历,找到大小最合适的目标。 mheap.c MHeap_AllocLarge(MHeap *h, uintptr npage)
{
return BestFit(&h->freelarge, npage, nil);
}
static MSpan* BestFit(MSpan *list, uintptr npage, MSpan *best)
{
MSpan *s;
for(s=list->next; s != list; s=s->next) {
if(s->npages < npage)
continue;
if(best == nil
|| s->npages < best->npages
|| (s->npages == best->npages && s->start < best->start))
best = s;
}
return best;
}
接着看看将 span 放回 heap 管理链表的 FreeSpanLocked 操作。 mheap.c static void MHeap_FreeSpanLocked(MHeap *h, MSpan *s, bool acctinuse, bool acctidle)
{
MSpan *t;
pageID p;
// 修正状态标记。
s->state = MSpanFree;
// 从当前链表中移除。
runtime·MSpanList_Remove(s);
// 这两个参数会影响垃圾回收的物理内存释放操作。
s->unusedsince = runtime·nanotime();
s->npreleased = 0;
// 实际地址。
p = s->start;
p -= (uintptr)h->arena_start >> PageShift;
// 通过 heap.spans 检查左侧相邻 span。
// 如果左侧相邻 span 也是空闲状态,则合并。
if(p > 0 && (t = h->spans[p-1]) != nil && t->state != MSpanInUse &&
t->state != MSpanStack) {
// 修正属性。
s->start = t->start;
s->npages += t->npages;
s->npreleased = t->npreleased; // absorb released pages
s->needzero |= t->needzero;
// 新起始地址。
p -= t->npages;
// 重新标记 spans。
h->spans[p] = s;
// 释放左侧 span 原对象。
runtime·MSpanList_Remove(t);
t->state = MSpanDead;
runtime·FixAlloc_Free(&h->spanalloc, t);
}
// 尝试合并右侧 span。
if((p+s->npages)*sizeof(h->spans[0]) < h->spans_mapped &&
(t = h->spans[p+s->npages]) != nil &&
t->state != MSpanInUse && t->state != MSpanStack) {
s->npages += t->npages;
s->npreleased += t->npreleased;
s->needzero |= t->needzero;
h->spans[p + s->npages - 1] = s;
runtime·MSpanList_Remove(t);
t->state = MSpanDead;
runtime·FixAlloc_Free(&h->spanalloc, t);
}
// 根据 span 页数,插入到合适的链表中。
if(s->npages < nelem(h->free))
runtime·MSpanList_Insert(&h->free[s->npages], s);
else
runtime·MSpanList_Insert(&h->freelarge, s);
}
在此,我们看到了 heap.spans 的作用。合并零散内存块,以提供更大复用空间,这有助于减少内存碎片,是内存管理算法的一个重要设计目标。 最后,就是剩下如何向操作系统申请新的内存了。 malloc.h HeapAllocChunk = 1<<20," " // Chunk size for heap growth
mheap.c static bool MHeap_Grow(MHeap *h, uintptr npage)
{
// 每次申请的内存总是 64KB 的倍数,最小 1MB。
npage = ROUND(npage, (64<<10)/PageSize);
ask = npage<<PageShift;
if(ask < HeapAllocChunk)
ask = HeapAllocChunk;
// 申请内存。
v = runtime·MHeap_SysAlloc(h, ask);
// 创建新的 span 对象进行管理。
s = runtime·FixAlloc_Alloc(&h->spanalloc);
runtime·MSpan_Init(s, (uintptr)v>>PageShift, ask>>PageShift);
p = s->start;
p -= ((uintptr)h->arena_start>>PageShift);
// 在 heap.spans 中标记地址。
h->spans[p] = s;
h->spans[p + s->npages - 1] = s;
// 设置状态。
runtime·atomicstore(&s->sweepgen, h->sweepgen);
s->state = MSpanInUse;
// 放回 heap 的管理链表,尝试执行合并操作。
MHeap_FreeSpanLocked(h, s, false, true);
return true;
}
申请时,需判断目标地址是否在 arena 范围内,且必须从 arena_used 开始。 malloc.c void* runtime·MHeap_SysAlloc(MHeap *h, uintptr n)
{
// 在 arena 范围内。
if(n <= h->arena_end - h->arena_used) {
// 使用 arena_used 地址。
p = h->arena_used;
runtime·SysMap(p, n, h->arena_reserved, &mstats.heap_sys);
// 调整下一次分配位置。
h->arena_used += n;
// 同步增加 spans、bitmap 管理内存。
runtime·MHeap_MapBits(h);
runtime·MHeap_MapSpans(h);
return p;
}
...
}
mem_linux.c void runtime·SysMap(void *v, uintptr n, bool reserved, uint64 *stat)
{
p = runtime·mmap(v, n, PROT_READ|PROT_WRITE, MAP_ANON|MAP_FIXED|MAP_PRIVATE, -1, 0);
}
mem_darwin.c void runtime·SysMap(void *v, uintptr n, bool reserved, uint64 *stat)
{
p = runtime·mmap(v, n, PROT_READ|PROT_WRITE, MAP_ANON|MAP_FIXED|MAP_PRIVATE, -1, 0);
}
至此,对象内存分配和内存扩展的步骤结束。 1.3 释放流程垃圾回收器通过调用 MSpan_Sweep 函数完成内存回收操作。 mgc0.c bool runtime·MSpan_Sweep(MSpan *s, bool preserve)
{
// 当前垃圾回收代龄。
sweepgen = runtime·mheap.sweepgen;
arena_start = runtime·mheap.arena_start;
// 获取 span 相关信息。
cl = s->sizeclass;
size = s->elemsize;
if(cl == 0) {
// 大对象。
n = 1;
} else {
// 小对象。
npages = runtime·class_to_allocnpages[cl];
n = (npages << PageShift) / size;
}
res = false;
nfree = 0;
end = &head;
c = g->m->mcache;
sweepgenset = false;
// 标记 freelist 里的 object,这些对象未被使用,无需再次检查。
for(link = s->freelist; link != nil; link = link->next) {
off = (uintptr*)link - (uintptr*)arena_start;
bitp = arena_start - off/wordsPerBitmapByte - 1;
shift = (off % wordsPerBitmapByte) * gcBits;
*bitp |= bitMarked<<shift;
}
// 释放 finalizer、profiler 关联对象。
specialp = &s->specials;
special = *specialp;
while(special != nil) {
// ...
}
// 计算标记位开始位置。
p = (byte*)(s->start << PageShift);
off = (uintptr*)p - (uintptr*)arena_start;
bitp = arena_start - off/wordsPerBitmapByte - 1;
shift = 0;
step = size/(PtrSize*wordsPerBitmapByte);
bitp += step;
if(step == 0) {
// 8-byte objects.
bitp++;
shift = gcBits;
}
// 遍历该 span 所有 object。
for(; n > 0; n--, p += size) {
// 获取标记位。
bitp -= step;
if(step == 0) {
if(shift != 0)
bitp--;
shift = gcBits - shift;
}
xbits = *bitp;
bits = (xbits>>shift) & bitMask;
// 如果 object 对象标记为可达 (Marked),则跳过。
// 包括 freelist 里的未使用对象。
if((bits&bitMarked) != 0) {
*bitp &= ~(bitMarked<<shift);
continue;
}
// 重置标记位。
*bitp = (xbits & ~((bitMarked|(BitsMask<<2))<<shift)) |
((uintptr)BitsDead<<(shift+2));
if(cl == 0) { // 大对象。
// 清除全部标记位。
runtime·unmarkspan(p, s->npages<<PageShift);
// 重置代龄。
runtime·atomicstore(&s->sweepgen, sweepgen);
sweepgenset = true;
if(runtime·debug.efence) {
// ...
} else
// 将大对象所使用的 span 归还给 heap。
runtime·MHeap_Free(&runtime·mheap, s, 1);
// 调整 next_gc 阈值。
runtime·xadd64(&mstats.next_gc,
-(uint64)(size * (runtime·gcpercent + 100)/100));
res = true;
} else { // 小对象。
// 将可回收对象添加到一个链表中。
end->next = (MLink*)p;
end = (MLink*)p;
nfree++;
}
}
// 如可回收小对象数量大于0。
if(nfree > 0) {
// 调整 next_gc 阈值。
runtime·xadd64(&mstats.next_gc,
-(uint64)(nfree * size * (runtime·gcpercent + 100)/100));
// 释放收集的 object 链表。
res = runtime·MCentral_FreeSpan(&runtime·mheap.central[cl].mcentral, s, nfree,head.next, end, preserve);
}
return res;
}
该回收函数在分配流程 CacheSpan 中也曾提及过。 大对象释放很简单,调用 FreeSpanLocked 将 span 重新放回 heap 管理链表即可。 mheap.c void runtime·MHeap_Free(MHeap *h, MSpan *s, int32 acct)
{
mheap_free(h, s, acct);
}
static void mheap_free(MHeap *h, MSpan *s, int32 acct)
{
MHeap_FreeSpanLocked(h, s, true, true);
}
至于收集的所有小对象,会被追加到 span.freelist 链表。如该 span 收回全部 object,则也将其归还给 heap。 mcentral.c bool runtime·MCentral_FreeSpan(MCentral *c, MSpan *s, int32 n, MLink *start, ...)
{
// span 不能是 cache 正在使用的对象。
if(s->incache)
runtime·throw("freespan into cached span");
// 将收集的 object 链表追加到 span.freelist。
wasempty = s->freelist == nil;
end->next = s->freelist;
s->freelist = start;
s->ref -= n;
// 将 span 转移到 central.nonempty 链表。
if(wasempty) {
runtime·MSpanList_Remove(s);
runtime·MSpanList_Insert(&c->nonempty, s);
}
// 重置回收代龄。
runtime·atomicstore(&s->sweepgen, runtime·mheap.sweepgen);
if(s->ref != 0) {
return false;
}
// 如果 span 收回全部 object (span.ref == 0),从 central 管理链表移除。
runtime·MSpanList_Remove(s);
s->needzero = 1;
s->freelist = nil;
// 清除标记位。
runtime·unmarkspan((byte*)(s->start<<PageShift), s->npages<<PageShift);
// 将 span 交还给 heap。
runtime·MHeap_Free(&runtime·mheap, s, 0);
return true;
}
释放操作最终结果,仅仅是将可回收对象归还给 span.freelist 或 heap.free 链表,以便后续分配操作复用。至于物理内存释放,则由垃圾回收器的特殊定时操作完成。 1.4 其他除了用户内存,分配器还需额外的 span、cache 等对象来维持系统运转。这些管理对象所需内存不从 arena 区域分配,不占用与 GC Heap 分配算法有关的内存地址。 系统为每种管理对象初始化一个固定分配器 FixAlloc。 malloc.h struct FixAlloc
{
uintptr size; // 固定分配长度。
void (*first)(void *arg, byte *p); // 关联函数。
void* arg; // first 函数调用参数。
MLink* list; // 可复用空间链表。
byte* chunk; // 后备内存块当前分配指针。
uint32 nchunk; // 后备内存块可用长度。
uintptr inuse; // 后备内存块已使用长度。
};
mheap.c void runtime·MHeap_Init(MHeap *h)
{
runtime·FixAlloc_Init(&h->spanalloc, sizeof(MSpan), RecordSpan, ...);
runtime·FixAlloc_Init(&h->cachealloc, sizeof(MCache), nil, ...);
runtime·FixAlloc_Init(&h->specialfinalizeralloc, sizeof(SpecialFinalizer), ...);
runtime·FixAlloc_Init(&h->specialprofilealloc, sizeof(SpecialProfile), ...);
}
FixAlloc 初始化过程很简单。 mfixalloc.c void runtime·FixAlloc_Init(FixAlloc *f, uintptr size,
void (*first)(void*, byte*), void *arg, uint64 *stat)
{
f->size = size;
f->first = first;
f->arg = arg;
f->list = nil;
f->chunk = nil;
f->nchunk = 0;
f->inuse = 0;
f->stat = stat;
}
分配算法和 cache 类似。首先从复用链表提取,如果没找到,就从后备内存块截取。 malloc.h FixAllocChunk = 16<<10," " // Chunk size for FixAlloc
mfixalloc.c void* runtime·FixAlloc_Alloc(FixAlloc *f)
{
void *v;
// 如果空闲链表不为空,直接从链表提取。
if(f->list) {
v = f->list;
f->list = *(void**)f->list;
f->inuse += f->size;
return v;
}
// 如果后备内存块空间不足...
if(f->nchunk < f->size) {
// 重新申请 16KB 后备内存。
f->chunk = runtime·persistentalloc(FixAllocChunk, 0, f->stat);
f->nchunk = FixAllocChunk;
}
// 从后备内存块截取。
v = f->chunk;
// 执行 first 函数。
if(f->first)
f->first(f->arg, v);
// 调整剩余后备块参数。
f->chunk += f->size;
f->nchunk -= f->size;
f->inuse += f->size;
return v;
}
后备内存块策略有点类似 heap span,申请大块内存以减少系统调用开销。实际上,不同类别的 FixAlloc 会共享一个超大块内存,称之为 persistent。 malloc.go var persistent struct { // 全局变量,为全部 FixAlloc 提供后备内存块。
lock mutex
pos unsafe.Pointer
end unsafe.Pointer
}
func persistentalloc(size, align uintptr, stat *uint64) unsafe.Pointer {
const (
chunk = 256 << 10
maxBlock = 64 << 10 // VM reservation granularity is 64K on windows
)
// 如果需要 64KB 以上,直接从 mmap 返回。
if size >= maxBlock {
return sysAlloc(size, stat)
}
// 对齐分配地址。
persistent.pos = roundup(persistent.pos, align)
// 如果剩余空 |
请发表评论