最近在项目中出现golang内存溢出的问题,master刚开始运行时只有10多M,运行几天后,竟然达到了10多个G。而且到凌晨流量变少内存也没有明显降低,内存状态呈现一种很不健康的曲线。


像这种情况肯定是golang内存溢出了,为此我持续排查了两天,终于找到问题所在,特此记录下。
准备工作
一台较好的环境测试机,单台运行无污染。 压测工具,无论服务是http还是websocket服务,都必须准备好压测工具模拟最真实的用户场景。 将master引入net/http/pprof包,通过http访问获得goroutine、heap信息。
//引入pprof
import _"net/http/pprof"
//在main中加入
go func() {
log.Println(http.ListenAndServe("localhost:9999", nil))
}()
浏览器访问: http://127.0.0.1:9999/debug/pprof/

获取goroutine信息 http://10.13.132.91:9999/debug/pprof/goroutine?debug=2
获取heap信息 http://10.13.132.91:9999/debug/pprof/heap?debug=2
使用golang tool进行统计分析,go tool pprof -inuse_space http://127.0.0.1:9999/debug/pprof/heap。输入top10可以看出前十占用内存情况,这里我是直接输入png导出图片来查看,以便以后比较。还有两个参数可以选择,-inuse_space顾名思义是正在使用的内存,-alloc_space是已经分配的内存,本次我是一直用-inuse_space进行分析。
开始进行分析
go是一门自己gc的语言,大概两分钟会gc一次。如果有内存泄漏,无非就是两种情况。
-
有goroutine泄漏,goroutine“飞”了,zombie goroutine没有结束,这个时候在这个goroutine上分配的内存对象将一直被这个僵尸goroutine引用着,进而导致gc无法回收这类对象,内存泄漏。
有一些全局(或者生命周期和程序本身运行周期一样长的)的数据结构意外的挂住了本该释放的对象,虽然goroutine已经退出了,但是这些对象并没有从这类数据结构中删除,导致对象一直被引用,无法被回收。
排除掉goroutine泄漏
首先,我利用压测工具对server进行100个websocket连接,模拟用户浏览行为,然后关闭连接。打开浏览器查看goroutine数量,发现新起的goroutine全部已经销毁,没有观察到有泄漏的goroutine,因此排除此情况。
确定是全局变量无回收
排除goroutine泄漏,只能是由全局状态变量引起的。再次用压测工具进行压测然后关闭,使用观察内存情况。使用









