eBPF是Linux内核级运行时编程框架,可安全插入探针实现系统观测。通过kprobe、uprobe、tracepoint等机制,开发者能监控函数调用、系统调用耗时、内存分配及TCP状态变化。使用BCC工具可用Python快速开发原型,如跟踪openat调用;而生产环境推荐libbpf+CO-RE模式,以C语言编写、编译为BPF对象并加载执行,支持跨内核版本部署。常用探针包括kprobe(内核函数入口)、kretprobe(返回值捕获)、uprobe(用户空间函数)和tracepoint(稳定低开销接口),结合maps实现数据用户态交互,构建高效观测工具。

在Linux系统中,BPF(Berkeley Packet Filter)早已超越最初的网络包过滤用途,演变为一个强大的内核级运行时编程框架。通过eBPF,开发者可以在不修改内校代码的前提下,安全地插入探针、收集性能数据、监控系统调用、追踪函数执行等。本文将带你了解如何使用BPF开发基本的系统观测工具。
理解eBPF与观测工具的基础
eBPF允许用户编写一段受限制的C代码,在特定内核事件触发时运行。这些事件包括函数入口/出口(kprobe/uprobe)、定时器、tracepoint、USDT探针等。程序编译后由内核验证安全性,再加载到内核空间执行,结果可通过映射(map)传回用户态进行处理。
常见观测场景包括:
- 监控某个内核函数被调用的频率
- 统计进程系统调用耗时
- 跟踪内存分配行为
- 分析TCP连接状态变化
要实现这些功能,你不需要重启系统或加载内核模块,只需借助现代工具链如BCC或libbpf + CO-RE即可。
使用BCC快速开发观测脚本
BCC(BPF Compiler Collection)是一套高层工具集,封装了编译、加载、映射交互等复杂流程,适合快速构建Python+eBPF的观测工具。
安装BCC(以Ubuntu为例):
apt-get install bpfcc-tools linux-headers-$(uname -r)示例:监控openat系统调用次数
from bcc import BPFeBPF程序
bpf_code = """ int trace_openat(struct pt_regs *ctx) { bpf_trace_printk("openat called\n"); return 0; } """
加载并附加到uprobe
b = BPF(text=bpf_code) b.attach_kprobe(event="sys_openat", fn_name="trace_openat")
打印内核日志
print("Tracing openat... Hit Ctrl-C to end.") try: while True: try: event = b.trace_readline() print(event) except KeyboardInterrupt: break except: pass
这段代码通过kprobe挂接到sys_openat函数入口,每次调用都会打印一行日志。bpf_trace_printk是简单的调试输出方式,适用于原型验证。
使用libbpf和CO-RE构建生产级工具
对于更复杂的场景,推荐使用C语言配合libbpf和CO-RE(Compile Once – Run Everywhere)模型。这种方式生成的程序独立于内核版本,更适合部署。
基本步骤如下:
- 编写带SEC段声明的C程序(.bpf.c)
- 使用clang编译为ELF对象文件
- 在用户态C程序中用libbpf加载并管理生命周期
- 通过maps交换数据,例如perf buffer或hash map
示例片段:统计read调用次数
// trace_read.bpf.c #include "vmlinux.h" #includeSEC("kprobe/sys_read") int handle_entry(void *ctx) { __u64 pid_tgid = bpf_get_current_pid_tgid(); bpf_printk("read called by PID: %d\n", pid_tgid >> 32); return 0; }
char LICENSE[] SEC("license") = "GPL";
编译:
clang -O2 -target bpf -c trace_read.bpf.c -o trace_read.bpf.o然后使用libbpf在宿主程序中加载该对象,并attach探针。
常用探针类型与选择建议
根据观测目标不同,应选择合适的探针机制:
- kprobe:用于跟踪任意内核函数入口。如do_fork、tcp_v4_connect
- kretprobe:捕获函数返回值和执行时间
- uprobe:作用于用户空间程序的函数,比如libc中的malloc
- tracepoint:稳定接口,开销小,优先选用。路径通常为/sys/kernel/debug/tracing/events/
- USDT**:用户自定义静态探针,常用于应用层埋点
例如监听TCP连接建立:
b.attach_tracepoint(tp="sock:inet_sock_set_state", fn_name="trace_tcp_state")此tracepoint会在TCP状态变更时触发,可用于绘制连接生命周期图。
基本上就这些。掌握eBPF的关键在于理解事件驱动模型和数据传递机制。从简单kprobe开始实践,逐步过渡到map聚合、定时采样、跨函数上下文追踪,就能构建出高效的系统观测工具。









