BPF介绍

2019年5月15日 640次阅读来源: 夏宇sha

上篇文章介绍了CSPF，BPF(BSD Packet Filter)是在其基础上又向前发展了一步。

本文从CSPF存在几个缺陷讲起：

1. 无法处理IP头可变长度这种情况

2. 翻译执行过滤规则时存在冗余分支

3. 必须模拟一个操作数堆栈

BPF解决了以上问题，其构成如下

1. 累加器（寄存器）：用于保存操作结果

2. index寄存器：由于保存数据包中变量值（如可变IP头长度）

3. 临时存储器：内存实现的用于存放临时数据

4. 隐含的指令指针

指令集

《BPF介绍》指令集

《BPF介绍》地址模式

IP头可变长度的处理

内核中执行用户进程传入的代码，是一件非常危险的事情。所以，CSPF在设计虚拟机执行指令时，限制了每个指令的操作数的来源，用户只能通过PUSHWORD+n指令获取数据包的第n个字的内容，无法通过stack上的字来获取数据包指定位置内容，这导致了无法处理IP头中的可变长度内容。

BPF引入了index寄存器解决这个问题。可以通过ldx指令直接从数据包中将特定位置的内容保存到index寄存器，而从数据包中读取内容时可以采用用户传入常量+index寄存器值来实现。

下面从例子看怎么做到的：

《BPF介绍》检测TCP头的字节码

1. 装载数据包第14个字到累加器

2. 取低4位到累加器(通过AND操作)

3. 累加器中内容左移2位

4. 将累加器内容传输到 index寄存器

5. 转载数据包第(index寄存器值+16)个字到累加器

6. 比较累加器中的值与N，真值跳转到L1，假值跳转到L2

从上面的例子可以看出，通过引入index寄存器，配合tax指令。解决了IP头中可变长度变量处理的问题。

翻译执行过滤规则时存在冗余分支

第二个问题是stack machine与 register machine的问题。

stack machine下计算模型是一个 tree:

《BPF介绍》树

stack模型下，两个表达式都计算完成后，OR操作才会出栈这两个操作数，完成最终计算。但是，如果第一个操作数是True，实际上OR就能够返回True了，不需要再计算第二个操作数。这就是stack machine带来的冗余计算问题。

《BPF介绍》图

一个表达式完成后，能直接跳转到True，减少冗余计算。

BPF在这两个点上改进，对包过滤产生了巨大的性能提升。Linux也采用了这种模型的包过滤器方案，在Linux中叫做LPF，实际上就是BPF。

《BPF介绍》性能对比

    原文作者：夏宇sha
    原文地址: https://www.jianshu.com/p/4883b1461c31
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。