性能比较:循环 vs. 迭代器
为了确定是使用循环还是迭代器,你需要知道哪个实现更快:使用显式 for
循环的 search
函数版本还是使用迭代器的版本。
我们通过将亚瑟·柯南·道尔爵士的《福尔摩斯冒险记》的全部内容加载到 String
中,并在内容中查找单词 the 来运行基准测试。以下是使用 for
循环的 search
版本和使用迭代器的版本的基准测试结果
test bench_search_for ... bench: 19,620,300 ns/iter (+/- 915,700)
test bench_search_iter ... bench: 19,234,900 ns/iter (+/- 657,200)
迭代器版本稍微快一些!我们不会在这里解释基准测试代码,因为重点不是证明这两个版本是等效的,而是要了解这两种实现在性能方面的比较情况。
为了进行更全面的基准测试,你应该使用各种大小的文本作为 contents
,不同的单词和不同长度的单词作为 query
,以及各种其他变体进行检查。重点是:迭代器虽然是一种高级抽象,但会被编译成与你手写底层代码大致相同的代码。迭代器是 Rust 的零成本抽象之一,这意味着使用该抽象不会带来额外的运行时开销。这类似于 C++ 的原始设计者和实现者 Bjarne Stroustrup 在《C++ 基础》(2012)中定义的零开销
一般来说,C++ 实现遵循零开销原则:你不用,就不需要付出代价。此外:你使用的,你不可能手写得更好。
另一个例子,以下代码取自音频解码器。解码算法使用线性预测数学运算来根据先前样本的线性函数估计未来的值。此代码使用迭代器链对作用域内的三个变量进行一些数学运算:一个 buffer
数据切片,一个包含 12 个 coefficients
的数组,以及一个在 qlp_shift
中用于移动数据的量。我们在此示例中声明了变量,但没有给它们任何值;尽管这段代码在其上下文之外没有太多意义,但它仍然是一个简洁的、真实世界的例子,说明了 Rust 如何将高级概念转换为低级代码。
let buffer: &mut [i32];
let coefficients: [i64; 12];
let qlp_shift: i16;
for i in 12..buffer.len() {
let prediction = coefficients.iter()
.zip(&buffer[i - 12..i])
.map(|(&c, &s)| c * s as i64)
.sum::<i64>() >> qlp_shift;
let delta = buffer[i];
buffer[i] = prediction as i32 + delta;
}
要计算 prediction
的值,此代码会迭代 coefficients
中的 12 个值中的每一个,并使用 zip
方法将系数值与 buffer
中的前 12 个值配对。然后,对于每一对,我们将这些值相乘,将所有结果相加,并将总和中的位向右移动 qlp_shift
位。
像音频解码器这样的应用程序中的计算通常将性能放在首位。在这里,我们正在创建一个迭代器,使用两个适配器,然后使用该值。这段 Rust 代码会编译成什么汇编代码?好吧,在撰写本文时,它会编译成与你手动编写的汇编代码相同的代码。根本没有与 coefficients
中值的迭代相对应的循环:Rust 知道有 12 次迭代,因此它会“展开”循环。展开是一种优化,它消除了循环控制代码的开销,而是为循环的每次迭代生成重复代码。
所有系数都存储在寄存器中,这意味着访问这些值非常快。在运行时,数组访问没有任何边界检查。Rust 能够应用的所有这些优化使得生成的代码非常高效。现在你知道了这一点,你可以放心地使用迭代器和闭包!它们使代码看起来更高级,但这样做不会带来运行时性能损失。
总结
闭包和迭代器是受函数式编程语言思想启发的 Rust 功能。它们有助于 Rust 在低级性能下清晰表达高级概念的能力。闭包和迭代器的实现不会影响运行时性能。这是 Rust 努力提供零成本抽象的目标的一部分。
既然我们已经提高了 I/O 项目的表达能力,让我们看看 cargo
的一些更多功能,这些功能将帮助我们与世界分享该项目。