什么是所有权?

所有权是一组管理 Rust 程序如何管理内存的规则。所有程序都必须管理它们在运行时使用计算机内存的方式。一些语言有垃圾回收机制,会定期查找程序运行时不再使用的内存;在其他语言中,程序员必须显式地分配和释放内存。Rust 使用第三种方法:内存通过一套所有权系统进行管理,并有一组编译器会检查的规则。如果违反了任何规则,程序将无法编译。所有权的所有特性都不会减慢你的程序运行速度。

由于所有权对许多程序员来说是一个新的概念,因此需要一些时间来适应。好消息是,你对 Rust 和所有权系统的规则越熟悉,就越容易自然地开发出安全高效的代码。坚持下去!

当你理解所有权时,你将拥有理解 Rust 独特特性的坚实基础。在本章中,你将通过一些专注于一种非常常见的数据结构:字符串的示例来学习所有权。

栈和堆

许多编程语言不需要你经常考虑栈和堆。但是,在像 Rust 这样的系统编程语言中,值是在栈上还是堆上会影响语言的行为以及你为什么必须做出某些决定。所有权的部分内容将在本章后面结合栈和堆进行描述,因此这里有一个简短的解释作为准备。

栈和堆都是你的代码在运行时可用的内存部分,但它们的结构不同。栈以获取值的顺序存储值,并以相反的顺序删除值。这被称为后进先出。想象一下一叠盘子:当你添加更多盘子时,你会把它们放在最上面,当你需要盘子时,你会从最上面取一个。从中间或底部添加或删除盘子效果不好!添加数据称为压入栈,删除数据称为弹出栈。所有存储在栈上的数据都必须具有已知且固定的大小。在编译时大小未知或大小可能变化的数据必须存储在堆上。

堆的组织性较差:当你将数据放在堆上时,你需要请求一定的空间量。内存分配器会在堆中找到一个足够大的空闲位置,将其标记为正在使用,并返回一个指针,该指针是该位置的地址。此过程称为在堆上分配,有时简称为分配(将值压入栈不被视为分配)。因为指向堆的指针是已知且固定的大小,你可以将指针存储在栈上,但是当你想要实际数据时,必须跟随指针。想象一下在餐厅就座的情景。当你进入时,你说明你小组的人数,然后服务员会找到一个适合所有人的空桌子并将你带到那里。如果小组中的某人来晚了,他们可以问你坐在哪里来找到你。

压入栈比在堆上分配更快,因为分配器从不需要搜索存储新数据的位置;该位置始终位于栈的顶部。相比之下,在堆上分配空间需要更多的工作,因为分配器必须首先找到一个足够大的空间来容纳数据,然后执行簿记工作以准备下一次分配。

访问堆中的数据比访问栈中的数据慢,因为你必须跟随指针才能到达那里。如果当代处理器在内存中的跳转较少,那么它们会更快。继续进行类比,考虑一下餐厅中的服务员从许多桌子上点餐。在移动到下一桌之前,先获取一桌的所有订单是最有效率的。从 A 桌取一个订单,然后从 B 桌取一个订单,然后再次从 A 桌取一个订单,然后再从 B 桌取一个订单,这将是一个慢得多的过程。同理,如果处理器处理靠近其他数据的数据(就像在栈上一样)而不是远离其他数据的数据(就像在堆上一样),它可以更好地完成其工作。

当你的代码调用函数时,传递给函数的值(包括可能指向堆上数据的指针)和函数的局部变量会被压入栈。当函数结束时,这些值会从栈中弹出。

跟踪代码的哪些部分正在使用堆上的哪些数据,最大限度地减少堆上重复数据的数量,并清理堆上未使用的的数据,这样你就不会耗尽空间,这些都是所有权解决的问题。一旦你理解了所有权,你就不需要经常考虑栈和堆,但了解所有权的主要目的是管理堆数据可以帮助解释它为什么会这样工作。

所有权规则

首先,让我们看一下所有权规则。当我们通过示例来说明这些规则时,请牢记这些规则

  • Rust 中的每个值都有一个所有者
  • 一次只能有一个所有者。
  • 当所有者超出范围时,该值将被丢弃。

变量作用域

现在我们已经完成了基本的 Rust 语法,我们不会在示例中包含所有 fn main() { 代码,因此如果你正在跟随学习,请确保手动将以下示例放入 main 函数中。因此,我们的示例将更加简洁,让我们专注于实际细节而不是样板代码。

作为所有权的第一个示例,我们将查看某些变量的作用域。作用域是程序中一个项目有效的范围。取以下变量

#![allow(unused)]
fn main() {
let s = "hello";
}

变量 s 指的是一个字符串字面量,其中字符串的值被硬编码到我们程序的文本中。变量从声明它的那一刻起直到当前作用域的结束都是有效的。列表 4-1 显示了一个程序,其中注释了变量 s 有效的位置。

fn main() {
    {                      // s is not valid here, it’s not yet declared
        let s = "hello";   // s is valid from this point forward

        // do stuff with s
    }                      // this scope is now over, and s is no longer valid
}
列表 4-1:一个变量及其有效的作用域

换句话说,这里有两个重要的时间点

  • s 进入作用域时,它是有效的。
  • 它在超出作用域之前都是有效的。

此时,作用域和变量何时有效之间的关系与其他编程语言中的关系类似。现在,我们将通过引入 String 类型来建立在此理解之上。

String 类型

为了说明所有权规则,我们需要一个比我们在“数据类型”中介绍的数据类型更复杂的数据类型第 3 章的部分。之前介绍的类型是已知大小的,可以存储在栈上并在其作用域结束时从栈中弹出,并且可以快速轻松地复制以在另一部分代码需要在不同的作用域中使用相同的值时创建一个新的独立实例。但是我们想查看存储在堆上的数据,并探索 Rust 如何知道何时清理该数据,而 String 类型是一个很好的例子。

我们将专注于与所有权相关的 String 部分。这些方面也适用于其他复杂的数据类型,无论是标准库提供的还是你创建的。我们将在 第 8 章.

中更深入地讨论 String。我们已经看到了字符串字面量,其中字符串值被硬编码到我们的程序中。字符串字面量很方便,但它们并不适用于我们可能想使用文本的所有情况。其中一个原因是它们是不可变的。另一个原因是并非每个字符串值都可以在我们编写代码时知道:例如,如果我们想获取用户输入并存储它该怎么办?对于这种情况,Rust 有第二种字符串类型 String。此类型管理在堆上分配的数据,因此能够存储在编译时我们不知道的文本量。你可以使用 from 函数从字符串字面量创建 String,如下所示

#![allow(unused)]
fn main() {
let s = String::from("hello");
}

双冒号 :: 运算符允许我们在 String 类型下命名此特定的 from 函数,而不是使用诸如 string_from 之类的名称。我们将在 “方法语法”第 5 章的部分中更详细地讨论此语法,以及在“引用模块树中的项的路径”在第 7 章中讨论使用模块进行命名空间。

这种字符串可以被修改

fn main() {
    let mut s = String::from("hello");

    s.push_str(", world!"); // push_str() appends a literal to a String

    println!("{s}"); // This will print `hello, world!`
}

那么,这里的区别是什么?为什么 String 可以被修改而字面量不能?区别在于这两种类型如何处理内存。

内存和分配

在字符串字面量的情况下,我们在编译时就知道内容,因此文本直接硬编码到最终的可执行文件中。这就是为什么字符串字面量快速高效的原因。但是这些属性仅来自字符串字面量的不可变性。不幸的是,我们无法将一块内存放入二进制文件中,用于每个在编译时大小未知并且在程序运行时大小可能会更改的文本。

使用 String 类型,为了支持可变的、可增长的文本,我们需要在堆上分配一定量的内存(在编译时未知)来保存内容。这意味着

  • 必须在运行时从内存分配器请求内存。
  • 当完成 String 操作后,我们需要一种将内存返回给分配器的方法。

第一部分由我们完成:当我们调用 String::from 时,它的实现会请求它需要的内存。这在编程语言中几乎是通用的。

但是,第二部分是不同的。在使用垃圾收集器(GC)的语言中,GC 会跟踪并清理不再使用的内存,我们无需考虑它。在大多数没有 GC 的语言中,我们有责任识别何时不再使用内存,并调用代码来显式释放它,就像我们请求它一样。正确地执行此操作在历史上一直是一个难题。如果我们忘记了,我们将浪费内存。如果我们过早地释放它,我们将有一个无效的变量。如果我们释放两次,那也是一个错误。我们需要将一个 allocate 与一个 free 完全配对。

Rust 采取了不同的路径:一旦拥有它的变量超出作用域,内存就会自动返回。这是我们使用 String 而不是字符串字面量的列表 4-1 中作用域示例的版本

fn main() {
    {
        let s = String::from("hello"); // s is valid from this point forward

        // do stuff with s
    }                                  // this scope is now over, and s is no
                                       // longer valid
}

我们可以在 s 超出作用域时自然地将我们的 String 需要的内存返回给分配器。当变量超出作用域时,Rust 会为我们调用一个特殊函数。此函数称为 dropString 的作者可以在其中放置返回内存的代码。Rust 会在右花括号处自动调用 drop

注意:在 C++ 中,这种在项目生命周期结束时释放资源的模式有时称为资源获取即初始化(RAII)。如果你使用过 RAII 模式,那么 Rust 中的 drop 函数对你来说应该很熟悉。

这种模式对 Rust 代码的编写方式产生了深远的影响。现在看来它可能很简单,但是在更复杂的情况下,当我们想让多个变量使用我们在堆上分配的数据时,代码的行为可能会出乎意料。现在让我们探讨其中的一些情况。

变量和与移动交互的数据

在 Rust 中,多个变量可以以不同的方式与相同的数据进行交互。让我们看看列表 4-2 中使用整数的示例。

fn main() {
    let x = 5;
    let y = x;
}
列表 4-2:将变量 x 的整数值赋给 y

我们可能可以猜到这是在做什么:“将值 5 绑定到 x;然后复制 x 中的值并将其绑定到 y。”现在我们有两个变量,xy,并且它们都等于 5。这确实是正在发生的事情,因为整数是具有已知固定大小的简单值,并且这两个 5 值被推入堆栈。

现在让我们看看 String 版本

fn main() {
    let s1 = String::from("hello");
    let s2 = s1;
}

这看起来很相似,所以我们可能会认为它的工作方式是相同的:也就是说,第二行会复制 s1 中的值并将其绑定到 s2。但这并不是真正发生的情况。

看看图 4-1,了解 String 在底层发生了什么。一个 String 由三个部分组成,如左侧所示:指向保存字符串内容的内存的指针、长度和容量。这组数据存储在堆栈上。右侧是堆上保存内容的内存。

Two tables: the first table contains the representation of s1 on the
stack, consisting of its length (5), capacity (5), and a pointer to the first
value in the second table. The second table contains the representation of the
string data on the heap, byte by byte.

图 4-1:绑定到 s1 的值为 "hello"String 在内存中的表示

长度是 String 的内容当前正在使用的内存大小(以字节为单位)。容量是 String 从分配器接收的内存总大小(以字节为单位)。长度和容量之间的差异很重要,但在此上下文中并不重要,所以现在忽略容量即可。

当我们把 s1 赋值给 s2 时,String 数据被复制,这意味着我们复制堆栈上的指针、长度和容量。我们不会复制指针指向的堆上的数据。换句话说,内存中的数据表示形式如图 4-2 所示。

Three tables: tables s1 and s2 representing those strings on the
stack, respectively, and both pointing to the same string data on the heap.

图 4-2:变量 s2 的内存表示,它拥有 s1 的指针、长度和容量的副本

表示形式像图 4-3 那样,如果 Rust 也复制堆数据,内存就会像图 4-3 那样。如果 Rust 这样做,如果堆上的数据很大,操作 s2 = s1 在运行时性能方面可能会非常昂贵。

Four tables: two tables representing the stack data for s1 and s2,
and each points to its own copy of string data on the heap.

图 4-3:如果 Rust 也复制堆数据,s2 = s1 可能的另一种情况

之前我们说过,当变量超出作用域时,Rust 会自动调用 drop 函数并清理该变量的堆内存。但是图 4-2 显示两个数据指针都指向相同的位置。这是一个问题:当 s2s1 超出作用域时,它们都会尝试释放相同的内存。这被称为双重释放错误,是之前提到的内存安全错误之一。释放内存两次可能会导致内存损坏,这可能会导致安全漏洞。

为了确保内存安全,在行 let s2 = s1; 之后,Rust 认为 s1 不再有效。因此,当 s1 超出作用域时,Rust 不需要释放任何东西。看看在创建 s2 后尝试使用 s1 时会发生什么;它不会工作

fn main() {
    let s1 = String::from("hello");
    let s2 = s1;

    println!("{s1}, world!");
}

你会收到这样的错误,因为 Rust 会阻止你使用无效的引用

$ cargo run
   Compiling ownership v0.1.0 (file:///projects/ownership)
error[E0382]: borrow of moved value: `s1`
 --> src/main.rs:5:15
  |
2 |     let s1 = String::from("hello");
  |         -- move occurs because `s1` has type `String`, which does not implement the `Copy` trait
3 |     let s2 = s1;
  |              -- value moved here
4 |
5 |     println!("{s1}, world!");
  |               ^^^^ value borrowed here after move
  |
  = note: this error originates in the macro `$crate::format_args_nl` which comes from the expansion of the macro `println` (in Nightly builds, run with -Z macro-backtrace for more info)
help: consider cloning the value if the performance cost is acceptable
  |
3 |     let s2 = s1.clone();
  |                ++++++++

For more information about this error, try `rustc --explain E0382`.
error: could not compile `ownership` (bin "ownership") due to 1 previous error

如果你在使用其他语言时听说过浅拷贝深拷贝这两个术语,那么在不复制数据的情况下复制指针、长度和容量的概念可能听起来像是进行了浅拷贝。但由于 Rust 也会使第一个变量失效,因此它被称为移动,而不是浅拷贝。在这个例子中,我们会说 s1移动到了 s2。所以,实际发生的情况如图 4-4 所示。

Three tables: tables s1 and s2 representing those strings on the
stack, respectively, and both pointing to the same string data on the heap.
Table s1 is grayed out be-cause s1 is no longer valid; only s2 can be used to
access the heap data.

图 4-4:s1 失效后内存中的表示

这样就解决了我们的问题!只有 s2 有效,当它超出作用域时,它会单独释放内存,我们就完成了。

此外,这还暗示了一个设计选择:Rust 永远不会自动创建数据的“深”拷贝。因此,任何自动复制都可以假设在运行时性能方面是廉价的。

作用域和赋值

对于作用域、所有权和通过 drop 函数释放内存之间的关系,反之亦然。当你将一个全新的值赋给现有变量时,Rust 会立即调用 drop 并释放原始值的内存。例如,考虑以下代码

fn main() {
    let mut s = String::from("hello");
    s = String::from("ahoy");

    println!("{s}, world!");
}

我们首先声明一个变量 s 并将其绑定到一个值为 "hello"String。然后我们立即创建一个值为 "ahoy" 的新 String 并将其赋值给 s。此时,没有任何东西指向堆上的原始值。

One table s representing the string value on the stack, pointing to
the second piece of string data (ahoy) on the heap, with the original string
data (hello) grayed out because it cannot be accessed anymore.

图 4-5:初始值完全被替换后内存中的表示。

因此,原始字符串会立即超出作用域。Rust 将在其上运行 drop 函数,并且其内存将立即被释放。当我们最后打印值时,它将是 "ahoy, world!"

变量和数据与 Clone 的交互

如果我们确实想深拷贝 String 的堆数据,而不仅仅是堆栈数据,我们可以使用一种称为 clone 的通用方法。我们将在第 5 章中讨论方法语法,但由于方法是许多编程语言中的常见特性,你可能以前见过它们。

这是一个 clone 方法的示例

fn main() {
    let s1 = String::from("hello");
    let s2 = s1.clone();

    println!("s1 = {s1}, s2 = {s2}");
}

这工作正常,并明确产生了图 4-3 中所示的行为,其中堆数据确实被复制了。

当你看到对 clone 的调用时,你就知道正在执行一些任意代码,并且该代码可能很昂贵。这是一个视觉指示符,表明正在发生一些不同的事情。

仅堆栈数据:Copy

我们还有一个尚未讨论的细节。这段使用整数的代码(部分在代码清单 4-2 中展示)可以工作并且有效

fn main() {
    let x = 5;
    let y = x;

    println!("x = {x}, y = {y}");
}

但是这段代码似乎与我们刚刚学到的内容相矛盾:我们没有对 clone 的调用,但是 x 仍然有效,并且没有被移动到 y 中。

原因是,诸如整数之类的在编译时具有已知大小的类型完全存储在堆栈上,因此实际值的副本可以快速制作。这意味着我们没有理由阻止在创建变量 yx 仍然有效。换句话说,这里深拷贝和浅拷贝之间没有区别,因此调用 clone 不会与通常的浅拷贝有任何不同,我们可以省略它。

Rust 有一个称为 Copy trait 的特殊注解,我们可以将其放置在存储在堆栈上的类型上,例如整数(我们将在第 10 章中详细讨论 trait)。如果一个类型实现了 Copy trait,则使用它的变量不会移动,而是被简单地复制,从而在赋值给另一个变量后仍然有效。

如果类型或其任何部分实现了 Drop trait,Rust 将不允许我们使用 Copy 注解类型。如果该类型需要在值超出作用域时发生一些特殊的事情,并且我们将 Copy 注解添加到该类型,我们将收到编译时错误。要了解如何将 Copy 注解添加到你的类型以实现该 trait,请参阅“可派生的 Traits”在附录 C 中。

那么,哪些类型实现了 Copy trait?你可以检查给定类型的文档以确保,但一般来说,任何一组简单的标量值都可以实现 Copy,而任何需要分配或某种形式的资源都不能实现 Copy。以下是一些实现 Copy 的类型

  • 所有整数类型,例如 u32
  • 布尔类型 bool,值为 truefalse
  • 所有浮点类型,例如 f64
  • 字符类型 char
  • 元组,如果它们只包含也实现 Copy 的类型。例如,(i32, i32) 实现 Copy,但 (i32, String) 不实现。

所有权和函数

将值传递给函数的机制与将值赋给变量时的机制类似。将变量传递给函数将移动或复制,就像赋值一样。代码清单 4-3 有一个示例,其中一些注解显示了变量进入和超出作用域的位置。

文件名:src/main.rs
fn main() {
    let s = String::from("hello");  // s comes into scope

    takes_ownership(s);             // s's value moves into the function...
                                    // ... and so is no longer valid here

    let x = 5;                      // x comes into scope

    makes_copy(x);                  // x would move into the function,
                                    // but i32 is Copy, so it's okay to still
                                    // use x afterward

} // Here, x goes out of scope, then s. But because s's value was moved, nothing
  // special happens.

fn takes_ownership(some_string: String) { // some_string comes into scope
    println!("{some_string}");
} // Here, some_string goes out of scope and `drop` is called. The backing
  // memory is freed.

fn makes_copy(some_integer: i32) { // some_integer comes into scope
    println!("{some_integer}");
} // Here, some_integer goes out of scope. Nothing special happens.
代码清单 4-3:带有所有权和作用域注解的函数

如果我们尝试在调用 takes_ownership 后使用 s,Rust 将抛出编译时错误。这些静态检查可以保护我们免于犯错。尝试添加代码到 main 中,使用 sx 来查看可以在哪里使用它们,以及所有权规则会阻止你在哪里使用它们。

返回值和作用域

返回值也可以转移所有权。代码清单 4-4 展示了一个返回某个值的函数的示例,其注解与代码清单 4-3 中的注解类似。

文件名:src/main.rs
fn main() {
    let s1 = gives_ownership();         // gives_ownership moves its return
                                        // value into s1

    let s2 = String::from("hello");     // s2 comes into scope

    let s3 = takes_and_gives_back(s2);  // s2 is moved into
                                        // takes_and_gives_back, which also
                                        // moves its return value into s3
} // Here, s3 goes out of scope and is dropped. s2 was moved, so nothing
  // happens. s1 goes out of scope and is dropped.

fn gives_ownership() -> String {             // gives_ownership will move its
                                             // return value into the function
                                             // that calls it

    let some_string = String::from("yours"); // some_string comes into scope

    some_string                              // some_string is returned and
                                             // moves out to the calling
                                             // function
}

// This function takes a String and returns one
fn takes_and_gives_back(a_string: String) -> String { // a_string comes into
                                                      // scope

    a_string  // a_string is returned and moves out to the calling function
}
代码清单 4-4:转移返回值的所有权

变量的所有权每次都遵循相同的模式:将值赋给另一个变量会移动它。当包含堆数据的变量超出作用域时,该值将被 drop 清理,除非该数据的所有权已移动到另一个变量。

虽然这可以工作,但每次都获取所有权然后返回所有权有点繁琐。如果我们想让一个函数使用一个值但不获取所有权怎么办?如果我们要再次使用它,除了我们可能想要返回的函数体产生的任何数据之外,我们传入的任何东西也需要被传回,这很烦人。

Rust 确实允许我们使用元组返回多个值,如代码清单 4-5 所示。

文件名:src/main.rs
fn main() {
    let s1 = String::from("hello");

    let (s2, len) = calculate_length(s1);

    println!("The length of '{s2}' is {len}.");
}

fn calculate_length(s: String) -> (String, usize) {
    let length = s.len(); // len() returns the length of a String

    (s, length)
}
代码清单 4-5:返回参数的所有权

但是,对于一个应该很常见的概念来说,这太多的仪式感和工作量了。幸运的是,Rust 有一个在不转移所有权的情况下使用值的功能,称为引用