引用循环可能导致内存泄漏

Rust 的内存安全保证使得意外创建永远不会被清理的内存（称为*内存泄漏*）变得困难，但并非不可能。完全防止内存泄漏并不是 Rust 的保证之一，这意味着内存泄漏在 Rust 中是内存安全的。我们可以通过使用 Rc<T> 和 RefCell<T> 来证明 Rust 允许内存泄漏：可以创建项目彼此循环引用的情况。这会导致内存泄漏，因为循环中每个项目的引用计数永远不会达到 0，并且这些值永远不会被丢弃（dropped）。

创建引用循环

让我们看看引用循环是如何发生的以及如何防止它，从 Listing 15-25 中的 List 枚举定义和 tail 方法开始。

文件名: src/main.rs

use crate::List::{Cons, Nil};
use std::cell::RefCell;
use std::rc::Rc;

#[derive(Debug)]
enum List {
    Cons(i32, RefCell<Rc<List>>),
    Nil,
}

impl List {
    fn tail(&self) -> Option<&RefCell<Rc<List>>> {
        match self {
            Cons(_, item) => Some(item),
            Nil => None,
        }
    }
}

fn main() {}

Listing 15-25：一个包含 RefCell<T> 的 cons list 定义，以便我们可以修改 Cons 变体引用的内容

我们正在使用 Listing 15-5 中 List 定义的另一种变体。Cons 变体中的第二个元素现在是 RefCell<Rc<List>>，这意味着我们不像 Listing 15-24 中那样能够修改 i32 值，而是想要修改 Cons 变体指向的 List 值。我们还添加了一个 tail 方法，方便我们在拥有 Cons 变体时访问第二个元素。

在 Listing 15-26 中，我们添加了一个使用 Listing 15-25 中定义的 main 函数。这段代码在 a 中创建一个列表，并在 b 中创建一个指向 a 中列表的列表。然后它修改 a 中的列表以指向 b，从而创建了一个引用循环。代码中包含了一些 println! 语句，用于显示在此过程的各个点上的引用计数。

文件名: src/main.rs

use crate::List::{Cons, Nil};
use std::cell::RefCell;
use std::rc::Rc;

#[derive(Debug)]
enum List {
    Cons(i32, RefCell<Rc<List>>),
    Nil,
}

impl List {
    fn tail(&self) -> Option<&RefCell<Rc<List>>> {
        match self {
            Cons(_, item) => Some(item),
            Nil => None,
        }
    }
}

fn main() {
    let a = Rc::new(Cons(5, RefCell::new(Rc::new(Nil))));

    println!("a initial rc count = {}", Rc::strong_count(&a));
    println!("a next item = {:?}", a.tail());

    let b = Rc::new(Cons(10, RefCell::new(Rc::clone(&a))));

    println!("a rc count after b creation = {}", Rc::strong_count(&a));
    println!("b initial rc count = {}", Rc::strong_count(&b));
    println!("b next item = {:?}", b.tail());

    if let Some(link) = a.tail() {
        *link.borrow_mut() = Rc::clone(&b);
    }

    println!("b rc count after changing a = {}", Rc::strong_count(&b));
    println!("a rc count after changing a = {}", Rc::strong_count(&a));

    // Uncomment the next line to see that we have a cycle;
    // it will overflow the stack.
    // println!("a next item = {:?}", a.tail());
}

Listing 15-26：创建两个 List 值相互指向的引用循环

我们创建一个 Rc<List> 实例，在变量 a 中持有一个 List 值，初始列表为 5, Nil。然后我们创建另一个 Rc<List> 实例，在变量 b 中持有一个 List 值，其中包含值 10 并指向 a 中的列表。

我们修改 a，使其指向 b 而非 Nil，从而创建了一个循环。我们通过使用 tail 方法获取 a 中 RefCell<Rc<List>> 的引用，并将其存入变量 link 来实现。然后我们在 RefCell<Rc<List>> 上使用 borrow_mut 方法，将内部的值从持有 Nil 值的 Rc<List> 更改为 b 中的 Rc<List>。

运行这段代码时（暂时注释掉最后一行 println!），我们将得到以下输出：

$ cargo run
   Compiling cons-list v0.1.0 (file:///projects/cons-list)
    Finished `dev` profile [unoptimized + debuginfo] target(s) in 0.53s
     Running `target/debug/cons-list`
a initial rc count = 1
a next item = Some(RefCell { value: Nil })
a rc count after b creation = 2
b initial rc count = 1
b next item = Some(RefCell { value: Cons(5, RefCell { value: Nil }) })
b rc count after changing a = 2
a rc count after changing a = 2

在我们改变 a 中的列表指向 b 后，a 和 b 中 Rc<List> 实例的引用计数都为 2。在 main 函数结束时，Rust 丢弃变量 b，这使得 b 的 Rc<List> 实例的引用计数从 2 减少到 1。此时，Rc<List> 在堆上拥有的内存不会被丢弃，因为它的引用计数是 1，而不是 0。然后 Rust 丢弃 a，这也使得 a 的 Rc<List> 实例的引用计数从 2 减少到 1。这个实例的内存也不能被丢弃，因为另一个 Rc<List> 实例仍然引用它。分配给列表的内存将永远不会被回收。为了可视化这个引用循环，我们在 Figure 15-4 中创建了图示。

Figure 15-4：列表 a 和 b 相互指向的引用循环

如果取消注释最后一行 println! 并运行程序，Rust 将尝试打印这个循环，即 a 指向 b，b 指向 a，依此类推，直到栈溢出。

与现实世界中的程序相比，这个示例中创建引用循环的后果并不严重：在我们创建引用循环后，程序就立即结束了。然而，如果一个更复杂的程序在一个循环中分配了大量内存并长时间持有，该程序就会使用比所需更多的内存，并可能压垮系统，导致可用内存不足。

创建引用循环并不容易，但也不是不可能。如果你拥有包含 Rc<T> 值的 RefCell<T> 值，或者具有内部可变性和引用计数的类似嵌套组合类型，你必须确保不会创建循环；你不能依赖 Rust 来捕获它们。创建引用循环将是程序中的逻辑错误，你应该使用自动化测试、代码审查和其他软件开发实践来尽量减少它。

另一种避免引用循环的解决方案是重组数据结构，使得一些引用表示所有权，而另一些引用不表示所有权。这样，你可以拥有由一些所有权关系和一些非所有权关系组成的循环，并且只有所有权关系会影响值是否可以被丢弃。在 Listing 15-25 中，我们总是希望 Cons 变体拥有其列表，因此重组数据结构是不可能的。让我们看一个使用由父节点和子节点组成的图的示例，看看非所有权关系何时是防止引用循环的合适方式。

使用 `Weak<T>` 防止引用循环

到目前为止，我们已经演示了调用 Rc::clone 会增加 Rc<T> 实例的 strong_count，并且只有当 Rc<T> 实例的 strong_count 为 0 时才会被清理。你还可以通过调用 Rc::downgrade 并传递 Rc<T> 的引用来创建对 Rc<T> 实例中值的*弱引用*。强引用是共享 Rc<T> 实例所有权的方式。弱引用不表示所有权关系，它们的计数不影响 Rc<T> 实例何时被清理。它们不会导致引用循环，因为任何涉及弱引用的循环都会在相关值的强引用计数为 0 时被打破。

当你调用 Rc::downgrade 时，你会得到一个类型为 Weak<T> 的智能指针。调用 Rc::downgrade 不会增加 Rc<T> 实例的 strong_count 1，而是增加 weak_count 1。Rc<T> 类型使用 weak_count 来跟踪存在多少个 Weak<T> 引用，这类似于 strong_count。不同之处在于，weak_count 不需要为 0，Rc<T> 实例就可以被清理。

由于 Weak<T> 引用的值可能已经被丢弃，要对 Weak<T> 指向的值执行任何操作，你必须确保该值仍然存在。通过在 Weak<T> 实例上调用 upgrade 方法来实现，该方法将返回一个 Option<Rc<T>>。如果 Rc<T> 值尚未被丢弃，你会得到一个 Some 结果；如果 Rc<T> 值已经被丢弃，你会得到一个 None 结果。因为 upgrade 返回 Option<Rc<T>>，Rust 将确保处理 Some 情况和 None 情况，从而不会出现无效指针。

举个例子，我们不使用只知道下一个项目的列表，而是创建一个树，其中的项目知道它们的子项目*和*它们的父项目。

创建树数据结构：带有子节点的 `Node`

首先，我们将构建一个树，其中节点知道它们的子节点。我们将创建一个名为 Node 的结构体，它拥有自己的 i32 值以及对其子 Node 值的引用。

文件名: src/main.rs

use std::cell::RefCell;
use std::rc::Rc;

#[derive(Debug)]
struct Node {
    value: i32,
    children: RefCell<Vec<Rc<Node>>>,
}

fn main() {
    let leaf = Rc::new(Node {
        value: 3,
        children: RefCell::new(vec![]),
    });

    let branch = Rc::new(Node {
        value: 5,
        children: RefCell::new(vec![Rc::clone(&leaf)]),
    });
}

我们希望一个 Node 拥有它的子节点，并且希望与变量共享所有权，这样我们就可以直接访问树中的每个 Node。为了做到这一点，我们将 Vec<T> 的项目定义为 Rc<Node> 类型的值。我们还希望修改哪个节点是另一个节点的子节点，因此我们在 children 字段中，Vec<Rc<Node>> 的外面包了一层 RefCell<T>。

接下来，我们将使用我们的结构体定义，并创建一个名为 leaf 的 Node 实例，其值为 3，没有子节点；再创建一个名为 branch 的实例，其值为 5，并将 leaf 作为其子节点之一，如 Listing 15-27 所示。

文件名: src/main.rs

use std::cell::RefCell;
use std::rc::Rc;

#[derive(Debug)]
struct Node {
    value: i32,
    children: RefCell<Vec<Rc<Node>>>,
}

fn main() {
    let leaf = Rc::new(Node {
        value: 3,
        children: RefCell::new(vec![]),
    });

    let branch = Rc::new(Node {
        value: 5,
        children: RefCell::new(vec![Rc::clone(&leaf)]),
    });
}

Listing 15-27：创建一个没有子节点的 leaf 节点，以及一个以 leaf 为子节点之一的 branch 节点

我们克隆了 leaf 中的 Rc<Node>，并将其存储在 branch 中，这意味着 leaf 中的 Node 现在有两个所有者：leaf 和 branch。我们可以通过 branch.children 从 branch 到达 leaf，但无法从 leaf 到达 branch。原因是 leaf 没有对 branch 的引用，不知道它们之间有关系。我们希望 leaf 知道 branch 是它的父节点。接下来我们将这样做。

从子节点添加对父节点的引用

为了让子节点知道它的父节点，我们需要在 Node 结构体定义中添加一个 parent 字段。问题在于决定 parent 的类型应该是什么。我们知道它不能包含一个 Rc<T>，因为那会创建一个引用循环：leaf.parent 指向 branch，而 branch.children 指向 leaf，这将导致它们的 strong_count 值永远不为 0。

换个角度思考这些关系，父节点应该拥有它的子节点：如果一个父节点被丢弃，它的子节点也应该被丢弃。然而，子节点不应该拥有它的父节点：如果我们丢弃一个子节点，父节点应该仍然存在。这是一个适合使用弱引用的场景！

因此，我们将 parent 的类型使用 Weak<T> 而不是 Rc<T>，具体来说是 RefCell<Weak<Node>>。现在我们的 Node 结构体定义看起来像这样：

文件名: src/main.rs

use std::cell::RefCell;
use std::rc::{Rc, Weak};

#[derive(Debug)]
struct Node {
    value: i32,
    parent: RefCell<Weak<Node>>,
    children: RefCell<Vec<Rc<Node>>>,
}

fn main() {
    let leaf = Rc::new(Node {
        value: 3,
        parent: RefCell::new(Weak::new()),
        children: RefCell::new(vec![]),
    });

    println!("leaf parent = {:?}", leaf.parent.borrow().upgrade());

    let branch = Rc::new(Node {
        value: 5,
        parent: RefCell::new(Weak::new()),
        children: RefCell::new(vec![Rc::clone(&leaf)]),
    });

    *leaf.parent.borrow_mut() = Rc::downgrade(&branch);

    println!("leaf parent = {:?}", leaf.parent.borrow().upgrade());
}

一个节点将能够引用它的父节点，但不拥有它的父节点。在 Listing 15-28 中，我们更新了 main 函数以使用这个新定义，这样 leaf 节点将有一种方式来引用它的父节点 branch。

文件名: src/main.rs

use std::cell::RefCell;
use std::rc::{Rc, Weak};

#[derive(Debug)]
struct Node {
    value: i32,
    parent: RefCell<Weak<Node>>,
    children: RefCell<Vec<Rc<Node>>>,
}

fn main() {
    let leaf = Rc::new(Node {
        value: 3,
        parent: RefCell::new(Weak::new()),
        children: RefCell::new(vec![]),
    });

    println!("leaf parent = {:?}", leaf.parent.borrow().upgrade());

    let branch = Rc::new(Node {
        value: 5,
        parent: RefCell::new(Weak::new()),
        children: RefCell::new(vec![Rc::clone(&leaf)]),
    });

    *leaf.parent.borrow_mut() = Rc::downgrade(&branch);

    println!("leaf parent = {:?}", leaf.parent.borrow().upgrade());
}

Listing 15-28：一个 leaf 节点，包含对其父节点 branch 的弱引用

创建 leaf 节点看起来与 Listing 15-27 相似，但 parent 字段除外：leaf 开始时没有父节点，所以我们创建了一个新的、空的 Weak<Node> 引用实例。

此时，当我们尝试使用 upgrade 方法获取 leaf 的父节点的引用时，会得到一个 None 值。我们在第一个 println! 语句的输出中看到了这一点：

leaf parent = None

当我们创建 branch 节点时，它的 parent 字段中也会有一个新的 Weak<Node> 引用，因为 branch 没有父节点。我们仍然将 leaf 作为 branch 的一个子节点。一旦我们在 branch 中有了 Node 实例，我们就可以修改 leaf，给它一个指向其父节点的 Weak<Node> 引用。我们在 leaf 的 parent 字段中 RefCell<Weak<Node>> 上使用 borrow_mut 方法，然后使用 Rc::downgrade 函数从 branch 中的 Rc<Node> 创建一个指向 branch 的 Weak<Node> 引用。

当我们再次打印 leaf 的父节点时，这次我们将得到一个包含 branch 的 Some 变体：现在 leaf 可以访问它的父节点了！当我们打印 leaf 时，我们也避免了像 Listing 15-26 那样最终导致栈溢出的循环；Weak<Node> 引用被打印为 (Weak)：

leaf parent = Some(Node { value: 5, parent: RefCell { value: (Weak) },
children: RefCell { value: [Node { value: 3, parent: RefCell { value: (Weak) },
children: RefCell { value: [] } }] } })

没有无限输出表明这段代码没有创建引用循环。我们还可以通过查看调用 Rc::strong_count 和 Rc::weak_count 得到的值来判断这一点。

可视化 `strong_count` 和 `weak_count` 的变化

让我们看看通过创建一个新的内部作用域并将 branch 的创建移到该作用域内，Rc<Node> 实例的 strong_count 和 weak_count 值如何变化。通过这样做，我们可以看到 branch 创建时会发生什么，以及当它超出作用域被丢弃时会发生什么。修改如 Listing 15-29 所示。

文件名: src/main.rs

use std::cell::RefCell;
use std::rc::{Rc, Weak};

#[derive(Debug)]
struct Node {
    value: i32,
    parent: RefCell<Weak<Node>>,
    children: RefCell<Vec<Rc<Node>>>,
}

fn main() {
    let leaf = Rc::new(Node {
        value: 3,
        parent: RefCell::new(Weak::new()),
        children: RefCell::new(vec![]),
    });

    println!(
        "leaf strong = {}, weak = {}",
        Rc::strong_count(&leaf),
        Rc::weak_count(&leaf),
    );

    {
        let branch = Rc::new(Node {
            value: 5,
            parent: RefCell::new(Weak::new()),
            children: RefCell::new(vec![Rc::clone(&leaf)]),
        });

        *leaf.parent.borrow_mut() = Rc::downgrade(&branch);

        println!(
            "branch strong = {}, weak = {}",
            Rc::strong_count(&branch),
            Rc::weak_count(&branch),
        );

        println!(
            "leaf strong = {}, weak = {}",
            Rc::strong_count(&leaf),
            Rc::weak_count(&leaf),
        );
    }

    println!("leaf parent = {:?}", leaf.parent.borrow().upgrade());
    println!(
        "leaf strong = {}, weak = {}",
        Rc::strong_count(&leaf),
        Rc::weak_count(&leaf),
    );
}

Listing 15-29：在内部作用域中创建 branch 并检查强弱引用计数

创建 leaf 后，其 Rc<Node> 的强计数为 1，弱计数为 0。在内部作用域中，我们创建 branch 并将其与 leaf 关联，此时当我们打印计数时，branch 中的 Rc<Node> 将具有强计数 1 和弱计数 1（因为 leaf.parent 使用 Weak<Node> 指向 branch）。当我们打印 leaf 中的计数时，会发现它的强计数为 2，因为 branch 现在在 branch.children 中存储了 leaf 的 Rc<Node> 的克隆，但弱计数仍然为 0。

内部作用域结束时，branch 超出作用域，Rc<Node> 的强计数减少到 0，因此其 Node 被丢弃。来自 leaf.parent 的弱计数 1 对 Node 是否被丢弃没有影响，因此我们没有得到任何内存泄漏！

如果在作用域结束后尝试访问 leaf 的父节点，我们将再次得到 None。程序结束时，leaf 中的 Rc<Node> 的强计数为 1，弱计数为 0，因为变量 leaf 现在再次成为对 Rc<Node> 的唯一引用。

管理计数和值丢弃的所有逻辑都内置在 Rc<T> 和 Weak<T> 及其 Drop trait 的实现中。通过在 Node 的定义中指定从子节点到父节点的关系应该是 Weak<T> 引用，你就可以让父节点指向子节点，反之亦然，而不会创建引用循环和内存泄漏。

总结

本章介绍了如何使用智能指针来实现与 Rust 默认使用常规引用所做的保证和权衡不同的保证和权衡。Box<T> 类型具有已知大小，并指向分配在堆上的数据。Rc<T> 类型跟踪堆上数据的引用数量，以便数据可以有多个所有者。RefCell<T> 类型及其内部可变性为我们提供了一种类型，当我们处理一个不可变类型但需要更改该类型的内部值时可以使用；它还在运行时而不是编译时强制执行借用规则。

本章还讨论了 Deref 和 Drop trait，它们为智能指针提供了很多功能。我们探讨了可能导致内存泄漏的引用循环，以及如何使用 Weak<T> 来防止它们。

如果本章引起了你的兴趣，想实现自己的智能指针，请查看 “The Rustonomicon” 获取更多有用的信息。

接下来，我们将讨论 Rust 中的并发性。你甚至会学到一些新的智能指针。

The Rust Programming Language