切片类型

切片 允许你引用集合中一段连续的元素序列,而不是整个集合。切片是一种引用,因此它没有所有权。

这里有一个小的编程问题:编写一个函数,该函数接收一个由空格分隔的单词字符串,并返回在该字符串中找到的第一个单词。如果函数在字符串中没有找到空格,则整个字符串必须是一个单词,因此应该返回整个字符串。

为了理解切片将要解决的问题,让我们在不使用切片的情况下,研究如何编写此函数的签名。

fn first_word(s: &String) -> ?

first_word 函数有一个 &String 类型的参数。我们不希望拥有所有权,所以这很好。但是我们应该返回什么呢?我们实际上没有办法谈论字符串的一部分。但是,我们可以返回单词结尾的索引,用空格表示。让我们尝试一下,如代码清单 4-7 所示。

文件名:src/main.rs

fn first_word(s: &String) -> usize {
    let bytes = s.as_bytes();

    for (i, &item) in bytes.iter().enumerate() {
        if item == b' ' {
            return i;
        }
    }

    s.len()
}

fn main() {}

代码清单 4-7:first_word 函数,返回 String 参数中的字节索引值

因为我们需要逐个遍历 String 元素并检查值是否为空格,所以我们将使用 as_bytes 方法将 String 转换为字节数组。

fn first_word(s: &String) -> usize {
    let bytes = s.as_bytes();

    for (i, &item) in bytes.iter().enumerate() {
        if item == b' ' {
            return i;
        }
    }

    s.len()
}

fn main() {}

接下来,我们使用 iter 方法创建字节数组的迭代器。

fn first_word(s: &String) -> usize {
    let bytes = s.as_bytes();

    for (i, &item) in bytes.iter().enumerate() {
        if item == b' ' {
            return i;
        }
    }

    s.len()
}

fn main() {}

我们将在 第 13 章 中更详细地讨论迭代器。。现在,你需要知道 iter 是一个返回集合中每个元素的方法,而 enumerate 包装 iter 的结果,并将每个元素作为元组的一部分返回。从 enumerate 返回的元组的第一个元素是索引,第二个元素是对元素的引用。这比我们自己计算索引要方便一些。

因为 enumerate 方法返回一个元组,所以我们可以使用模式来解构该元组。我们将在 第 6 章 中更详细地讨论模式。。在 for 循环中,我们指定了一个模式,该模式使用 i 表示元组中的索引,使用 &item 表示元组中的单个字节。因为我们从 .iter().enumerate() 获取对元素的引用,所以我们在模式中使用 &

for 循环内部,我们使用字节字面量语法搜索表示空格的字节。如果找到空格,则返回该位置。否则,我们使用 s.len() 返回字符串的长度。

fn first_word(s: &String) -> usize {
    let bytes = s.as_bytes();

    for (i, &item) in bytes.iter().enumerate() {
        if item == b' ' {
            return i;
        }
    }

    s.len()
}

fn main() {}

我们现在有了一种方法可以找到字符串中第一个单词结尾的索引,但是有一个问题。我们正在返回一个单独的 usize,但它只是一个在 &String 上下文中才有意义的数字。换句话说,因为它是一个与 String 分离的值,所以不能保证它在将来仍然有效。考虑代码清单 4-8 中的程序,它使用了代码清单 4-7 中的 first_word 函数。

文件名:src/main.rs

fn first_word(s: &String) -> usize {
    let bytes = s.as_bytes();

    for (i, &item) in bytes.iter().enumerate() {
        if item == b' ' {
            return i;
        }
    }

    s.len()
}

fn main() {
    let mut s = String::from("hello world");

    let word = first_word(&s); // word will get the value 5

    s.clear(); // this empties the String, making it equal to ""

    // word still has the value 5 here, but there's no more string that
    // we could meaningfully use the value 5 with. word is now totally invalid!
}

代码清单 4-8:存储调用 first_word 函数的结果,然后更改 String 的内容

这个程序编译时没有任何错误,如果我们在调用 s.clear() 后使用 word 也是如此。因为 word 根本没有连接到 s 的状态,所以 word 仍然包含值 5。我们可以将该值 5 与变量 s 一起使用,尝试提取第一个单词,但这将是一个错误,因为在我们将 5 保存到 word 中之后,s 的内容已经发生了变化。

必须担心 word 中的索引与 s 中的数据不同步,这既乏味又容易出错!如果我们编写一个 second_word 函数,则管理这些索引会更加脆弱。它的签名必须如下所示:

fn second_word(s: &String) -> (usize, usize) {

现在我们正在跟踪起始结束索引,并且我们还有更多从特定状态的数据计算出来的值,但这些值根本没有绑定到该状态。我们有三个不相关的变量在四处游荡,需要保持同步。

幸运的是,Rust 针对这个问题有一个解决方案:字符串切片。

字符串切片

字符串切片 是对 String 的一部分的引用,它看起来像这样:

fn main() {
    let s = String::from("hello world");

    let hello = &s[0..5];
    let world = &s[6..11];
}

hello 不是对整个 String 的引用,而是对 String 的一部分的引用,在额外的 [0..5] 位中指定。我们使用方括号内的范围创建切片,方法是指定 [starting_index..ending_index],其中 starting_index 是切片中的第一个位置,ending_index 是切片中最后一个位置的下一个位置。在内部,切片数据结构存储切片的起始位置和长度,这对应于 ending_index 减去 starting_index。因此,在 let world = &s[6..11]; 的情况下,world 将是一个切片,其中包含指向 s 的索引 6 处的字节的指针,长度值为 5

图 4-6 以图表的形式显示了这一点。

Three tables: a table representing the stack data of s, which points
to the byte at index 0 in a table of the string data "hello world" on
the heap. The third table rep-resents the stack data of the slice world, which
has a length value of 5 and points to byte 6 of the heap data table.

图 4-6:字符串切片,引用 String 的一部分

使用 Rust 的 .. 范围语法,如果要从索引 0 开始,则可以删除两个句点前的值。换句话说,以下是等效的:

#![allow(unused)]
fn main() {
let s = String::from("hello");

let slice = &s[0..2];
let slice = &s[..2];
}

同样,如果你的切片包含 String 的最后一个字节,则可以删除尾随数字。这意味着以下是等效的:

#![allow(unused)]
fn main() {
let s = String::from("hello");

let len = s.len();

let slice = &s[3..len];
let slice = &s[3..];
}

你还可以删除这两个值,以获取整个字符串的切片。所以以下是等效的:

#![allow(unused)]
fn main() {
let s = String::from("hello");

let len = s.len();

let slice = &s[0..len];
let slice = &s[..];
}

注意:字符串切片的范围索引必须出现在有效的 UTF-8 字符边界处。如果您尝试在多字节字符的中间创建字符串切片,您的程序将退出并报错。为了介绍字符串切片,我们在本节中假设只使用 ASCII;关于 UTF-8 处理的更详细讨论请参见第 8 章的“使用字符串存储 UTF-8 编码的文本”部分。

了解了所有这些信息后,让我们重写 first_word 以返回一个切片。表示“字符串切片”的类型写为 &str

文件名:src/main.rs

fn first_word(s: &String) -> &str {
    let bytes = s.as_bytes();

    for (i, &item) in bytes.iter().enumerate() {
        if item == b' ' {
            return &s[0..i];
        }
    }

    &s[..]
}

fn main() {}

我们使用与代码清单 4-7 中相同的方式获取单词结尾的索引,方法是查找第一个出现的空格。当我们找到一个空格时,我们使用字符串的开头和空格的索引作为起始和结束索引返回一个字符串切片。

现在,当我们调用 first_word 时,我们会得到一个绑定到底层数据的单个值。该值由指向切片起点的引用和切片中的元素数组成。

返回切片也适用于 second_word 函数

fn second_word(s: &String) -> &str {

我们现在有了一个简单的 API,它更难出错,因为编译器将确保对 String 的引用保持有效。还记得代码清单 4-8 中程序中的错误吗?当我们获得第一个单词结尾的索引,但随后清除了字符串,导致索引无效?该代码在逻辑上不正确,但没有显示任何立即错误。如果我们继续尝试将第一个单词索引与清空的字符串一起使用,则问题会在以后出现。切片使这种错误成为不可能,并让我们更快地知道代码有问题。使用 first_word 的切片版本将引发编译时错误

文件名:src/main.rs

fn first_word(s: &String) -> &str {
    let bytes = s.as_bytes();

    for (i, &item) in bytes.iter().enumerate() {
        if item == b' ' {
            return &s[0..i];
        }
    }

    &s[..]
}

fn main() {
    let mut s = String::from("hello world");

    let word = first_word(&s);

    s.clear(); // error!

    println!("the first word is: {word}");
}

以下是编译器错误

$ cargo run
   Compiling ownership v0.1.0 (file:///projects/ownership)
error[E0502]: cannot borrow `s` as mutable because it is also borrowed as immutable
  --> src/main.rs:18:5
   |
16 |     let word = first_word(&s);
   |                           -- immutable borrow occurs here
17 |
18 |     s.clear(); // error!
   |     ^^^^^^^^^ mutable borrow occurs here
19 |
20 |     println!("the first word is: {}", word);
   |                                       ---- immutable borrow later used here

For more information about this error, try `rustc --explain E0502`.
error: could not compile `ownership` (bin "ownership") due to 1 previous error

回想一下借用规则,如果我们有一个对某个事物的不可变引用,我们就不能再获取可变引用。因为 clear 需要截断 String,所以它需要获取一个可变引用。clear 调用后的 println! 使用 word 中的引用,因此不可变引用必须在该点仍然有效。Rust 不允许 clear 中的可变引用和 word 中的不可变引用同时存在,因此编译失败。Rust 不仅使我们的 API 更易于使用,而且还在编译时消除了一整类错误!

字符串字面量作为切片

回想一下,我们讨论过字符串字面量存储在二进制文件中。现在我们了解了切片,就可以正确理解字符串字面量了

#![allow(unused)]
fn main() {
let s = "Hello, world!";
}

这里 s 的类型是 &str:它是一个指向二进制文件中特定点的切片。这也是字符串字面量不可变的原因;&str 是一个不可变引用。

字符串切片作为参数

知道您可以获取字面量和 String 值的切片后,我们对 first_word 进行了一项改进,那就是它的签名

fn first_word(s: &String) -> &str {

更有经验的 Rustacean 会编写代码清单 4-9 中所示的签名,因为它允许我们在 &String 值和 &str 值上使用相同的函数。

fn first_word(s: &str) -> &str {
    let bytes = s.as_bytes();

    for (i, &item) in bytes.iter().enumerate() {
        if item == b' ' {
            return &s[0..i];
        }
    }

    &s[..]
}

fn main() {
    let my_string = String::from("hello world");

    // `first_word` works on slices of `String`s, whether partial or whole
    let word = first_word(&my_string[0..6]);
    let word = first_word(&my_string[..]);
    // `first_word` also works on references to `String`s, which are equivalent
    // to whole slices of `String`s
    let word = first_word(&my_string);

    let my_string_literal = "hello world";

    // `first_word` works on slices of string literals, whether partial or whole
    let word = first_word(&my_string_literal[0..6]);
    let word = first_word(&my_string_literal[..]);

    // Because string literals *are* string slices already,
    // this works too, without the slice syntax!
    let word = first_word(my_string_literal);
}

代码清单 4-9:通过对 s 参数的类型使用字符串切片来改进 first_word 函数

如果我们有一个字符串切片,我们可以直接传递它。如果我们有一个 String,我们可以传递 String 的切片或对 String 的引用。这种灵活性利用了*解引用强制*,这是一种我们将在第 15 章的“使用函数和方法的隐式解引用强制”部分中介绍的功能。

定义一个函数来接受字符串切片而不是对 String 的引用,这使得我们的 API 更通用、更有用,而不会损失任何功能

文件名:src/main.rs

fn first_word(s: &str) -> &str {
    let bytes = s.as_bytes();

    for (i, &item) in bytes.iter().enumerate() {
        if item == b' ' {
            return &s[0..i];
        }
    }

    &s[..]
}

fn main() {
    let my_string = String::from("hello world");

    // `first_word` works on slices of `String`s, whether partial or whole
    let word = first_word(&my_string[0..6]);
    let word = first_word(&my_string[..]);
    // `first_word` also works on references to `String`s, which are equivalent
    // to whole slices of `String`s
    let word = first_word(&my_string);

    let my_string_literal = "hello world";

    // `first_word` works on slices of string literals, whether partial or whole
    let word = first_word(&my_string_literal[0..6]);
    let word = first_word(&my_string_literal[..]);

    // Because string literals *are* string slices already,
    // this works too, without the slice syntax!
    let word = first_word(my_string_literal);
}

其他切片

您可能已经猜到,字符串切片特定于字符串。但还有一种更通用的切片类型。考虑这个数组

#![allow(unused)]
fn main() {
let a = [1, 2, 3, 4, 5];
}

就像我们可能想要引用字符串的一部分一样,我们也可能想要引用数组的一部分。我们会这样做

#![allow(unused)]
fn main() {
let a = [1, 2, 3, 4, 5];

let slice = &a[1..3];

assert_eq!(slice, &[2, 3]);
}

此切片的类型为 &[i32]。它的工作方式与字符串切片相同,都是通过存储对第一个元素的引用和长度来实现的。您将对所有其他集合使用这种切片。我们将在第 8 章讨论向量时详细讨论这些集合。

总结

所有权、借用和切片的概念在编译时确保了 Rust 程序的内存安全。Rust 语言让您能够像其他系统编程语言一样控制内存使用,但是让数据的所有者在超出范围时自动清理数据意味着您不必编写和调试额外的代码来获得这种控制。

所有权会影响 Rust 中许多其他部分的工作方式,因此我们将在本书的其余部分进一步讨论这些概念。让我们进入第 5 章,看看如何在 struct 中将数据片段组合在一起。