使用字符串存储 UTF-8 编码的文本

我们在第 4 章讨论了字符串，但现在将更深入地探讨它们。新的 Rustaceans（Rust 社区成员）通常会因为三个原因的结合而在字符串上遇到困惑：Rust 倾向于暴露潜在错误、字符串是比许多程序员认为的更复杂的数据结构以及 UTF-8。当你从其他编程语言转来时，这些因素结合在一起的方式可能会让人觉得困难。

我们在集合的上下文中讨论字符串，因为字符串是作为字节的集合实现的，并带有一些方法，当这些字节被解释为文本时，它们提供有用的功能。在本节中，我们将讨论 `String` 具有的与所有集合类型相同的操作，例如创建、更新和读取。我们还将讨论 `String` 与其他集合的不同之处，即对 `String` 进行索引的复杂性，这源于人们和计算机解释 `String` 数据方式的差异。

什么是字符串？

我们将首先定义我们所说的*字符串*是什么意思。Rust 在核心语言中只有一种字符串类型，那就是字符串切片 `str`，它通常以借用形式 `&str` 出现。在第 4 章中，我们讨论了*字符串切片*，它们是对存储在其他地方的 UTF-8 编码的字符串数据的引用。例如，字符串字面量存储在程序的二进制文件中，因此是字符串切片。

`String` 类型由 Rust 的标准库提供，而不是编码到核心语言中，它是一个可增长、可变、拥有所有权、UTF-8 编码的字符串类型。当 Rustaceans 在 Rust 中提到“字符串”时，他们可能指的是 `String` 或字符串切片 `&str` 类型，而不是仅指其中一种。虽然本节主要讨论 `String`，但这两种类型都在 Rust 的标准库中被大量使用，并且 `String` 和字符串切片都是 UTF-8 编码的。

创建新字符串

`Vec<T>` 的许多可用操作对于 `String` 也是可用的，因为 `String` 实际上是实现为字节向量的封装，并带有额外的保证、限制和能力。与 `Vec<T>` 和 `String` 工作方式相同的函数的一个例子是 `new` 函数，用于创建实例，如列表 8-11 所示。

fn main() {
    let mut s = String::new();
}

列表 8-11：创建一个新的空 `String`

这行代码创建一个名为 `s` 的新的空字符串，然后我们可以向其中加载数据。通常，我们会有一些初始数据，我们希望字符串以此开始。为此，我们使用 `to_string` 方法，该方法在实现了 `Display` trait 的任何类型上都可用，就像字符串字面量一样。列表 8-12 显示了两个示例。

fn main() {
    let data = "initial contents";

    let s = data.to_string();

    // The method also works on a literal directly:
    let s = "initial contents".to_string();
}

列表 8-12：使用 `to_string` 方法从字符串字面量创建 `String`

此代码创建一个包含 `initial contents` 的字符串。

我们也可以使用 `String::from` 函数从字符串字面量创建 `String`。列表 8-13 中的代码等价于列表 8-12 中使用 `to_string` 的代码。

fn main() {
    let s = String::from("initial contents");
}

列表 8-13：使用 `String::from` 函数从字符串字面量创建 `String`

由于字符串用途非常广泛，我们可以对字符串使用许多不同的通用 API，这为我们提供了很多选择。其中一些可能看起来有些冗余，但它们都有各自的用处！在这种情况下，`String::from` 和 `to_string` 的作用相同，所以选择哪一个取决于风格和可读性。

记住字符串是 UTF-8 编码的，所以我们可以在其中包含任何正确编码的数据，如列表 8-14 所示。

fn main() {
    let hello = String::from("السلام عليكم");
    let hello = String::from("Dobrý den");
    let hello = String::from("Hello");
    let hello = String::from("שלום");
    let hello = String::from("नमस्ते");
    let hello = String::from("こんにちは");
    let hello = String::from("안녕하세요");
    let hello = String::from("你好");
    let hello = String::from("Olá");
    let hello = String::from("Здравствуйте");
    let hello = String::from("Hola");
}

列表 8-14：在字符串中存储不同语言的问候语

所有这些都是合法的 `String` 值。

更新字符串

`String` 可以增长大小，其内容可以改变，就像 `Vec<T>` 的内容一样，如果你向其中推入更多数据的话。此外，你可以方便地使用 `+` 运算符或 `format!` 宏来连接 `String` 值。

使用 `push_str` 和 `push` 向字符串末尾添加内容

我们可以通过使用 `push_str` 方法附加一个字符串切片来增长 `String`，如列表 8-15 所示。

fn main() {
    let mut s = String::from("foo");
    s.push_str("bar");
}

列表 8-15：使用 `push_str` 方法向 `String` 附加字符串切片

这两行代码之后，`s` 将包含 `foobar`。`push_str` 方法接受字符串切片是因为我们不一定想要取得参数的所有权。例如，在列表 8-16 中的代码中，我们希望在将 `s2` 的内容附加到 `s1` 之后仍然能够使用 `s2`。

fn main() {
    let mut s1 = String::from("foo");
    let s2 = "bar";
    s1.push_str(s2);
    println!("s2 is {s2}");
}

列表 8-16：在将字符串切片内容附加到 `String` 之后使用该字符串切片

如果 `push_str` 方法取得 `s2` 的所有权，我们就无法在最后一行打印它的值。然而，这段代码却如我们期望地那样工作！

`push` 方法接受一个单独的字符作为参数，并将其添加到 `String` 中。列表 8-17 使用 `push` 方法向 `String` 添加字母 *l*。

fn main() {
    let mut s = String::from("lo");
    s.push('l');
}

列表 8-17：使用 `push` 向 `String` 值添加一个字符

结果，`s` 将包含 `lol`。

使用 `+` 运算符或 `format!` 宏进行拼接

通常，你会想要组合两个现有字符串。一种方法是使用 `+` 运算符，如列表 8-18 所示。

fn main() {
    let s1 = String::from("Hello, ");
    let s2 = String::from("world!");
    let s3 = s1 + &s2; // note s1 has been moved here and can no longer be used
}

列表 8-18：使用 `+` 运算符将两个 `String` 值组合成一个新的 `String` 值

字符串 `s3` 将包含 `Hello, world!`。`s1` 在相加后不再有效的原因，以及我们对 `s2` 使用引用的原因，与使用 `+` 运算符时调用的方法的签名有关。`+` 运算符使用了 `add` 方法，其签名看起来像这样：

fn add(self, s: &str) -> String {

在标准库中，你会看到 `add` 是使用泛型和关联类型定义的。这里，我们代入了具体类型，这是我们用 `String` 值调用此方法时发生的情况。我们将在第 10 章讨论泛型。这个签名提供了理解 `+` 运算符棘手之处所需的线索。

首先，`s2` 有一个 `&`，这意味着我们将第二个字符串的*引用*添加到第一个字符串。这是因为 `add` 函数中的 `s` 参数：我们只能将 `&str` 添加到 `String`；我们不能将两个 `String` 值相加。但等等——`&s2` 的类型是 `&String`，而不是 `&str`，这与 `add` 的第二个参数中指定的不符。那么为什么列表 8-18 会编译通过呢？

我们在调用 `add` 中能够使用 `&s2` 的原因是编译器可以将 `&String` 参数*强制解引用*为 `&str`。当我们调用 `add` 方法时，Rust 使用了*强制解引用*，它在这里将 `&s2` 变成了 `&s2[..]`。我们将在第 15 章更深入地讨论强制解引用。因为 `add` 不会取得 `s` 参数的所有权，所以 `s2` 在此操作后仍然是一个有效的 `String`。

其次，我们可以在签名中看到 `add` 取得 `self` 的所有权，因为 `self` *没有* `&`。这意味着列表 8-18 中的 `s1` 将被移动到 `add` 调用中，之后将不再有效。所以，尽管 `let s3 = s1 + &s2;` 看起来会复制两个字符串并创建一个新的，实际上该语句取得了 `s1` 的所有权，附加 `s2` 内容的副本，然后返回结果的所有权。换句话说，它看起来好像进行了很多复制，但事实并非如此；其实现比复制更高效。

如果我们需要连接多个字符串，`+` 运算符的行为就会变得难以管理：

fn main() {
    let s1 = String::from("tic");
    let s2 = String::from("tac");
    let s3 = String::from("toe");

    let s = s1 + "-" + &s2 + "-" + &s3;
}

此时，`s` 将是 `tic-tac-toe`。所有这些 `+` 和 `"` 字符让代码很难看清正在发生什么。以更复杂的方式组合字符串时，我们可以使用 `format!` 宏代替：

fn main() {
    let s1 = String::from("tic");
    let s2 = String::from("tac");
    let s3 = String::from("toe");

    let s = format!("{s1}-{s2}-{s3}");
}

此代码也将 `s` 设置为 `tic-tac-toe`。`format!` 宏的工作方式类似于 `println!`，但不是将输出打印到屏幕上，而是返回一个包含内容的 `String`。使用 `format!` 的代码版本更容易阅读，并且 `format!` 宏生成的代码使用引用，因此此调用不会取得任何参数的所有权。

字符串索引

在许多其他编程语言中，通过索引引用来访问字符串中的单个字符是有效且常见的操作。然而，如果你尝试在 Rust 中使用索引语法访问 `String` 的一部分，你会得到一个错误。考虑列表 8-19 中的无效代码。

fn main() {
    let s1 = String::from("hi");
    let h = s1[0];
}

列表 8-19：尝试对 `String` 使用索引语法

此代码将导致以下错误：

$ cargo run
   Compiling collections v0.1.0 (file:///projects/collections)
error[E0277]: the type `str` cannot be indexed by `{integer}`
 --> src/main.rs:3:16
  |
3 |     let h = s1[0];
  |                ^ string indices are ranges of `usize`
  |
  = note: you can use `.chars().nth()` or `.bytes().nth()`
          for more information, see chapter 8 in The Book: <https://doc.rust-lang.net.cn/book/ch08-02-strings.html#indexing-into-strings>
  = help: the trait `SliceIndex<str>` is not implemented for `{integer}`
          but trait `SliceIndex<[_]>` is implemented for `usize`
  = help: for that trait implementation, expected `[_]`, found `str`
  = note: required for `String` to implement `Index<{integer}>`

For more information about this error, try `rustc --explain E0277`.
error: could not compile `collections` (bin "collections") due to 1 previous error

错误信息和附注说明了问题：Rust 字符串不支持索引。但为什么呢？要回答这个问题，我们需要讨论 Rust 如何在内存中存储字符串。

内部表示

`String` 是 `Vec<u8>` 的封装。让我们看看列表 8-14 中一些正确编码的 UTF-8 示例字符串。首先是这个：

fn main() {
    let hello = String::from("السلام عليكم");
    let hello = String::from("Dobrý den");
    let hello = String::from("Hello");
    let hello = String::from("שלום");
    let hello = String::from("नमस्ते");
    let hello = String::from("こんにちは");
    let hello = String::from("안녕하세요");
    let hello = String::from("你好");
    let hello = String::from("Olá");
    let hello = String::from("Здравствуйте");
    let hello = String::from("Hola");
}

在这种情况下，`len` 将是 `4`，这意味着存储字符串 `"Hola"` 的向量长 4 字节。每个字母在 UTF-8 编码时占用一个字节。然而，下面这行可能会让你感到惊讶（注意，这个字符串以西里尔字母大写 *Ze* 开头，而不是数字 3）：

fn main() {
    let hello = String::from("السلام عليكم");
    let hello = String::from("Dobrý den");
    let hello = String::from("Hello");
    let hello = String::from("שלום");
    let hello = String::from("नमस्ते");
    let hello = String::from("こんにちは");
    let hello = String::from("안녕하세요");
    let hello = String::from("你好");
    let hello = String::from("Olá");
    let hello = String::from("Здравствуйте");
    let hello = String::from("Hola");
}

如果问你这个字符串有多长，你可能会说 12。实际上，Rust 的答案是 24：这是在 UTF-8 中编码 “Здравствуйте” 所需的字节数，因为该字符串中的每个 Unicode 标量值占用 2 个字节的存储空间。因此，对字符串字节的索引并不总是对应一个有效的 Unicode 标量值。为了说明这一点，请考虑这段无效的 Rust 代码：

let hello = "Здравствуйте";
let answer = &hello[0];

你已经知道 `answer` 不会是第一个字母 `З`。当使用 UTF-8 编码时，`З` 的第一个字节是 `208`，第二个字节是 `151`，所以看起来 `answer` 实际上应该是 `208`，但 `208` 本身并不是一个有效的字符。如果用户询问此字符串的第一个字母，他们很可能不希望返回 `208`；然而，这是 Rust 在字节索引 0 处拥有的唯一数据。用户通常不希望返回字节值，即使字符串只包含拉丁字母：如果 `&"hi"[0]` 是返回字节值的有效代码，它将返回 `104`，而不是 `h`。

那么答案就是，为了避免返回意外的值并导致可能无法立即发现的 bug，Rust 根本不会编译这段代码，并在开发过程早期就阻止误解。

字节、标量值和字素簇！天哪！

关于 UTF-8 的另一点是，从 Rust 的角度看字符串，实际上有三种相关的观察方式：作为字节、标量值和字素簇（最接近我们所说的*字母*的东西）。

如果看用天城文书写的印地语单词 “नमस्ते”，它存储为一个 `u8` 值向量，看起来像这样：

[224, 164, 168, 224, 164, 174, 224, 164, 184, 224, 165, 141, 224, 164, 164,
224, 165, 135]

那是 18 个字节，这是计算机最终存储此数据的方式。如果我们将它们看作 Unicode 标量值，这正是 Rust 的 `char` 类型，这些字节看起来像这样：

['न', 'म', 'स', '्', 'त', 'े']

这里有六个 `char` 值，但第四个和第六个不是字母：它们是独立来看没有意义的变音符号。最后，如果我们将它们看作字素簇，我们会得到人们所称的组成印地语单词的四个字母：

["न", "म", "स्", "ते"]

Rust 提供了不同的解释原始字符串数据的方式，以便每个程序都可以选择所需的解释，无论数据是什么人类语言。

Rust 不允许我们索引字符串以获取字符的最后一个原因是索引操作通常预期总是花费常数时间 (O(1))。但对于 `String` 来说，无法保证这种性能，因为 Rust 必须从头开始遍历内容到索引位置，以确定有多少个有效的字符。

字符串切片

对字符串进行索引通常是个坏主意，因为它不清楚字符串索引操作的返回类型应该是什么：字节值、字符、字素簇或字符串切片。因此，如果你确实需要使用索引来创建字符串切片，Rust 要求你更具体一些。

与使用单个数字进行 `[]` 索引不同，你可以使用一个范围 `[]` 来创建一个包含特定字节的字符串切片：

#![allow(unused)]
fn main() {
let hello = "Здравствуйте";

let s = &hello[0..4];
}

在这里，`s` 将是一个包含字符串前四个字节的 `&str`。前面我们提到这些字符每个占两个字节，这意味着 `s` 将是 `Зд`。

如果尝试只切片一个字符的部分字节，例如 `&hello[0..1]`，Rust 会在运行时发生 panic，这与访问向量中的无效索引时发生的情况相同：

$ cargo run
   Compiling collections v0.1.0 (file:///projects/collections)
    Finished `dev` profile [unoptimized + debuginfo] target(s) in 0.43s
     Running `target/debug/collections`

thread 'main' panicked at src/main.rs:4:19:
byte index 1 is not a char boundary; it is inside 'З' (bytes 0..2) of `Здравствуйте`
note: run with `RUST_BACKTRACE=1` environment variable to display a backtrace

使用范围创建字符串切片时应谨慎，因为这样做可能导致程序崩溃。

字符串迭代方法

处理字符串片段的最佳方法是明确说明你想要的是什么，无论是字符还是字节。对于单个 Unicode 标量值，请使用 `chars` 方法。对 “Зд” 调用 `chars` 会分离并返回两个 `char` 类型的值，你可以迭代结果来访问每个元素：

#![allow(unused)]
fn main() {
for c in "Зд".chars() {
    println!("{c}");
}
}

此代码将打印如下内容：

З
д

或者，`bytes` 方法返回每个原始字节，这可能适用于你的场景：

#![allow(unused)]
fn main() {
for b in "Зд".bytes() {
    println!("{b}");
}
}

此代码将打印组成此字符串的四个字节：

但务必记住，有效的 Unicode 标量值可能由不止一个字节组成。

从字符串获取字素簇（例如天城文）很复杂，因此标准库不提供此功能。如果你需要此功能的话，crates.io 上有可用的 crate（第三方库）。如果你需要此功能的话。

字符串没那么简单

总结一下，字符串很复杂。不同的编程语言在如何向程序员呈现这种复杂性上做出了不同的选择。Rust 选择将正确处理 `String` 数据作为所有 Rust 程序的默认行为，这意味着程序员必须预先更深入地思考如何处理 UTF-8 数据。这种权衡暴露了比其他编程语言中更明显的字符串复杂性，但避免了你在开发生命周期后期处理涉及非 ASCII 字符的错误。

好消息是，标准库提供了很多基于 `String` 和 `&str` 类型构建的功能，以帮助正确处理这些复杂情况。务必查阅文档以了解有用的方法，例如用于搜索字符串的 `contains` 和用于替换字符串部分的 `replace`。

让我们切换到一些稍微不那么复杂的内容：哈希 map！