使用字符串存储 UTF-8 编码的文本
我们在第 4 章讨论了字符串,但现在我们将更深入地研究它们。Rust 新手通常会在字符串上遇到困难,原因有三:Rust 倾向于暴露可能的错误,字符串是一种比许多程序员认为的更复杂的数据结构,以及 UTF-8。这些因素结合在一起,可能会让你在从其他编程语言转过来时感到困难。
我们在集合的上下文中讨论字符串,因为字符串被实现为字节的集合,以及一些在这些字节被解释为文本时提供有用功能的方法。在本节中,我们将讨论每种集合类型都具有的 String
操作,例如创建、更新和读取。我们还将讨论 String
与其他集合的不同之处,即索引到 String
中会因人和计算机解释 String
数据的方式不同而变得复杂。
什么是字符串?
我们首先定义术语字符串的含义。Rust 在核心语言中只有一种字符串类型,即字符串切片 str
,通常以借用形式 &str
出现。在第 4 章中,我们讨论了字符串切片,它是对存储在其他地方的一些 UTF-8 编码字符串数据的引用。例如,字符串字面量存储在程序的二进制文件中,因此是字符串切片。
String
类型由 Rust 的标准库提供,而不是编码到核心语言中,它是一种可增长、可变、拥有的 UTF-8 编码字符串类型。当 Rustaceans 在 Rust 中提到“字符串”时,他们可能指的是 String
或字符串切片 &str
类型,而不仅仅是其中一种类型。虽然本节主要关于 String
,但这两种类型都在 Rust 的标准库中大量使用,并且 String
和字符串切片都是 UTF-8 编码的。
创建新字符串
许多与 Vec<T>
一起使用的操作也适用于 String
,因为 String
实际上是作为字节向量的包装器实现的,并具有一些额外的保证、限制和功能。与 Vec<T>
和 String
以相同方式工作的函数的一个示例是 new
函数,用于创建实例,如 Listing 8-11 所示。
String
这行代码创建了一个名为 s
的新的空字符串,我们可以在其中加载数据。通常,我们会希望使用一些初始数据来启动字符串。为此,我们使用 to_string
方法,该方法可用于任何实现 Display
trait 的类型,如字符串字面量所示。列表 8-12 显示了两个示例。
to_string
方法从字符串字面量创建 String
此代码创建一个包含 initial contents
的字符串。
我们还可以使用函数 String::from
从字符串字面量创建 String
。列表 8-13 中的代码等效于列表 8-12 中使用 to_string
的代码。
String::from
函数从字符串字面量创建 String
因为字符串用于很多事情,所以我们可以为字符串使用许多不同的通用 API,从而为我们提供了很多选择。其中一些可能看起来是多余的,但它们都有自己的位置!在这种情况下,String::from
和 to_string
做的事情相同,因此选择哪一个取决于风格和可读性。
请记住,字符串是 UTF-8 编码的,因此我们可以在其中包含任何正确编码的数据,如列表 8-14 所示。
所有这些都是有效的 String
值。
更新字符串
String
可以增长大小,并且其内容可以更改,就像 Vec<T>
的内容一样,如果您向其中推送更多数据。此外,您可以方便地使用 +
运算符或 format!
宏来连接 String
值。
使用 push_str
和 push
追加到字符串
我们可以通过使用 push_str
方法追加字符串切片来增长 String
,如列表 8-15 所示。
push_str
方法将字符串切片追加到 String
在这两行之后,s
将包含 foobar
。push_str
方法接受字符串切片,因为我们不一定想取得参数的所有权。例如,在列表 8-16 的代码中,我们希望能够在将 s2
的内容追加到 s1
之后使用 s2
。
String
之后使用字符串切片如果 push_str
方法取得了 s2
的所有权,我们将无法在最后一行打印其值。但是,这段代码按我们的预期工作!
push
方法接受单个字符作为参数,并将其添加到 String
。列表 8-17 使用 push
方法将字母 l 添加到 String
。
push
将一个字符添加到 String
值结果,s
将包含 lol
。
使用 +
运算符或 format!
宏进行连接
通常,您会希望组合两个现有字符串。一种方法是使用 +
运算符,如列表 8-18 所示。
+
运算符将两个 String
值组合成一个新的 String
值字符串 s3
将包含 Hello, world!
。在加法运算之后 s1
不再有效,以及我们使用对 s2
的引用的原因,与当我们使用 +
运算符时调用的方法的签名有关。+
运算符使用 add
方法,其签名如下所示
fn add(self, s: &str) -> String {
在标准库中,您将看到使用泛型和关联类型定义的 add
。在这里,我们替换为具体类型,这是当我们使用 String
值调用此方法时发生的情况。我们将在第 10 章中讨论泛型。此签名为我们提供了理解 +
运算符的棘手之处所需的线索。
首先,s2
有一个 &
,这意味着我们将第二个字符串的引用添加到第一个字符串。这是因为 add
函数中的 s
参数:我们只能将 &str
添加到 String
;我们不能将两个 String
值加在一起。但是等等——&s2
的类型是 &String
,而不是 &str
,正如 add
的第二个参数中指定的那样。那么为什么列表 8-18 可以编译呢?
我们能够在对 add
的调用中使用 &s2
的原因是编译器可以将 &String
参数强制转换为 &str
。当我们调用 add
方法时,Rust 使用解引用强制转换,此处将 &s2
转换为 &s2[..]
。我们将在第 15 章中更深入地讨论解引用强制转换。由于 add
不取得 s
参数的所有权,因此 s2
在此操作之后仍将是有效的 String
。
其次,我们可以在签名中看到 add
取得 self
的所有权,因为 self
没有 &
。这意味着列表 8-18 中的 s1
将被移动到 add
调用中,并且之后将不再有效。因此,尽管 let s3 = s1 + &s2;
看起来会复制两个字符串并创建一个新字符串,但此语句实际上取得了 s1
的所有权,追加了 s2
内容的副本,然后返回结果的所有权。换句话说,它看起来像是进行了很多复制,但事实并非如此;该实现比复制更有效。
如果我们需要连接多个字符串,+
运算符的行为会变得笨拙
此时,s
将是 tic-tac-toe
。由于所有的 +
和 "
字符,很难看清发生了什么。对于以更复杂的方式组合字符串,我们可以改用 format!
宏
此代码也将 s
设置为 tic-tac-toe
。format!
宏的工作方式类似于 println!
,但它不是将输出打印到屏幕上,而是返回一个包含内容的 String
。使用 format!
的代码版本更易于阅读,并且 format!
宏生成的代码使用引用,因此此调用不会取得其任何参数的所有权。
索引字符串
在许多其他编程语言中,通过索引引用来访问字符串中的单个字符是一种有效且常见的操作。但是,如果您尝试在 Rust 中使用索引语法访问 String
的部分内容,则会收到错误。考虑列表 8-19 中的无效代码。
此代码将导致以下错误
$ cargo run
Compiling collections v0.1.0 (file:///projects/collections)
error[E0277]: the type `str` cannot be indexed by `{integer}`
--> src/main.rs:3:16
|
3 | let h = s1[0];
| ^ string indices are ranges of `usize`
|
= help: the trait `SliceIndex<str>` is not implemented for `{integer}`, which is required by `String: Index<_>`
= note: you can use `.chars().nth()` or `.bytes().nth()`
for more information, see chapter 8 in The Book: <https://doc.rust-lang.net.cn/book/ch08-02-strings.html#indexing-into-strings>
= help: the trait `SliceIndex<[_]>` is implemented for `usize`
= help: for that trait implementation, expected `[_]`, found `str`
= note: required for `String` to implement `Index<{integer}>`
For more information about this error, try `rustc --explain E0277`.
error: could not compile `collections` (bin "collections") due to 1 previous error
错误和注释说明了问题:Rust 字符串不支持索引。但为什么不支持呢?要回答这个问题,我们需要讨论 Rust 如何在内存中存储字符串。
内部表示
String
是 Vec<u8>
的包装器。让我们看一下列表 8-14 中一些正确编码的 UTF-8 示例字符串。首先,这个
在这种情况下,len
将为 4
,这意味着存储字符串 "Hola"
的向量的长度为 4 个字节。当以 UTF-8 编码时,这些字母中的每一个都占用一个字节。但是,以下行可能会让您感到惊讶(请注意,此字符串以大写西里尔字母 Ze 开头,而不是数字 3)
如果有人问您字符串有多长,您可能会说是 12。实际上,Rust 的答案是 24:这是以 UTF-8 编码 “Здравствуйте” 所需的字节数,因为该字符串中的每个 Unicode 标量值占用 2 个字节的存储空间。因此,字符串字节的索引并不总是与有效的 Unicode 标量值相关联。为了演示,请考虑以下无效的 Rust 代码
let hello = "Здравствуйте";
let answer = &hello[0];
您已经知道 answer
不会是第一个字母 З
。当以 UTF-8 编码时,З
的第一个字节是 208
,第二个字节是 151
,因此似乎 answer
实际上应该是 208
,但 208
本身不是有效的字符。如果用户要求此字符串的第一个字母,则返回 208
可能不是用户想要的;但是,这是 Rust 在字节索引 0 处拥有的唯一数据。用户通常不希望返回字节值,即使字符串仅包含拉丁字母:如果 &"hi"[0]
是返回字节值的有效代码,它将返回 104
,而不是 h
。
那么,答案是,为了避免返回意外值并导致可能无法立即发现的错误,Rust 根本不编译此代码,并在开发过程的早期防止误解。
字节、标量值和字素簇!天哪!
关于 UTF-8 的另一点是,实际上有三种相关的方式可以从 Rust 的角度看待字符串:作为字节、标量值和字素簇(最接近我们所说的字母的东西)。
如果我们看一下用梵文字体书写的印地语单词 “नमस्ते”,它存储为 u8
值的向量,如下所示
[224, 164, 168, 224, 164, 174, 224, 164, 184, 224, 165, 141, 224, 164, 164,
224, 165, 135]
那是 18 个字节,也是计算机最终存储此数据的方式。如果我们将其视为 Unicode 标量值,即 Rust 的 char
类型,则这些字节看起来像这样
['न', 'म', 'स', '्', 'त', 'े']
这里有六个 char
值,但第四个和第六个不是字母:它们是不单独存在的变音符号。最后,如果我们将其视为字素簇,我们将得到一个人所说的构成印地语单词的四个字母
["न", "म", "स्", "ते"]
Rust 提供了不同的方式来解释计算机存储的原始字符串数据,以便每个程序都可以选择它需要的解释,无论数据使用哪种人类语言。
Rust 不允许我们索引到 String
以获取字符的最后一个原因是,索引操作预计始终以恒定时间 (O(1)) 进行。但是,对于 String
来说,不可能保证这种性能,因为 Rust 必须从头到尾遍历内容到索引才能确定有多少个有效字符。
切片字符串
索引到字符串通常是一个坏主意,因为它不清楚字符串索引操作的返回类型应该是什么:字节值、字符、字素簇还是字符串切片。因此,如果您确实需要使用索引来创建字符串切片,Rust 会要求您更加具体。
与其使用带有单个数字的 []
进行索引,不如使用带有范围的 []
来创建包含特定字节的字符串切片
在这里,s
将是一个 &str
,其中包含字符串的前四个字节。之前,我们提到这些字符中的每一个都是两个字节,这意味着 s
将是 Зд
。
如果我们尝试仅切片字符字节的一部分,例如 &hello[0..1]
,Rust 会在运行时崩溃,就像在向量中访问了无效索引一样
$ cargo run
Compiling collections v0.1.0 (file:///projects/collections)
Finished `dev` profile [unoptimized + debuginfo] target(s) in 0.43s
Running `target/debug/collections`
thread 'main' panicked at src/main.rs:4:19:
byte index 1 is not a char boundary; it is inside 'З' (bytes 0..2) of `Здравствуйте`
note: run with `RUST_BACKTRACE=1` environment variable to display a backtrace
使用范围创建字符串切片时应谨慎,因为这样做可能会导致程序崩溃。
迭代字符串的方法
操作字符串片段的最佳方法是明确说明您想要字符还是字节。对于单个 Unicode 标量值,请使用 chars
方法。在 “Зд” 上调用 chars
会分离出并返回两个类型为 char
的值,您可以迭代结果以访问每个元素
此代码将打印以下内容
З
д
或者,bytes
方法返回每个原始字节,这可能适合您的领域
此代码将打印构成此字符串的四个字节
208
151
208
180
但是请务必记住,有效的 Unicode 标量值可能由多个字节组成。
从字符串中获取字素簇(如梵文字体)很复杂,因此标准库未提供此功能。在 crates.io 上提供了 crate如果这是您需要的功能。
字符串并非如此简单
总而言之,字符串是复杂的。不同的编程语言对如何向程序员展示这种复杂性做出了不同的选择。Rust 选择使正确处理 String
数据成为所有 Rust 程序的默认行为,这意味着程序员必须在前端投入更多精力来处理 UTF-8 数据。与其他编程语言中显而易见的字符串的复杂性相比,这种权衡暴露了更多的复杂性,但它可以防止您在开发生命周期后期处理涉及非 ASCII 字符的错误。
好消息是,标准库提供了许多基于 String
和 &str
类型构建的功能,以帮助正确处理这些复杂情况。请务必查看文档,了解有用的方法,例如用于在字符串中搜索的 contains
和用于将字符串的某些部分替换为另一个字符串的 replace
。
让我们切换到稍微简单一点的内容:哈希映射!