- 计算机将数据(包括文本字符)存储为二进制(1 和 0)。
- ASCII 是一种早期的编码方式,或将字符映射到二进制代码以便计算机可以存储它们。但是,ASCII 没有为非拉丁字符和数字以二进制表示提供足够的空间。
- Unicode 是解决这个问题的方法。Unicode 为每种人类语言中的每个字符分配一个唯一的“代码点”。
- UTF-8 是一种 Unicode 字符编码方法。这意味着 UTF-8 获取给定 Unicode 字符的代码点并将其转换为二进制字符串。它也做相反的事情,读取二进制数字并将它们转换回字符。
- UTF-8 是目前互联网上最流行的编码方法,因为它可以有效地存储包含任何字符的文本。在大多数网站上,UTF-8 编码比 UTF-16 更可取,因为它使用更少的内存。回想一下,UTF-8 将每个 ASCII 字符编码为一个字节。UTF-16 必须以两个或四个字节对这些相同的字符进行编码。这意味着使用 UTF-16 编码的英文文本文件的大小至少是使用 UTF-8 编码的同一文件的两倍。UTF-8 编码的另一个好处是它与 ASCII 的向后兼容性。Unicode 库中的前 128 个字符与 ASCII 库中的字符匹配,UTF-8 将这 128 个 Unicode 字符转换为与 ASCII 相同的二进制字符串。因此,UTF-8 可以采用 ASCII 格式的文本文件并将其转换为人类可读的文本,而不会出现问题。
- UTF-16 是另一种编码方法,但在存储文本文件时效率较低(除了用某些非英语语言编写的文件)。UTF-16 在一些非英文网站上比 UTF-8 更有效率。如果网站使用的语言的字符在 Unicode 库中更远,则 UTF-8 会将所有字符编码为四个字节,而 UTF-16 可能会将许多相同的字符编码为两个字节。尽管如此,如果您的页面充满了 ABC 和 123,请坚持使用 UTF-8。
关于unicode以及utf-8, utf-16,utf-32
2024-02-19 16:02:04 30 阅读