c++11 标准模板(STL)本地化库 - 平面类别(std::codecvt) - 在字符编码间转换,包括 UTF-8、UTF-16、UTF-32 (四)

本地化库

本地环境设施包含字符分类和字符串校对、数值、货币及日期/时间格式化和分析,以及消息取得的国际化支持。本地环境设置控制流 I/O 、正则表达式库和 C++ 标准库的其他组件的行为。

平面类别

在字符编码间转换,包括 UTF-8、UTF-16、UTF-32

std::codecvt
template<

    class InternT,
    class ExternT,
    class State

> class codecvt;

std::codecvt 封装字符串的转换,包括宽和多字节,从一种编码到另一种。通过 std::basic_fstream<CharT> 进行的所有 I/O 操作都使用流中感染的 std::codecvt<CharT, char, std::mbstate_t> 本地环境平面。

继承图

标准库提供以下独立(本地环境无关)特化:

定义于头文件 <locale>

std::codecvt<char, char, std::mbstate_t> 恒等转换
std::codecvt<char16_t, char, std::mbstate_t> 在 UTF-16 和 UTF-8 间转换 (C++11 起)(C++20 中弃用)
std::codecvt<char16_t, char8_t, std::mbstate_t> 在 UTF-16 和 UTF-8 间转换 (C++20 起)
std::codecvt<char32_t, char, std::mbstate_t> 在 UTF-32 和 UTF-8 间转换 (C++11 起)(C++20 中弃用)
std::codecvt<char32_t, char8_t, std::mbstate_t> 在 UTF-32 和 UTF-8 间转换 (C++20 起)
std::codecvt<wchar_t, char, std::mbstate_t> 在系统原生宽和单字节窄字符集间转换

另外, C++ 程序中构造每个的 locale 对象实现其自身的四个特化的( locale 限定)版本。

成员类型

成员类型 定义
intern_type InternT
extern_type ExternT
state_type State

调用 do_unshift & 为不完整转换生成 externT 字符的终止字符序列
std::codecvt<InternT,ExternT,State>::unshift, do_unshift
public:

result unshift( StateT& state,
                ExternT* to,
                ExternT* to_end,

                ExternT*& to_next) const;
(1)
protected:

virtual result do_unshift( StateT& state,
                           ExternT* to,
                           ExternT* to_end,

                           ExternT*& to_next) const;
(2)

1) 公开成员函数,调用最终导出类的成员函数 do_unshift

2) 若此 codecvt 所表示的编码依赖状态,而 state 表示的转换状态不是初始迁移状态,则写入返回初始迁移状态所需的字符。字符被写入首元素为 to 所指向的字符数组。不写入多于 to_end-to 个字符。更新参数 to_next 以指向最后写入字符的后一位置。

返回值

std::codecvt_base::result 类型值,指示成功状况如下:

ok 已写入所有所需字符。 state 现在表示初始迁移状态
partial 输出缓冲区中空间不足。 to_next == to_end
error 出现未指明的错误
noconv 编码不依赖状态,不需要终止序列

非转换特化 std::codecvt<char, char, std::mbstate_t> 始终返回 std::codecvt_base::noconv 。

注意

此函数为 std::basic_filebuf::close() 所调用,并在终止化依赖状态的多字节序列的情形中被调用。

调用示例

#include <iostream>
#include <string>
#include <locale>

int main()
{
    std::locale::global(std::locale("Chinese (Simplified)_China.936"));
    auto& use_facet = std::use_facet<std::codecvt<wchar_t, char, std::mbstate_t>>(std::locale());
    std::string external = "ABCDEFG";
    // 注意 wstring_convert 能进行下列内容
    std::mbstate_t mbstate_t = std::mbstate_t(); // 初始迁移状态
    std::string internal(external.size(), '\0');
    char* to_next = nullptr;
    use_facet.unshift(mbstate_t,
                      &external[0], &external[external.size()], to_next);
    // 为简略跳过错误检查
    internal.resize(to_next - &internal[0]);
    std::cout << L"The string in wide encoding: " << internal << std::endl;

    return 0;
}

输出

The string in wide encoding: ABCDEFG

最近更新

  1. TCP协议是安全的吗?

    2024-04-15 07:40:02       17 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-15 07:40:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-15 07:40:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-15 07:40:02       18 阅读

热门阅读

  1. 【计算机网络】(一)计算机网络概述

    2024-04-15 07:40:02       13 阅读
  2. excel表导入导出

    2024-04-15 07:40:02       17 阅读
  3. Linux kernel 墙上时间

    2024-04-15 07:40:02       30 阅读
  4. Spark开窗函数之ROW

    2024-04-15 07:40:02       14 阅读