c++分辨读取的文件编码格式是utf-8还是GB2312

直接上代码,有一部分是GPT直接生成的:

#include <QCoreApplication>
#include <QFile>
#include <QTextCodec>
#include <QDebug>

// 判断是否为UTF-8编码
bool isUtf8(const QByteArray &data) {
    int i = 0;
    while (i < data.size()) {
        if ((data[i] & 0x80) == 0) { // 0xxxxxxx
            i++;
            continue;
        }
        if ((data[i] & 0xE0) == 0xC0) { // 110xxxxx 10xxxxxx
            if (i + 1 >= data.size() || (data[i + 1] & 0xC0) != 0x80)
                return false;
            i += 2;
            continue;
        }
        if ((data[i] & 0xF0) == 0xE0) { // 1110xxxx 10xxxxxx 10xxxxxx
            if (i + 2 >= data.size() || (data[i + 1] & 0xC0) != 0x80 || (data[i + 2] & 0xC0) != 0x80)
                return false;
            i += 3;
            continue;
        }
        if ((data[i] & 0xF8) == 0xF0) { // 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
            if (i + 3 >= data.size() || (data[i + 1] & 0xC0) != 0x80 || (data[i + 2] & 0xC0) != 0x80 || (data[i + 3] & 0xC0) != 0x80)
                return false;
            i += 4;
            continue;
        }
        return false;
    }
    return true;
}

// 判断是否为GB2312编码
bool isGb2312(const QByteArray &data) {
    QTextCodec *codec = QTextCodec::codecForName("GB2312");
    if (!codec)
        return false;

    QString decodedString = codec->toUnicode(data);
    QByteArray encodedData = codec->fromUnicode(decodedString);

    return data == encodedData;
}

// 检测文件编码
QString detectEncoding(const QString &filePath) {
    QFile file(filePath);
    if (!file.open(QIODevice::ReadOnly)) {
        qWarning() << "Failed to open file:" << filePath;
        return "Unknown";
    }

    QByteArray data = file.readAll();

    if (isUtf8(data)) {
        return "UTF-8";
    } else if (isGb2312(data)) {
        return "GB2312";
    } else {
        return "Unknown";
    }
}

int main(int argc, char *argv[]) {
    QCoreApplication a(argc, argv);

    QString filePath = "path/to/your/file.txt";
    QString encoding = detectEncoding(filePath);
    qDebug() << "File encoding:" << encoding;

    return a.exec();
}

代码解释

  1. isUtf8函数:通过检查字节模式来判断数据是否符合UTF-8编码的格式。
  2. isGb2312函数:使用Qt的QTextCodec来尝试将数据解码为GB2312,再编码回原始数据进行比较。如果一致,说明数据是GB2312编码。
  3. detectEncoding函数:读取文件内容,并使用isUtf8isGb2312函数来判断文件的编码格式。
  4. main函数:创建Qt应用程序实例,调用detectEncoding函数并输出文件的编码格式。

注意事项

  • 这种方法并不是百分百准确,因为某些字节序列在不同编码下可能都是合法的。因此,检测结果仅供参考。
  • 复杂的字符编码检测通常需要更复杂的算法或使用专门的库,如ICU(International Components for Unicode)。
  • 对于大文件,可以只读取文件的前几KB进行检测,以提高性能。

相关推荐

  1. c++分辨文件编码格式utf-8GB2312

    2024-06-13 15:28:02       30 阅读
  2. js判断上传文件GBK编码UTF-8

    2024-06-13 15:28:02       61 阅读
  3. c++将utf8gb2312

    2024-06-13 15:28:02       26 阅读
  4. C# CSV 文件三种方式分析

    2024-06-13 15:28:02       39 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-13 15:28:02       91 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-13 15:28:02       97 阅读
  3. 在Django里面运行非项目文件

    2024-06-13 15:28:02       78 阅读
  4. Python语言-面向对象

    2024-06-13 15:28:02       88 阅读

热门阅读

  1. MySQL为root用户添加IP地址连接权限

    2024-06-13 15:28:02       30 阅读
  2. 使用 MySQL 子查询和 CASE 语句判断关联状态

    2024-06-13 15:28:02       40 阅读
  3. MySQL 8.3.0 主从热备

    2024-06-13 15:28:02       29 阅读
  4. PaddleDetection安装文档

    2024-06-13 15:28:02       38 阅读
  5. 力士乐伺服电机MKD025B-144-KPO-KN

    2024-06-13 15:28:02       42 阅读
  6. 剧院售票小程序毕业设计源码

    2024-06-13 15:28:02       143 阅读
  7. Golang:使用Blackfriday实现Markdown 转html

    2024-06-13 15:28:02       29 阅读
  8. 向https地址发送请求失败报错

    2024-06-13 15:28:02       27 阅读
  9. 注册用户如何防止缓存穿透?

    2024-06-13 15:28:02       29 阅读