0 NLP: 数据获取与EDA

0数据准备与分析

二分类任务,正负样本共计6W;

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

    正负样本中评论字段的长度 ,超过500的都很少,可以直接截断;

  1. 处理的时候长文本截断;
  2. 可以前面取一点,中间取,尾巴取;

 下载停用词:备用

import nltk
from nltk.corpus import stopwords

# 下载停用词资源
nltk.download('stopwords')
# 获取中文停用词列表
stopwords_cn_list = stopwords.words('chinese')

中文词向量准备:

https://github.com/Embedding/Chinese-Word-Vectors.git

在初始化阶段预先使用已经训练好的词表进行对应;

文件 说明
vocab.pkl 词映射列表:格式如
{' ': 0,
 '0': 1,
 '1': 2,
 '2': 3,
 ':': 4,
 '大': 5,
 '国': 6,
 '图': 7,
 '(': 8,}
embedding_SougouNews.npz 预训练词向量文件 ,与vocab.pkl中文对应关系。

ref:

中文文本分类 pytorch实现 - 知乎

相关推荐

  1. python-NLP常用数据0.1.012

    2023-12-06 17:42:03       33 阅读
  2. NLP数据集的标注笔记0.1.000

    2023-12-06 17:42:03       30 阅读
  3. RNNNLP

    2023-12-06 17:42:03       61 阅读
  4. NTP 协议获取网络时间

    2023-12-06 17:42:03       33 阅读
  5. nlp中如何数据增强

    2023-12-06 17:42:03       43 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-06 17:42:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-06 17:42:03       100 阅读
  3. 在Django里面运行非项目文件

    2023-12-06 17:42:03       82 阅读
  4. Python语言-面向对象

    2023-12-06 17:42:03       91 阅读

热门阅读

  1. 听力长难句

    2023-12-06 17:42:03       54 阅读
  2. Mysql timestamp和datetime区别

    2023-12-06 17:42:03       45 阅读
  3. 如何在Matlab中向饼图添加图例

    2023-12-06 17:42:03       51 阅读
  4. docker (容器数据卷、创建、读写规则)-day03

    2023-12-06 17:42:03       58 阅读
  5. scp 指令详细介绍

    2023-12-06 17:42:03       54 阅读
  6. 全栈软件开发工程师需要具备哪些技能

    2023-12-06 17:42:03       53 阅读
  7. 2312skia,16画布

    2023-12-06 17:42:03       45 阅读
  8. 二、sql绕过过滤

    2023-12-06 17:42:03       60 阅读
  9. Spark_日期参数解析参数-spark.sql.legacy.timeParserPolicy

    2023-12-06 17:42:03       43 阅读