0 NLP: 数据获取与EDA

2023-12-06 17:42:03
开发
59

0数据准备与分析

二分类任务，正负样本共计6W；

数据集下载

https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

样本的分布

正负样本中评论字段的长度，超过500的都很少，可以直接截断；

处理的时候长文本截断；
可以前面取一点，中间取，尾巴取；

下载停用词：备用

import nltk
from nltk.corpus import stopwords

# 下载停用词资源
nltk.download('stopwords')
# 获取中文停用词列表
stopwords_cn_list = stopwords.words('chinese')

中文词向量准备：

https://github.com/Embedding/Chinese-Word-Vectors.git

在初始化阶段预先使用已经训练好的词表进行对应；

文件	说明
vocab.pkl	词映射列表：格式如 {' ': 0, '0': 1, '1': 2, '2': 3, '：': 4, '大': 5, '国': 6, '图': 7, '(': 8,}
embedding_SougouNews.npz	预训练词向量文件，与vocab.pkl中文对应关系。

ref:

中文文本分类 pytorch实现 - 知乎

原文地址:https://blog.csdn.net/qq_28611929/article/details/134667713 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1732334576006729728.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

0 NLP: 数据获取与EDA

2023-12-06 17:42:03 60 阅读
python-NLP常用数据集0.1.012

2023-12-06 17:42:03 33 阅读
NLP数据集的标注笔记0.1.000

2023-12-06 17:42:03 30 阅读
数学逻辑与EDA设计广工期末复习

2023-12-06 17:42:03 62 阅读
EDA 数字时钟

2023-12-06 17:42:03 52 阅读
数据分析案例-中国黄金股票市场的EDA与价格预测

2023-12-06 17:42:03 31 阅读
RNN与NLP

2023-12-06 17:42:03 61 阅读
NTP 协议获取网络时间

2023-12-06 17:42:03 33 阅读
大数据深度解析NLP文本摘要技术：定义、应用与PyTorch实战

2023-12-06 17:42:03 46 阅读
nlp中如何数据增强

2023-12-06 17:42:03 43 阅读

最近更新

题解 - 序列

2023-12-06 17:42:03 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2023-12-06 17:42:03 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2023-12-06 17:42:03 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2023-12-06 17:42:03 100 阅读
NoSQL之Redis非关系型数据库

2023-12-06 17:42:03 101 阅读
2024.7.22 作业

2023-12-06 17:42:03 98 阅读
GDB调试正在运行的程序

2023-12-06 17:42:03 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2023-12-06 17:42:03 85 阅读
在Django里面运行非项目文件

2023-12-06 17:42:03 82 阅读
SSD基本架构与工作原理

2023-12-06 17:42:03 87 阅读
在誉天学习完HCIE就业吗？

2023-12-06 17:42:03 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2023-12-06 17:42:03 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2023-12-06 17:42:03 85 阅读
go 协程池的实现

2023-12-06 17:42:03 89 阅读
Shell脚本循环语句与函数

2023-12-06 17:42:03 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2023-12-06 17:42:03 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2023-12-06 17:42:03 85 阅读
四大引用——强软弱虚

2023-12-06 17:42:03 86 阅读
Python语言-面向对象

2023-12-06 17:42:03 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2023-12-06 17:42:03 85 阅读
网站安全-CDN篇

2023-12-06 17:42:03 89 阅读

热门阅读

【Python 基础 2023 最新】第七课 Pandas

2023-12-06 17:42:03 38 阅读
【Spring Boot 源码学习】BootstrapRegistryInitializer 详解

2023-12-06 17:42:03 61 阅读
【Linux】信号的保存和捕捉

2023-12-06 17:42:03 54 阅读
shopify修改Sort By排序功能

2023-12-06 17:42:03 58 阅读
1. Appflowy 之 Bloc和freezed，理解Bloc和模式匹配

2023-12-06 17:42:03 55 阅读
你真的掌握结构体了么？结构体习题（C语言）

2023-12-06 17:42:03 63 阅读
搜不到你想找的资料？那是你还没有掌握这些搜索技巧

2023-12-06 17:42:03 44 阅读
听力长难句

2023-12-06 17:42:03 54 阅读
八、Lua数组和迭代器

2023-12-06 17:42:03 53 阅读
Mysql timestamp和datetime区别

2023-12-06 17:42:03 45 阅读
如何在Matlab中向饼图添加图例

2023-12-06 17:42:03 51 阅读
如何使用llm 制作多模态

2023-12-06 17:42:03 56 阅读
docker （容器数据卷、创建、读写规则）-day03

2023-12-06 17:42:03 58 阅读
初识Redis

2023-12-06 17:42:03 47 阅读
使用 OpenFunction 在任何基础设施上运行 Serverless 工作负载

2023-12-06 17:42:03 50 阅读
scp 指令详细介绍

2023-12-06 17:42:03 54 阅读
全栈软件开发工程师需要具备哪些技能

2023-12-06 17:42:03 53 阅读
2312skia,16画布

2023-12-06 17:42:03 45 阅读
二、sql绕过过滤

2023-12-06 17:42:03 60 阅读
VT-MRPA1-151-1X/V0/0控制2FRE16模块式模拟放大器

2023-12-06 17:42:03 55 阅读
Redis--10--Pipeline

2023-12-06 17:42:03 55 阅读
Hi-Net：用于多模态MR图像合成的混合融合网络

2023-12-06 17:42:03 49 阅读
跨模态图像翻译：使用具有感知监督的多生成网络合成MR脑图像的CT图像

2023-12-06 17:42:03 46 阅读
Redis对象

2023-12-06 17:42:03 55 阅读
学习数分--简单案例1

2023-12-06 17:42:03 50 阅读
Spark_日期参数解析参数-spark.sql.legacy.timeParserPolicy

2023-12-06 17:42:03 43 阅读
Spark---SparkCore(五)

2023-12-06 17:42:03 49 阅读
使用Redis构建简易社交网站(1)-创建用户与动态界面

2023-12-06 17:42:03 55 阅读
OpenCV实战（33）——OpenCV与深度学习的碰撞

2023-12-06 17:42:03 51 阅读
CPU标高load标高；linux故障日志排查

2023-12-06 17:42:03 67 阅读