循环神经网络之文本预处理

2024-03-31 21:44:03
开发
33

来源：动手学深度学习

对于序列数据处理问题，我们在 8.1节中评估了所需的统计工具和预测时面临的挑战。这样的数据存在许多种形式，文本是最常见例子之一。例如，一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。本节中，我们将解析文本的常见预处理步骤。这些步骤通常包括：

1.、将文本作为字符串加载到内存中。

2.将字符串拆分为词元（如单词和字符）。

3.建立一个词表，将拆分的词元映射到数字索引。

将文本转换为数字索引序列，方便模型操作。

[https://zh-v2.d2l.ai/chapter_recurrent-neural-networks/text-preprocessing.html](https://zh-v2.d2l.ai/chapter_recurrent-neural-networks/text-preprocessing.html

细节知识点

从文档中只提取字母，将其他字符去掉

def read_time_machine():  #@save
    """将时间机器数据集加载到文本行的列表中"""
    with open(d2l.download('time_machine'), 'r') as f:
        lines = f.readlines()
    return [re.sub('[^A-Za-z]+', ' ', line).strip().lower() for line in lines] # ^ 非

原文地址:https://blog.csdn.net/weixin_39107270/article/details/137081443 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1774432469173538816.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

循环神经网络之文本预处理

2024-03-31 21:44:03 34 阅读
动手学深度学习（Pytorch版）代码实践 -循环神经网络-52文本预处理

2024-03-31 21:44:03 32 阅读
神经网络之循环神经网络

2024-03-31 21:44:03 26 阅读
神经网络——数据预处理

2024-03-31 21:44:03 26 阅读
深度学习之循环神经网络

2024-03-31 21:44:03 60 阅读
深度学习之循环神经网络（基础）

2024-03-31 21:44:03 57 阅读
循环神经网络之序列模型

2024-03-31 21:44:03 41 阅读
循环神经网络-1

2024-03-31 21:44:03 42 阅读
循环神经网络

2024-03-31 21:44:03 62 阅读
043、循环神经网络

2024-03-31 21:44:03 63 阅读

最近更新

题解 - 序列

2024-03-31 21:44:03 122 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-03-31 21:44:03 108 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-03-31 21:44:03 98 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-03-31 21:44:03 106 阅读
NoSQL之Redis非关系型数据库

2024-03-31 21:44:03 108 阅读
2024.7.22 作业

2024-03-31 21:44:03 105 阅读
GDB调试正在运行的程序

2024-03-31 21:44:03 87 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-03-31 21:44:03 90 阅读
在Django里面运行非项目文件

2024-03-31 21:44:03 87 阅读
SSD基本架构与工作原理

2024-03-31 21:44:03 94 阅读
在誉天学习完HCIE就业吗？

2024-03-31 21:44:03 98 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-03-31 21:44:03 90 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-03-31 21:44:03 92 阅读
go 协程池的实现

2024-03-31 21:44:03 93 阅读
Shell脚本循环语句与函数

2024-03-31 21:44:03 96 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-03-31 21:44:03 98 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-03-31 21:44:03 90 阅读
四大引用——强软弱虚

2024-03-31 21:44:03 92 阅读
Python语言-面向对象

2024-03-31 21:44:03 96 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-03-31 21:44:03 91 阅读
网站安全-CDN篇

2024-03-31 21:44:03 93 阅读

热门阅读

突破编程_C++_网络编程（OSI 七层模型（物理层与数据链路层））

2024-03-31 21:44:03 34 阅读
Monkey工具之fastbot-iOS实践

2024-03-31 21:44:03 25 阅读
南京观海微电子---Vitis HLS设计流程介绍——Vitis HLS教程

2024-03-31 21:44:03 33 阅读
CSS实现元素边框渐变动画

2024-03-31 21:44:03 34 阅读
专升本-区块链

2024-03-31 21:44:03 34 阅读
图片标注编辑平台搭建系列教程（6）——fabric渲染原理

2024-03-31 21:44:03 38 阅读
2025中国跨境电商交易会（春季福州）

2024-03-31 21:44:03 33 阅读
F280049的JTAG接口与仿真器XDS100V3六线解法，仿真器供电

2024-03-31 21:44:03 36 阅读
图的广度优先遍历BFS得到各节点的度

2024-03-31 21:44:03 41 阅读
C之易错注意点转义字符，sizeof,scanf,printf

2024-03-31 21:44:03 36 阅读
【八股】IOC

2024-03-31 21:44:03 43 阅读
二分查找中的小细节

2024-03-31 21:44:03 38 阅读
Cesium实现渐变面

2024-03-31 21:44:03 45 阅读
机器学习：探索数据中的模式与智能

2024-03-31 21:44:03 38 阅读
跨越界限：AI大模型在关键技术领域的综合应用

2024-03-31 21:44:03 38 阅读
物理类的EI期刊有哪些？

2024-03-31 21:44:03 35 阅读
ONT60 旋转链表思路分享

2024-03-31 21:44:03 38 阅读
C++ vector模拟实现

2024-03-31 21:44:03 40 阅读
http和https的区别！

2024-03-31 21:44:03 42 阅读
Python - 深度学习系列31 - ollama的搭建与使用

2024-03-31 21:44:03 37 阅读
uniapp开发微信小程序设置分包，简单易学

2024-03-31 21:44:03 41 阅读
Python：魔法函数

2024-03-31 21:44:03 42 阅读
如何使用Axure RP制作网页原型并结合IIS服务实现公网访问本地HTML网页

2024-03-31 21:44:03 41 阅读
【力扣刷题日记】1173.即时食物配送I

2024-03-31 21:44:03 39 阅读
滑动窗口算法详解及应用示例

2024-03-31 21:44:03 42 阅读
第十五届蓝桥杯第二期模拟赛——python

2024-03-31 21:44:03 37 阅读
CTFSHOW代码审计模块wp

2024-03-31 21:44:03 44 阅读
EyouCMS换服务器网站内页出现大量404页面（已解决）

2024-03-31 21:44:03 31 阅读
【THM】SQL Injection（SQL注入）-初级渗透测试

2024-03-31 21:44:03 47 阅读
AI预测福彩3D第22弹【2024年3月31日预测--第5套算法开始计算第4次测试】

2024-03-31 21:44:03 48 阅读