【python】swjtu西南交大互联网搜索引擎项目一报告：搜索引擎文本预处理

2024-04-25 13:26:01
开发
13

项目要求：

通过下载引擎(Web Crawler/Spider)自动下载至少500个英文文档/网页，以及500个中文文档/网页，越多越好，并保留原始的文档/网页备份(如:News_1_Org.txt）

编程对所下载文档进行自动预处理:

将各个单词进行字符化，完成删除特殊字符、大小写转换等操作

调研并选择合适的中文分词技术和工具实现中文分词

删除英文停用词(Stop Word)

删除中文停用词

调用或者编程实现英文Porter Stemming功能

将中文文档进行字符化，即可被搜索引擎索引的字符单元

对于英文文档，经过以上处理之后，将经过处理之后所形成简化文档保存（如:News_1_E.txt），以备以后的索引处理

对于中文文档，经过以上处理之后，将经过处理之后所形成简化文档保存（如:News_1_C.txt），以备以后的索引处理

实现过程

文档下载

使用python的第三方库requests，可以向服务器发送http的get请求获得响应数据，利用库bs4的BeautifulSoup对获得的html内容进行解析，除去标签，只提取出文本内容，保存至文件。

预处理

中文文档原始内容进行分词前还利用了正则表达式删去了非中文字符。中文分词用到的是第三方库jieba。

英文文档用了正则表达式删去了一些特殊字符，比如句号，分号，问号，逗号，保留了单词里的连字符。并用函数lower()将所有英文字母转化成了小写。后续处理用到的是第三方库nltk，可以实现分词（英文每个单词已经分开，此处的分词是指快捷地返回词的列表）、删去停用词和Porter Stemming功能。

参考视频：

Python 【00-先导课】爆肝两个月！拜托三连了！这绝对是全B站最用心（没有之一）的Python+爬虫公开课程，从入门到（不）入狱！_哔哩哔哩_bilibili

【Python Jieba 中文分词工具-哔哩哔哩】 01 - jieba 工具介绍_哔哩哔哩_bilibili

【英文分词 | 自定义词组 | 词形还原 | 词频统计【python-nltk】-哔哩哔哩】英文分词 | 自定义词组 | 词形还原 | 词频统计【python-nltk】_哔哩哔哩_bilibili

参考文章

【小沐学NLP】Python使用NLTK库的入门教程-CSDN博客

Python——jieba优秀的中文分词库（基础知识+实例）-CSDN博客

报告下载

https://download.csdn.net/download/qq_61814350/89207414

原文地址:https://blog.csdn.net/qq_61814350/article/details/138170303 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1783366834297376768.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

【python】swjtu西南交大互联网搜索引擎项目一报告：搜索引擎文本预处理

2024-04-25 13:26:01 14 阅读
项目实战--文档搜索引擎

2024-04-25 13:26:01 5 阅读
搜索引擎项目

2024-04-25 13:26:01 17 阅读
GoDance分布式搜索引擎项目

2024-04-25 13:26:01 45 阅读
CPP项目：Boost搜索引擎

2024-04-25 13:26:01 27 阅读
【项目】Boost 搜索引擎

2024-04-25 13:26:01 21 阅读
项目实现：Boost搜索引擎

2024-04-25 13:26:01 16 阅读
项目——boost搜索引擎

2024-04-25 13:26:01 13 阅读
【项目】Boost搜索引擎

2024-04-25 13:26:01 12 阅读
分布式搜索引擎elasticsearch(一）

2024-04-25 13:26:01 27 阅读

热门阅读

递归、搜索与回溯算法：综合练习

2024-04-25 13:26:01 11 阅读
tomcat排错实战

2024-04-25 13:26:01 12 阅读
【spring】springProperty 使用

2024-04-25 13:26:01 13 阅读
MT3027 red and blue

2024-04-25 13:26:01 16 阅读
日期类的实现

2024-04-25 13:26:01 13 阅读
c++实战篇(二)——基于自旋锁实现的日志服务模块

2024-04-25 13:26:01 14 阅读
深入浅出SSH

2024-04-25 13:26:01 12 阅读
Android中的屏幕刷新机制（动画视频形象说明机制）

2024-04-25 13:26:01 13 阅读
AT Disk Imager (v1.0.0.2) : 一个自动烧录树莓派镜像的软件

2024-04-25 13:26:01 13 阅读
Python项目开发实战：网络爬虫批量采集股票数据保存到Excel中

2024-04-25 13:26:01 13 阅读
微前端qiankun

2024-04-25 13:26:01 12 阅读
人工智能在现代科技中的应用和未来发展趋势

2024-04-25 13:26:01 12 阅读
前端处理树形数组的几种情况

2024-04-25 13:26:01 13 阅读
vue 钩子函数

2024-04-25 13:26:01 10 阅读
智己汽车数据驱动中心PMO高级经理张晶女士受邀为第十三届中国PMO大会演讲嘉宾

2024-04-25 13:26:01 11 阅读
如何部署 wfs 分布式服务

2024-04-25 13:26:01 11 阅读
ES5、ES6类的定义

2024-04-25 13:26:01 10 阅读
stm32程序死机怎么回事

2024-04-25 13:26:01 15 阅读
spring boot3单模块项目工程搭建-上（个人开发模板）

2024-04-25 13:26:01 10 阅读
Linux shell编程学习笔记47：lsof命令

2024-04-25 13:26:01 13 阅读
C++ STL简介

2024-04-25 13:26:01 13 阅读
大数的指数运算

2024-04-25 13:26:01 10 阅读
某钢结构厂房设计（二层）

2024-04-25 13:26:01 11 阅读
设备驱动-随记

2024-04-25 13:26:01 10 阅读
在win下,python如何调用.so库

2024-04-25 13:26:01 12 阅读
电力电子技术——整流电路详解

2024-04-25 13:26:01 13 阅读
【Linux网络】DHCP原理与配置

2024-04-25 13:26:01 13 阅读
如何有效利用chatgpt?

2024-04-25 13:26:01 12 阅读
论基于架构的软件设计方法及应用

2024-04-25 13:26:01 14 阅读
微信小程序扩展Page页面的Mixins

2024-04-25 13:26:01 14 阅读