Python爬虫实战(基础篇)—14获取【巴黎圣母院新闻网(Notre Dame News)】新闻写入Word（附完整代码）

2024-03-13 18:08:05
开发
40

文章目录

专栏导读
背景
1、网页分析+找到【Latest News】的URL
2、测试请求
- 测试代码如下
3、数据清洗+获取【Latest News】中每一个新闻的URL
4、获取每一篇新闻
5、写入Word文档中
6、完整代码
总结

请添加图片描述

专栏导读

🔥🔥本文已收录于《Python基础篇爬虫》

🉑🉑本专栏专门针对于有爬虫基础准备的一套基础教学，轻松掌握Python爬虫，欢迎各位同学订阅，专栏订阅地址：点我直达

🤞🤞此外如果您已工作，如需利用Python解决办公中常见的问题，欢迎订阅《Python办公自动化》专栏，订阅地址：点我直达
的
🔺🔺此外《Python30天从入门到熟练》专栏已上线，欢迎大家订阅，订阅地址：点我直达

背景

我是一个非常喜欢新闻的网友，特别喜欢的新闻网站是【巴黎圣母院新闻网】，我想获取每日的最新新闻，然后再写入Word中，方便我查看

1、网页分析+找到【Latest News】的URL

①、首先我们发现请求响应的返回在【Response】中；
②、我们发现网页中有【a】标签，存放着文章url链接
③、所以我们决定此次爬虫应该是用 lxml+xpath比较合适，说干就干！
④、请求方法是【GET】
⑤、请求参数是：无

在这里插入图片描述

2、测试请求

我们发现测试请求成功！

在这里插入图片描述

测试代码如下

# -*- coding: UTF-8 -*-
'''
@Project ：巴黎圣母院新闻网(Notre Dame News)
@File    ：main_.py
@IDE     ：PyCharm
@Author  ：一晌小贪欢（278865463@qq.com）
@Date    ：2024/3/12 10:12
'''
import json

import requests

url = 'https://news.nd.edu/'

headers = {
   
    'User-Agent'

原文地址:https://blog.csdn.net/weixin_42636075/article/details/136643021 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1767855139684749312.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-03-13 18:08:05 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-03-13 18:08:05 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-03-13 18:08:05 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-03-13 18:08:05 100 阅读
NoSQL之Redis非关系型数据库

2024-03-13 18:08:05 101 阅读
2024.7.22 作业

2024-03-13 18:08:05 96 阅读
GDB调试正在运行的程序

2024-03-13 18:08:05 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-03-13 18:08:05 85 阅读
在Django里面运行非项目文件

2024-03-13 18:08:05 82 阅读
SSD基本架构与工作原理

2024-03-13 18:08:05 87 阅读
在誉天学习完HCIE就业吗？

2024-03-13 18:08:05 93 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-03-13 18:08:05 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-03-13 18:08:05 85 阅读
go 协程池的实现

2024-03-13 18:08:05 88 阅读
Shell脚本循环语句与函数

2024-03-13 18:08:05 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-03-13 18:08:05 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-03-13 18:08:05 85 阅读
四大引用——强软弱虚

2024-03-13 18:08:05 86 阅读
Python语言-面向对象

2024-03-13 18:08:05 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-03-13 18:08:05 85 阅读
网站安全-CDN篇

2024-03-13 18:08:05 88 阅读

热门阅读

yield代码解释

2024-03-13 18:08:05 41 阅读
蓝桥杯图形排版

2024-03-13 18:08:05 45 阅读
git pull拉下来的信息解读

2024-03-13 18:08:05 43 阅读
基于Matlab实现免疫荧光图像中的区域定位算法

2024-03-13 18:08:05 34 阅读
$690条中医疾病疾病知识问答ACCESS\EXCEL数据库$

690条中医疾病疾病知识问答ACCESS\EXCEL数据库

2024-03-13 18:08:05 37 阅读
Leetcode 20. 有效的括号

2024-03-13 18:08:05 38 阅读
Realsense 相机SDK学习（一）——librealsense使用方法及bug解决（不使用Ros）

2024-03-13 18:08:05 43 阅读
力扣每日一题在受污染的二叉树中查找元素哈希 DFS 二进制

2024-03-13 18:08:05 46 阅读
JVM的内存结构，JDK和JRE关系

2024-03-13 18:08:05 42 阅读
面试经典-11-接雨水

2024-03-13 18:08:05 42 阅读
【报错 - npm包问题】 token.type.endsWith is not a function

2024-03-13 18:08:05 40 阅读
桥接模式以及在JDBC源码剖析

2024-03-13 18:08:05 42 阅读
一篇文章讲清楚HashMap

2024-03-13 18:08:05 41 阅读
基于C++的反射功能

2024-03-13 18:08:05 34 阅读
idea配置自定义注释模版和其他模板

2024-03-13 18:08:05 41 阅读
云贝教育 |【PostgreSQL】Vacuum详解：深入理解与实践

2024-03-13 18:08:05 45 阅读
数据结构与算法——排序（C语言实现）

2024-03-13 18:08:05 37 阅读
【数据结构学习笔记】选择排序

2024-03-13 18:08:05 32 阅读
Jenkins安装部署

2024-03-13 18:08:05 31 阅读
爬虫练习：获取某网站高清壁纸

2024-03-13 18:08:05 41 阅读
某多多anti_token(先水个文后续会完善)第一部分

2024-03-13 18:08:05 37 阅读
Leetcode刷题笔记——贪心篇

2024-03-13 18:08:05 34 阅读
快速搭建kerberos认证的HDFS环境

2024-03-13 18:08:05 43 阅读
手机app制作商用系统软件开发

2024-03-13 18:08:05 39 阅读
完整的模型训练套路及GPU的利用

2024-03-13 18:08:05 43 阅读
【C++】类和对象(下）

2024-03-13 18:08:05 33 阅读
Python数值方法在工程和科学问题解决中的应用

2024-03-13 18:08:05 33 阅读
使用打印机漏洞获取Active Directory特权

2024-03-13 18:08:05 41 阅读
互联网 HR 眼中的好简历是什么样子的？

2024-03-13 18:08:05 40 阅读
听力 3.12

2024-03-13 18:08:05 37 阅读