【酱浦菌-爬虫项目】爬取百度文库文档

1. 首先,定义了一个变量`url`,指向百度文库的搜索接口 ‘https://wenku.baidu.com/gsearch/rec/pcviewdocrec’。
2. 然后,设置了请求参数`data`,包括文档ID(`docId`)和查询关键词(`query`)。
3. 定义了HTTP请求的头部信息,模拟了一个Chrome浏览器的请求。
4. 使用`requests.get()`方法,发送一个GET请求到指定的URL,并将响应内容保存在`response`变量中。
5. 从响应的JSON数据中提取了相关文档的信息,包括图片的URL。
6. 遍历每个相关文档:
   - 获取图片的URL。
   - 使用`requests.get()`方法获取图片的内容。
   - 将图片内容写入到以数字命名的文件中(保存在`img`文件夹下)。
   - 打印相关文档的其他信息。
7. 最后,完成了对相关文档图片的下载操作。

完整代码如下:

import requests
from pprint import pprint
# 确定请求链接
url = 'https://wenku.baidu.com/gsearch/rec/pcviewdocrec'
# 请求参数
data ={
'docId':'d6b88ed8d0f34693daef5ef7ba0d4a7302766c99',
'query':'趣味答题 题目及答案',
'recPositions':''
}
headers = {
    'user-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'
}
response = requests.get(url = url, params = data, headers = headers)
num = 1
#pprint(response.json()['data']['relateDoc'])
for index in response.json()['data']['relateDoc']:
    pic = index['pic']
    img_content = requests.get(url =pic, headers= headers).content
    with open('img\\' + str(num) + '.jpg', mode='wb') as f:
        f.write(img_content)
    print(index)
    num += 1

 运行效果如下:

最近更新

  1. TCP协议是安全的吗?

    2024-04-30 07:40:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-30 07:40:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-30 07:40:03       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-30 07:40:03       20 阅读

热门阅读

  1. firefox 浏览器常见问题(技巧)总结

    2024-04-30 07:40:03       12 阅读
  2. conda的一些问题

    2024-04-30 07:40:03       11 阅读
  3. (一)Python3接口自动化测试,request https工具类

    2024-04-30 07:40:03       12 阅读
  4. 摇杆控制电机

    2024-04-30 07:40:03       15 阅读
  5. Docker笔记

    2024-04-30 07:40:03       12 阅读
  6. rpc和http的区别,使⽤场景

    2024-04-30 07:40:03       13 阅读
  7. 李沐72_深度学习优化算法——自学笔记

    2024-04-30 07:40:03       10 阅读
  8. 利用Python生成器和迭代器高效处理大数据文件

    2024-04-30 07:40:03       10 阅读
  9. 99个Python函数语法从小白进阶大佬

    2024-04-30 07:40:03       12 阅读
  10. vue 下载pdf

    2024-04-30 07:40:03       10 阅读