爬虫案例|采集某东商品评论信息|API数据接口 python实例

前言

平常大家都有网上购物的习惯,在商品下面卖的好的产品基本都会有评论,当然也不排除有刷评论的情况,因为评论会影响我们的购物决策。今天主要分享用python+re正则表达式获取京东商品评论。可以直接采用API接口接入形式大规模采集电商平台商品评论数据。

环境准备

pyhon编译器版本python3.7.4

集成开发环境(IDE)pycharm版本2020.1.5

相关包的安装

pip install requests

整体框架

  • 分析商品评论网页

  • 发送请求,获取响应内容

  • re正则表达式提取信息

  • pandas保存信息

  • 运行主程序

  • 总结

  1. 分析网页

打开京东官网,我搜的是电脑,因为是获取商品的评论,我选了评论数比较多的产品,然后可以在下方可以看到商品的评论。

图片

接下来就是按F12,选择网页。然后点击第二页刷新网页。在往下拉的过程中可以看到有个productPageComments.......页面,点击然后看下预览。下方就可以看到评论信息comments,依次点开后查看第一个信息,网页往上拉返回可以看到网页的信息和我们要查看的信息一致。

图片

正是我们需要找的信息,这里注意的是因为选择第二页刷新的信息,如果第一页刷新过,也有第一页的网页productPageComments,如何去辨别呢。我们可以看下参数信息,也就是查看载荷。

图片

看下参数下面有个page:1。注意刷新的页面还是第二页。这个很容易判断是第一页。我们先滚动页面,继续找到productPageComments,然后可以看到载荷下面的参数page:0

图片

也就是页面的规律是从0开始的,我们可以再验证一下,选择第三页刷新看载荷下方的参数,顺便看下参数是否有加密。

图片

第三页可以发现page:2,说明页面就是从0开始的,然后看下其他的参数基本不变,没有出现加密的情况,变化的主要page。这就是我们要找的网页页面规律。

然后需要看下响应的内容,继续回到预览,可以看到一页有10条评论,初步判断格式比较像json格式,json格式的数据和python数据结构的字典比较类似,这里面涉及python的基本语法,不在这赘述。

2.发送请求,获取响应内容

首先看下标头信息

图片

我们需要了解基本的请求网址,请求方法,状态码。

请求方法是get,后面就可以通过get方法向网页发送请求,有些网页是post。状态码是200,说明请求是ok的,如果遇到其他状态码,说明请求不成功,比如304,503。具体的状态码不在这赘述,可以网上查资料了解。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-22 02:12:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-22 02:12:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-02-22 02:12:01       82 阅读
  4. Python语言-面向对象

    2024-02-22 02:12:01       91 阅读

热门阅读

  1. 字符串变换最小字符串(C语言)

    2024-02-22 02:12:01       49 阅读
  2. harmony 鸿蒙使用N-API开发Native模块

    2024-02-22 02:12:01       58 阅读
  3. 编程笔记 Golang基础 010 常量和变量

    2024-02-22 02:12:01       52 阅读
  4. YOLOV8改进系列指南

    2024-02-22 02:12:01       51 阅读
  5. C++程序设计学习笔记(一)

    2024-02-22 02:12:01       41 阅读
  6. 【开源软件的影响力有多大?】

    2024-02-22 02:12:01       50 阅读
  7. 让图片说话SadTalker

    2024-02-22 02:12:01       57 阅读