Selenium + Django + Echarts 实现亚马逊商品数据可视化爬虫项目

最近完成了1个爬虫项目,记录一下自己的心得。

项目功能简介

根据用户输入商品名称、类别名称,使用Selenium, BS4等技术每天定时抓取亚马逊商品数据,使用Pandas进行数据清洗后保存在MySql数据库中.
在这里插入图片描述

使用Django提供用户端功能,显示商品数据,以可视化的方式分析数据,以及数据抓取任务管理等。
在这里插入图片描述
在这里插入图片描述

项目技术难点:

1)亚马逊Anti-scrape 措施较多,页面都是动态网页,因此,页面元素分析,javascript分析工作量占据大部分时间。
2)性能优化,执行任务采用异步,多进程方式运行,提供定时任务管理功能。
3)Django模板中添加Echarts Javascript 脚本进行图表绘制,自定义 filter form 提供数据。 由于时间短,未使用Vue方式。
4)保持项目的扩展性:通过爬虫任务管理器满足用户的各类搜索需求。数据库分为原始数据以及清洗数据,中间的cleaning类可以随时扩展,
5)通用绘图接口功能: 由于绘图是通过模板中的javascript脚本完成,计划另写1套通用接口,将数据、绘图类型以参数方式传入,再向django 模板插入echarts绘图脚本,

合作说明

亚马孙的商品页面依据类别、用户所在地、收货地等不同而有所不同,但毕竟是大公司产品,其页面组织是规范的,因此本项目也很容易扩展。 如有对亚马逊数据分析的合作需求,留私信留言。

在这里插入图片描述

相关推荐

  1. 国际获得AMAZON商品详情 API

    2024-01-25 07:08:05       60 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-25 07:08:05       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-25 07:08:05       106 阅读
  3. 在Django里面运行非项目文件

    2024-01-25 07:08:05       87 阅读
  4. Python语言-面向对象

    2024-01-25 07:08:05       96 阅读

热门阅读

  1. go使用docker sdk停止和删除docker

    2024-01-25 07:08:05       63 阅读
  2. “大数据”能够对人力资源企业提供什么帮助?

    2024-01-25 07:08:05       60 阅读
  3. HBase学习五:运维排障之备份与恢复

    2024-01-25 07:08:05       53 阅读
  4. 012vuerouter

    2024-01-25 07:08:05       55 阅读
  5. spring boot+mybatis-plus配置读写分离

    2024-01-25 07:08:05       51 阅读
  6. 决策树(Python)

    2024-01-25 07:08:05       56 阅读
  7. Spark 的宽依赖和窄依赖

    2024-01-25 07:08:05       57 阅读
  8. NAS with RL(Using TensorFlow)

    2024-01-25 07:08:05       50 阅读