Linux下python抓取动态网页内容

2024-07-09 22:26:01
开发
27

一、背景

现在大部分网站的数据都是异步加载的，直接抓取是没办法获取到你想要的数据。必须要借助浏览器(无头浏览器,下面会搭建这个环境)来加载其javascript渲染数据后，你所需要的数据这时才呈现。

二、环境搭建

1、Centos7 默认有 python2.7版本

查看命令

python --version

因偷懒就不升级到3.x的版本了。

2、安装pip

wget https://bootstrap.pypa.io/pip/2.7/get-pip.py
python get-pip.py

3、安装selenium模块

pip install selenium
# 查看版本号 3.141.0
pip show selenium

4、安装chrome

chrome版本安装的是96.0.4664.45，是自己下载的。需上传到自己的服务器上进行安装。

使用yum localinstall <包名>进行安装。yun localinstall能够自动解决安装依赖包问题。安装包我会到附件资源里面。

yum localinstall google-chrome-stable_current_x86_64.rpm

5、安装chrome驱动

找Chrome对应的驱动，与系统中安装的Chrome浏览器版本一致的驱动。上面安装是96.0.4664.45版本这里就安装96.0.4664.45版本的驱动。否则会出现驱动找不到的情况。

cd /usr/local/bin/
wget https://chromedriver.storage.googleapis.com/96.0.4664.45/chromedriver_linux64.zip
unzip chromedriver_linux64.zip 
rm -rf chromedriver_linux64.zip

6、python脚本

from selenium import webdriver
import time
import sys
import rand

reload(sys)
sys.setdefaultencoding("utf-8")
opt = webdriver.ChromeOptions()
#opt.add_argument('lang=zh_CN.UTF-8')
#opt.add_argument('User-Agent=Mozilla/5.0 (Linux; U; Android 8.1.0; zh-cn; BLA-AL00 Build/HUAWEIBLA-AL00) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/8.9 Mobile Safari/537.36')
opt.add_argument('--headless')
#opt.add_argument('--no-sandbox')
#opt.add_argument('--disable-dev-shm-usage')
opt.add_argument('--disable-gpu')
#上文安装驱动的路径
driver_path = '/usr/local/bin/chromedriver'
driver = webdriver.Chrome(executable_path=driver_path,chrome_options=opt)

try:
    driver.get('https://www.baidu.com')
    minSleepTime = 8
    maxSleepTime = 12
    sleepTime = random.uniform(minSleepTime, maxSleepTime)
    #简单粗暴等待js异步加载完成
    time.sleep(sleepTime)
    print(driver.page_source)
finally:
    driver.quit()

7、资源参考

浏览器交互 | Selenium

https://chromedriver.storage.googleapis.com/index.html

Chrome for Testing availability

Google Chrome 64bit Linux版 / chrome64linux稳定版_chrome浏览器,chrome插件,谷歌浏览器下载,谈笑有鸿儒

原文地址:https://blog.csdn.net/liwei_cnns/article/details/140210871 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1810681819344015360.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

Linux下python抓取动态网页内容

相关推荐

最近更新

热门阅读