代码-功能-Python-运用bs4技术爬取汽车之家新闻信息

 第三方库安装指令:

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install BeautifulSoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

运行代码:

#这个代码并不完整,有很大的问题,但目前不知道怎么改,就先这样吧!
import requests
from bs4 import BeautifulSoup
header={
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
}

begin = int(input("请输入开始页码:"))
end = int(input("请输入结束页码:"))

def save(titles):
    with open("1.html", 'w', encoding='utf-8') as file:
        x=str(titles)
        file.write(x)
title_ls=[]
content_ls=[]
for page in range(begin,end+1):
    url = f"https://www.autohome.com.cn/news/{page}/#liststart"
    rsp = requests.get(url,headers=header)
    bs4=BeautifulSoup(rsp.text,features='lxml')
    titles=bs4.find_all("h3")[1:]
    for title in titles:
        title_ls.append(title.text)

    contents = bs4.find_all("p")[3:]
    for content in  contents:
        content_ls.append(content)
titles=dict(zip(title_ls,content_ls))
save(titles)
print("爬取完毕")

 

相关推荐

  1. 图片python代码

    2024-05-12 06:46:08       40 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-05-12 06:46:08       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-05-12 06:46:08       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-05-12 06:46:08       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-05-12 06:46:08       20 阅读

热门阅读

  1. react18封装公共请求函数

    2024-05-12 06:46:08       10 阅读
  2. NLP和chatGpt的关系

    2024-05-12 06:46:08       9 阅读
  3. Bert基础(二十二)--Bert实战:对话机器人

    2024-05-12 06:46:08       10 阅读
  4. 【网络】为什么TCP需要四次挥手?

    2024-05-12 06:46:08       8 阅读
  5. Emmy load workspace 排除一些目录

    2024-05-12 06:46:08       9 阅读
  6. React 之 lazy(延迟加载)(十七)

    2024-05-12 06:46:08       10 阅读
  7. WPF EventSetter 写法

    2024-05-12 06:46:08       8 阅读
  8. 较难题 链表的回文结构

    2024-05-12 06:46:08       10 阅读
  9. 在学习uni-app过程中使用的css样式记录

    2024-05-12 06:46:08       13 阅读