新闻标题抓取

要从新闻⽹站⾸⻚抓取最新的新闻标题和链接,可以使⽤ requests 库获取⽹⻚内容,然后利⽤ BeautifulSoup 解析HTML,提取新闻标题和相应的链接。

由于新闻⽹站的结构可能不断变化,且每个⽹站的结构不同,这⾥提供的代码仅供学习和参考,可能需要根据⽬标⽹站的实际HTML结构进⾏相应调整。

import requests
from bs4 import BeautifulSoup

# 假定的新闻⽹站⾸⻚URL
url = 'https://example.com/news'

# 发送GET请求
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    # 使⽤BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 假设新闻标题和链接都在<a>标签内,并且这些<a>标签位于特定的HTML结构中
    # 例如,它们可能位于类名为"news-item"的<div>标签内
    news_items = soup.find_all('div', class_='news-item')

    for item in news_items:
        # 在每个<div>中查找<a>标签获取新闻标题和链接
        a_tag = item.find('a')
        if a_tag:
            title = a_tag.text.strip() # 获取⽂本内容并去除多余的空⽩字符
            link = a_tag['href'] # 获取链接
            print(f'标题: {title}, 链接: {link}')
else:
    print('请求失败,状态码:', response.status_code)

在这个⽰例中, requests.get(url) ⽤于向新闻⽹站发送HTTP GET请求。如果请求成功(即HTTP状态码为200),脚本将使⽤ BeautifulSoup 解析返回的HTML内容。

脚本中新闻标题和链接都包含在 <a> 标签内,这些 <a> 标签⼜位于类名为 news-item 的 <div>标签内。通过遍历所有这样的 <div> 标签,脚本提取每个新闻项⽬的标题和链接,并将它们打印出来。

由于各新闻⽹站的⻚⾯结构差异较⼤,需要检查想抓取的⽹站的HTML结构,并相应地调整上述代码中的选择器(例如, find_all ⽅法中的标签名和类名)。

相关推荐

  1. 新闻标题抓取

    2024-05-13 11:08:02       37 阅读
  2. Google Gemma 2B 微调实战(IT科技新闻标题生成)

    2024-05-13 11:08:02       30 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-13 11:08:02       91 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-13 11:08:02       97 阅读
  3. 在Django里面运行非项目文件

    2024-05-13 11:08:02       78 阅读
  4. Python语言-面向对象

    2024-05-13 11:08:02       88 阅读

热门阅读

  1. 【学习笔记】C++每日一记

    2024-05-13 11:08:02       39 阅读
  2. Python小程序 - 文件处理1(使用AI工具)

    2024-05-13 11:08:02       34 阅读
  3. 规则引擎drools Part5

    2024-05-13 11:08:02       36 阅读
  4. 开发一款抓大鹅游戏

    2024-05-13 11:08:02       47 阅读
  5. Debug: Pytorch dataloaders OSError: Bad file descriptor

    2024-05-13 11:08:02       37 阅读
  6. leetcode题目7

    2024-05-13 11:08:02       34 阅读
  7. 【二叉树算法题记录】404. 左叶子之和

    2024-05-13 11:08:02       39 阅读
  8. 安卓LeakCanary研究

    2024-05-13 11:08:02       41 阅读
  9. SQLite 语法大全

    2024-05-13 11:08:02       97 阅读
  10. codeforce#939 (div2) 题解

    2024-05-13 11:08:02       144 阅读