利用Python爬虫爬取豆瓣电影排名信息

可以使用第三方库Beautiful Soup和Requests来编写一个简单的爬虫,从豆瓣电影Top100页面获取信息

import requests
from bs4 import BeautifulSoup


def get_douban_top100():
    url = 'https://movie.douban.com/top250'
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}

    response = requests.get(url, headers=headers)

    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        movies = soup.find_all('div', class_='item')

        for movie in movies:
            title = movie.find('span', class_='title').get_text()
            ranking = movie.find('em').get_text()
            rating = movie.find('span', class_='rating_num').get_text()
            theme = movie.find('span', class_='inq').get_text()
            print(f'{
     ranking}. {
     title} - 评分: {
     rating} - 主题:{
     theme}')

    else:
        print('Failed to retrieve the page.')


if __name__ == '__main__':
    get_douban_top100()

这段代码发送一个HTTP请求获取豆瓣电影Top250的页面,然后使用Beautiful Soup解析HTML内容提取电影信息,包括电影名称、排名、评分和电影主题。请注意,这只是一个简单的例子,实际的爬虫可能需要处理更多的异常情况和反爬虫策略,以确保爬取的可靠性和合法性。

1. 肖申克的救赎 - 评分: 9.7 - 主题:希望让人自由。
2. 霸王别姬 - 评分: 9.6 - 主题:风华绝代。
3. 阿甘正传 - 评分: 9.5 - 主题:一部美国近现代史。
4. 泰坦尼克号 - 评分: 9.5 - 主题:失去的才是永恒的。 
5. 这个杀手不太冷 - 评分: 9.4 - 主题:怪蜀黍和小萝莉不得不说的故事。
6. 千与千寻 - 评分: 9.4 - 主题:最好的宫崎骏,最好的久石让。 
7. 美丽人生 - 评分: 9.5 - 主题:最美的谎言。
8. 星际穿越 - 评分: 9.4 - 主题:爱是一种力量,让我们超越时空感知它的存在。
9. 盗梦空间 - 评分: 9.4 - 主题:诺兰给了我们一场无法盗取的梦。
10. 辛德勒的名单 - 评分: 9.5 - 主题:拯救一个人,就是拯救整个世界。
11. 楚门的世界 - 评分: 9.4 - 主题:如果再也不能见到你,祝你早安,午安,晚安。
12. 忠犬八公的故事 - 评分: 9.4 - 主题:永远都不能忘记你所爱的人。
13. 海上钢琴师 - 评分: 9.3 - 主题:每个人都要走一条自己坚定了的路,就算是粉身碎骨。 
14. 三傻大闹宝莱坞 - 评分: 9.2 - 主题:英俊版憨豆,高情商版谢耳朵。
15. 放牛班的春天 - 评分: 9.3 - 主题:天籁一般的童声,是最接近上帝的存在。 
16. 机器人总动员 - 评分: 9.3 - 主题:小瓦力,大人生。
17. 疯狂动物城 - 评分: 9.2 - 主题:迪士尼给我们营造的乌托邦就是这样,永远善良勇敢,永远出乎意料。
18. 无间道 - 评分: 9.3 - 主题:香港电影史上永不过时的杰作。
19. 控方证人 - 评分: 9.6 - 主题:比利·怀德满分作品。
20. 大话西游之大圣娶亲 - 评分: 9.2 - 主题:一生所爱。
21. 熔炉 - 评分: 9.4 - 主题:我们一路奋战不是为了改变世界,而是为了不让世界改变我们。
22. 教父 - 评分: 9.3 - 主题:千万不要记恨你的对手,这样会让你失去理智。
23. 触不可及 - 评分: 9.3 - 主题:满满温情的高雅喜剧。
24. 当幸福来敲门 - 评分: 9.2 - 主题:平民励志片。 
25. 末代皇帝 - 评分: 9.3 - 主题:“不要跟我比惨,我比你更惨”再适合这部电影不过了。


相关推荐

  1. 利用Python爬虫豆瓣电影排名信息

    2023-12-06 11:50:02       45 阅读
  2. 爬虫豆瓣电影、价格、书名

    2023-12-06 11:50:02       30 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-06 11:50:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-06 11:50:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-06 11:50:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-06 11:50:02       20 阅读

热门阅读

  1. (软件、服务、应用程序和协议)的默认端口号

    2023-12-06 11:50:02       29 阅读
  2. spark sql基于CBO的优化

    2023-12-06 11:50:02       40 阅读
  3. 自动化工具之-影刀RPA

    2023-12-06 11:50:02       34 阅读
  4. 后端架构的一些知识

    2023-12-06 11:50:02       33 阅读
  5. Python 模块和包

    2023-12-06 11:50:02       38 阅读
  6. Mysql中RTRIM、LTRIM、TRIM函数的区别

    2023-12-06 11:50:02       36 阅读
  7. 用python微调gpt-3.5

    2023-12-06 11:50:02       36 阅读
  8. linux 进程间几种常见通信方式介绍

    2023-12-06 11:50:02       36 阅读
  9. 【Ratis】Grpc.proto文件里定义的一些RPC

    2023-12-06 11:50:02       40 阅读