Python入门第5篇(爬虫相关)

目录

爬虫初步说明

html相关基础

urllib之读取网页内容

http相关基础

requests之webapi调用


爬虫初步说明

爬虫,一句话来说,即模拟浏览器爬取一些内容,如自动下载音乐、电影、图片这种的

具体可能是直接访问网页进行解析,也可能是调用webapi直接获取数据,后者应该更多一些

html相关基础

html、js、css构成了html的三要素

urllib之读取网页内容

from urllib.request import urlopen

url='http://www.baidu.com'
con=urlopen(url)
cons=con.read()

with open('./output.html','wb') as f:
    f.write(cons)

print(cons)

这里是打开了百度首页,然后写入到一个本地html文件,注意这里使用wb方式写入(字节流)

注意:需要通过pip安装urllib 

http相关基础

三次握手

四次挥手

http方法:get、post

requests之webapi调用

import requests
import json

def fanyi(inputStr):
    txt=input("请输入要翻译的内容:")
    url="https://fanyi.baidu.com/sug"
    data={
        "kw":txt
    }
    result=requests.post(url,data=data)
    # print(result.text)
    # printInfo(result.json())
    printInfo(result.json()["errno"])
    # printInfo(type(result.json()))
    print("翻译结果:")
    for i in range(len(result.json()["data"])):
        printInfo(str(i+1)+":"+result.json()["data"][i]["v"])

if __name__=="__main__":
    fanyi("我的翻译机器人")
    pass

这里一百度翻译接口为例,通过输入待翻译内容,然后调用翻译接口,将接口返回结果进行解析,输出翻译结果

注意:需要通过pip安装requests 

主要用到的就是get、post

这里需要注意header、body这些参数,要根据实际网页请求的内容来,也可以先用postman、apipost测试

再一个需要注意的是,对于返回结果的解析,需要先清楚其类型,才可以更好的解析,如使用type()先打印下类型,就知道下一步要怎么解析了

相关推荐

  1. Python门第5爬虫相关

    2023-12-13 16:32:03       69 阅读
  2. Rust语言门第-函数

    2023-12-13 16:32:03       32 阅读
  3. c门第十一——物以类聚(数组)

    2023-12-13 16:32:03       53 阅读
  4. c门第十六——学生成绩管理系统

    2023-12-13 16:32:03       51 阅读
  5. 【编程】Rust语言门第4 字符串

    2023-12-13 16:32:03       51 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-13 16:32:03       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-13 16:32:03       106 阅读
  3. 在Django里面运行非项目文件

    2023-12-13 16:32:03       87 阅读
  4. Python语言-面向对象

    2023-12-13 16:32:03       96 阅读

热门阅读

  1. Unity发布WebGL测试界面处理方式参考

    2023-12-13 16:32:03       64 阅读
  2. git切换分支

    2023-12-13 16:32:03       63 阅读
  3. Oracle创建定时任务——-job

    2023-12-13 16:32:03       63 阅读
  4. 在循环内错误使用函数定义(js的问题)

    2023-12-13 16:32:03       61 阅读
  5. 【Docker】Docker的安装部署及优化详解

    2023-12-13 16:32:03       52 阅读
  6. 验证回文串算法(leetcode第125题)

    2023-12-13 16:32:03       60 阅读
  7. (第56天)分区表转换之复合分区

    2023-12-13 16:32:03       61 阅读
  8. WPF的WebBrowser控件

    2023-12-13 16:32:03       49 阅读
  9. 卷积的计算 - numpy的实现 2

    2023-12-13 16:32:03       49 阅读