爬虫(学习笔记)



一、Python基础回顾

变量类型

可变类型:可以进行添加、修改、删除
(列表、字典…)
不可变类型:不可以进行上述操作
(数字、字符串、元组…)

知识点 阐释 举例
数字
不可变类型
标准数据类型之一 i整数、浮点数
字符串
不可变类型
标准数据类型之一 str = “Hello World!”
len(str) 求长度,包含空格 print(len(str))
结果为12
str[1] 字符串索引,从0开始 print(str[0]) = e
str[2:7] 返回字符串中第三个至第六个之间的字符串 print(str[2:5]) = llo Wo
str[2:] 返回从第三个字符开始的字符串 print(str[2:]) = llo World!
列表
可变类型
方括号[ ]
标准数据类型之一 list = [123,‘orange’,66.6,‘apple’,100]
len(list) 列表中元素的个数 print(len(list))
结果为5
list[1] 返回列表中第二个元素 print(list[0]) = orange
list[1:4] 返回列表中第二个元素到第四个元素 print(list[1:4]) = [‘orange’,66.6,‘apple’]
list[2:] 返回从第三个元素开始至列表末尾所有元素 print(list[2:]) = [66.6,‘apple’,100]
list.append(‘banana’) 添加元素 print(list) = [123,‘orange’,66.6,‘apple’,100,‘banana’]
list.remove(’apple‘) 删除元素 print(list) = [123,‘orange’,66.6,100,‘banana’]
max( )、min( )、soted( ) 全是数字的列表找最大值、最小值、递增排序函数 函数括号中放列表名称即可,返回结果分别是数字、数字、列表
元组
不可变类型
圆括号( )
标准数据类型之一 元组是不可变类型
不能进行添加、删除操作
字典
“键”不可变类型
"字典”是可变类型
标准数据类型之一
键key值value对,用键查找值
dict={“a”:“001”,
“b”:“002”,
“c”:“003”}
“键与值”之间用冒号隔开,“键值对”之间用逗号隔开
len(dict) 键值对个数 print(len(dict))
结果为3
dict[“a”] 查找键对应的值 print(dict[“a”]) = 001
dict.keys() 返回所有键 print(dict.keys()) = dict_keys([‘a’, ‘b’, ‘c’])
dict.values() 返回所有值 print(dict.values()) = dict_values([‘001’, ‘002’, ‘003’])
dict.items() 返回所有键值对
添加键值对 dict[“d”] = “004” print(dic) =
{‘a’: ‘001’,
‘b’: ‘002’,
‘c’: ‘003’,
‘d’: ‘004’}
删除键值对 del dict[“a”] print(dict) =
检查键是否存在 print(“a” in dict)
返回布尔值
True则为存在
元组作为键 dict = {(“张伟”,21):“001”,
(“张伟”,34):“002”,
(“张伟”,44):“003”}
其中(张伟,xx)是不可变的元组类型
由于年龄不同,则可区分不同的张伟,并根据需要输出对应的值

其他操作

知识点 阐释 举例
type( ) 返回对象类型的函数 type(None)
结果为<class ‘None Type’>
input( ) 从控制台获取输入,一律返回字符串
需要将结果赋值给一个变量
print中 “+” 只能用于字符串的连接
age = input(“请输入年龄:”)
print(“年龄为” + age)
强制类型转换 int( )、float( )、str( )
将input的返回值改成需要的类型
age = int(input(“请输入年龄:”))
xu_age = age + 1
print(“虚岁为” + str(xu_age))
range(5,10) range(起始,终止-1) for i in range(5,10)
i 被依次赋值为5,6,7,8,9不包含10
range(1,10,2) range(起始,终止-1,步长) i 依次被赋值为1 3 5 7 9
range(5) 默认起始值为0,终止值为5,步长为1
format 格式化输出 gpa_dict = {“a”:3.251,“b”:3.869,“c”:4.256}
for name,gpa in gpa_dict.items():
print(“{0}的绩点为{1}”.format(name,gpa))
f “你的年龄为{age}” 格式化输出 f加花括号加变量
def 函数名(): 函数定义,别忘记加冒号
按住ctrl+函数名 查看具体函数实现

面向对象编程


二、爬虫流程

  1. 确定目标网站
  2. 得到该网站的 URL
  3. 对该 URL 发起请求获取页面的 HTML 代码
  4. 使用解析工具从 HTML 中获取数据
  5. 将获取到的数据保存到 JSON 或 CSV 文件中或者保存成其他格式

HTTP协议

HTML

爬虫demo01

爬虫demo02

相关推荐

  1. 爬虫学习笔记

    2024-01-20 07:48:05       54 阅读
  2. 爬虫学习笔记-selenium交互

    2024-01-20 07:48:05       50 阅读
  3. 爬虫学习笔记-站长素材网站图片下载

    2024-01-20 07:48:05       56 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-20 07:48:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-20 07:48:05       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-20 07:48:05       82 阅读
  4. Python语言-面向对象

    2024-01-20 07:48:05       91 阅读

热门阅读

  1. 1.6 面试经典150题 - 跳跃游戏

    2024-01-20 07:48:05       62 阅读
  2. 【Python 千题 —— 基础篇】参加聚会

    2024-01-20 07:48:05       54 阅读
  3. 求助帖(setiosflags)的左右对齐问题:

    2024-01-20 07:48:05       49 阅读
  4. HashMap1.7和1.8的区别

    2024-01-20 07:48:05       57 阅读
  5. 树莓派5 Ubuntu 23.04 安装 DisplayLink 驱动

    2024-01-20 07:48:05       61 阅读
  6. Kafka

    Kafka

    2024-01-20 07:48:05      40 阅读
  7. npm, yarn和pnpm清理缓存

    2024-01-20 07:48:05       47 阅读