爬虫与DataFrame对象小小结合

import pandas as pd
import requests
from lxml import etree
#数据请求
url="https://www.maigoo.com/brand/list_1715.html"
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36'}
#数据响应
res=requests.get(url,headers=headers)
tree = etree.HTML(res.text)
#数据解析
title=tree.xpath('.//div[@class="info"]/a/text()')
company=tree.xpath('.//div[@class="info"]//span//text()')
company=" ".join(company).replace('(', '').replace(')', '')#获取数据,进行简单的处理,转成列表类型暂存数据。
company=company.split('  ')
content=tree.xpath('.//div[@class="rongyu dhidden2 c888"]/text()')
adress=tree.xpath('.//div[@class="brandlogo"]/a/@href')
picture=tree.xpath('.//div[@class="brandlogo"]//img/@src')
#数据保存
for i in title,content,adress,picture:
    data = pd.DataFrame([title,company,content,adress,picture],index=['title','company','content','adress','picture'])
print(data.T)

---如有侵权,请即使联系。谢谢~

相关推荐

  1. Pandas 数据结构 - DataFrame

    2024-03-11 03:22:02       43 阅读
  2. pandas数据结构Series, DataFrame

    2024-03-11 03:22:02       57 阅读
  3. Python 中的 DataFrame 对象该怎么理解?

    2024-03-11 03:22:02       57 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-11 03:22:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-11 03:22:02       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-11 03:22:02       82 阅读
  4. Python语言-面向对象

    2024-03-11 03:22:02       91 阅读

热门阅读

  1. 鸿蒙os开发做全局路由拦截

    2024-03-11 03:22:02       69 阅读
  2. WPF自定义快捷命令

    2024-03-11 03:22:02       48 阅读
  3. web蓝桥杯真题:冰墩墩心情刻度尺

    2024-03-11 03:22:02       52 阅读
  4. 【c++】模板的使用

    2024-03-11 03:22:02       47 阅读
  5. 设计模式 | 单例模式 | 懒汉&饿汉

    2024-03-11 03:22:02       43 阅读
  6. python的类修饰器

    2024-03-11 03:22:02       50 阅读