nodejs爬文章(一)

 前言

前端自学弄着玩的,没啥用,爬取文章,

准备工作

准备一台电脑,node环境安装,vscode编辑器(我个人喜欢vscode)然后应该ok了

开始咱们的偷东西吧(哈哈哈)

1.随便找个你放文件的的文件夹新建一个文件夹

2.在文件的上面文件输入cmd

3.在命令窗口,输入 npm init ,一直回车即可

就会出现如下图(可能没有我这个样子,只是为了装依赖)

4.安装request和cheerio模块即可

npm i request  cheerio 

5.安装完毕,新建一个app.js文件,在里面输入以下代码:

const request = require('request');
const cheerio = require('cheerio');
const fs = require('fs')

const url = 'https://news.baidu.com/';

request(url, function (error, response, body) {
  // 如果请求成功且状态码为 200
  if (!error && response.statusCode == 200) {
    // 使用 cheerio 加载 HTML 文档
    const $ = cheerio.load(body);

    // 存储获取到的数据
    const totalData = []
    
    // 获取hotnews下全部的li元素
    $('.ulist').find('li').each(function (index, value){
        // 向数组中存放数据
        totalData.push({
            title: $(value).find('a').text(),
            href: $(value).find('a').attr('href')
        })
    })
    writeFs(totalData)
    // 打印结果
    console.log(totalData)
  }
});

function writeFs(totalData){
    fs.writeFile('./ulist.json', JSON.stringify(totalData), function (err, data) {
        if (err) {
            throw err
        }
        console.log('数据保存成功');
    })
}

6.运行结果(会生成一个json文件,格式随便你处理,也可以使用第三方插件,将数据处理成流的形式,导出文档例如word,excel等)

7.完毕啦

结束语

这就是简单的爬取文章,哈哈哈,有什么不对的地方欢迎大家指教,好像这个request模块已经不更新了,这算上古时期的request模块了,好像有个新的模块!

相关推荐

  1. Nodejs键发布脚本

    2024-04-02 19:56:01       35 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-02 19:56:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-02 19:56:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-02 19:56:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-02 19:56:01       18 阅读

热门阅读

  1. 李白打酒加强版(c++实现)

    2024-04-02 19:56:01       13 阅读
  2. 2024-03-27 问AI: 介绍一下深度学习中的 Darknet

    2024-04-02 19:56:01       13 阅读
  3. 33-2 XXE漏洞 - XXE外部实体注入原理

    2024-04-02 19:56:01       14 阅读
  4. 谈谈Python中的列表推导式和字典推导式

    2024-04-02 19:56:01       14 阅读
  5. Vue3创建空对象方法及推荐

    2024-04-02 19:56:01       12 阅读
  6. ChatGPT助力:提升学术论文写作的智能利器

    2024-04-02 19:56:01       20 阅读
  7. Maximum Product(UVA 11059)

    2024-04-02 19:56:01       18 阅读
  8. rust并行计算库Rayon

    2024-04-02 19:56:01       18 阅读