想要爬取第一条网页的数据但是失败了?如何解决??

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&订阅!持续更新中,up!up!up!!

问题描述

  想要爬取第一条网页的数据但是失败了

CURL *curl = curl_easy_init();
    if (curl) {
        std::string lurl;
        lurl = "https://www.nasdaq.com/market-activity/stocks/amzn/historical";
        curl_easy_setopt(curl, CURLOPT_URL, lurl.c_str());
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_callback);
        std::string html_data;
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &html_data);
        CURLcode res = curl_easy_perform(curl);
        if (res == CURLE_OK) {        
            std::cout << html_data.substr(0, 50) << std::endl;
        }
        else {
            std::cerr << "Failed to download HTML: " << curl_easy_strerror(res) << std::endl;
        }
        std::cout << std::endl << std::endl;
        lurl = "https://finance.sina.com.cn/";
        curl_easy_setopt(curl, CURLOPT_URL, lurl.c_str());
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_callback);    
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &html_data);
        res = curl_easy_perform(curl);
        if (res == CURLE_OK) {
 
            std::cout << html_data.substr(0, 50) << std::endl;
        }
        else {
            std::cerr << "Failed to download HTML: " << curl_easy_strerror(res) << std::endl;
        }
 
        curl_easy_cleanup(curl);
 
    }

如上问题有来自我自身项目开发,有的收集网站,有的来自读者,如有侵权,立马删除。

解决方案

  如下是上述问题的解决方案,仅供参考:

  在您提供的 C++ 代码中,使用 libcurl 库进行网页数据的爬取。如果爬取失败,可能有几个原因:

  1. 网络问题:网络连接问题或 DNS 解析失败可能导致请求失败。

  2. URL 错误:确保 URL 正确无误,没有拼写错误。

  3. CURLOPT_WRITEFUNCTION 未定义:代码中使用了 CURLOPT_WRITEFUNCTION 但是没有提供对应的回调函数 write_callback 的定义。

  4. CURLOPT_WRITEDATA 问题:将 std::string 的地址传递给 CURLOPT_WRITEDATA 可能不会工作,因为 std::string 的内存管理方式与 C 风格的字符串不同。您应该使用字符数组或 std::vector<char>

  5. HTTP 头部信息:有些网站可能需要特定的 HTTP 头部信息,比如 User-Agent,才能正确响应请求。

  6. 网站反爬虫机制:目标网站可能有反爬虫机制,导致请求被拒绝。

  7. CURL 配置问题:可能还有其他的 CURL 配置问题,比如超时设置(CURLOPT_TIMEOUT)。

  8. libcurl 版本或编译问题:确保您使用的 libcurl 库是最新的,并且正确编译到您的项目中。

针对上述可能的问题,您可以尝试以下调整:

  • 确保 write_callback 函数被正确定义,并且能够处理数据写入。
  • 使用 std::vector<char> 代替 std::string 作为 CURLOPT_WRITEDATA 的参数。
  • 添加错误处理,检查 CURL 错误码并适当处理。
  • 设置合理的超时时间。
  • 添加必要的 HTTP 头部信息,如 User-Agent。
  • 如果可能,添加代理设置以绕过反爬虫机制。

下面是一个修正后的示例代码:

#include <iostream>
#include <string>
#include <vector>
#include <curl/curl.h>

size_t write_callback(void *contents, size_t size, size_t nmemb, void *userp) {
    ((std::vector<char>*)userp)->insert(((std::vector<char>*)userp)->end(), (char*)contents, (char*)contents + size * nmemb);
    return size * nmemb;
}

int main() {
    CURL *curl = curl_easy_init();
    if (curl) {
        std::vector<char> html_data;
        curl_easy_setopt(curl, CURLOPT_URL, "https://www.nasdaq.com/market-activity/stocks/amzn/historical");
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_callback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &html_data);
        
        CURLcode res = curl_easy_perform(curl);
        if (res != CURLE_OK) {
            std::cerr << "Failed to download HTML: " << curl_easy_strerror(res) << std::endl;
        }
        else {
            std::cout << &html_data[0] << std::endl; // 注意:这里只是示例,实际使用时需要处理内存
        }

        curl_easy_cleanup(curl);
    }
    return 0;
}

  请注意,这个示例代码仅用于演示目的,实际使用时需要添加更多的错误处理和内存管理。

  希望如上措施及解决方案能够帮到有需要的你。

  PS:如若遇到采纳如下方案还是未解决的同学,希望不要抱怨&&急躁,毕竟影响因素众多,我写出来也是希望能够尽最大努力帮助到同类似问题的小伙伴,即把你未解决或者产生新Bug黏贴在评论区,我们大家一起来努力,一起帮你看看,可以不咯。

  若有对当前Bug有与如下提供的方法不一致,有个不情之请,希望你能把你的新思路或新方法分享到评论区,一起学习,目的就是帮助更多所需要的同学,正所谓「赠人玫瑰,手留余香」。

☀️写在最后

  ok,以上就是我这期的Bug修复内容啦,如果还想查找更多解决方案,你可以看看我专门收集Bug及提供解决方案的专栏《CSDN问答解惑-专业版》,都是实战中碰到的Bug,希望对你有所帮助。到此,咱们下期拜拜。

码字不易,如果这篇文章对你有所帮助,帮忙给 bug菌 来个一键三连(关注、点赞、收藏) ,您的支持就是我坚持写作分享知识点传播技术的最大动力。

同时也推荐大家关注我的硬核公众号:「猿圈奇妙屋」 ;以第一手学习bug菌的首发干货,不仅能学习更多技术硬货,还可白嫖最新BAT大厂面试真题、4000G Pdf技术书籍、万份简历/PPT模板、技术文章Markdown文档等海量资料,你想要的我都有!

📣关于我

我是bug菌,CSDN | 掘金 | InfoQ | 51CTO | 华为云 | 阿里云 | 腾讯云 等社区博客专家,C站博客之星Top30,华为云2023年度十佳博主,掘金多年度人气作者Top40,掘金等各大社区平台签约作者,51CTO年度博主Top12,掘金/InfoQ/51CTO等社区优质创作者;全网粉丝合计 30w+;硬核微信公众号「猿圈奇妙屋」,欢迎你的加入!免费白嫖最新BAT互联网公司面试真题、4000G PDF电子书籍、简历模板等海量资料,你想要的我都有,关键是你不来拿哇。


相关推荐

  1. 如何用代码制作一个网站

    2024-07-12 12:28:03       34 阅读
  2. 数据】Jsoup数据使用

    2024-07-12 12:28:03       54 阅读
  3. 如何使用Python进行网页

    2024-07-12 12:28:03       36 阅读
  4. python网络爬虫需要数据

    2024-07-12 12:28:03       27 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-12 12:28:03       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-12 12:28:03       72 阅读
  3. 在Django里面运行非项目文件

    2024-07-12 12:28:03       58 阅读
  4. Python语言-面向对象

    2024-07-12 12:28:03       69 阅读

热门阅读

  1. 有了HTTP,为什么还需要HTTPS?

    2024-07-12 12:28:03       27 阅读
  2. k8s中Service暴露的种类以及用法

    2024-07-12 12:28:03       21 阅读
  3. SchedulerLock分布式定时任务锁

    2024-07-12 12:28:03       22 阅读
  4. 【Go系列】 array、slice 和 map

    2024-07-12 12:28:03       22 阅读
  5. 浅层神经网络示例

    2024-07-12 12:28:03       19 阅读
  6. 【9-2:代码规范】

    2024-07-12 12:28:03       21 阅读
  7. 运维开发小白学习之路

    2024-07-12 12:28:03       20 阅读
  8. 监控团队的建立与管理:优化流程与工具选型

    2024-07-12 12:28:03       18 阅读
  9. 使用任务表,实现两个数据库表数据迁移

    2024-07-12 12:28:03       30 阅读