想要爬取第一条网页的数据但是失败了?如何解决？？

2024-07-12 12:28:03
开发
27

🏆本文收录于《CSDN问答解惑-专业版》专栏，主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！

问题描述

想要爬取第一条网页的数据但是失败了

CURL *curl = curl_easy_init();
    if (curl) {
        std::string lurl;
        lurl = "https://www.nasdaq.com/market-activity/stocks/amzn/historical";
        curl_easy_setopt(curl, CURLOPT_URL, lurl.c_str());
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_callback);
        std::string html_data;
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &html_data);
        CURLcode res = curl_easy_perform(curl);
        if (res == CURLE_OK) {        
            std::cout << html_data.substr(0, 50) << std::endl;
        }
        else {
            std::cerr << "Failed to download HTML: " << curl_easy_strerror(res) << std::endl;
        }
        std::cout << std::endl << std::endl;
        lurl = "https://finance.sina.com.cn/";
        curl_easy_setopt(curl, CURLOPT_URL, lurl.c_str());
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_callback);    
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &html_data);
        res = curl_easy_perform(curl);
        if (res == CURLE_OK) {
 
            std::cout << html_data.substr(0, 50) << std::endl;
        }
        else {
            std::cerr << "Failed to download HTML: " << curl_easy_strerror(res) << std::endl;
        }
 
        curl_easy_cleanup(curl);
 
    }

如上问题有来自我自身项目开发，有的收集网站，有的来自读者，如有侵权，立马删除。

解决方案

如下是上述问题的解决方案，仅供参考：

在您提供的 C++ 代码中，使用 libcurl 库进行网页数据的爬取。如果爬取失败，可能有几个原因：

网络问题：网络连接问题或 DNS 解析失败可能导致请求失败。
URL 错误：确保 URL 正确无误，没有拼写错误。
CURLOPT_WRITEFUNCTION 未定义：代码中使用了 CURLOPT_WRITEFUNCTION 但是没有提供对应的回调函数 write_callback 的定义。
CURLOPT_WRITEDATA 问题：将 std::string 的地址传递给 CURLOPT_WRITEDATA 可能不会工作，因为 std::string 的内存管理方式与 C 风格的字符串不同。您应该使用字符数组或 std::vector<char>。
HTTP 头部信息：有些网站可能需要特定的 HTTP 头部信息，比如 User-Agent，才能正确响应请求。
网站反爬虫机制：目标网站可能有反爬虫机制，导致请求被拒绝。
CURL 配置问题：可能还有其他的 CURL 配置问题，比如超时设置（CURLOPT_TIMEOUT）。
libcurl 版本或编译问题：确保您使用的 libcurl 库是最新的，并且正确编译到您的项目中。

针对上述可能的问题，您可以尝试以下调整：

确保 write_callback 函数被正确定义，并且能够处理数据写入。
使用 std::vector<char> 代替 std::string 作为 CURLOPT_WRITEDATA 的参数。
添加错误处理，检查 CURL 错误码并适当处理。
设置合理的超时时间。
添加必要的 HTTP 头部信息，如 User-Agent。
如果可能，添加代理设置以绕过反爬虫机制。

下面是一个修正后的示例代码：

#include <iostream>
#include <string>
#include <vector>
#include <curl/curl.h>

size_t write_callback(void *contents, size_t size, size_t nmemb, void *userp) {
    ((std::vector<char>*)userp)->insert(((std::vector<char>*)userp)->end(), (char*)contents, (char*)contents + size * nmemb);
    return size * nmemb;
}

int main() {
    CURL *curl = curl_easy_init();
    if (curl) {
        std::vector<char> html_data;
        curl_easy_setopt(curl, CURLOPT_URL, "https://www.nasdaq.com/market-activity/stocks/amzn/historical");
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_callback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &html_data);
        
        CURLcode res = curl_easy_perform(curl);
        if (res != CURLE_OK) {
            std::cerr << "Failed to download HTML: " << curl_easy_strerror(res) << std::endl;
        }
        else {
            std::cout << &html_data[0] << std::endl; // 注意：这里只是示例，实际使用时需要处理内存
        }

        curl_easy_cleanup(curl);
    }
    return 0;
}

请注意，这个示例代码仅用于演示目的，实际使用时需要添加更多的错误处理和内存管理。

希望如上措施及解决方案能够帮到有需要的你。

PS：如若遇到采纳如下方案还是未解决的同学，希望不要抱怨&&急躁，毕竟影响因素众多，我写出来也是希望能够尽最大努力帮助到同类似问题的小伙伴，即把你未解决或者产生新Bug黏贴在评论区，我们大家一起来努力，一起帮你看看，可以不咯。

若有对当前Bug有与如下提供的方法不一致，有个不情之请，希望你能把你的新思路或新方法分享到评论区，一起学习，目的就是帮助更多所需要的同学，正所谓「赠人玫瑰，手留余香」。

☀️写在最后

ok，以上就是我这期的Bug修复内容啦，如果还想查找更多解决方案，你可以看看我专门收集Bug及提供解决方案的专栏《CSDN问答解惑-专业版》，都是实战中碰到的Bug，希望对你有所帮助。到此，咱们下期拜拜。

码字不易，如果这篇文章对你有所帮助，帮忙给 bug菌来个一键三连(关注、点赞、收藏) ，您的支持就是我坚持写作分享知识点传播技术的最大动力。

同时也推荐大家关注我的硬核公众号:「猿圈奇妙屋」 ；以第一手学习bug菌的首发干货，不仅能学习更多技术硬货，还可白嫖最新BAT大厂面试真题、4000G Pdf技术书籍、万份简历/PPT模板、技术文章Markdown文档等海量资料，你想要的我都有！

📣关于我

我是bug菌，CSDN | 掘金 | InfoQ | 51CTO | 华为云 | 阿里云 | 腾讯云等社区博客专家，C站博客之星Top30，华为云2023年度十佳博主，掘金多年度人气作者Top40，掘金等各大社区平台签约作者，51CTO年度博主Top12，掘金/InfoQ/51CTO等社区优质创作者；全网粉丝合计 30w+；硬核微信公众号「猿圈奇妙屋」，欢迎你的加入！免费白嫖最新BAT互联网公司面试真题、4000G PDF电子书籍、简历模板等海量资料，你想要的我都有，关键是你不来拿哇。

原文地址:https://blog.csdn.net/weixin_43970743/article/details/140003646 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1811618497713803264.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

想要爬取第一条网页的数据但是失败了?如何解决？？

问题描述

解决方案

☀️写在最后

📣关于我

相关推荐

最近更新

热门阅读