5款可用于LLMs的爬虫工具/方案

5款可用于LLMs的爬虫工具/方案

  1. Crawl4AI
    功能: 提取语义标记的数据块为JSON格式,提供干净的HTML和Markdown文件。
    用途: 适用于RAG(检索增强生成)、微调以及AI聊天机器人的开发。
    特点: 高效数据提取,支持LLM格式,多URL支持,易于集成和Docker容器化。
    GitHub: https://github.com/unclecode/crawl4ai
  2. FireCrawl
    功能: 抓取网站的所有可访问子页面,并转换内容为干净的Markdown格式。
    特点: 适用于JavaScript动态生成的内容网站,提供易用的API。
    GitHub: https://github.com/mendableai/firecrawl
  3. Scrapegraph-ai
    功能: 使用LLM和直接图形逻辑创建网站和本地文档的抓取流程。
    特点: 自动执行数据抓取任务,用户只需指定信息类型。
    GitHub: https://github.com/VinciGit00/Scrapegraph-ai
  4. Markdowner
    功能: 将网站快速转换为Markdown数据。
    特点: 支持自动爬虫、详细模式、JavaScript网站等,易于扩展和自托管。
    GitHub: https://github.com/dhravya/markdowner
  5. Jina Reader
    功能:将任何URL转化为LLM所需的Markdown格式
    特点:可以针对这些内容集成不同的模型,支持API
    GitHub:https://github.com/jina-ai/reader
    在这里插入图片描述

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-13 11:40:09       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-13 11:40:09       101 阅读
  3. 在Django里面运行非项目文件

    2024-05-13 11:40:09       82 阅读
  4. Python语言-面向对象

    2024-05-13 11:40:09       91 阅读

热门阅读

  1. 几种监控工具学习

    2024-05-13 11:40:09       25 阅读
  2. 印象笔记使用技巧

    2024-05-13 11:40:09       34 阅读
  3. 文心一言指令:解锁AI写作的新纪元

    2024-05-13 11:40:09       33 阅读
  4. NX二次开发将WCS坐标重置到绝对坐标

    2024-05-13 11:40:09       35 阅读
  5. Docker使用注意事项

    2024-05-13 11:40:09       26 阅读
  6. 山东大学机器人实验 ROS 总结

    2024-05-13 11:40:09       34 阅读
  7. leetcode 1191.k次串联后最大子数组之和

    2024-05-13 11:40:09       38 阅读
  8. Django 从零到一:Django环境设置

    2024-05-13 11:40:09       34 阅读
  9. Flutter 中的 Row 小部件:全面指南

    2024-05-13 11:40:09       43 阅读