marker-快速精准实现PDF转Markdown

GitHub - VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy

Marker converts PDF to markdown quickly and accurately.

  • Supports a wide range of documents (optimized for books and scientific papers)
  • Supports all languages
  • Removes headers/footers/other artifacts
  • Formats tables and code blocks
  • Extracts and saves images along with the markdown
  • Converts most equations to latex
  • Works on GPU, CPU, or MPS

Marker is a pipeline of deep learning models:

Marker的转换流程:

  • 文本提取:首先,Marker使用OCR技术(如果需要)来提取PDF中的文本。这可能涉及到启发式方法或使用如Surya和Tesseract等OCR工具。

  • 页面布局检测:Marker通过Surya等工具检测页面布局,确定阅读顺序,这对于保持文档结构至关重要。

  • 文本块清理与格式化:对于每个文本块,Marker使用启发式方法和Texify等工具进行清理和格式化,以确保文本的准确性和可读性。

  • 块组合与后处理:最后,Marker将所有文本块组合起来,并使用后处理工具(如pdf_postprocessor)进行最终的文本整理,以提高输出质量。

  • 模型的智能使用:Marker只在必要时使用深度学习模型,这有助于提高转换速度和准确性。

相关推荐

  1. Golang:使用Blackfriday实现Markdown html

    2024-06-18 14:02:04       8 阅读
  2. SUSE Linux Rsync+inotify系统同步配置实战

    2024-06-18 14:02:04       11 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-18 14:02:04       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-18 14:02:04       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-18 14:02:04       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-18 14:02:04       18 阅读

热门阅读

  1. 【React】useState 的原理

    2024-06-18 14:02:04       7 阅读
  2. 【go】go初始化命令总结

    2024-06-18 14:02:04       6 阅读
  3. 【大数据】gRPC、Flink、Kafka 分别是什么?

    2024-06-18 14:02:04       6 阅读
  4. C#面:请说说C#引用和对象?

    2024-06-18 14:02:04       5 阅读
  5. IntelliJ IDEA调试技巧

    2024-06-18 14:02:04       6 阅读
  6. APK打包 |应用图标 | 应用名称设置

    2024-06-18 14:02:04       7 阅读
  7. 数据库引擎有哪些?

    2024-06-18 14:02:04       7 阅读