用C#写一个读取pdf文档内容的库

在这里插入图片描述
安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}

相关推荐

  1. 分享一个C#Aspose.Pdf生成pdf工具类

    2024-04-25 10:22:02       32 阅读
  2. pdf读取内容缺失(漏字/文字丢失)问题

    2024-04-25 10:22:02       83 阅读
  3. python 读取pdf文本

    2024-04-25 10:22:02       26 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-25 10:22:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-25 10:22:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-25 10:22:02       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-25 10:22:02       20 阅读

热门阅读

  1. 桐乡上元——UI设计

    2024-04-25 10:22:02       10 阅读
  2. Oracle 中的函数

    2024-04-25 10:22:02       14 阅读
  3. 【.Net8教程】(二)原始字符串字面量

    2024-04-25 10:22:02       12 阅读
  4. 深度学习pytorch小实验

    2024-04-25 10:22:02       14 阅读
  5. 前端面试真题

    2024-04-25 10:22:02       11 阅读
  6. 41. 【Android教程】Android 手势处理

    2024-04-25 10:22:02       12 阅读
  7. golang调用阿里通义千问的接口

    2024-04-25 10:22:02       15 阅读
  8. 程序员缓解工作压力的小窍门

    2024-04-25 10:22:02       14 阅读
  9. HTML&CSS

    HTML&CSS

    2024-04-25 10:22:02      13 阅读
  10. 【c/c++】cpp对c的增强 delete 和 delete []的区别

    2024-04-25 10:22:02       16 阅读
  11. Edge的使用心得与深度探索

    2024-04-25 10:22:02       17 阅读
  12. tomcat到底是干嘛的?

    2024-04-25 10:22:02       15 阅读