文档 OCR 识别优化为异步思路逻辑

文档 OCR 识别优化

同步处理(原逻辑)

  • 当前系统识别文档为同步处理,已调整过 python 服务部分参数,但 一份40M左右文档识别仍需要几十秒
    • 文档转为图片集合
    • for 循环中一直调用 ocr 识别

异步处理

  • nginx 增加 requestId header 参数
  • 后端获取到 requestId 参数,保存 threadLocal,键值数据为对应文档 id,requestId 需要在消息体中一直传递
  • 后端获取请求数据(生产者),将文档转为图片集合,并标识页码索引(属于文档第几页),存放 mq 队列,python多实例 服务(消费者)绑定队列,消费图片信息,OCR 识别以后发送 mq 至队列
  • 后端(消费者)接收 python 识别完成的消息进行后续处理
    • 获取 requestId 对应的文档 id 绑定文档
    • 拼接识别数据(requestId + 当前 ocr 识别文档页码)
    • 疑问点: 不知道接收到的识别数据属于当前文档什么部分,无法正确拼接数据,只能通过当前 ocr 识别的文档页码来处理
    • 具体实现逻辑待编码

相关推荐

  1. 文档 OCR 识别优化异步思路逻辑

    2024-01-27 18:02:03       46 阅读
  2. OCR识别文字示例

    2024-01-27 18:02:03       43 阅读
  3. ocr、人工智能、文字识别接口

    2024-01-27 18:02:03       30 阅读
  4. OCR API、文字识别接口、文字录入

    2024-01-27 18:02:03       36 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-27 18:02:03       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-27 18:02:03       106 阅读
  3. 在Django里面运行非项目文件

    2024-01-27 18:02:03       87 阅读
  4. Python语言-面向对象

    2024-01-27 18:02:03       96 阅读

热门阅读

  1. IDEA中pom中打包引入的jar包

    2024-01-27 18:02:03       66 阅读
  2. Chrome Devtools 调试指南

    2024-01-27 18:02:03       55 阅读
  3. 呼吸机电机控制主控MCU方案

    2024-01-27 18:02:03       55 阅读
  4. 策略模式实现rocketmq的消息处理器解耦

    2024-01-27 18:02:03       44 阅读