文档 OCR 识别优化为异步思路逻辑

2024-01-27 18:02:03
开发
45

文档 OCR 识别优化

同步处理（原逻辑）

当前系统识别文档为同步处理，已调整过 python 服务部分参数，但一份40M左右文档识别仍需要几十秒
- 文档转为图片集合
- for 循环中一直调用 ocr 识别

异步处理

nginx 增加 requestId header 参数
后端获取到 requestId 参数，保存 threadLocal，键值数据为对应文档 id，requestId 需要在消息体中一直传递
后端获取请求数据（生产者），将文档转为图片集合，并标识页码索引（属于文档第几页），存放 mq 队列，python多实例服务（消费者）绑定队列，消费图片信息，OCR 识别以后发送 mq 至队列
后端（消费者）接收 python 识别完成的消息进行后续处理
- 获取 requestId 对应的文档 id 绑定文档
- 拼接识别数据（requestId + 当前 ocr 识别文档页码）
- 疑问点：不知道接收到的识别数据属于当前文档什么部分，无法正确拼接数据，只能通过当前 ocr 识别的文档页码来处理
- 具体实现逻辑待编码

原文地址:https://blog.csdn.net/Greenarrow961224/article/details/135859968 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1751183777985597440.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

文档 OCR 识别优化为异步思路逻辑

2024-01-27 18:02:03 46 阅读
OCR文本纠错思路

2024-01-27 18:02:03 53 阅读
OCR识别文字示例

2024-01-27 18:02:03 43 阅读
【OCR】OCR开源文字识别工具

2024-01-27 18:02:03 46 阅读
图像版PDF文件OCR识别转换为文本的3款免费工具软件

2024-01-27 18:02:03 42 阅读
文本识别 OCR 解决方案

2024-01-27 18:02:03 95 阅读
ocr、人工智能、文字识别接口

2024-01-27 18:02:03 30 阅读
OCR文本识别模型CRNN

2024-01-27 18:02:03 35 阅读
秒杀优化-异步秒杀思路

2024-01-27 18:02:03 45 阅读
OCR API、文字识别接口、文字录入

2024-01-27 18:02:03 36 阅读

最近更新

题解 - 序列

2024-01-27 18:02:03 122 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-01-27 18:02:03 108 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-01-27 18:02:03 98 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-01-27 18:02:03 106 阅读
NoSQL之Redis非关系型数据库

2024-01-27 18:02:03 108 阅读
2024.7.22 作业

2024-01-27 18:02:03 105 阅读
GDB调试正在运行的程序

2024-01-27 18:02:03 87 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-01-27 18:02:03 90 阅读
在Django里面运行非项目文件

2024-01-27 18:02:03 87 阅读
SSD基本架构与工作原理

2024-01-27 18:02:03 94 阅读
在誉天学习完HCIE就业吗？

2024-01-27 18:02:03 98 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-01-27 18:02:03 90 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-01-27 18:02:03 92 阅读
go 协程池的实现

2024-01-27 18:02:03 93 阅读
Shell脚本循环语句与函数

2024-01-27 18:02:03 96 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-01-27 18:02:03 98 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-01-27 18:02:03 90 阅读
四大引用——强软弱虚

2024-01-27 18:02:03 92 阅读
Python语言-面向对象

2024-01-27 18:02:03 96 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-01-27 18:02:03 91 阅读
网站安全-CDN篇

2024-01-27 18:02:03 93 阅读

热门阅读

数据结构（绪论+算法的基本概念）

2024-01-27 18:02:03 56 阅读
计算机毕业设计 | SpringBoot 求职招聘管理系统(附源码)

2024-01-27 18:02:03 59 阅读
IDEA中pom中打包引入的jar包

2024-01-27 18:02:03 66 阅读
NVIDIA Isaac ROS - 入门教程（一）

2024-01-27 18:02:03 44 阅读
华为HCIP Datacom H12-831 卷14

2024-01-27 18:02:03 42 阅读
C/C++ LeetCode:跳跃问题

2024-01-27 18:02:03 67 阅读
深度学习-搭建Colab环境

2024-01-27 18:02:03 59 阅读
微信小程序（十七）自定义组件生命周期（根据状态栏自适配）

2024-01-27 18:02:03 61 阅读
鸿蒙开发实战-OpenHarmony之天气应用

2024-01-27 18:02:03 64 阅读
当Swagger遇上YApi，瞬间高大上了！

2024-01-27 18:02:03 49 阅读
网络编程套接字(1)

2024-01-27 18:02:03 49 阅读
Chrome Devtools 调试指南

2024-01-27 18:02:03 55 阅读
2023年衣物清洁赛道行业数据分析（电商数据查询）：总销额同比下滑21%

2024-01-27 18:02:03 52 阅读
力扣hot100 岛屿数量 dfs 图论

2024-01-27 18:02:03 49 阅读
YouTrack 如何删除项目

2024-01-27 18:02:03 49 阅读
呼吸机电机控制主控MCU方案

2024-01-27 18:02:03 55 阅读
备战春招！2024最新总结Android高频面试题（附答案解析）

2024-01-27 18:02:03 50 阅读
03_web端交互协议之HTTP

2024-01-27 18:02:03 44 阅读
利用Jmeter做接口测试（功能测试）全流程分析

2024-01-27 18:02:03 59 阅读
STM32连接阿里云物联网平台

2024-01-27 18:02:03 42 阅读
Redis 学习笔记 1：基础

2024-01-27 18:02:03 43 阅读
拥有大规模犯罪联盟链的网络攻击中心

2024-01-27 18:02:03 41 阅读
课后作业3.3.2：进程的调度

2024-01-27 18:02:03 50 阅读
go实现生成html文件和html文件浏览服务

2024-01-27 18:02:03 60 阅读
go语言（二十）---- 有缓冲的channel

2024-01-27 18:02:03 54 阅读
策略模式实现rocketmq的消息处理器解耦

2024-01-27 18:02:03 44 阅读
【动态规划】LeetCode-62. 不同路径

2024-01-27 18:02:03 38 阅读
力扣日记1.25-【回溯算法篇】39. 组合总和

2024-01-27 18:02:03 55 阅读
leetcode88合并两个有序数组

2024-01-27 18:02:03 60 阅读
简单记录一下如何安装python以及pycharm（图文教程）（可供福建专升本理工类同学使用）

2024-01-27 18:02:03 57 阅读