测试几个 ocr 对日语的识别情况

1. EasyOCR

github: https://github.com/JaidedAI/EasyOCR

jaided: https://www.jaided.ai/easyocr/

测试图片:

在这里插入图片描述
识别效果:

在这里插入图片描述
在这里插入图片描述
结论:
效果不行

2. PaddleOCR

Github: https://github.com/PaddlePaddle/PaddleOCR

WebUI: https://aistudio.baidu.com/community/app/91660/webUI

测试图片:

在这里插入图片描述
识别效果:

在这里插入图片描述

在这里插入图片描述

结论:
效果不行

3. Deepdoc(识别pdf中图片)

Github: https://github.com/infiniflow/ragflow/tree/main/deepdoc

测试内容:

在这里插入图片描述
识别效果:

在这里插入图片描述
结论:
没识别成功

4. Deepdoc(识别pdf中文字)

Github: https://github.com/infiniflow/ragflow/tree/main/deepdoc

测试内容:

在这里插入图片描述
识别效果:

Oのra開c発le チDaーtaムbaはse、2A3Iとaiの開提発供者開の始生を産発性表向で上きにる重こ点とをを置嬉いしてく、思OrいacまleすD。atこabのas4e年の間次、のO長ra期cサle ポDaーtaトba・seリリースの提供に向けて懸命に取り組んできました。このリリースではAIに焦点を当てており、データベースの名前をOracle Database 23cからOracle Database 23aiに変更することを決定しました。これは、このリリースの焦点と、リリースされる情勢を反映しています。、のの焦点、情勢反映。

结论:
效果不行

5. Nvidia neva-22b

neva-22b: https://build.nvidia.com/nvidia/neva-22b

在这里插入图片描述
结论:
没识别出来

6. Claude 3.5 sonnet 识别图片中的文字

please identify the text in the picture, response the text only in it's original language.

在这里插入图片描述

7. Claude 3.5 sonnet 识别 pdf 中表格

Convert the entire table to markdown format, preserving its original language. Include all content from all pages, even if information is repeated across multiple pages. Present the complete table without omitting any sections.

在这里插入图片描述

8. OpenAI gpt-4o 识别图片中文字

在这里插入图片描述

9. OpenAI gpt-4o 识别 pdf 中表格

Please convert the entire table to Markdown format, preserving its original language. Include all content from all pages, even if information is repeated across multiple pages. Present the complete table without omitting any sections, and make sure to include any duplicated information exactly as it appears in the original document.

在这里插入图片描述
问题点:
表头被重复打印了

完结!

相关推荐

  1. Go语言中...(三点)使用常见情况

    2024-07-10 22:26:01       43 阅读
  2. Oracle redo 日志损坏情况恢复方式

    2024-07-10 22:26:01       32 阅读
  3. Ocr识别

    2024-07-10 22:26:01       28 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-10 22:26:01       52 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-10 22:26:01       54 阅读
  3. 在Django里面运行非项目文件

    2024-07-10 22:26:01       45 阅读
  4. Python语言-面向对象

    2024-07-10 22:26:01       55 阅读

热门阅读

  1. 【C语言】通过fgets和fscanf了解读写文件流的概念

    2024-07-10 22:26:01       16 阅读
  2. mac上修改jupyterlab工作目录

    2024-07-10 22:26:01       22 阅读
  3. mongoexport导出聚合查询的mongo数据

    2024-07-10 22:26:01       17 阅读
  4. k8s离线安装单节点elasticsearch7.x

    2024-07-10 22:26:01       23 阅读