【机器学习案例3】从科学论文图片中提取标题、作者和摘要【含源码】

2024-02-19 19:22:02
开发
62

在这个项目中，我的目标是从科学论文图片中提取某些部分（标题、作者和摘要）。预期提取部分是科学论文中常见的部分，例如标题、摘要和作者。输入与最终结果。我的输入是将第一页纸转换成图像。最终结果是一个 txt 文件，其中包含标题、作者和摘要部分，如下图1和图2所示。我将使用 UNet 来了解在哪里可以找到这些部分，然后将训练学到的信息传递到 OCR 中。完整的项目可以在这里找到。

图1 要提取的论文首页（图片格式）

图2 提取得到的论文标题、作者和摘要

步骤说明

我从数据收集和科学论文开始。由于我只对标题、摘要和作者这三个部分感兴趣，所以我选择了多篇论文中的第一页。然后我将其转换pdf为图像，因为我的 UNet 模型只接受图像。我已将数据集分别按 80/20 分为训练集和测试集。接下来，我编写了一个 python 脚本mask.py来屏蔽图像。参见下图。

图3：右侧是科学论文的原始首页，左侧是相应论文的mask.py结果。

蒙版图像是一维图像，其中每个像素的值为 0（黑色）和 1（白色）。 0表示该像素不重要，1表示该像素重要。左侧图像的白色区域掩盖了重要的标题、摘要和作者部分。

我们将此掩模和原始图像传递给我们的 UNet 模型进行训练。 UNet 是一种流行的架构。您可以找到该架构的许多实现。我推荐Milesial的架构。如果您已经克隆了dagshub存储库，则无需克隆此存储库。您可以通过将工作目录更改为Unet-OCR/Pytorch-UNet然后运行来构建模型，train.py如下所示：

python train.py --epoch 6 --batch-size 1 --learning-rate 0.000001

显然您可以设置自己的参数。当然您也可以使用预训练模型MODEL.pth，您将在运行时获得：

dvc pull -r origin

确保按照下面的安装说明将 DVC 源设置为我的

原文地址:https://blog.csdn.net/u010542847/article/details/136115139 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1759538827325739008.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

【机器学习案例3】从科学论文图片中提取标题、作者和摘要【含源码】

步骤说明

相关推荐

最近更新

热门阅读