10倍提效,每天100篇,如何使用AI提取arXiv论文知识?

93da9b9e556a7fa91a777afba18b6601.png

arXiv

arXiv是国际上最有影响力的论文预发平台,在arXiv发表论文,已经成为科研圈的“潜规则”。arXiv创建于1991年,论文主要是理工科论文,包括数学、物理、计算机、统计、金融等领域。

目前收录论文数量已达200万篇。研究人员每个月会向arXiv提交约8000篇论文,平均每天提交250余篇。

arXiv每天更新量级已经不是普通人可以追更的体量了。

提到大量的信息,肯定有读者会想到用LLM来处理论文。

假设每天我们需要处理100篇英文论文,那需要消耗多少Token呢?需要消耗5百万Token,费用大约在1.25 ~ 600美元(不同模型价格不一样)。

计算逻辑:

假设一篇文档大概需要消耗4000Token(约等于3k单词),LLM每一轮输出消耗400 Token(输出约300字),那么10轮交互下来最少需要消耗5W Token。(每次交互都会把上下文输入LLM)。20篇需要消耗100W Token,如果是每天100篇,需要消耗500w Token。

不同模型的定价:

gpt-3.5-turbo-instruct

每百万Token 输入价1.5美元、输出价2美元。

gpt-4-32k

每百万Token 输入价60美元、输出价120美元。

claude opus

每百万Token 输入15美元、输出75美元

claude Haiku

每百万Token 输入0.25美元、输出1.25美元

100篇论文需要消耗1.25 ~ 600美元。

有没有更为经济(省钱)的方式?

使用本地的LLM,进行批量化处理,可以节省Token开支。

MixCopilot 提供了本地化解决方案,下载lm studio和通义千问-7B(Qwen-7B)模型,启动本地LLM服务,在MixCopilot接入后使用。

参考教程:

如何在个人电脑上使用千问大模型[教程]

如何使用谷歌的gemma新模型?

论文解读

使用MixCopilot最新功能,配置Arxiv论文、一键启动、使用本地LLM加工处理。

1c8c689389c646bc65285b61dff2f9af.jpeg

09202ee81962eb2f69ecf00e9b23a3e0.png

433540037ece5147ed01bfd02911f132.png

8bf187ecc9ac660b7070b847b21b1cb0.png

处理效率:128篇16分钟完成。

论文的知识加工

除了使用本地LLM来加工处理论文,还可以把pdf论文转为html。

为什么要转为html?

由于arXiv上的论文都是pdf格式,对视障人士的阅读产生不便。在去年12月,arXiv开始提供HTML格式的论文版本,HTML 格式的论文可以通过屏幕阅读器和其他技术更轻松、更准确地阅读,这可以帮助有阅读障碍(包括失明、视力低下等)的研究人员。

arXiv上的html服务 ar5iv.org

blog.arxiv.org/2023/12/21/accessibility-update-arxiv-now-offers-papers-in-html-format

有了html版本,我们就可以轻松地使用LLM来进行信息处理。

88587766de7a673ae0d306dfd0a81cd8.png

2481ebe7d21d923ef45cc213af927a7c.gif

把论文的url在MixCopilot打开,右键调用chatbot,支持2种格式,pdf和html 。

( html有个好处就是可以直接拷贝图片 )

dc4db9d88ad60ec7082c0b327484f307.gif

‍加工论文,转为markdown格式,生产内容,编辑后导出为pdf。


论文的可信度

由于arXiv平台并没有纠正科学性错误的义务。这意味着,我们在阅读arXiv论文时,需要有足够的甄别能力,对一些存在明显科学性错误的论文应该能够鉴别。

我们可以从哪些方面得到论文的可信度?

作者、著名期刊收录、搜索引擎

3af16aa9a1f76d398ace683d8eb5efbe.png


在知识库,可以点击作者直接调用搜索引擎,方便甄别信息。

966c3496feed44ed9e7c99c6e23ac9a1.png

通过chatbot总结搜索引擎的结果。我们还可以把这个prompt,制作成一个角色。

e8d2070c0f8f3087d5abde54452fdd56.png

35ebca346161ac39f43be5a62e6a7e9c.gif

通过编辑器制作角色-搜索引擎助手,完成信息汇总,保留索引的角色设定,直接在chatbot种通过角色即可一键调用。

最佳实践

作为研究人员,你可以使用此方法制作技术趋势报告。

如果你是知识博主,你可以提供更为系统的论文解读给你的读者们。

如果你正在学习,你可以通过MixCopilot的帮助,高效率地完成最新论文的追踪和阅读。

913aa15d7122997fb9748fe25eb4375d.jpeg

入群交流

2679a1aee0783c517b501404173fce1b.jpeg

入群备注:MC

最近更新

  1. TCP协议是安全的吗?

    2024-03-17 09:18:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-17 09:18:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-17 09:18:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-17 09:18:02       20 阅读

热门阅读

  1. DNS服务

    DNS服务

    2024-03-17 09:18:02      20 阅读
  2. Json格式解析

    2024-03-17 09:18:02       23 阅读
  3. [小程序开发] 构造页面

    2024-03-17 09:18:02       19 阅读
  4. React/RN组件避免重复渲染的一些技巧

    2024-03-17 09:18:02       20 阅读
  5. typeScript

    2024-03-17 09:18:02       21 阅读
  6. iOS 开发 block 等待 block 或 block 等待

    2024-03-17 09:18:02       20 阅读
  7. Node.js 中的事件循环(Event Loop)

    2024-03-17 09:18:02       18 阅读
  8. MySQL模块---更新和删除数据

    2024-03-17 09:18:02       19 阅读