03-11 周一 使用Zotero阅读文献时提取单词到不背单词App步骤

03-11 周一 单词提取步骤
时间 版本 修改人 描述
2024年3月11日09:32:49 V0.1 宋全恒 新建文档

简介

工作流

 积累是很重要的事情,楼主最近刚刚完成了一篇关于Large Language Models的综述,这个综述一共83页吧,读起来速度就不是很快,又没有什么高明的办法,就只能一点一点,逐行的去阅读,而且在阅读过程中,总是会有生词出现,为了快速记忆这些生词,楼主就去找了单词相关的应用,最终形成了如下的工作流:

  • 在Zotero中阅读文献的时候,对生词进行着色,楼主选择了红色,短语选择的颜色为蓝色。
  • 导出这些生成,然后转换成逐行的格式
  • 将生词导入到不背单词App,进行艾宾浩斯的记忆,专项提高。

依赖的软件

 在单词导出的过程中,主要是包含如下的软件:

  1. Zotero,对生词进行标记
  2. VS Code, 使用正则表达式对文本中生词进行处理
  3. 不背单词,网页,因此只要有浏览器就可以。
  4. 搜狗输入法,保存成短语,方便下次提取相关的正则表达式

操作步骤

拷贝Zotero中的单词

 在我们阅读paper时,一般会选择一个文献管理工具来进行阅读,楼主推荐大家使用Zotero进行文献的阅读,这是因为它有许多的插件,非常好用。诸如翻译插件,着色,标签。好的工具能够提升阅读的效率,在整理时会有许多的助力。

 楼主在阅读论文的时候,因为最近才开始读,所以会有很多的生词,是将单个生词标记成红色的。

提取单词“pertinent”

 首先是根据单词的格式提取特征,其中具体的单词及含义的格式有如下几种:

“pertinent” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=RYLAIUFP)) pertinent  
英 [ˈpɜːtɪnənt][ˈpɜːrt(ə)nənt]  
adj. 切题的,相关的

“implications” ([Zhu 等, 2023, p. 1](zotero://select/library/items/J3S5Q2PY)) ([pdf](zotero://open-pdf/library/items/FTR3LHEG?page=1&annotation=GWMLFT4K)) implications  
英 [ˌɪmplɪˈkeɪʃ(ə)nz][ˌɪmplɪˈkeɪʃ(ə)nz]  
n. 暗指,暗示;蕴含,含义;(可能带来的)影响(implication 的复数)

 因此,我们首先将包含单词“pertinent”的行中,处理成仅仅包含单词内容。

 在VS Code中点击Replace all即可将上述的单词替换成如下的形式:
pertinent
英 [ˈpɜːtɪnənt][ˈpɜːrt(ə)nənt]  
adj. 切题的,相关的

implications
英 [ˌɪmplɪˈkeɪʃ(ə)nz][ˌɪmplɪˈkeɪʃ(ə)nz]  
n. 暗指,暗示;蕴含,含义;(可能带来的)影响(implication 的复数)

去除中文行

 在经过上述处理中,可以将单词提取成为单独的一行了,因此,接下来处理发音行和释义行。可以看到都有中文,因此将含有中文字符的行删除即可

propose
英 [prəˈpəʊz][prəˈpoʊz]  
v. 提议,建议;提出(理论或解释);提名,推荐;计划,打算;求婚;(向立法机构或委员会)提交(动议);提议祝(酒)  
[ 第三人称单数 proposes 现在分词 proposing 过去式 proposed 过去分词 proposed ]

proximity
英 [prɒkˈsɪməti][prɑːkˈsɪməti]  
n. (时间、空间、关系的)靠近,亲近

本次提取的过程是将行内包含中文字符的行去除,比方说包括发音的英, 美以及中文注释

 使用替换功能,使用如下正则表达式匹配包含中文字符的行

.*[\u4E00-\u9FA5]+.*
 可以看到,一共有1083行包含了中文,这些行是我们要删除的。

移除空行

 接下来将使用vscode将空行移除

> 注:由于不背单词在解析的时候,逐行解析,所以有空行也是没有关系的。
\n\s*\n

 在去除了空行之后,就成了下面的样式了

## 检查移除不是单词的内容

 经过处理后的内容,可能包含一些特殊情况,手动删除。

halving
['ha:viŋ]  
amplify
susceptible
lossless
uneven
predominantly
mandates
n.  
confines
intractable

 如上文出现的n.、['ha:viŋ] 手动移除即可。

将这些常用的正则匹配保存进入搜狗输入法

 记住,如果一个问题,你解决过一次,那很有可能,你还是会遇到同样的场景的。所以,将这些正则字符串保存起来,方便提取,是一个不错的方式。

## 导入不单词

 接下来就是导入浏览器,将单词导入到不背单词。登录,然后自制词书,即可。

 不再赘述

总结

 最近自己也是疯狂的在积累单词,自己上周日刚看完了一本东野圭吾的白夜行,整理了人物关系图。在阅读paper的时候,就意识到了结构structure的重要性,所以笔者决定再次进行金字塔原理的阅读,而且我再阅读的时候,还能感受到当时我阅读Martin Fowler的《重构 改善既有代码的设计》所带给我的感动,我感觉这本书也是一个这样的书,书里面包含了深刻的洞见,等我看完再分享分享。

 最近晚上睡眠的时候,睡前也会头脑风暴一下学习的单词,希望能够积累更多的生词吧,然后能够多读一些paper,2024年。

 最后,我们可以在搜狗输入法中存储这些快捷键。然后以后就可以重复使用了。

快捷键 实际内容 作用
dctq “(\w+)”.* 单词提取, 在替换中填$1
zwsc .[\u4E00-\u9FA5]+. 搜索中文,在替换中填空
khsc \n\s*$ 空行删除, 在替换中填空

相关推荐

  1. 阅读单篇 [ 04 ]

    2024-03-27 11:00:05       24 阅读
  2. Webpack5入门原理15提取 Css 成单独文件

    2024-03-27 11:00:05       38 阅读
  3. 统计单词数量(文件)(*)

    2024-03-27 11:00:05       14 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-27 11:00:05       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-27 11:00:05       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-27 11:00:05       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-27 11:00:05       20 阅读

热门阅读

  1. 检查文件是否为图片或者视频

    2024-03-27 11:00:05       19 阅读
  2. 智能媒体时代认知安全的关键资源

    2024-03-27 11:00:05       16 阅读
  3. [蓝桥杯 2015]机器人数目

    2024-03-27 11:00:05       18 阅读
  4. C#学习3--实验:索引器和接口

    2024-03-27 11:00:05       14 阅读
  5. 微信小程序对于回调函数异步API的优化

    2024-03-27 11:00:05       18 阅读
  6. 深度学习调参指南

    2024-03-27 11:00:05       16 阅读
  7. 什么是软件工程?如何应用软件工程原则?

    2024-03-27 11:00:05       17 阅读
  8. 卸载docker

    2024-03-27 11:00:05       13 阅读