LLM proj - 审稿大模型

2024-06-16 06:48:03
开发
42

常用数据处理

主要是四种方式：正则表达式、AC自动机、困惑度过滤低质文本、最小哈希算法实现文本去重

1. 正则表达式，去做一些模式匹配

ex：

# 论文的评审内容有时会存在大量列举reference（参考文献）的情况
# 这些reference会占据大量的评审内容篇幅
# 且多数情况下仅为参考文献的标题、年份等无意义信息

比如将数据集中，每条评审中reference部分给替换成“”

2. AC自动机词库匹配

应用场景：

1. 从大量文本中匹配出预设词库中的敏感词。

2. 从大量文本中判断是否存在预设词库中的某些词。

传统的低效做法是：遍历词库，对于词库中每个词都在目标文本中查询一遍。

AC自动机的方法是，对于词库中的内容构建一个前缀树，对于目标文本只需要过一遍就能知道是否存在词库中的词

EX:

1. 构建树

通过这些模式字符串的公共前缀来进行构造

2. 在相应节点定义接收态。

每当能构成一个模式，那么这个模式对应的最后一个节点就是接收态，图中红色就是接收态，

每个接收态会存储其对应的回溯长度

3.为树的每个节点定义失败路径机制。

失败路径机制：

位于当前节点无法再进一步往下匹配时，将指向其“节点路径的最大后缀同值节点”（如下图的橙色箭头），

如果不存在“节点路径的最大后缀同值节点”，则指向根节点（如下图的紫色箭头代表指向根节点）。

例如“she”最大后缀就是he，刚好树种有对应其他位置的he，就是他们的同值节点，比如当she走完之后发现没法再进行匹配时，就会调到另一个e上继续做匹配

然后还会拷贝失败路径对应接受态，也就是另一个e的回溯长度，2

这样有个好处，会把长路径中蕴含的短路径（模式）也可以记录到

比如在匹配aasherhsy时，前两个a，匹配不到，均是从根节点回到自身，从s开始，一直匹配到she，然后回溯，此时到e时由于存储了两个回溯长度，一个回溯三次，一个回溯两次，所以把she 、he都会算进去，she后匹配不到r，然后就跳转到最大后缀同值节点上，就是另一个e，再往下，刚好可以匹配到r，r是接收态，所以会再次回溯，her也匹配到了，r往后匹配不到了，也没有最大后缀同值节点，于是就跳转回根节点，以此类推。

3. 困惑度过滤低质文本

就是利用一些早期的LM，通过去计算loss，来得到文本的困惑度，困惑度越高就越容易不是一个通顺的句子

LM的loss就是，分解到每一步，每一步都是以前面生成token为依据，生成当前token的概率然后取log。每一步求和，取负数，求平均。

困惑度的计算方式是

就是每一步的生成概率累乘起来然后开T次方（文本长度）

有：ppl = exp(loss)

关于loss的计算方式，label就是原始文本错一位即可，比如“我爱上学”，label就是“爱上学”，就是每个token的next token，就是label

计算结果示例：

可以看到语句不通顺的句子，困惑度非常高

困惑度这个指标其实不好设定相关的阈值，一般来说是，取一批样本，计算完困惑度之后按困惑度进行倒排，然后通过人为判定，取一个分位点，按照分位点对应的值再做筛选

4. 最小哈希算法实现文本去重

文本去重一般使用Jaccard相似度

就是交集的token数除以并集的token数。

但是这种方法在计算多文本以及长文本的时候计算量太大，速度慢

于是有一种近似的方法，就是minhash

步骤：

1. 首先构造一个矩阵

类似于一个词袋模型

(这里看来，每个文本对应的向量就是[1,1,1,1], [0,1,1,1], [1,0,0,1])

2. 行打乱

每个文本记录第一个1出现的位置对应的行号，S1S2S3分别是0,0,2，此时S1向量就是[1]

第二次打乱

S1S2S3分别是0，1,0,此时S1的向量就是[0,0]

循环进行

假设打乱了三次,S1,S2,S3分别得到一个三维向量

计算相似度

两两相似度就是，看对应位置是否相等，相等就是1否则为0，然后除以向量长度

假设原始向量长度是2000，那么我们可以通过这种方式降维到256,512等，通过这种minhash的方式来近似jaccard的结果

但是这种方式在计算的文档数过多时，还是不够快

于是在minhash基础上再引入LSH，LSH指Locality Sensitive Hashing（局部敏感哈希）

通过给minhash产生的向量进行分块，先从第一个块开始计算，若两个向量第一个块开始相似度就不够高，那么就不用再计算下去了，相当于做了一个快速的初筛

原文地址:https://blog.csdn.net/weixin_43895517/article/details/139707295 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1802110849465323520.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

LLM proj - 审稿大模型

2024-06-16 06:48:03 43 阅读
大数据经责审计

2024-06-16 06:48:03 65 阅读
大模型时代-大模型开发入门

2024-06-16 06:48:03 62 阅读
大语言模型-大模型基础文献

2024-06-16 06:48:03 56 阅读
LLM（大语言模型）——大模型简介

2024-06-16 06:48:03 44 阅读
大模型与大模型参数

2024-06-16 06:48:03 43 阅读
【大模型学习】大模型相关概念

2024-06-16 06:48:03 28 阅读
通用大模型与垂直大模型

2024-06-16 06:48:03 27 阅读
“信息科技风险管理”和“IT审计智能辅助”两个大模块的部分功能详细介绍：

2024-06-16 06:48:03 26 阅读
大模型应用_FastGPT

2024-06-16 06:48:03 59 阅读

最近更新

题解 - 序列

2024-06-16 06:48:03 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-06-16 06:48:03 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-06-16 06:48:03 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-06-16 06:48:03 100 阅读
NoSQL之Redis非关系型数据库

2024-06-16 06:48:03 101 阅读
2024.7.22 作业

2024-06-16 06:48:03 97 阅读
GDB调试正在运行的程序

2024-06-16 06:48:03 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-06-16 06:48:03 85 阅读
在Django里面运行非项目文件

2024-06-16 06:48:03 82 阅读
SSD基本架构与工作原理

2024-06-16 06:48:03 87 阅读
在誉天学习完HCIE就业吗？

2024-06-16 06:48:03 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-06-16 06:48:03 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-06-16 06:48:03 85 阅读
go 协程池的实现

2024-06-16 06:48:03 88 阅读
Shell脚本循环语句与函数

2024-06-16 06:48:03 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-06-16 06:48:03 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-06-16 06:48:03 85 阅读
四大引用——强软弱虚

2024-06-16 06:48:03 86 阅读
Python语言-面向对象

2024-06-16 06:48:03 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-06-16 06:48:03 85 阅读
网站安全-CDN篇

2024-06-16 06:48:03 88 阅读