[论文笔记] 揭开缺陷:探索合成中的缺陷——大型语言模型的数据和缓解策略 Unveiling the Flaws: Exploring Imperfections in Synthetic Data

2024-07-14 19:12:01
开发
17

Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models

揭开缺陷:探索合成中的缺陷——大型语言模型的数据和缓解策略

合成数据被提议作为解决在大规模语言模型（LLM）训练中高质量数据稀缺问题的一种方案。研究表明，合成数据可以有效提升LLM在下游基准测试中的表现。然而，尽管合成数据具有潜在的优势，我们的分析表明，合成数据可能存在内在的缺陷。合成数据的统一格式可能导致模式过拟合，并引起输出分布的显著变化，从而降低模型的指令遵循能力。我们的研究深入探讨了与问答（Q-A）对这一常见类型合成数据相关的具体缺陷，并提出了一种基于“去学习”技术来缓解这些缺陷的方法。实验证据表明，我们的方法能够逆转由模式过拟合引起的指令遵循问题，同时在相对较低的成本下，不会影响基准测试上的性能。我们的工作提供了合成数据有效使用的重要见解，旨在促进更稳健和高效的LLM训练。

摘要：

背景：合成数据被提出来解决高质量数据稀缺的问题，尤其是在训练大型语言模型（LLMs）时。
问题：虽然合成数据能提高模型的表现，但它也有一些内在的缺陷，特别是可能导致模型过拟合（即模型过于依赖训练数据，导致在新数据上的表现不好<

原文地址:https://blog.csdn.net/Trance95/article/details/140364565 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1812444936826654720.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-14 19:12:01 86 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-14 19:12:01 72 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-14 19:12:01 67 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-14 19:12:01 71 阅读
NoSQL之Redis非关系型数据库

2024-07-14 19:12:01 74 阅读
2024.7.22 作业

2024-07-14 19:12:01 74 阅读
GDB调试正在运行的程序

2024-07-14 19:12:01 59 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-14 19:12:01 60 阅读
在Django里面运行非项目文件

2024-07-14 19:12:01 58 阅读
SSD基本架构与工作原理

2024-07-14 19:12:01 64 阅读
在誉天学习完HCIE就业吗？

2024-07-14 19:12:01 71 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-14 19:12:01 61 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-14 19:12:01 65 阅读
go 协程池的实现

2024-07-14 19:12:01 64 阅读
Shell脚本循环语句与函数

2024-07-14 19:12:01 66 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-14 19:12:01 70 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-14 19:12:01 62 阅读
四大引用——强软弱虚

2024-07-14 19:12:01 67 阅读
Python语言-面向对象

2024-07-14 19:12:01 69 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-14 19:12:01 64 阅读
网站安全-CDN篇

2024-07-14 19:12:01 64 阅读

热门阅读

Linux限速工具：FlowMaster - IP级网络流量控制脚本

2024-07-14 19:12:01 24 阅读
香橙派AI Pro开发板与YOLOv5结合实战：打造高效图像识别解决方案

2024-07-14 19:12:01 20 阅读
家政上门系统和家政O2O服务有什么区别？

2024-07-14 19:12:01 16 阅读
C语言之常量和变量

2024-07-14 19:12:01 22 阅读
浅谈C嘎嘎入门基础

2024-07-14 19:12:01 20 阅读
线段树——AcWing 245. 你能回答这些问题吗

2024-07-14 19:12:01 22 阅读
Android - 云游戏本地悬浮输入框实现

2024-07-14 19:12:01 17 阅读
Facebook的未来蓝图：从元宇宙到虚拟现实的跨越

2024-07-14 19:12:01 17 阅读
SQL Server端口配置指南

2024-07-14 19:12:01 21 阅读
springboot系列教程（二）：Log4j2日志信息（含源码）

2024-07-14 19:12:01 23 阅读
C#语言简介

2024-07-14 19:12:01 26 阅读
时间序列分析论文翻译与笔记：The correct way to start an Exponential Moving Average (EMA)

2024-07-14 19:12:01 26 阅读
Node多版本管理器NVM安装使用

2024-07-14 19:12:01 18 阅读
AIGC专栏13——ComfyUI 插件编写细节解析-以EasyAnimateV3为例

2024-07-14 19:12:01 16 阅读
Windows11终端winget配置

2024-07-14 19:12:01 21 阅读
企业网络运维-给华为交换机配置ssh登录

2024-07-14 19:12:01 23 阅读
《数据结构：C语言实现单链表》

2024-07-14 19:12:01 21 阅读
1.32、基于区域卷积神经网络(R-CNN)的停车标志检测(matlab)

2024-07-14 19:12:01 18 阅读
Github 2024-07-11 Go开源项目日报 Top10

2024-07-14 19:12:01 17 阅读
【Linux】重定向 | 为什么说”一切皆文件？“

2024-07-14 19:12:01 18 阅读
SQL多表查询

2024-07-14 19:12:01 20 阅读
项目训练营-智能Bi项目详细模块编写

2024-07-14 19:12:01 20 阅读
高通平台sensor初始化步骤

2024-07-14 19:12:01 23 阅读
pid内容索引

2024-07-14 19:12:01 18 阅读
Phpstudy 2018 之xhcms搭建

2024-07-14 19:12:01 17 阅读
Linux 命令 —— top命令(查看进程资源占用)

2024-07-14 19:12:01 20 阅读
C++ 异常

2024-07-14 19:12:01 20 阅读
部署PXE高效批量网络装机

2024-07-14 19:12:01 17 阅读
集训 Day 3 总结虚树 + dfs tree + 基环树

2024-07-14 19:12:01 20 阅读
[Linux]权限

2024-07-14 19:12:01 20 阅读