Transformer的前世今生 day01（预训练

2024-03-16 14:22:02
开发
16

预训练

在相似任务中，由于神经网络模型的浅层是通用的，如下图：
所以当我们的数据集不够大，不能产生性能良好的模型时，可以尝试让模型B在用模型A的浅层基础上，深层的部分自己生成参数，减小数据集的压力
使用模型A的浅层来实现任务B，由两种方式：
- 冻结（frozen）：浅层参数不变
- 微调（Fine-Tuning)：浅层参数会跟着任务B的训练而改变
总结：一个任务A，一个任务B，两者极其相似，任务A已经通过大数据集训练出一个模型A，使用模型A的浅层参数去训练任务B，得到模型B。

原文地址:https://blog.csdn.net/u011453680/article/details/136748564 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1768885415114313728.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部