LauraGPT

git:https://github.com/alibaba-damo-academy/FunCodec

model arch

在这里插入图片描述

  • text-embedding 用千问的模型参数初始化;AudioEncoder用asr-conformer的参数初始化;所有的参数都参与更新,除了CodecVocoder;
  • 输入(连续特征):【input embedding, taskID】
  • 输出(离散特征):【output tokens】,task token在输入和输出矩阵中都有;(N + M + L) × D的结果,N-text_token;M:audio_token;L:task_token
  • 计算loss的时候,mask output token中的input token & task token;

AudioTokenizer

  • 16khz的音频通过卷积压缩为25hz(40ms);conv:[8, 5, 4, 2, 2],
  • 更多的RVQ改善语音质量,并且shallow quantizers中有更多的信息;
  • AudioTokenizer = encoder+1st quantizer,1st quantizer的输出是audio token,audio token只作为GPT的输出使用,输入是连续的embedding;剩余的量化器&decoder只在训练阶段使用;

model init

    • text-embedding 用千问的模型参数初始化;AudioEncoder用asr-conformer的参数初始化;所有的参数都参与更新,除了CodecVocoder;
  • 初始化是否真的有用处?
    • 附录B2对比了在ASR/S2TT/SE任务有无初始化的效果,发现ASR/S2TT初始化有明显提升,SE任务初始化效果区别不大;
    • 使用的是NLP-LLM初始化,更多有助于文本生成任务;对于音频生成任务,可能用audio token训练过的会更有效;

相关推荐

  1. <span style='color:red;'>LauraGPT</span>

    LauraGPT

    2024-01-06 06:26:03      50 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-06 06:26:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-06 06:26:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-06 06:26:03       82 阅读
  4. Python语言-面向对象

    2024-01-06 06:26:03       91 阅读

热门阅读

  1. Qt 6之四:基础概念讲解

    2024-01-06 06:26:03       54 阅读
  2. 前端算法之堆--桶排序和快速排序

    2024-01-06 06:26:03       63 阅读
  3. Linux个人常用总结

    2024-01-06 06:26:03       56 阅读
  4. CentOS 7.8 安装 Docker

    2024-01-06 06:26:03       51 阅读
  5. Centos 7虚拟机ip地址配好后经常丢失

    2024-01-06 06:26:03       61 阅读
  6. C#与雷赛运动控制卡的使用(二) - 轴控制系统

    2024-01-06 06:26:03       48 阅读
  7. Fiddler 一个好用的监控http和https的工具

    2024-01-06 06:26:03       46 阅读
  8. 【SpringCloud】7、Spring Cloud Gateway限流配置

    2024-01-06 06:26:03       53 阅读
  9. Vue 路由

    2024-01-06 06:26:03       63 阅读
  10. 编程笔记 html5&css&js 026 HTML输入类型(2/2)

    2024-01-06 06:26:03       61 阅读
  11. uView Picker 选择器

    2024-01-06 06:26:03       65 阅读
  12. Ubuntu18.04 安装 qt 5.15.2

    2024-01-06 06:26:03       60 阅读