【Whisper】WhisperX: Time-Accurate Speech Transcription of Long-Form Audio

在这里插入图片描述

Abstract

Whisper 的跨语言语音识别取得了很好的结果,但是对应的时间戳往往不准确,而且单词级别的时间戳也不能做到开箱即用(out-of-the-box). 此外,他们在处理长音频时通过缓冲转录

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-17 20:58:02       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-17 20:58:02       72 阅读
  3. 在Django里面运行非项目文件

    2024-07-17 20:58:02       58 阅读
  4. Python语言-面向对象

    2024-07-17 20:58:02       69 阅读

热门阅读

  1. E.Checksum(东北四省联赛ccpc)

    2024-07-17 20:58:02       22 阅读
  2. 神奇的东西+今天终于能画UML类图了

    2024-07-17 20:58:02       22 阅读
  3. python3 shutil排除特定或者模糊匹配文件或目录

    2024-07-17 20:58:02       18 阅读
  4. C语言-栈的实现

    2024-07-17 20:58:02       23 阅读
  5. 【工具使用】EMACS的verilog_mode脚本

    2024-07-17 20:58:02       21 阅读