funasr 麦克风实时流语音识别

参考:
https://github.com/alibaba-damo-academy/FunASR
在这里插入图片描述
chunk_size 是用于流式传输延迟的配置。[0,10,5] 表示实时显示的粒度为 1060=600 毫秒,并且预测的向前信息为 560=300 毫秒。每个推理输入为 600 毫秒(采样点为 16000*0.6=960),输出为相应的文本。对于最后一个语音片段的输入,需要将 is_final=True 设置为强制输出最后一个词语。

采样率和采样点之间的关系可以用以下公式表示:

总样本数 = 采样率 * 采样时长 ( 16000 * 0.6 = 9600 )

采样率是 16000 Hz,代表每秒钟采集 16000 个样本点。

而每次推理输入的时间范围是 

相关推荐

  1. FunASR语音识别快速上手指南

    2024-04-13 16:10:03       24 阅读
  2. Windows 11部署FunASR离线语音识别系统

    2024-04-13 16:10:03       33 阅读
  3. 语音识别】搭建本地的语音转文字系统:FunASR

    2024-04-13 16:10:03       41 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-13 16:10:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-13 16:10:03       101 阅读
  3. 在Django里面运行非项目文件

    2024-04-13 16:10:03       82 阅读
  4. Python语言-面向对象

    2024-04-13 16:10:03       91 阅读

热门阅读

  1. 利用dash+falsk实现报告展示平台

    2024-04-13 16:10:03       37 阅读
  2. ubuntu 部署redis

    2024-04-13 16:10:03       32 阅读
  3. js获取本周,本月,本季度开始结束时间

    2024-04-13 16:10:03       43 阅读
  4. JDBC高级篇-JDBC工具类、DAO封装和BaseDAO工具类

    2024-04-13 16:10:03       30 阅读
  5. 如何取安全的密码?

    2024-04-13 16:10:03       35 阅读