自己动手实现语音识别

声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。
通过傅里叶变换,可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础。

语音mfcc特征获取代码如下

from scipy.io import wavfile as wf
import python_speech_features as sf
import matplotlib.pyplot as plt

sample_rate,signs=wf.read("D:/BaiduNetdiskDownload/test.wav")
mfcc=sf.mfcc(signs,sample_rate)
plt.plot(mfcc)

数据集准备:

如图,有7个单词的语音数据,每个单词有14个语音数据

读取语音文件:


 

                

相关推荐

  1. 中文语音识别实战(ASR)

    2024-07-09 17:04:06       23 阅读
  2. Python使用whisper实现语音识别(ASR)

    2024-07-09 17:04:06       37 阅读
  3. Python+Opencv是实现车牌自动识别

    2024-07-09 17:04:06       22 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-09 17:04:06       50 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-09 17:04:06       54 阅读
  3. 在Django里面运行非项目文件

    2024-07-09 17:04:06       43 阅读
  4. Python语言-面向对象

    2024-07-09 17:04:06       54 阅读

热门阅读

  1. emacs 重新加载磁盘上的文件

    2024-07-09 17:04:06       22 阅读
  2. Linux学习笔记(一)

    2024-07-09 17:04:06       26 阅读
  3. 用WPF实现的窗体是怎么运行的?

    2024-07-09 17:04:06       25 阅读
  4. Mac OS M3 安装 Docker 并解决芯片不支持问题

    2024-07-09 17:04:06       23 阅读
  5. Fedora 41 移除 Python 2支持

    2024-07-09 17:04:06       23 阅读
  6. 单例模式之懒汉式

    2024-07-09 17:04:06       28 阅读