- 还是不会VAD?三分钟看懂语音激活检测方法
- AI柠檬语音识别学习路径和入门资料推荐
- 统计N元语言模型生成算法:简单中文词频统计
- 统计语言模型:从中文拼音到文本
- 语音声学特征提取:用于ASRT的语谱图特征的算法原理与实现
- 语音声学特征提取:MFCC和LogFBank算法的原理
- ASRT:一个中文语音识别系统
- 专门面向中文用户的机器学习相关的学习资料大集合
- 语音识别客户端应用Python SDK: https://github.com/nl8590687/ASRT_SDK_Python3
- ASRT代码:https://github.com/nl8590687/ASRT_SpeechRecognition
- ASRT网站:https://asrt.ailemon.net/
- ASRT发行版(如果只是使用,不训练,应该下载这个):https://github.com/nl8590687/ASRT_SpeechRecognition/releases
- 元语音研究网:https://www.meta-speech.net/
ASRT训练环境配置备忘:
- pip install -r requirements.txt 有报错似乎也没有关系
- 数据库国内网址无法访问,需访问国外网址。
- 下载后需配置asrt_config.json,把没有下载的训练数据库去掉
- 不够内存的话运行python3 train_speech_model.py会崩溃
- 设置pip国内源
For Windows:
$ py -m pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
Writing to C:\Users\dell\AppData\Roaming\pip\pip.ini
For Linux:
$ cat ~/.pip/pip.conf
[global]
index-url=https://pypi.tuna.tsinghua.edu.cn/simple
[install]
trusted-host=mirrors.aliyun.com
- 在未配置GPU的情况下,训练THCHS30数据集大概需要用2小时40分(要做50个epoch)。CPU主频3GHz,8核,CPU占用近100%,内存占用峰值近10G。机器其它程序可以正常使用(没有感觉CPU100%)
- 下载安装CUDA:https://developer.nvidia.com/cuda-downloads ,安装包有2.5G,安装失败,报错An unknown error has occured. 把版本降到11.5后可以安装:https://developer.nvidia.com/cuda-11-5-2-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_network
- 每训练(train_speech_model.py)完一个epoch似乎是会保存的,可以修改代码,从某一个epoch开始。也可以指定初始的数据(似乎是可以继承其它数据集的训练结果)
- 做了6个epoch后测试(evaluate_speech_model.py),结果返回*[ASRT Test Result] Speech Recognition dev set word error ratio: 100.0 %,对于输入的123.wav,一个字也识别不出来。用发行版v1.2的save_models取代自己训练的save_models,结果为*[ASRT Test Result] Speech Recognition dev set word error ratio: 17.09741550695825 %。
- 下一步,一边继续慢慢CPU训练数据。一边了解迭代epoch做的事,和model提取的特征是什么。
- 做了19个epoch后测试, error ratio: 99.99657229039556 %
- 做了50个epoch后测试,error ratio: 100.0 %。有问题,待调查。
新代码装依赖时报错:
The conflict is caused by:
The user requested protobuf
grpcio-tools 1.51.1 depends on protobuf<5.0dev and >=4.21.6
tensorboard 2.8.0 depends on protobuf>=3.6.0
tensorflow-gpu 2.8.4 depends on protobuf<3.20 and >=3.9.2
评论