(以下内容摘自香港失明人协进会的《无障碍数码科技通讯 第一百八十八期》)
语音转译文字程式 WhisperTranscribe
以下所介绍之产品并非由香港失明人协进会开发,
近来很多人谈论由 OpenAI 公司所开发的 ChatGPT 人工智能聊天机械人,因为它的思考方式比较接近人类,
https://github.com/openai/
作用就是将语音转译成文字。它的转译速度相当不错,
https://github.com/ggerganov/
它无须运用显示卡的运算协助转译工作,也无须在 Python 的环境中执行,不过电脑 CPU 的运算速度快些和记忆体充足一些会比较好,
WhisperTranscribe 的主要功能,就是将有说话语音的影音档案,
* 转译的准确率大概有80 至90 或以上巴仙,纵使影音档案在播出时,
* 能够转译绝大部分类型的影音档案,包括并不限于 .mp3、.aac、.opus、.flac、.wma、.
* 用者可以为影音档选择合适的说话语言,有多个语言可选,
* 对于需要使用读屏软件的朋友来说,程式同样易于使用,
* 可携版程式,无须安装,下载解压缩后即可使用。
纵使程式具有上述特色,可是它也有不少不足之处,包括:
* 程式最好在 CPU 运算速度较快和记忆体较充裕的电脑执行,相信近几年出品的电脑,
* 由于程式占用电脑 CPU 的资源比较多,会导至电脑产生不少沸热,
* 转译的速度不够快,
* 由于需要包含不同语音模型的关系,程式比较大,大概需要占用9 GB 的储存空间,所以占用储存空间比较多,
* 程式没有华丽的视窗界面。
* 在现阶段来说,转译出来的内容,都不会自动加上标点符号。
若要试用这个程式,可利用网页浏览器造访
https://drive.google.com/
将 WhisperTranscribe.zip 下载到电脑,然后将档案解压缩。会得出一个名为「
1. 准备一个没有档案的资料夹,将需要转译的影音档案复制进去。
2. 先开启「WhisperTranscribe」资料夹内的「
3. 在程式主视窗内按 Tab 键到「浏览」按钮,然后按空格键,
4. 选好资料夹后可按 Tab 键到选择语音模型的下拉方块,再选一个合适的语音模型,建议选「
5. 还有其他选项,可以继续按 Tab 键,可选择语音语言,还有输出档案类型等选项,
6. 一切准备就绪后,用者可按「开始」,程式便会开始执行转译工作,
7. 程式会记住用者所有已选出的选项,下次执行程式后,
8. 程式会利用档案名称建立同名资料夹,
9. 在所有转译工作都完成后,程式会开启资料夹并且退出。
10. 如果你的电脑安装了 PotPlayer 播放器,可以修改 PotPlayer 的一些设定,在 PotPlayer 每次播放有这种字幕的影音档案的时候,读屏软件 NVDA 能读出字幕。以下 PotPlayer 的设定只需做一次即可,以后无须再造:
10.1. 打开 PotPlayer,在 PotPlayer 视窗按 F5 打开偏好设定。
10.2. 按向下键多次到「协助工具 (TTS/UIA)」。
10.3. 案 Tab 键多次,直到「使用者介面自动化 (UIA)」,「用于「字幕」输出时」的核取方块,
10.4. 按 Tab 键多次到「确定」按钮,再按 Enter 键即可。
11. 假如已经启动 NVDA 的话,你可以试一下利用 PotPlayer 播放资料夹内的影音档,看看 NVDA 能否自动读出生成的字幕。
以下列出 WhisperTranscribe 主视窗的几个功能快速键:
* Alt+b--按下「浏览」按钮,
* Alt+o--按下「开启资料夹」按钮,
* Enter--按下「开始」按钮,也就是开始进行转译工作。
* Escape--按下取消按钮,也就是取消转译并结束程式。
以下列出 WhisperTranscribe 进度视窗的几个功能快速键:
* Alt+h--按下隐藏此视窗」按钮,也就是隐藏进度视窗,
* Alt+o--按下「开启资料夹」按钮,
* Alt+x--按下「停止并结束」按钮,
最后需要一提,如果影音档案的说话语言是广东话,建议在「
******************************
评论