By admin, 30 三月, 2023

(以下内容摘自香港失明人协进会的《无障碍数码科技通讯第一百八十八期》)

语音转译文字程式 WhisperTranscribe

以下所介绍之产品并非由香港失明人协进会开发，文稿亦是原作者所提供，如果在安装以及使用上有任何疑问，请发送电邮到 cyeric20@yahoo.com.hk 与原作者联络。

近来很多人谈论由 OpenAI 公司所开发的 ChatGPT 人工智能聊天机械人，因为它的思考方式比较接近人类，开始能够回答一些较为复杂的问题。其实，这间 OpenAI 公司也开发了其他程式，其中一个开放源代码的程式就称为 Whisper，

https://github.com/openai/whisper

作用就是将语音转译成文字。它的转译速度相当不错，其转译结果的准确度大概也有80 至90 或以上巴仙，当中也包含了人工智能的技术。不过它需要在 Python 环境下执行，并且用者需要输入比较复杂的命令行，加上系统需求比较高，需要电脑具备 NVIDIA 的显示卡，显示卡需要有 CUDA 的技术来协助转译，转译速度才能大大加快。于是有其他人将这个 Whisper 改写成对系统需求没那么高、也是开放源代码的 whisper.cpp，

https://github.com/ggerganov/whisper.cpp

它无须运用显示卡的运算协助转译工作，也无须在 Python 的环境中执行，不过电脑 CPU 的运算速度快些和记忆体充足一些会比较好，而且转译速度似乎也没那么快。由于用者仍要输入复杂的命令行，所以本人就用 whisper.cpp 做为转译引擎，编写了视窗界面，并且命名为 WhisperTranscribe，也就是说 WhisperTranscribe 本质上采用了 OpenAI 的语音转译文字技术。

WhisperTranscribe 的主要功能，就是将有说话语音的影音档案，转译成文字档或字幕档，也就是说可以为影音档案生成字幕，当然用者也要编辑一下字幕档，修正一些错误之处，字幕才显得更为准确，它的特色如下：

* 转译的准确率大概有80 至90 或以上巴仙，纵使影音档案在播出时，有一些背景音也不会妨碍转译结果，又或影音档案的主要说话语言是钟旻，当中夹杂一些英文程式也能应付，当然说话的语音需要清晰可听。

* 能够转译绝大部分类型的影音档案，包括并不限于 .mp3、.aac、.opus、.flac、.wma、.wav 等声音档，以及 .avi、.mp4、.wmv、.webm 等影片档。

* 用者可以为影音档选择合适的说话语言，有多个语言可选，并且设有自动侦测语言的选项可选。

* 对于需要使用读屏软件的朋友来说，程式同样易于使用，读屏都能够读出主要的讯息，而且一些功能都设有键盘快速键。

* 可携版程式，无须安装，下载解压缩后即可使用。

纵使程式具有上述特色，可是它也有不少不足之处，包括：

* 程式最好在 CPU 运算速度较快和记忆体较充裕的电脑执行，相信近几年出品的电脑，假如具备 Intel Core i5 或运算速度更高的 CPU，具备8 GB 或以上的记忆体，这样的电脑都可应付，如果在较为低阶的电脑执行，转译速度会更慢。

* 由于程式占用电脑 CPU 的资源比较多，会导至电脑产生不少沸热，所以需要一个良好的散热环境，而电脑散热风扇的运转速度也可能比较高，导致有可能产生教大的噪音。

* 转译的速度不够快，纵使在运算速度较快和记忆体较充裕的电脑进行转译，若要有较准确的转译结果，一般需要档案播放时间长度的一倍或以上的时间才转译完成，如果在运算速度不够快和记忆体不够多的电脑进行转译，转译速度肯定更慢。

* 由于需要包含不同语音模型的关系，程式比较大，大概需要占用9 GB 的储存空间，所以占用储存空间比较多，下载程式时花的时间也比较长。

* 程式没有华丽的视窗界面。

* 在现阶段来说，转译出来的内容，都不会自动加上标点符号。

若要试用这个程式，可利用网页浏览器造访

https://drive.google.com/drive/folders/1o1eBtjNbyH9MT9WtdUa6NsGcnGRHMrpi?usp=share_link

将 WhisperTranscribe.zip 下载到电脑，然后将档案解压缩。会得出一个名为「WhisperTranscribe」的资料夹，里面就有执行档「WhisperTranscribe.exe」，以及其他东东。现在简述一下使用方法：

1. 准备一个没有档案的资料夹，将需要转译的影音档案复制进去。

2. 先开启「WhisperTranscribe」资料夹内的「WhisperTranscribe.exe」执行档，代一会后一个主视窗便会出现。

3. 在程式主视窗内按 Tab 键到「浏览」按钮，然后按空格键，这里可让你选择需要转译档案的资料夹。

4. 选好资料夹后可按 Tab 键到选择语音模型的下拉方块，再选一个合适的语音模型，建议选「中型」，转译准确率大概有80 至90 或以上巴仙，在运算速度较快的电脑来说，转译档案所花的时间，大概是档案播放时间长度的一倍或以上，例如档案播放时间长度为10 分钟，转译所花的时间可能需要11 分钟才完成，如果选「大型」的话，转译结果可能会更准确一些，但转译档案所花的时间可能是档案播放时间长度的三倍或以上。

5. 还有其他选项，可以继续按 Tab 键，可选择语音语言，还有输出档案类型等选项，输出档案类型建议选取 .txt 文字档、.vtt 字幕档和 .srt 字幕档。

6. 一切准备就绪后，用者可按「开始」，程式便会开始执行转译工作，将资料夹内所有的影音档案全部转译为文字或字幕档案，转译期间会跳出进度视窗，显示工作进度，使用读屏的朋友届时可在进度视窗的唯读编辑方块，利用方向键读出不时更新进度的讯息。

7. 程式会记住用者所有已选出的选项，下次执行程式后，如果放置影音档案的资料夹、说话语言、使用模型和输出档案类型等选项没有改变的话，可以直接按「开始」进行转译工作。

8. 程式会利用档案名称建立同名资料夹，并将同名影音档案和输出档案都放到资料夹里面。

9. 在所有转译工作都完成后，程式会开启资料夹并且退出。

10. 如果你的电脑安装了 PotPlayer 播放器，可以修改 PotPlayer 的一些设定，在 PotPlayer 每次播放有这种字幕的影音档案的时候，读屏软件 NVDA 能读出字幕。以下 PotPlayer 的设定只需做一次即可，以后无须再造：

10.1. 打开 PotPlayer，在 PotPlayer 视窗按 F5 打开偏好设定。

10.2. 按向下键多次到「协助工具 (TTS/UIA)」。

10.3. 案 Tab 键多次，直到「使用者介面自动化 (UIA)」，「用于「字幕」输出时」的核取方块，然后按空格键将它勾选。

10.4. 按 Tab 键多次到「确定」按钮，再按 Enter 键即可。

11. 假如已经启动 NVDA 的话，你可以试一下利用 PotPlayer 播放资料夹内的影音档，看看 NVDA 能否自动读出生成的字幕。

以下列出 WhisperTranscribe 主视窗的几个功能快速键：

* Alt+b--按下「浏览」按钮，也就是选择放有影音档案的资料夹。

* Alt+o--按下「开启资料夹」按钮，也就是开启资料夹检视档案。

* Enter--按下「开始」按钮，也就是开始进行转译工作。

* Escape--按下取消按钮，也就是取消转译并结束程式。

以下列出 WhisperTranscribe 进度视窗的几个功能快速键：

* Alt+h--按下隐藏此视窗」按钮，也就是隐藏进度视窗，在这个视窗出现时，也可随时按 Win+Ctrl+h 显示或隐藏视窗。

* Alt+o--按下「开启资料夹」按钮，以检视资料夹里面的内容。

* Alt+x--按下「停止并结束」按钮，也就是停止转译工作并且结束程式。

最后需要一提，如果影音档案的说话语言是广东话，建议在「语音语言」的下拉方块选「中文」，程式有可能将语音内容翻译成书面语。

*************************************************************************

Wisper语音识别

语音转译文字程式 WhisperTranscribe

标签

评论

Restricted HTML

最新内容

最新评论