

在AI被用于生成视频和编写程序很久之前,它就已经被用于理解语音并对其采取行动。正是AI让您能够与Alexa、Siri和Google Assistant聊天,并让这些应用程序按照您的意愿执行任务。
同样的算法可以帮助您从包含语音的音频文件中创建数字文本记录,无论这些文件是会议、访谈、讲座,还是您自己录制的语音备忘录。文本记录为您提供了所说内容的书面记录,并且可以轻松搜索。
像Rev和Happy Scribe这样的知名转录服务只提供有限的免费转录量,但您可以完全免费地完成工作,这要归功于Whisper。这是由OpenAI(ChatGPT的开发商)开发的语音转文本引擎,并且没有使用限制。
您可以选择使用托管在Hugging Face上的Web版本应用程序,这很方便,但在高峰时段通常会很忙。您也可以选择在Windows上本地安装该软件—这意味着转录速度更快,但您需要一台性能不错的PC才能处理AI的计算需求。
Whisper网页版

访问Hugging Face上的Whisper,您就可以在浏览器中免费转录音频—您甚至不需要注册账户。您可以选择上传电脑上的音频文件,或者如果您连接了麦克风,可以直接将语音录入应用程序。请注意,您的音频可能会被用于进一步训练未来的AI模型——正如通常情况一样,OpenAI和Hugging Face的隐私政策对此并未明确说明。
上传和处理音频文件
- 打开音频文件选项卡。
- 选择点击上传。
- 选择一个音频文件。
- 勾选转录复选框。
- 点击提交。
几秒钟(或更长时间)后,您将在屏幕右侧看到文本输出。处理时间取决于您的音频文件长度以及Hugging Face服务器的繁忙程度。由于这是一项面向所有人的免费服务,因此非常受欢迎,所以您可能会发现需要等待相当长的时间才能让文件通过队列。
在界面中,您会发现一些有用的工具。例如,点击音频播放条上方的笔形图标,您可以修剪音频片段的开头和结尾—如果您需要剪掉静默或不重要的部分,这将非常方便。
您也可以切换到麦克风选项卡,直接在Whisper界面中录制音频,或者切换到YouTube选项卡,获取任何视频的转录。只需粘贴视频URL即可开始。值得注意的是,YouTube已经为某些视频自动添加了字幕,可以在评论部分找到。
Whisper在Windows上

如果您在Whisper Web应用程序中遇到很多延迟,或者只是想让您的转录处理更本地化和私密化,您可以在Windows计算机上设置AI模型。您需要安装一块支持CUDA的显卡(参见此列表),至少有4GB的VRAM,才能处理计算—如果您安装了相当新的Nvidia显卡,它很可能符合要求。
这个过程要复杂得多,并且用户界面非常有限,所以并不适合所有人。但它具有我们已经提到的优点,而且您不必排队等待文件被处理。如果您喜欢摆弄代码和程序,这也是一个很棒的小项目。
假设您的电脑符合要求,您需要在电脑上安装一些组件:用于编码的Python(安装时请确保勾选了Add python.exe to PATH),用于机器学习库的PyTorch,用于管理软件包的Chocolatey,以及用于音频处理的FFmpeg。如果您需要,它们都附带了相关网站上的安装说明。
然后,您就可以安装Whisper本身了:在开始菜单中搜索“cmd”,打开命令提示符,然后输入“pip install -U openai-whisper”并按Enter。安装完成后,您可以像这样转录文件:
- 在文件资源管理器中打开包含音频文件的文件夹。
- 点击顶部的地址栏,输入“cmd”,然后按Enter。
- 输入“whisper”,然后是一个空格,然后是您的音频文件名。
- 再次按Enter,处理就开始了。
文本会显示在屏幕上,并以一系列文本文件的形式保存在与音频相同的文件夹中。如果您需要同时转换多个文件,只需在“whisper”命令后列出所有文件,每个文件之间用空格隔开。
即使您不熟悉Python或命令提示符,也应该不会有太大麻烦就能让一切运行起来。网上有很多指南可以帮助您。 这是最好的教程之一,它将一步一步地指导您完成每个阶段,并解释一些可用的高级功能(例如切换到不同的AI模型)。