如何使用AI免费转录文本

将音频录音转换为文字。

作者：David Nield

发布于 2024年7月10日上午9:48 EDT

a microphone in front of a laptop on a desk — 如果您需要将语音转换为文本，AI可以提供帮助。图片：Vika Strawberrika/Unsplash

在AI被用于生成视频和编写程序很久之前，它就已经被用于理解语音并对其采取行动。正是AI让您能够与Alexa、Siri和Google Assistant聊天，并让这些应用程序按照您的意愿执行任务。

同样的算法可以帮助您从包含语音的音频文件中创建数字文本记录，无论这些文件是会议、访谈、讲座，还是您自己录制的语音备忘录。文本记录为您提供了所说内容的书面记录，并且可以轻松搜索。

像Rev和Happy Scribe这样的知名转录服务只提供有限的免费转录量，但您可以完全免费地完成工作，这要归功于Whisper。这是由OpenAI（ChatGPT的开发商）开发的语音转文本引擎，并且没有使用限制。

您可以选择使用托管在Hugging Face上的Web版本应用程序，这很方便，但在高峰时段通常会很忙。您也可以选择在Windows上本地安装该软件—这意味着转录速度更快，但您需要一台性能不错的PC才能处理AI的计算需求。

Whisper网页版

screenshot of the whisper interface — Whisper网页版使用起来快速简便。截图：Whisper

访问Hugging Face上的Whisper，您就可以在浏览器中免费转录音频—您甚至不需要注册账户。您可以选择上传电脑上的音频文件，或者如果您连接了麦克风，可以直接将语音录入应用程序。请注意，您的音频可能会被用于进一步训练未来的AI模型——正如通常情况一样，OpenAI和Hugging Face的隐私政策对此并未明确说明。

上传和处理音频文件

打开音频文件选项卡。
选择点击上传。
选择一个音频文件。
勾选转录复选框。
点击提交。

几秒钟（或更长时间）后，您将在屏幕右侧看到文本输出。处理时间取决于您的音频文件长度以及Hugging Face服务器的繁忙程度。由于这是一项面向所有人的免费服务，因此非常受欢迎，所以您可能会发现需要等待相当长的时间才能让文件通过队列。

在界面中，您会发现一些有用的工具。例如，点击音频播放条上方的笔形图标，您可以修剪音频片段的开头和结尾—如果您需要剪掉静默或不重要的部分，这将非常方便。

您也可以切换到麦克风选项卡，直接在Whisper界面中录制音频，或者切换到YouTube选项卡，获取任何视频的转录。只需粘贴视频URL即可开始。值得注意的是，YouTube已经为某些视频自动添加了字幕，可以在评论部分找到。

Whisper在Windows上

screenshot of code — Whisper使用简单的命令提示符界面。截图：Whisper

如果您在Whisper Web应用程序中遇到很多延迟，或者只是想让您的转录处理更本地化和私密化，您可以在Windows计算机上设置AI模型。您需要安装一块支持CUDA的显卡（参见此列表），至少有4GB的VRAM，才能处理计算—如果您安装了相当新的Nvidia显卡，它很可能符合要求。

这个过程要复杂得多，并且用户界面非常有限，所以并不适合所有人。但它具有我们已经提到的优点，而且您不必排队等待文件被处理。如果您喜欢摆弄代码和程序，这也是一个很棒的小项目。

假设您的电脑符合要求，您需要在电脑上安装一些组件：用于编码的Python（安装时请确保勾选了Add python.exe to PATH），用于机器学习库的PyTorch，用于管理软件包的Chocolatey，以及用于音频处理的FFmpeg。如果您需要，它们都附带了相关网站上的安装说明。

然后，您就可以安装Whisper本身了：在开始菜单中搜索“cmd”，打开命令提示符，然后输入“pip install -U openai-whisper”并按Enter。安装完成后，您可以像这样转录文件：

在文件资源管理器中打开包含音频文件的文件夹。
点击顶部的地址栏，输入“cmd”，然后按Enter。
输入“whisper”，然后是一个空格，然后是您的音频文件名。
再次按Enter，处理就开始了。

文本会显示在屏幕上，并以一系列文本文件的形式保存在与音频相同的文件夹中。如果您需要同时转换多个文件，只需在“whisper”命令后列出所有文件，每个文件之间用空格隔开。

即使您不熟悉Python或命令提示符，也应该不会有太大麻烦就能让一切运行起来。网上有很多指南可以帮助您。这是最好的教程之一，它将一步一步地指导您完成每个阶段，并解释一些可用的高级功能（例如切换到不同的AI模型）。

© .