语音转文字 / 音视频转字幕(在线、不上传)
把一段采访录音、一节网课、一条短视频的话音转成文字,或者给视频配上字幕——语音转文字就是干这个的。转换猫用 OpenAI 的 Whisper 模型,直接在你浏览器里把音/视频里的语音转成文字,并能导出带时间戳的 SRT 和 VTT 字幕文件,直接拖进剪辑软件就能用。一句实话:模型首次会下载几十 MB(之后缓存在浏览器里,再用即时),转写全程在你设备上跑,文件从不上传——所以它免费、不限次、无水印,是 Otter、Rev(每分钟 $0.25)这类付费转写的零成本替代。默认走英语模型(又快又稳);要转其它语言可切到多语言模型。
把一段采访录音、一节网课、一条短视频的话音转成文字,或者给视频配上字幕——语音转文字就是干这个的。
模型
仅英语,约 40MB —— 又快又稳的默认项。
首次会下载 Whisper 模型(几十 MB),之后缓存在你浏览器里,再用即时。音频在你设备上解码与转写,文件从不上传。
如何语音转文字 / 音视频转字幕?
- 1拖入或选择一个音频或视频文件(MP3 / WAV / M4A / MP4 / MOV 等)。
- 2选模型:默认「英语(快)」最稳;要转其它语言切到「多语言」。
- 3点「开始转写」。首次会下载 Whisper 模型(几十 MB,之后缓存),随后在本地解码并转写。
- 4查看转录文本,按需下载 .txt / .srt / .vtt(字幕带时间戳)。文件从没上传过。
为什么用转换猫语音转文字 / 音视频转字幕?
- 文件不出本机:音视频在你浏览器里解码、转写,采访、会议、未发布素材都不经过任何服务器。
- 直接出字幕:导出带时间戳的 SRT / VTT,拖进剪映、Premiere、YouTube 就能用,不用自己对轴。
- 免费、不限次、无水印:转一小时和转一分钟一样,没有按分钟计费、没有时长上限。
常见问题
默认的英语模型对清晰英语口语相当准。要转中文或其它语言,请切到「多语言」模型——它能处理多种语言,但下载更大、速度更慢。无论哪种,背景噪音大、口音重或多人抢话时准确率都会下降,建议转完通读一遍再用。
SRT 和 VTT 都是带时间戳的标准字幕格式。SRT 几乎所有剪辑软件(剪映、Premiere、DaVinci)都认;VTT 是网页 <track> 字幕的标准格式。转完直接下载,导入到你的剪辑工程或视频播放器里即可,时间轴已经对好。
Whisper 需要 16kHz 单声道的音频输入,所以转换猫会先在浏览器里把你的文件解码并重采样到这个规格,再送进模型——这一步对时间戳的准确性很关键。这也意味着视频文件没问题:它只取里面的音轨。
不会上传——音视频在你这台设备的浏览器里处理,文件不离开本机。没有硬性时长限制,但很长的文件(比如一两个小时)会更吃内存、更慢,浏览器内存也有上限;超长素材建议先切成几段分别转写。
更新于 · 转换猫团队