字幕文件（SRT / VTT）怎么用？

SRT 和 VTT 都是带时间戳的标准字幕格式。SRT 几乎所有剪辑软件（剪映、Premiere、DaVinci）都认；VTT 是网页字幕的标准格式。转完直接下载，导入到你的剪辑工程或视频播放器里即可，时间轴已经对好。

浏览器本地处理 · 不上传

语音转文字 / 音视频转字幕（在线、不上传）

把一段采访录音、一节网课、一条短视频的话音转成文字，或者给视频配上字幕——语音转文字就是干这个的。转换猫用 OpenAI 的 Whisper 模型，直接在你浏览器里把音/视频里的语音转成文字，并能导出带时间戳的 SRT 和 VTT 字幕文件，直接拖进剪辑软件就能用。一句实话：模型首次会下载几十 MB（之后缓存在浏览器里，再用即时），转写全程在你设备上跑，文件从不上传——所以它免费、不限次、无水印，是 Otter、Rev（每分钟 $0.25）这类付费转写的零成本替代。默认走英语模型（又快又稳）；要转其它语言可切到多语言模型。

把一段采访录音、一节网课、一条短视频的话音转成文字，或者给视频配上字幕——语音转文字就是干这个的。

拖拽或点击选择文件文件仅在浏览器本地处理，不会上传

模型

仅英语，约 40MB —— 又快又稳的默认项。

首次会下载 Whisper 模型（几十 MB），之后缓存在你浏览器里，再用即时。音频在你设备上解码与转写，文件从不上传。

如何语音转文字 / 音视频转字幕？

1拖入或选择一个音频或视频文件（MP3 / WAV / M4A / MP4 / MOV 等）。
2选模型：默认「英语（快）」最稳；要转其它语言切到「多语言」。
3点「开始转写」。首次会下载 Whisper 模型（几十 MB，之后缓存），随后在本地解码并转写。
4查看转录文本，按需下载 .txt / .srt / .vtt（字幕带时间戳）。文件从没上传过。

为什么用转换猫语音转文字 / 音视频转字幕？

文件不出本机：音视频在你浏览器里解码、转写，采访、会议、未发布素材都不经过任何服务器。
直接出字幕：导出带时间戳的 SRT / VTT，拖进剪映、Premiere、YouTube 就能用，不用自己对轴。
免费、不限次、无水印：转一小时和转一分钟一样，没有按分钟计费、没有时长上限。

常见问题

默认的英语模型对清晰英语口语相当准。要转中文或其它语言，请切到「多语言」模型——它能处理多种语言，但下载更大、速度更慢。无论哪种，背景噪音大、口音重或多人抢话时准确率都会下降，建议转完通读一遍再用。

SRT 和 VTT 都是带时间戳的标准字幕格式。SRT 几乎所有剪辑软件（剪映、Premiere、DaVinci）都认；VTT 是网页 <track> 字幕的标准格式。转完直接下载，导入到你的剪辑工程或视频播放器里即可，时间轴已经对好。

Whisper 需要 16kHz 单声道的音频输入，所以转换猫会先在浏览器里把你的文件解码并重采样到这个规格，再送进模型——这一步对时间戳的准确性很关键。这也意味着视频文件没问题：它只取里面的音轨。

不会上传——音视频在你这台设备的浏览器里处理，文件不离开本机。没有硬性时长限制，但很长的文件（比如一两个小时）会更吃内存、更慢，浏览器内存也有上限；超长素材建议先切成几段分别转写。

更新于 2026-06-09 · 转换猫团队

语音转文字 / 音视频转字幕（在线、不上传）

如何语音转文字 / 音视频转字幕？

1拖入或选择一个音频或视频文件（MP3 / WAV / M4A / MP4 / MOV 等）。

2选模型：默认「英语（快）」最稳；要转其它语言切到「多语言」。

3点「开始转写」。首次会下载 Whisper 模型（几十 MB，之后缓存），随后在本地解码并转写。

4查看转录文本，按需下载 .txt / .srt / .vtt（字幕带时间戳）。文件从没上传过。

为什么用转换猫语音转文字 / 音视频转字幕？

文件不出本机：音视频在你浏览器里解码、转写，采访、会议、未发布素材都不经过任何服务器。

直接出字幕：导出带时间戳的 SRT / VTT，拖进剪映、Premiere、YouTube 就能用，不用自己对轴。

免费、不限次、无水印：转一小时和转一分钟一样，没有按分钟计费、没有时长上限。

常见问题