基于PotPlayer播放器实时字幕生成和AI翻译
核心思路是利用PotPlayer内置功能,直接调用其整合的OpenAI Whisper语音识别模型,将视频语音实时转换为文字字幕,并进一步利用插件实现实时翻译功能。
第一步:准备工作
- 安装新版本的 PotPlayer (建议更新到最新稳定版),大家可以在官网(https://potplayer.daum.net/)下载。
- Whisper功能需要在线下载引擎及模型文件,请确保操作时梯子网络通畅。
第二步:设置生成有声字幕(语音识别)
- 单击鼠标左键依次进入功能菜单:字幕 -> 生成有声字幕。
- 进行功能配置。转换引擎推荐选择faster-whisper-xxl。A卡或者N卡用户都可以使用该引擎。模型型号推荐使用large-v2模型。其他模型根据我的测试均容易出现幻听,重复识别,无法识别等BUG。语言根据大家需求自行选择,其余选择均按照默认选择就行。
注:第一次使用时,系统会自动下载引擎和模型文件,故需要梯子网络。
第三步:设置实时字幕翻译
- 单击鼠标左键依次进入功能菜单:字幕 -> 实时字幕翻译 -> 实时字幕翻译设置
翻译插件配置。PotPlayer内置了bing,Google,deepl等翻译插件,均为机翻,针对日语电影实用行较差。因此推荐大家安装OpenAI插件,利用人工智能进行翻译。具体配置方法如下:
- 安装PotPlayer Translation OpenAI API插件。该项目在GitHub上已经开源,大家自行下载(https://github.com/Fung-2025/potplayer-translation-openaiapi/blob/main/README-cn.md)。
进入项目地址后,点击release,下载potplayer-translation-openaiapi.7z文件,参考项目教程压缩到指定路径。- 配置API接口。以我使用的deepseek为例为大家演示,其他兼容OpenAI api接口的大语言模型可以参考,原理一样。
注册登录deepseekAPI开放平台(https://platform.deepseek.com/usage)。调用接口需要消耗Token,因此需要进行一波小氪,根据我的测试,翻译一部120min的日语影片大概费用在几毛钱。
根据官方使用文档进行Model和API URL的配置,这里我直接把调用API代码贴过来:curl https://api.deepseek.com/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer ${DEEPSEEK_API_KEY}" \ -d '{ "model": "deepseek-chat", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Hello!"} ], "stream": false }'
最后需要创建一个API keys
- 第一行填写Model&API URL。(注意:小写英文,没有空格,中间用&符号连接)
- 第二行填写API keys。
- 进行测试。如果出现下图提示,代表配置成功可以正常使用。