从今年5月份开始制作YouTube的长视频,到现在已经开通了6个YPP,RPM在4刀左右。中间经历了多轮的工具迭代,其中有一个痛点一直没有得到满足,就是长文本的文稿匹配,剪映只支持最长5000字,如果超过了,就得自己手动分段识别,然后一点点的调整对齐,做过的人都知道有多麻烦。


我的工作流程是:先AI生成文本,大概一万字左右,然后使用indexTTS进行克隆语音并朗读成音频,然后再将音频跟我的文本匹配输出SRT字幕。这样可以做到字幕没有任何错别字。如果是使用语音识别字幕,就会有很多错别字,对于我这种偏专业术语的内容,完全不可接受。


在网上找了很久,都没有找到合适的工具,也一直使用剪映人工分段识别并调整,但是最近文本越来越长,超过1万多字,剪映用起来就非常痛苦了,分段的不准的话匹配的字幕会乱飞,完全是浪费时间,于是使用cursor手搓了一个工具,迭代了几天,目前来看已经达到剪映90%功力了(当然5000字以下还是使用剪映比较快,但是剪映是在服务器端识别的,会受网络影响)。


工具的大概原理:

1、使用whisper识别语音成初步的字幕,这一步会有很多错别字

2、使用DTW算法把我提供的文本跟上一步识别的文字对比,并做修正


由于不止一个Python文件,不好贴在这里,想用的可以去GitHub拿:

https://github.com/blueslmj/txt2srt


附上工具的web UI界面:

whisper的模型我用的small,测试了几个模型,这个综合下来最好用,识别准确率也够用,每一行的字符限制是40,也可以自行修改。


Windows的客户端也有,不过界面比较丑:


这是运行的终端界面,可以看到识别准确率还是不错的,完全可以代替剪映,并且支持无限长文本:


对了,我的显卡是5070ti,最新的pytorch不支持,如果是40系的话可以安装最新版的,速度会更快一些(所以我升级了个啥。。。)

Comments on "从0到6个YouTube YPP,手搓字幕工具替代剪映,支持无限长文本" :

Leave a Reply

Your email address will not be published. Required fields are marked *

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源