在短视频创作领域,紧跟热点、分析爆款文案至关重要。但是利用第三方如轻抖、通义等只能逐条提取视频文案,效率低下,难以应对批量采集批量提取的大规模数据要求。接下来我将分享我的工作流,如何通过本地部署 利用 whisper 或 sensevoice 实现日均提取抖音/小红书/B站视频号等视频文案 2 万+条。

整体工作流如下

视频作品采集:使用RPA或者自己开发或者第三方工具等都可以,目的就是通过策略或者手动筛选获取到自己的对标视频

视频作品无水印解析及下载: 本地或者服务器部署开源项目,解析目标平台如抖音、小红书、B站等的视频链接,获取无水印视频地址并下载。

音频转换: 利用 ffmpeg 工具将下载的视频文件转换为音频文件,为后续语音识别做准备。

语音识别: 使用 whisper 或 sensevoice 等语音识别引擎将音频文件转录为文本。其中,sensevoice 速度更快,而 whisper large 相比准确率更高,可根据实际需求选择。

数据整理与AI重写等: 将识别出的文案信息根据实际需求使用AI进行清洗和格式化,导出为可供分析的数据格式

这套流程效率极高。以使用sensevoice为例,在我的 4070Ti super 显卡上,处理一条抖音小红书视频通常只需3-5秒,B站视频较长30秒内也可以转录完成。在开启并发的情况下,单日最多处理约2.6万条各类平台视频,总计超1000小时的数据。

硬件要求

为了保证文案提取的效率和速度,建议使用具备一定性能的硬件设备:

GPU: 建议选择 8G 以上显存的 GPU,充分发挥 whisper 和 sensevoice 的性能。本机实际转录的时候发现,16G 显存的 GPU 在处理大多数视频时,一般使用率在 40% 以上,8G 显存显然也能满足需求。

内存: 建议 32 GB 以上内存,保证程序运行流畅。

前置环境准备

安装语音识别引擎: 首先我们要安装faster-whisper 或 sensevoice,选一即可。 faster-whisper: 可以通过 PyPI 快速安装,首次运行时会自动下载模型文件。推荐使用 large-v3 模型,该模型参数量大,准确率相对较高,但硬件要求高,转录速度相对较慢。 sensevoice: 阿里开源的,引擎转录速度极快,一分钟的音频1秒左右即可完成,但准确率略低于 whisper。

部署平台视频解析工具 部署开源项目,通过作品链接获取作品详情,包括图片与无水印视频地址等。我是基于下面的项目进行魔改的,总体效果不错门槛也较低,省去了二次开发的投入:https://github.com/NanmiCoder/MediaCrawler

安装 ffmpeg: 用于视频和音频格式转换

下面是详细的安装教程

语音识别引擎安装

安装faster-whisper

faster-whisper地址:https://github.com/SYSTRAN/faster-whisper

为了简单,我们直接从PyPI安装即可,就可以直接在脚本中使用了。我们执行:

代码块 pip install faster-whisper

如下即为安装完成

运行官方示例脚本,首次加载会下载对应模型,这里我自己使用的large-v3,这个模型参数大,准确率相对最高,但是转录速度也最慢,4分钟的视频要20S左右才能转录完成,相比之下sensevoice从来不会超过5S,当然whisper的准确率会比sensevoice高一些。

这里注意,如果你本地网络不好的话,可以自己先从hugging face上面下载模型,然后本地加载,

代码块 from faster_whisper import WhisperModel model_size = "large-v3" # Run on GPU with FP16 model = WhisperModel(model_size, device="cuda", compute_type="float16") # or run on GPU with INT8 # model = WhisperModel(model_size, device="cuda", compute_type="int8_float16") # or run on CPU with INT8 # model = WhisperModel(model_size, device="cpu", compute_type="int8") segments, info = model.transcribe("audio.mp3", beam_size=5) print("Detected language '%s' with probability %f" % (info.language, info.language_probability)) for segment in segments: print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

为了更好的阅读体验,来飞书看吧:

https://ia0969wpr2.feishu.cn/docx/SPnXd5bDUoQKrBxLVFVcXYFCnrh

Comments on "借助AI打造高效短视频工作流,从抖音/小红书等日均提取2万+爆款视频文案​" :

Leave a Reply

Your email address will not be published. Required fields are marked *

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源