借助AI打造高效短视频工作流，从抖音/小红书等日均提取2万+爆款视频文案

在短视频创作领域，紧跟热点、分析爆款文案至关重要。但是利用第三方如轻抖、通义等只能逐条提取视频文案，效率低下，难以应对批量采集批量提取的大规模数据要求。接下来我将分享我的工作流，如何通过本地部署利用 whisper 或 sensevoice 实现日均提取抖音/小红书/B站视频号等视频文案 2 万+条。

整体工作流如下

视频作品采集：使用RPA或者自己开发或者第三方工具等都可以，目的就是通过策略或者手动筛选获取到自己的对标视频

视频作品无水印解析及下载: 本地或者服务器部署开源项目，解析目标平台如抖音、小红书、B站等的视频链接，获取无水印视频地址并下载。

音频转换: 利用 ffmpeg 工具将下载的视频文件转换为音频文件，为后续语音识别做准备。

语音识别: 使用 whisper 或 sensevoice 等语音识别引擎将音频文件转录为文本。其中，sensevoice 速度更快，而 whisper large 相比准确率更高，可根据实际需求选择。

数据整理与AI重写等: 将识别出的文案信息根据实际需求使用AI进行清洗和格式化，导出为可供分析的数据格式

这套流程效率极高。以使用sensevoice为例，在我的 4070Ti super 显卡上，处理一条抖音小红书视频通常只需3-5秒，B站视频较长30秒内也可以转录完成。在开启并发的情况下，单日最多处理约2.6万条各类平台视频，总计超1000小时的数据。

硬件要求

为了保证文案提取的效率和速度，建议使用具备一定性能的硬件设备：

GPU: 建议选择 8G 以上显存的 GPU，充分发挥 whisper 和 sensevoice 的性能。本机实际转录的时候发现，16G 显存的 GPU 在处理大多数视频时，一般使用率在 40% 以上，8G 显存显然也能满足需求。

内存: 建议 32 GB 以上内存，保证程序运行流畅。

前置环境准备

安装语音识别引擎: 首先我们要安装faster-whisper 或 sensevoice，选一即可。 faster-whisper: 可以通过 PyPI 快速安装，首次运行时会自动下载模型文件。推荐使用 large-v3 模型，该模型参数量大，准确率相对较高，但硬件要求高，转录速度相对较慢。 sensevoice: 阿里开源的，引擎转录速度极快，一分钟的音频1秒左右即可完成，但准确率略低于 whisper。

部署平台视频解析工具部署开源项目，通过作品链接获取作品详情，包括图片与无水印视频地址等。我是基于下面的项目进行魔改的，总体效果不错门槛也较低，省去了二次开发的投入：https://github.com/NanmiCoder/MediaCrawler

安装 ffmpeg: 用于视频和音频格式转换

下面是详细的安装教程

语音识别引擎安装

安装faster-whisper

faster-whisper地址：https://github.com/SYSTRAN/faster-whisper

为了简单，我们直接从PyPI安装即可，就可以直接在脚本中使用了。我们执行：

代码块 pip install faster-whisper

如下即为安装完成

运行官方示例脚本，首次加载会下载对应模型，这里我自己使用的large-v3，这个模型参数大，准确率相对最高，但是转录速度也最慢，4分钟的视频要20S左右才能转录完成，相比之下sensevoice从来不会超过5S，当然whisper的准确率会比sensevoice高一些。

这里注意，如果你本地网络不好的话，可以自己先从hugging face上面下载模型，然后本地加载，

代码块 from faster_whisper import WhisperModel model_size = "large-v3" # Run on GPU with FP16 model = WhisperModel(model_size, device="cuda", compute_type="float16") # or run on GPU with INT8 # model = WhisperModel(model_size, device="cuda", compute_type="int8_float16") # or run on CPU with INT8 # model = WhisperModel(model_size, device="cpu", compute_type="int8") segments, info = model.transcribe("audio.mp3", beam_size=5) print("Detected language '%s' with probability %f" % (info.language, info.language_probability)) for segment in segments: print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

为了更好的阅读体验，来飞书看吧：

https://ia0969wpr2.feishu.cn/docx/SPnXd5bDUoQKrBxLVFVcXYFCnrh