最近真的是一天一个开源新技术,都要写不过来了。 今天我们要介绍的是字节最新开源的 Phantom:主体一致视频生成框架。主要是通过跨模态对齐技术,从参考图像中提取主体元素「如人物、动物、物体等」,并结合文本指令生成与主体高度一致的高质量视频内容。 可以是参考单主体生成视频,也可以是参考多主体生成视频,一致性保持的都很好。 这次开源的是基于阿里 Wan2.1 训练的 1.3B 的模型,所以显存占用也不高,生成 1280 * 768 分辨率的视频也只需要 12G ,如果打开 BlockSwap,需要的显存只会更少。832 * 480 分辨率也只需要 8G 显存。 虽然是一个 1.3B 的模型,但是主体一致性参考效果是一点也不差。 好了,话不多说,我们直接开整。
项目地址:https://github.com/Phantom-video/Phantom
先来看看效果:
这一致性保持的还是相当不错的吧,以后线上试衣,只需要上传自己的照片和挑选中意的衣服,就可以直接生成穿衣视频了,合不合适一目了然。
提示词也是相当简单:女孩穿着T恤,慢慢转身
视频质量有一些瑕疵,不过一致性的效果还是很棒的,毕竟是 1.3B 参数量的模型,后续升级版本效果肯定会更好。
效果不好的话可以调整一下提示词,可以稍微详细的描述一下主体的特点。
比如下边这个视频的提示词:一个粉色头发的小女孩骑在一只橙色的小动物的身上。
想要本地体验,依旧是需要用到 KJ 大佬的 ComfyUI-WanVideoWrapper 插件,最近几篇文章一直在让小伙伴们更新这个插件,太高产了。
为了更好的阅读体验,来飞书看吧:
https://dardrwsz7u9.feishu.cn/docx/Q4R3dpmgQolZ4exCqAscqoV0nSf
Comments on "[ComfyUI]字节又出王炸,多主体一致性视频生成!虚拟试衣新视角! 副本" :