最近真的是一天一个开源新技术,都要写不过来了。 今天我们要介绍的是字节最新开源的 Phantom:主体一致视频生成框架。主要是通过跨模态对齐技术,从参考图像中提取主体元素「如人物、动物、物体等」,并结合文本指令生成与主体高度一致的高质量视频内容。 可以是参考单主体生成视频,也可以是参考多主体生成视频,一致性保持的都很好。 这次开源的是基于阿里 Wan2.1 训练的 1.3B 的模型,所以显存占用也不高,生成 1280 * 768 分辨率的视频也只需要 12G ,如果打开 BlockSwap,需要的显存只会更少。832 * 480 分辨率也只需要 8G 显存。 虽然是一个 1.3B 的模型,但是主体一致性参考效果是一点也不差。 好了,话不多说,我们直接开整。

项目地址:https://github.com/Phantom-video/Phantom

先来看看效果:

这一致性保持的还是相当不错的吧,以后线上试衣,只需要上传自己的照片和挑选中意的衣服,就可以直接生成穿衣视频了,合不合适一目了然。

提示词也是相当简单:女孩穿着T恤,慢慢转身

视频质量有一些瑕疵,不过一致性的效果还是很棒的,毕竟是 1.3B 参数量的模型,后续升级版本效果肯定会更好。

效果不好的话可以调整一下提示词,可以稍微详细的描述一下主体的特点。

比如下边这个视频的提示词:一个粉色头发的小女孩骑在一只橙色的小动物的身上。

想要本地体验,依旧是需要用到 KJ 大佬的 ComfyUI-WanVideoWrapper 插件,最近几篇文章一直在让小伙伴们更新这个插件,太高产了。

为了更好的阅读体验,来飞书看吧:

https://dardrwsz7u9.feishu.cn/docx/Q4R3dpmgQolZ4exCqAscqoV0nSf

Comments on "[ComfyUI]字节又出王炸,多主体一致性视频生成!虚拟试衣新视角! 副本​" :

Leave a Reply

Your email address will not be published. Required fields are marked *

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源