一、新手困境

S:参加完6月份的AI web航海,隔三差五的上了6-7个站后,仅仅算是熟悉了上站流程,接下来要脱离护航舰队独自航行,却依旧没有清晰的方向,一度陷入看往期视频,读精华帖的循环中,新手实在是有太多的能力短板要去补齐,烦躁焦虑到在其他项目间反复横跳。但我又不甘心,一直想上一个AI工具站,于是沉下心来开始分析当前是什么问题造成了举步维艰:

没有合适的上站模版;

不知道怎样调取API;

以及最关键的问题,到底做什么类型的AI工具站来解决什么问题......

光想是没有答案的,

Ideas are just a multiplier of execution. --- Derek Sivers

好在我有一个比较明确的需求,即:将逝去亲人的照片,融入到某个时刻的全家福照片当中,作为美好时刻的见证和纪念。没做任何调研,直接下场干吧,就当练手熟悉不同的网站,反正做出来MVP最终也要由市场检验,ship fast。

二、任务

T:我开始和ChatGPT聊起这个需求,捋了一下需要完成的步骤:将老照片修复 >> 上色 >> 抠图 >> 调整任务尺寸 >> 融入全家福照片当中。它给我整了一个专业的流程图出来,即调用各种API来实现,还分析了每次调取生成的成本,看上去就很很高大上。我想,将这么多API串起来,那得调试多久啊?这些API还不在同一个第三方的API平台上,需要从不同的地方调取。而且直觉告诉我,串联的级数越多,出bug的概率会更大。这对新人来说太恐怖了。

三、行动过程

A:正好这几天在API平台replicate研究不同模型能力,便咨询ai当前的模型,比如flux-kontext和chatgpt 4o能做到什么程度。得到的答案是:路径可以缩短,但ai仍然建议我通过调取不同的api实现精准控制。

最终链路仍可能是:GFPGAN → Flux/GPT-4o in-paint → Real-ESRGAN 超分

我不信邪,想省事降低难度,于是让chatgpt根据我的需求,生成了两张图,我想尝试下,仅仅通过提示词去控制,看看能到何种程度,于是有了下面这两张:

看上去颇有难度,总共7步:将老照片修复,变成高清,抠图,上色,再调整成合适的人物比例,毫无违和的插入到左侧的全家福照片当中,扩展照片。提示词如下:

请给grandma这张老照片,上色,修复,并将grandma人物抠下来,按照适当的比例完美的融入到family这张照片里面去,使整张family照片协调。如果空间不够,可以将照片尺寸扩展。

这时Chatgpt o3展示了强大的拆解能力,思考了11s理解任务,又花了1分钟左右生成了如下的图片。

为了更好的阅读体验,来飞书看吧:

https://lcn8b4vl8swy.feishu.cn/wiki/GU9owB4FbixeRzkTpLlcgKM4nAb

Comments on "从一个需求出发,挖掘出ChatGPT o3的强大控图能力​" :

Leave a Reply

Your email address will not be published. Required fields are marked *

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源