一、新手困境
S:参加完6月份的AI web航海,隔三差五的上了6-7个站后,仅仅算是熟悉了上站流程,接下来要脱离护航舰队独自航行,却依旧没有清晰的方向,一度陷入看往期视频,读精华帖的循环中,新手实在是有太多的能力短板要去补齐,烦躁焦虑到在其他项目间反复横跳。但我又不甘心,一直想上一个AI工具站,于是沉下心来开始分析当前是什么问题造成了举步维艰:
没有合适的上站模版;
不知道怎样调取API;
以及最关键的问题,到底做什么类型的AI工具站来解决什么问题......
光想是没有答案的,
Ideas are just a multiplier of execution. --- Derek Sivers
好在我有一个比较明确的需求,即:将逝去亲人的照片,融入到某个时刻的全家福照片当中,作为美好时刻的见证和纪念。没做任何调研,直接下场干吧,就当练手熟悉不同的网站,反正做出来MVP最终也要由市场检验,ship fast。
二、任务
T:我开始和ChatGPT聊起这个需求,捋了一下需要完成的步骤:将老照片修复 >> 上色 >> 抠图 >> 调整任务尺寸 >> 融入全家福照片当中。它给我整了一个专业的流程图出来,即调用各种API来实现,还分析了每次调取生成的成本,看上去就很很高大上。我想,将这么多API串起来,那得调试多久啊?这些API还不在同一个第三方的API平台上,需要从不同的地方调取。而且直觉告诉我,串联的级数越多,出bug的概率会更大。这对新人来说太恐怖了。

三、行动过程
A:正好这几天在API平台replicate研究不同模型能力,便咨询ai当前的模型,比如flux-kontext和chatgpt 4o能做到什么程度。得到的答案是:路径可以缩短,但ai仍然建议我通过调取不同的api实现精准控制。
最终链路仍可能是:GFPGAN → Flux/GPT-4o in-paint → Real-ESRGAN 超分
我不信邪,想省事降低难度,于是让chatgpt根据我的需求,生成了两张图,我想尝试下,仅仅通过提示词去控制,看看能到何种程度,于是有了下面这两张:


看上去颇有难度,总共7步:将老照片修复,变成高清,抠图,上色,再调整成合适的人物比例,毫无违和的插入到左侧的全家福照片当中,扩展照片。提示词如下:
请给grandma这张老照片,上色,修复,并将grandma人物抠下来,按照适当的比例完美的融入到family这张照片里面去,使整张family照片协调。如果空间不够,可以将照片尺寸扩展。
这时Chatgpt o3展示了强大的拆解能力,思考了11s理解任务,又花了1分钟左右生成了如下的图片。


为了更好的阅读体验,来飞书看吧:
https://lcn8b4vl8swy.feishu.cn/wiki/GU9owB4FbixeRzkTpLlcgKM4nAb
Comments on "从一个需求出发,挖掘出ChatGPT o3的强大控图能力" :