这篇分享适合以下几类圈友:
1.如果你以前从未接触过AI,但最近看到AI绘画被频频提起,想做个基本了解,这篇分享将给你简单直白地介绍“AI绘画”的发展历程和技术原理。
2.如果你已经在使用AI绘画工具进行创作,但是总是画不出自己想要的效果,这篇分享将告诉你怎么使用“咒语”,才能把心中的景象,清晰明白地传达给你的“法杖”。
3.如果你已经发现了AI绘画的异常值,但在挖宝路上碰到了“国外开源模型→中文本土化”、“版权疑虑”和“商业模式探索”等等阻碍,这篇分享将给你提供一份“他人的看法”,以供参考。
麻木尔和他的AI之路
先花点时间做个自我介绍。
我叫麻木尔,一枚大龄95后。在人工智能还没有被教育部设定成常规学科的时候,就凭着一股“轴劲”,硬从报考指南里找到了一个自主申报了AI专业的学校,如愿以偿地成为了那时国内比较少见的“AI科班生”。4年的学习,让我对AI的原理和技术具备了基本认知。
在学生生涯的末尾,又幸运地通过“北京高等学校高水平人才交叉培养计划”,在中科院计算所参与了一个AI项目从0到1的全过程,并通过毕业设计沉淀了一年来实际开发和项目周期把控的经验。
毕业后,加入某一线风投的AI部门,从事人才培养方向的工作。期间参与了教育部“推进人工智能领域一级学科建设”行动的部分前期调研(call back了哈哈 ),结识了很多AI路上志同道合的学界&业界小伙伴。
后来加入了生财,在众多大佬的熏陶下,在搬砖+副业与创业路上一路向前。
为什么决定写这篇文章?
其实自第四期加入以来,我一直习惯当潜水党,每天把to-do勾到剩最后一项,打开知识星球,浏览完当天的新内容,打上勾,上床睡觉才是我的生财日常,其余的,最多是发发风向标。
这次强迫自己写长文,除了锻炼自己“写作”这项底层能力之外,主要还是因为“AI绘画”在现在这个时间点,真的是一个太适合超级个体/小团队入局,而且天花板不低的生意。就如亦仁老大的预测一样:“中文版本的AI绘画,会产生不少于10个年利润不低于百万的小程序。看谁先做出来并引爆。”
老大的预测,最后一句非常关键,我给大家分享5个信息:
- 目前人工智能的进展已经放缓了,个人/小团队和大公司之间的技术差距实质上并不大,因为本质上大家用的都是同样的东西,大公司养了很多博士来做优化,但这些工作只是在“刷榜”时起到点“提分”的作用,这种“微提升”人类是不太能感知到的。(一句话概括,用户用你的东西和大厂的东西,感受不到“用户体验”上的差别。)
- 目前的AI绘画算法从“GAN”进化到“Diffusion”后,效果非常好,已经突破了实用化的临界点。(一句话概括,用户觉得AI画出来的东西“不抽象”,很符合常人审美了。)
- 目前AI绘画在全球已经有了非常良好的开源生态,拥有了“Stable Diffusion”和“Disco Diffusion”这样的优质开源项目。(一句话概括,你用开源模型套个“中文外壳”,输出的图片效果和国外大厂的商业模型一样好。)
- NovelAI模型(技术上相对于Stable Diffusion几乎没有提升)的泄露事件,造成了AI绘画的出圈,同时验证了市场需求。(一句话概括,这个生意,前路已通。)
- 据我了解,目前国内跑的最快的中文AI绘画产品,也只是到了“做出来”这步,正在探索“引爆的方法”。(一句话概括,现在开始做,还来得及跑进前10。)
分享大纲
好了,废话不多说,我们切入主题。
- AI绘画为什么会突然爆发?
- 目前比较前沿的AI绘画模型有哪些?
- AI绘画工具的基本用法有哪些?
- 咒术/元素法典/魔导书指的是什么?为什么好图需要“咒术”来激发?
- 现在国内已经出现哪些AI绘画小程序/应用了?现在进场还来得及吗?
- AI绘画会不会存在版权问题?怎么处理?
- AI绘画技术可能衍生出哪些生意?普通人/小团队怎么参与进去?
一、AI绘画为什么会突然爆发?
AI绘画的整个发展史,总体而言有这样几个关键节点。
第一个节点:GAN的时代
“旧纪元时期”,彼时AI绘画的方案还是StyleGAN。GAN这种方案就是训两个模型,一个造假,一个判真,两个模型相互卷,直到卷到造假的模型能造出“以假乱真”的图片时,就算练成了。但GAN有个致命缺陷叫做“鞍点问题”,它造成“模型训练过程中,数据处理的难度很大”,而且数据越复杂、越多样,难度就越大。这时的模型是很不稳定的,自然也不可能依托它形成什么商业模式。
第二个节点:一篇论文,带来新的范式
2020年发布的开创性论文《Denoising Diffusion Probabilistic Models》,带来了一种新的图像生成范式。用这个方法生成出来的图片效果非常好,比GAN要好的多,而且不存在GAN的缺陷,由此,这种新范式突破了实用化的临界点。(PS:这就是为什么后来的模型多叫做 XX Diffusion的原因。)
Diffusion 算法的原理是先将一幅画面逐步加入噪点,一直到整个画面都变成白噪声,记录这个过程,然后逆转过来给AI学习(当然不只是一副画,而是极大数量的画)。从AI视角看,就是学习一副全是白噪声的画面,怎么一点点去除噪点变清晰,直至变成一幅画。用说的可能不清楚,我弄一组图片在下面,大家看了就明白了。
虽然新范式出现了,但此时还是不具备爆发的全部条件。这一时期出现了很多运用 Diffusion 技术的模型,比如 DALL-E系列,Midjourney 等等,它们都有非常不错的效果,例如使用 Midjourney 创作的画作《太空歌剧院》就在美国科罗拉多州博览会的艺术比赛中获得了第一名,引发了媒体的竞相转载,以至于在指数工具里飙出了一个很高的“异常值”,但因为它们要么是彻底闭源的,要么是只开放一些api,所以“异常值”飙的快降得也快,最终没有特别出圈,停留在了新闻和少量技术尝鲜者中。
第三个节点:优秀的开源模型出现
2022年8月份,Stable Diffusion 模型的开源给“AI绘画的爆发”补上了倒数第二块拼图,这个模型的生成图像效果丝毫不逊于 DALL-E系列,Midjourney 等商业模型,而且还有优良的开源社区支持。最重要的是,它在“大模型”家族里算是比较小巧的,个人设备也可以完成推理过程。
第四个节点:爆发,二次元的破圈力
2022年10月份,基于 Stable Diffusion 但“二次元专精”的NovelAI模型发布当天被黑客泄露事件,彻底引爆了AI绘画,事件影响大大超过了绝大多数人的预期,AI绘画作为大部分时间里一直默默无闻的新技术,被一瞬间推进到公众讨论阶段。个人分析,这次事件的爆发主要基于以下3点:
- NovelAI模型训练过程中,采集了大量诸如P站之类网站的图片作为训练集,导致其模型存在很高的18X内容创作能力。黑客将模型泄露后,大量的个人创作者搭建本地应用,生成18X图片后分享,引发了圈内的大规模讨论。
- NovelAI模型在圈内被广泛认知到后,很多约稿老板毁了下给人类画师的单,转而使用AI绘画应用,引发了画师群体的激烈反应。画师圈最终达成的打击AI的共识,落在了版权上(训练模型的时候,工程师会大规模采集画师上传在互联网上的已有画作,作为训练集喂给AI),而版权问题,是个“公共议题”,此时“AI绘画”进入了破圈阶段。
- 大量公众在围观“版权之争”的时候接触到AI绘画应用及其作品,被其绚丽程度吸引到,开始自发传播,自此,AI绘画被彻底引爆。
通过指数工具,印证上述推理
为了验证我的推断是否正确,我使用AI绘画、Midjourney、太空歌剧院、Disco Diffusion、Stable Diffusion、NovelAl 这6个关键词,在微博指数、微信指数和百度指数上进行了数据查询。
① 微博指数
微博指数中只收录了“AI绘画”一个词,从过去90天的趋势来看,AI绘画在微博里的爆发时间线只与NovelAI模型泄露事件有关。
② 微信指数
从微信指数中可以看到,Midjourney 在今年8月飙出了一个很高的异常值(对应《太空歌剧院》夺冠事件),但很快归于沉寂。Stable Diffusion 只在发布时有个小峰值,最后“AI绘画”的爆发依然只和 NovelAI 高度相关。
③ 百度指数
百度指数和微信指数大致相同,显示“AI绘画”的爆发只和 NovelAI 高度相关。
从中我们可以得出一个结论,AI绘画在本月的突然爆发,NovelAI 居功至伟。
二、目前比较前沿的AI绘画模型有哪些?
目前比较前沿的AI绘画模型主要有以下5个,其中只有前2个是开源的,国内大多数中文AI绘画应用都是基于这两个开源模型封装的。
- Stable Diffusion(开源): beta.dreamstudio.ai/dream
- Disco Diffusion(开源):https://github.com/alembics/disco-diffusion
- Midjourney(未开源): midjourney.com/home/
- DALL-E-2(未开源):https://openai.com/dall-e-2/
- NovelAI(未开源):novelai.net/
三、AI绘画工具的基本用法有哪些?
现在的AI绘画有两种基本用法,分别是“文生图”和“图生图”。
文生图大家都非常熟悉了,就是用户输入一段文字,AI根据用户输入的文字来生成图画。
图生图,顾名思义就是用户上传一张图片,然后AI根据用户上传的图片进行绘制。例如你可以只画一个线稿,让AI在你线稿的基础上继续作画,达到成品的效果。具体请看下面这张图:
四、咒术/元素法典/魔导书指的是什么?为什么好图需要“咒术”来激发?
咒术/元素法典/魔导书广义上是指“AI绘画模型”中所有可设置的参数,狭义上,仅指 Prompt 和 Negative Prompt 这个参数对。
一般有以下6种/对:
- Prompt 和 Negative Prompt
- Sampling method 和 Sampling Steps
- Batch count 和 Batch size
- Seed
- Variation seed 和 Variation strength
- CFG Scale 和 Denoising strength
先说最主要的 Prompt 和 Negative Prompt 参数对,它们也常被大家称为 tag 和 反tag,这两个参数的作用其实是“调整元素权重”。 Prompt 会使 AI 倾向于画某些东西,而 Negative Prompt 正好相反。例如,你想让AI画出黑长直少女,你就要把“黑色长发”和“少女”添加进 Prompt 中,而为了防止 AI 画出黑色大波浪少女,就需要同时把“大波浪”添加进 Negative Prompt 中。
Sampling method 和 Sampling Steps 主要和采样相关,Sampling method 指采样方法,我们之前说的划时代论文 DDIM,就是对凭空生图非常好的采样方法。Sampling Steps 指采样步长,这个参数适当大一些可以让画面内容更细致,一般来说默认的就很不错了,不需要特意调整。
Batch count 和 Batch size 负责出图的数量,例如一次出1张或者8张,按需调整就可以了。
Seed 是个种子,设置它就相当于手动初始了神经网络的权重参数,在配合其他相同参数的情况下能得到一个极其类似的结果。
Variation seed 和 Variation strength 也是和种子相关的参数,可以理解成在原有种子的构图要素上发生一些改变。Variation strength 影响和原图的相似程度。
CFG Scale 和 Denoising strength,CFG Scale 可以简单理解为AI对描述参数的倾向程度。Denoising strength 可以简单理解成原图片的保留程度,越大就越不贴合原本的图片,越小就越贴合。
对参数的调整越细致,则AI越能把握你心中的景象,也就越容易画出让你满意的好图来。
五、现在国内已经出现哪些AI绘画小程序/应用了?现在进场还来得及吗?
据我个人观察,目前国内做出比较大声量的,主要还是盗梦师和KK画廊这两家。盗梦师更偏学术路线一点,依托西湖大学深度学习实验室,在品牌/学术论坛合作方面做的比较好,销售方面比较薄弱一些,但通过前面提到的合作,以及其他产品的导流,现在也有了相当基数的用户,凭口碑传播感觉也能维持不错的增长。
KK画廊有明确的分销机制,很多抖音达人会来这取图,然后回抖音做壁纸项目变现,壁纸项目收到的徒弟则邀请为KK画廊这边的下级,再赚一波CPS收益,个人感觉也进入稳定的增长期了。
这两个之外,很多其他小程序/应用都是能做出来(不难,开源模型套中文壳),但很难长期维持正向盈利,很快就会因为服务器费用入不敷出而倒闭。
所以截止到现在,AI绘画赛道的集中度依然很低,头部两家相加也没占多少市场份额,有大量的增量用户等待挖掘。在不存在技术壁垒的情况下,拼的就是引流能力了,而咱们生财,最不缺的就是流量高手。
六、AI绘画会不会存在版权问题?怎么处理?
要知山下路,顺问过来人。
咱们毕竟不是第一批做AI绘画的人,先看看别的公司版权页是怎么写的吧。
- Stable Diffusion(开源): https://stability.ai/stablediffusion-terms-of-service
- Disco Diffusion(开源):https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb
- Midjourney(未开源):https://midjourney.gitbook.io/docs/terms-of-service
- DALL-E 2(未开源):https://labs.openai.com/policies/content-policy
- NovelAI(未开源):https://novelai.net/terms
七、AI绘画技术可能衍生出哪些生意?普通人/小团队怎么参与进去?
第一种生意:做平台(以工具获客)
不管什么行业,做平台一定是天花板最高的。现在国内这条赛道还没有成气候的平台,正是入局的最佳时机。中文AI绘图小程序/网站/应用作为获客工具,对于普通人/小团队来说也不存在技术门槛,拿开源模型套个中文壳即可。下图是我找的中文AI绘画网站,是由个人独立开发完成的(在它倒闭之前几个小时,我用天辉老师的tag做了测试,成图效果相当好)。
可能有些朋友在“国外开源模型→中文本土化”这件事上感到有阻碍,但其实它的实现逻辑并不太复杂,本质上就是一个带语料库的机器翻译,市面上这种云产品很多,基本上大的机翻平台都有在做。
举个例子,我们要画一张“白发红瞳美少女吸血鬼在雨中漫步”,就翻译并切成“white hair,red eyes,beautiful young girl,bloodsucker,in the rain,ramble”,输入给机器就行了。
成本方面,用GPU云开竞价实例的情况下,有玩家把单张图片成本控制进了3厘(比调用别家api便宜多了吧)。
工具引来流量之后,平台能做的事情就多了。工具付费是最基本的,是不是还可以建买卖市场从中抽佣呢?是不是可以举办绘画大赛找金主赞助?是不是可以成立自己的数藏品牌?
风险当然也是存在的,例如假设你幸运地引爆了流量,是不是有足够的GPU来接呢。。。
第二种生意:变身画师接单
虽然你单价低,但是活好效率高啊!
手握AI的你,现在已经是个效率爆炸的中上流画师了,不要觉得AI只能随机生成图片,掌握好咒术的话,给小说网站做做角色设计图也不在话下。下面是AI生成的角色设计图:
本图咒语:
大作,高度详细,最高质量,高分辨率,原创,正面三视图
杂志封面,官方艺术,{人物表),白发,佩戴蓝色花形发饰
穿着中世纪的盔甲,裙装盔甲
第三种生意:卖tag/课程
AI绘画工具最终肯定会普及的,但是手持AI画师,不代表就能画出好看的作品来。针对这个需求,我们可以制作教人学习咒语的课程,甚至可以直接卖写好的咒语。
最后
感谢大家一直看到最后,希望本文对想要入局AI绘画的朋友有所帮助。
Comments on "发展史 + 模型清单 + 咒术详解 + 中文本土化 + 版权 QA + 生意探索 = 普通人的 AI 绘画挖宝指南!" :