发展史 + 模型清单 + 咒术详解 + 中文本土化 + 版权 QA + 生意探索 = 普通人的 AI 绘画挖宝指南！

这篇分享适合以下几类圈友：

1.如果你以前从未接触过AI，但最近看到AI绘画被频频提起，想做个基本了解，这篇分享将给你简单直白地介绍“AI绘画”的发展历程和技术原理。

2.如果你已经在使用AI绘画工具进行创作，但是总是画不出自己想要的效果，这篇分享将告诉你怎么使用“咒语”，才能把心中的景象，清晰明白地传达给你的“法杖”。

3.如果你已经发现了AI绘画的异常值，但在挖宝路上碰到了“国外开源模型→中文本土化”、“版权疑虑”和“商业模式探索”等等阻碍，这篇分享将给你提供一份“他人的看法”，以供参考。

麻木尔和他的AI之路

先花点时间做个自我介绍。

我叫麻木尔，一枚大龄95后。在人工智能还没有被教育部设定成常规学科的时候，就凭着一股“轴劲”，硬从报考指南里找到了一个自主申报了AI专业的学校，如愿以偿地成为了那时国内比较少见的“AI科班生”。4年的学习，让我对AI的原理和技术具备了基本认知。

在学生生涯的末尾，又幸运地通过“北京高等学校高水平人才交叉培养计划”，在中科院计算所参与了一个AI项目从0到1的全过程，并通过毕业设计沉淀了一年来实际开发和项目周期把控的经验。

毕业后，加入某一线风投的AI部门，从事人才培养方向的工作。期间参与了教育部“推进人工智能领域一级学科建设”行动的部分前期调研（call back了哈哈），结识了很多AI路上志同道合的学界&业界小伙伴。

后来加入了生财，在众多大佬的熏陶下，在搬砖+副业与创业路上一路向前。

为什么决定写这篇文章？

其实自第四期加入以来，我一直习惯当潜水党，每天把to-do勾到剩最后一项，打开知识星球，浏览完当天的新内容，打上勾，上床睡觉才是我的生财日常，其余的，最多是发发风向标。

这次强迫自己写长文，除了锻炼自己“写作”这项底层能力之外，主要还是因为“AI绘画”在现在这个时间点，真的是一个太适合超级个体/小团队入局，而且天花板不低的生意。就如亦仁老大的预测一样：“中文版本的AI绘画，会产生不少于10个年利润不低于百万的小程序。看谁先做出来并引爆。”

老大的预测，最后一句非常关键，我给大家分享5个信息：

目前人工智能的进展已经放缓了，个人/小团队和大公司之间的技术差距实质上并不大，因为本质上大家用的都是同样的东西，大公司养了很多博士来做优化，但这些工作只是在“刷榜”时起到点“提分”的作用，这种“微提升”人类是不太能感知到的。（一句话概括，用户用你的东西和大厂的东西，感受不到“用户体验”上的差别。）
目前的AI绘画算法从“GAN”进化到“Diffusion”后，效果非常好，已经突破了实用化的临界点。（一句话概括，用户觉得AI画出来的东西“不抽象”，很符合常人审美了。）
目前AI绘画在全球已经有了非常良好的开源生态，拥有了“Stable Diffusion”和“Disco Diffusion”这样的优质开源项目。（一句话概括，你用开源模型套个“中文外壳”，输出的图片效果和国外大厂的商业模型一样好。）
NovelAI模型（技术上相对于Stable Diffusion几乎没有提升）的泄露事件，造成了AI绘画的出圈，同时验证了市场需求。（一句话概括，这个生意，前路已通。）
据我了解，目前国内跑的最快的中文AI绘画产品，也只是到了“做出来”这步，正在探索“引爆的方法”。（一句话概括，现在开始做，还来得及跑进前10。）

分享大纲

好了，废话不多说，我们切入主题。

AI绘画为什么会突然爆发？
目前比较前沿的AI绘画模型有哪些？
AI绘画工具的基本用法有哪些？
咒术/元素法典/魔导书指的是什么？为什么好图需要“咒术”来激发？
现在国内已经出现哪些AI绘画小程序/应用了？现在进场还来得及吗？
AI绘画会不会存在版权问题？怎么处理？
AI绘画技术可能衍生出哪些生意？普通人/小团队怎么参与进去？

一、AI绘画为什么会突然爆发？

AI绘画的整个发展史，总体而言有这样几个关键节点。

第一个节点：GAN的时代

“旧纪元时期”，彼时AI绘画的方案还是StyleGAN。GAN这种方案就是训两个模型，一个造假，一个判真，两个模型相互卷，直到卷到造假的模型能造出“以假乱真”的图片时，就算练成了。但GAN有个致命缺陷叫做“鞍点问题”，它造成“模型训练过程中，数据处理的难度很大”，而且数据越复杂、越多样，难度就越大。这时的模型是很不稳定的，自然也不可能依托它形成什么商业模式。

第二个节点：一篇论文，带来新的范式

2020年发布的开创性论文《Denoising Diffusion Probabilistic Models》，带来了一种新的图像生成范式。用这个方法生成出来的图片效果非常好，比GAN要好的多，而且不存在GAN的缺陷，由此，这种新范式突破了实用化的临界点。（PS：这就是为什么后来的模型多叫做 XX Diffusion的原因。）

Diffusion 算法的原理是先将一幅画面逐步加入噪点，一直到整个画面都变成白噪声，记录这个过程，然后逆转过来给AI学习（当然不只是一副画，而是极大数量的画）。从AI视角看，就是学习一副全是白噪声的画面，怎么一点点去除噪点变清晰，直至变成一幅画。用说的可能不清楚，我弄一组图片在下面，大家看了就明白了。

虽然新范式出现了，但此时还是不具备爆发的全部条件。这一时期出现了很多运用 Diffusion 技术的模型，比如 DALL-E系列，Midjourney 等等，它们都有非常不错的效果，例如使用 Midjourney 创作的画作《太空歌剧院》就在美国科罗拉多州博览会的艺术比赛中获得了第一名，引发了媒体的竞相转载，以至于在指数工具里飙出了一个很高的“异常值”，但因为它们要么是彻底闭源的，要么是只开放一些api，所以“异常值”飙的快降得也快，最终没有特别出圈，停留在了新闻和少量技术尝鲜者中。

第三个节点：优秀的开源模型出现

2022年8月份，Stable Diffusion 模型的开源给“AI绘画的爆发”补上了倒数第二块拼图，这个模型的生成图像效果丝毫不逊于 DALL-E系列，Midjourney 等商业模型，而且还有优良的开源社区支持。最重要的是，它在“大模型”家族里算是比较小巧的，个人设备也可以完成推理过程。

第四个节点：爆发，二次元的破圈力

2022年10月份，基于 Stable Diffusion 但“二次元专精”的NovelAI模型发布当天被黑客泄露事件，彻底引爆了AI绘画，事件影响大大超过了绝大多数人的预期，AI绘画作为大部分时间里一直默默无闻的新技术，被一瞬间推进到公众讨论阶段。个人分析，这次事件的爆发主要基于以下3点：

NovelAI模型训练过程中，采集了大量诸如P站之类网站的图片作为训练集，导致其模型存在很高的18X内容创作能力。黑客将模型泄露后，大量的个人创作者搭建本地应用，生成18X图片后分享，引发了圈内的大规模讨论。
NovelAI模型在圈内被广泛认知到后，很多约稿老板毁了下给人类画师的单，转而使用AI绘画应用，引发了画师群体的激烈反应。画师圈最终达成的打击AI的共识，落在了版权上（训练模型的时候，工程师会大规模采集画师上传在互联网上的已有画作，作为训练集喂给AI），而版权问题，是个“公共议题”，此时“AI绘画”进入了破圈阶段。
大量公众在围观“版权之争”的时候接触到AI绘画应用及其作品，被其绚丽程度吸引到，开始自发传播，自此，AI绘画被彻底引爆。

通过指数工具，印证上述推理

为了验证我的推断是否正确，我使用AI绘画、Midjourney、太空歌剧院、Disco Diffusion、Stable Diffusion、NovelAl 这6个关键词，在微博指数、微信指数和百度指数上进行了数据查询。

① 微博指数

微博指数中只收录了“AI绘画”一个词，从过去90天的趋势来看，AI绘画在微博里的爆发时间线只与NovelAI模型泄露事件有关。

② 微信指数

从微信指数中可以看到，Midjourney 在今年8月飙出了一个很高的异常值（对应《太空歌剧院》夺冠事件），但很快归于沉寂。Stable Diffusion 只在发布时有个小峰值，最后“AI绘画”的爆发依然只和 NovelAI 高度相关。

③ 百度指数

百度指数和微信指数大致相同，显示“AI绘画”的爆发只和 NovelAI 高度相关。

从中我们可以得出一个结论，AI绘画在本月的突然爆发，NovelAI 居功至伟。

二、目前比较前沿的AI绘画模型有哪些？

目前比较前沿的AI绘画模型主要有以下5个，其中只有前2个是开源的，国内大多数中文AI绘画应用都是基于这两个开源模型封装的。

Stable Diffusion（开源）： beta.dreamstudio.ai/dream
Disco Diffusion（开源）：https://github.com/alembics/disco-diffusion
Midjourney（未开源）： midjourney.com/home/
DALL-E-2（未开源）：https://openai.com/dall-e-2/
NovelAI（未开源）：novelai.net/

三、AI绘画工具的基本用法有哪些？

现在的AI绘画有两种基本用法，分别是“文生图”和“图生图”。

文生图大家都非常熟悉了，就是用户输入一段文字，AI根据用户输入的文字来生成图画。

图生图，顾名思义就是用户上传一张图片，然后AI根据用户上传的图片进行绘制。例如你可以只画一个线稿，让AI在你线稿的基础上继续作画，达到成品的效果。具体请看下面这张图：

四、咒术/元素法典/魔导书指的是什么？为什么好图需要“咒术”来激发？

咒术/元素法典/魔导书广义上是指“AI绘画模型”中所有可设置的参数，狭义上，仅指 Prompt 和 Negative Prompt 这个参数对。

一般有以下6种/对：

Prompt 和 Negative Prompt
Sampling method 和 Sampling Steps
Batch count 和 Batch size
Seed
Variation seed 和 Variation strength
CFG Scale 和 Denoising strength

先说最主要的 Prompt 和 Negative Prompt 参数对，它们也常被大家称为 tag 和反tag，这两个参数的作用其实是“调整元素权重”。 Prompt 会使 AI 倾向于画某些东西，而 Negative Prompt 正好相反。例如，你想让AI画出黑长直少女，你就要把“黑色长发”和“少女”添加进 Prompt 中，而为了防止 AI 画出黑色大波浪少女，就需要同时把“大波浪”添加进 Negative Prompt 中。

Sampling method 和 Sampling Steps 主要和采样相关，Sampling method 指采样方法，我们之前说的划时代论文 DDIM，就是对凭空生图非常好的采样方法。Sampling Steps 指采样步长，这个参数适当大一些可以让画面内容更细致，一般来说默认的就很不错了，不需要特意调整。

Batch count 和 Batch size 负责出图的数量，例如一次出1张或者8张，按需调整就可以了。

Seed 是个种子，设置它就相当于手动初始了神经网络的权重参数，在配合其他相同参数的情况下能得到一个极其类似的结果。

Variation seed 和 Variation strength 也是和种子相关的参数，可以理解成在原有种子的构图要素上发生一些改变。Variation strength 影响和原图的相似程度。

CFG Scale 和 Denoising strength，CFG Scale 可以简单理解为AI对描述参数的倾向程度。Denoising strength 可以简单理解成原图片的保留程度，越大就越不贴合原本的图片，越小就越贴合。

对参数的调整越细致，则AI越能把握你心中的景象，也就越容易画出让你满意的好图来。

五、现在国内已经出现哪些AI绘画小程序/应用了？现在进场还来得及吗？

据我个人观察，目前国内做出比较大声量的，主要还是盗梦师和KK画廊这两家。盗梦师更偏学术路线一点，依托西湖大学深度学习实验室，在品牌/学术论坛合作方面做的比较好，销售方面比较薄弱一些，但通过前面提到的合作，以及其他产品的导流，现在也有了相当基数的用户，凭口碑传播感觉也能维持不错的增长。

KK画廊有明确的分销机制，很多抖音达人会来这取图，然后回抖音做壁纸项目变现，壁纸项目收到的徒弟则邀请为KK画廊这边的下级，再赚一波CPS收益，个人感觉也进入稳定的增长期了。

这两个之外，很多其他小程序/应用都是能做出来（不难，开源模型套中文壳），但很难长期维持正向盈利，很快就会因为服务器费用入不敷出而倒闭。

所以截止到现在，AI绘画赛道的集中度依然很低，头部两家相加也没占多少市场份额，有大量的增量用户等待挖掘。在不存在技术壁垒的情况下，拼的就是引流能力了，而咱们生财，最不缺的就是流量高手。

六、AI绘画会不会存在版权问题？怎么处理？

要知山下路，顺问过来人。

咱们毕竟不是第一批做AI绘画的人，先看看别的公司版权页是怎么写的吧。

Stable Diffusion（开源）： https://stability.ai/stablediffusion-terms-of-service
Disco Diffusion（开源）：https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb
Midjourney（未开源）：https://midjourney.gitbook.io/docs/terms-of-service
DALL-E 2（未开源）：https://labs.openai.com/policies/content-policy
NovelAI（未开源）：https://novelai.net/terms

七、AI绘画技术可能衍生出哪些生意？普通人/小团队怎么参与进去？

第一种生意：做平台（以工具获客）

不管什么行业，做平台一定是天花板最高的。现在国内这条赛道还没有成气候的平台，正是入局的最佳时机。中文AI绘图小程序/网站/应用作为获客工具，对于普通人/小团队来说也不存在技术门槛，拿开源模型套个中文壳即可。下图是我找的中文AI绘画网站，是由个人独立开发完成的（在它倒闭之前几个小时，我用天辉老师的tag做了测试，成图效果相当好）。

可能有些朋友在“国外开源模型→中文本土化”这件事上感到有阻碍，但其实它的实现逻辑并不太复杂，本质上就是一个带语料库的机器翻译，市面上这种云产品很多，基本上大的机翻平台都有在做。

举个例子，我们要画一张“白发红瞳美少女吸血鬼在雨中漫步”，就翻译并切成“white hair,red eyes,beautiful young girl,bloodsucker,in the rain,ramble”，输入给机器就行了。

成本方面，用GPU云开竞价实例的情况下，有玩家把单张图片成本控制进了3厘（比调用别家api便宜多了吧）。

工具引来流量之后，平台能做的事情就多了。工具付费是最基本的，是不是还可以建买卖市场从中抽佣呢？是不是可以举办绘画大赛找金主赞助？是不是可以成立自己的数藏品牌？

风险当然也是存在的，例如假设你幸运地引爆了流量，是不是有足够的GPU来接呢。。。

第二种生意：变身画师接单

虽然你单价低，但是活好效率高啊！

手握AI的你，现在已经是个效率爆炸的中上流画师了，不要觉得AI只能随机生成图片，掌握好咒术的话，给小说网站做做角色设计图也不在话下。下面是AI生成的角色设计图：

本图咒语：

大作，高度详细，最高质量，高分辨率，原创，正面三视图

杂志封面，官方艺术，{人物表），白发，佩戴蓝色花形发饰

穿着中世纪的盔甲，裙装盔甲

第三种生意：卖tag/课程

AI绘画工具最终肯定会普及的，但是手持AI画师，不代表就能画出好看的作品来。针对这个需求，我们可以制作教人学习咒语的课程，甚至可以直接卖写好的咒语。

最后

感谢大家一直看到最后，希望本文对想要入局AI绘画的朋友有所帮助。

麻木尔和他的AI之路

为什么决定写这篇文章？

分享大纲

一、AI绘画为什么会突然爆发？

第一个节点：GAN的时代

第二个节点：一篇论文，带来新的范式

二、目前比较前沿的AI绘画模型有哪些？

三、AI绘画工具的基本用法有哪些？

四、咒术/元素法典/魔导书指的是什么？为什么好图需要“咒术”来激发？

五、现在国内已经出现哪些AI绘画小程序/应用了？现在进场还来得及吗？

六、AI绘画会不会存在版权问题？怎么处理？

七、AI绘画技术可能衍生出哪些生意？普通人/小团队怎么参与进去？

第一种生意：做平台（以工具获客）

最后

Comments on "发展史 + 模型清单 + 咒术详解 + 中文本土化 + 版权 QA + 生意探索 = 普通人的 AI 绘画挖宝指南！" :

Leave a Reply

关注公众号

麻木尔和他的AI之路

为什么决定写这篇文章？

分享大纲

一、AI绘画为什么会突然爆发？

第一个节点：GAN的时代

第二个节点：一篇论文，带来新的范式

二、目前比较前沿的AI绘画模型有哪些？

三、AI绘画工具的基本用法有哪些？

四、咒术/元素法典/魔导书指的是什么？为什么好图需要“咒术”来激发？

五、现在国内已经出现哪些AI绘画小程序/应用了？现在进场还来得及吗？

六、AI绘画会不会存在版权问题？怎么处理？

七、AI绘画技术可能衍生出哪些生意？普通人/小团队怎么参与进去？

第一种生意：做平台（以工具获客）

最后

Comments on "发展史 + 模型清单 + 咒术详解 + 中文本土化 + 版权 QA + 生意探索 = 普通人的 AI 绘画挖宝指南！" :

Leave a Reply

免费下载或者VIP会员资源能否直接商用？

提示下载完但解压或打开不了？

找不到素材资源介绍文章里的示例图片？

付款后无法显示下载地址或者无法查看内容？

购买该资源后，可以退款吗？

相关文章