个人背景:2004年研究生毕业,两次创业经验。AI项目经验包括自然语言处理、推荐引擎、计算广告、计算机视觉。2017年公司进入计算机视觉赛道,主攻图像分割领域,打造了微信和支付宝上用户量最大的智能证件照小程序,目前累计用户5500万。同时也是国内最大的证件照API接口服务商,日调用量百万级。
一、科普:AI视觉到底是啥
抛开AI视觉的学术定义,我从功能角度说一下AI视觉是什么,这样没有任何AI基础的人都能看明白。
从AI视觉的功能角度,我把它分为三类:认知、加工、创造。
所谓认知,就是AI对图像中内容的理解。比如常见的识别、检测、分割等。
所谓加工,就是AI对原有图像的编辑。比如美颜、水印擦除、无损放大。
所谓创造,就是AI生造不存在的图像。比如生成不存在的人脸图像,生成艺术画。
在这个分类框架下,AI视觉包括很多具体的功能,下面简单列一些可能适合小团队的功能,帮助小伙伴们打开一些视野。
1,识别类:
1)文本检测与识别。在文字图像上应用非常广泛,如纸质发票电子化。
2)自动计数。常见的是人群计数,但广阔的场景是仓库管理等。
3)异常检测。常见的是工业外观缺陷检测。
4)图像分割。常见的包括人像抠图、商品抠图、抠头像。
5)人脸解析。其实也是一种分割,但应用广泛,适合独立出来。
2,加工类:
1)无损放大。又叫超分,很基础的功能需求。
2)图像修复。老照片修复就属于这类。
3)补图。图片去水印就是擦除水印区域,然后AI补图恢复。
4)风格迁移。如卡通化、艺术风格化等。
5)换脸。很普及了,大家都应该见过。
6)人脸属性编辑。
3,创造类
AI画画。新的技术范式,放到后面单独一节展开讲讲。
二、案例拆解:关于证件照小程序的AI,我们做对了什么。
我们目前上线的证件照小程序里涉及的AI能力包括:
1,人脸检测/人脸关键点检测/口罩检测/眼镜检测/耳环项链检测
2,自动抠人像/抠头像/人脸解析/皮肤分割/人像修复/重打光
但是我不想讲AI如何具体运用的,相信大家也不会感兴趣,毕竟这次不是技术分享。我要讲的是AI落地过程中我们认识到的四个关键点。
第一,技术上不要迷信大公司。虽然大公司动辄几十上百的AI博士,但不要担心这个。其中的原因有三点:一是AI的开源项目非常多,而且很多是最前沿的AI进展。相当于几十万AI博士给你服务;二是AI技术已经发展到平稳期,在绝大多数AI领域,最新的技术进展与两年前的技术相差并不悬殊,只是好一点儿,所以你不一定要掌握最新的AI技术,跟进就行;三是AI效果的好坏,影响因素最大的是训练数据,而不是AI技术本身。这种差别相当于让四川人跟东北人比赛做川菜。
第二,最核心的部分要自己做,慢也要做。对于证件照来说,最核心部分是抠像。我们的证件照之所以比其他竞品好,在于抠像是我们自己做,不像很多竞品只是调用第三方的抠像API接口。自己做核心能力的意义在于可以根据业务中有问题的图像进行持续优化,例如对于翻拍手持证件照的图像,第三方抠像API都会把手部抠出来,而我们自研的优化就可以完美解决这个问题。
第三,细分目标用户群,避开AI基础能力赛道。现在阿里、今日头条、百度、腾讯、华为,还有AI视觉四小龙,都提供了AI基础能力服务,如API接口或SDK服务,基本涵盖了所有常见AI基础需求。选择项目时要尽量避开AI基础能力服务,以用户为中心提供产品化服务。
第四,用户决定产品的AI发展方向。永远记住你的产品服务用户,AI能力服务你的产品。当你的产品上线运营后,不要做用户可能需要的AI能力,要由用户反馈告诉你他需要什么产品功能,然后再考虑AI技术栈里有哪些可以更优的满足这个功能需求。
三,对于小团队而言,机会在哪里。
我认为,对于小团队来说,机会在细分的应用场景里。
AI技术可以渗透到很多应用场景,我举一些例子:
1,衣服抠像。服装电商需要这个功能,市面上都是商品抠图或者人像抠图,如果针对衣服抠像问题准备训练数据并自己训练一个AI,只给衣服抠像用,会比任何商品抠图效果都好。以此类推,可以考虑更多商品品类单独训练。
2,自动计数。在某些标准化商品的仓库管理中,都需要计数统计。
3,照片推荐风格化。把宠物照片用梵高的《星空》画做风格变换,肯定不如用宠物油画做风格变换的效果。如果先根据对用户上传照片的分析,从风格图库里找到适合的艺术画作为风格化参考图,会免去用户从海量风格图库里挑图的痛苦。
4,为密室逃脱线下店做一个增值服务:用户上传一张自拍照,生成结合该密室主题的多种表情海报图。
5,为剧本杀点做一个增值服务:每个用户传一张自拍照,抠头像搭配角色身体后,生成个性化的剧本杀海报。
6,图片新元素和谐化嵌入原图。例如电商图中,针对双11活动,想批量嵌入营销元素,可以用AI实现自动寻找适合的嵌入位置以及颜色自动变换,生成的图片色调和谐,没有违和感。
以上只是举例,具体是否已经有了相应的服务或者是否有市场价值,大家自己判定。这里只是抛砖引玉,每个人可以根据自己所熟悉的业务场景去思考和挖掘。针对出海工具类的话,大家往用户侧多想想,整合一些AI基础能力的单一产品形态可能会有机会。
正如前面所说,这些细分场景,大公司是不太会碰的,即使做也不一定比你做的好。谁更熟悉业务场景,更了解该场景下图像特点并收集整理训练数据,谁就会做的更好。
另外,随着AI技术的普及和发展,越来越多的AI工程师已经掌握了如何训练和在业务中使用AI技术。而且这种训练和部署其实对技术要求并不高,python程序员学一两个月也就掌握了。不要担心找不到程序员帮你实现。
四,番外篇:关于最近爆火的AI画画,为什么值得每个人关注。
AI画画,是今年AI视觉领域出现的新的技术范式。就像潘多拉盒子一样,一旦打开,会影响太多人、太多行业。无论你是做哪个行业,我觉得都有必要了解一下AI画画是什么,以及对社会将产生什么样的巨大影响。
我把AI画画分为发散型和定制型。
所谓发散型,就是用户只需要输入提示词(英文叫prompt,用于描述待创作图像语义元素的),AI生成画作。
这种Text2Image的能力,我知道有些大游戏公司已经用于角色、场景等的挑选与制作上了,极大提升了制作效率。不止游戏公司,在很多设计领域会越来越多被运用,我发一些AI根据文本生成图的例子大家就懂了。
这会改变以往很多设计师的工作模式,插画、图标设计、LOGO设计等等需要创意设计的工作会极大提升生产力。而且由此可能产生“提示词工程师”这个新岗位,想象力和生成图的经验会变得更加重要,手绘能力越来越次要。
所谓定制型,就是用户对生成的图像拥有个性化定制的能力,例如生成的图像中某些图案是用户定制的(例如传参考图,或者输入简笔画等等),下面是我做的一个实验:用几十张Tesla车训练了DreamBooth模型(基于stable diffusion模型的一个扩展模型),然后生成的效果图。
我再发两个外国网友做的DreamBooth的人像图:第一张是把人像变成各种职业;第二张是各种风格。
定制型AI画画将给电商做图带来巨大变化,在不久的将来,商家只需拍摄几张商品图,然后就可以制作各种让人惊艳的商品摆拍图,例如我们在实验的这个是用随机在地板上拍的20张鞋图,训练后生成的图,虽然不完美,但这个方向确定无疑。
可以肯定的是,所有跟“设计”沾边的工作,无论是插画师、平面设计、3D建模师、视频编辑、游戏原画师、室内设计师、电商美工、修图师......,都将获得AI画画这个新技术范式加持。无论你是不是从事设计相关的工作,我认为平时都应该关注一下AI画画,如果有可能,自己尝试画画。尤其咱们生财有术的朋友们,随着AI画画能力的不断进步,新机会暗流涌动,及早关注和探索,捕捉其中的商机。如果你对AI画画的商业化感兴趣,可以一起交流。
Comments on "小团队在 AI 视觉浪潮中的大机会" :