位置: IT常识 - 正文

人工智能内容生成元年—AI绘画原理解析(人工智能内容生成)

编辑:rootadmin
人工智能内容生成元年—AI绘画原理解析 AIGC体验生成  团队模型、论文、博文、直播合集,点击此处浏览一、背景

推荐整理分享人工智能内容生成元年—AI绘画原理解析(人工智能内容生成),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:人工智能内容生成模型,人工智能内容生成行业峰会,人工智能内容生成企业商业模式实践路径探究论文,人工智能内容生成企业商业模式实践路径探究,人工智能内容生成,人工智能内容生成调查问卷,人工智能内容生成模型,人工智能内容生成技术,内容如对您有帮助,希望把文章链接给更多的朋友!

        2022年AIGC(AI生成内容)焕发出了勃勃生机,大有元年之势,技术与应用迭代都扎堆呈现。在各种新闻媒体处可以看到诸多关于学术前沿研究,以及相应落地的商用案例。可谓出现了现象级的学术-商业共振。以往学术研究内容离商用一般较远,因为学术研究相应实验数据通常为闭集即固定数据场景,而商业应用则为开集即非固定数据场景(能见到各式各样、甚至乱七八糟的数据)。所以将学术研究内容转化为商业应用的时候,就需要以工匠精神去做产品化设计与迭代,主要目的就是不断提升其可用性以达到商业化标准(避免出现不符预期、甚至乱七八糟的结果)。

        但AIGC领域似乎大大缩短了这一转化进程,尤其以近期短时间内爆火的AI绘画、AI作画类应用为代表。这无疑是人工智能发展至今的巨大胜利时刻,这能建立极强、极快的螺旋式发展迭代循环,商业应用上的不足点能迅速反馈至学术研究侧,学术研究侧的优化改进也能迅速体现到商业应用侧,拉满学术研究能获得的成就感。接下来的篇幅将介绍现有AI绘画、AI作画背后的相应基本原理、应用、以及论文参考文献。更多技术与应用的有趣想法欢迎评论区留言。

二、原理技术脉络归纳:

        在AI内容生成制作爆火的2022元年,在其基础框架技术部分,技术演进的脉络可以看作是不断寻找更可靠的特征域建模方式,亦可看作是不断寻找更合适的借鸡生蛋方式的过程。原始图像域的特征维度是很高的,直接来建模会有维度灾难的问题。需要不断找到可行的中间域来做对齐:

1.)CLIP可以看作是图像域与文本域特征对齐的大一统技术框架,文本域的原始特征空间跟原始图像域的特征空间比是相对更小的。所以在同等维度特征的表达下,文本相比图像是能更加容易被刻画好的,所以当align文本域特征到图像域特征时,图像域特征表达将无疑得到了更佳的富有语义的监督信号。这样获得更好的效果也就很自然了。

2.)diffusion可以看作是将原始图像域建模转变为噪声域建模的方法。噪声域有两个极大的好处:首先,它的特征空间比原始图像域要小的多,非常容易建模。其次,即使噪声域建模效果没能接近完美,它所呈现出来的差异也是噪声域的差异,而这个噪声差异在图像内容域上对人眼来说往往注意不到。所以从基本原理上来说,diffusion生成的图像细节无疑是会远远优于gan的。

基础技术部分:

        基础技术框架上大致可以分成如下几个标志性的阶段:

a)GAN阶段

        原理摘记,生成与对抗网络图像特征域对齐,示意图如论文[1]中图所示:

b)Transformer阶段

        网络由self-Attenion和Feed Forward Neural Network组成,强力的文本、图像(ViT系列)编码网络框架。示意图如论文[3]中图所示:

c)CLIP阶段

        图像文本域特征对齐。基于文本、视觉transformer encode统一框架,训练阶段4亿文本图像配对数据,训练至少100卡月V100。示意图如论文[4]中图所示:

d)Diffusion阶段

        原始图像特征域对齐转变为图像噪声域对齐。基于参数化马尔科夫链框架实现。示意图如论文[5]中图所示:

演化技术部分:a)StyleGan

        基于adain思想,额外学习高斯分布到风格空间w的映射,然后风格空间的变量作用于合成网络中。示意图如论文[2]中图所示:

b)DALL-E 1

        网络可理解为VQVAE + Transformer。示意图如论文[6]中图所示:

c) DALL-E 2

        网络可理解为CLIP + Diffusion。示意图如论文[7]中图所示:

d)Stable Diffusion

        网络可理解为VAE + CLIP + Diffusion + Unet,引入LDM等加速手段,显著降低计算复杂度。示意图如论文[8]中图所示:

三、应用

        目前可以看到,诸如文生图、图生图、图像编辑、图像修复、图像拓展等应用功能都已实现,国内的AI绘画特效类应用也结合国风、动漫等风格有了非常广泛的应用,这里面既有大厂也有创业公司等玩家的加入。于此同时,对创意行业设计者来说,AI绘画也正演变为最佳助手,大幅提高创意行业的生产效率。相应应用介绍如下:

1.) Disco Diffusion:CLIP + Diffusion。https://github.com/alembics/disco-diffusion。

2.) Stable Diffusion:https://github.com/Stability-AI/stablediffusion。

3.) Stable Diffusion 2:显著提升图像质量,采用LAION-5B 58.5亿个图像文本对,增加NSFW做了内容过滤。https://huggingface.co/stabilityai/stable-diffusion-2 。

4.) Imagic : gan DALL-E 2,基于扩散模型的真实图像编辑方法,用文字就能实现真实照片的 PS,比如让一个人竖起大拇指、让两只鹦鹉亲吻。示意图如论文[9]中图所示:

5.) Imagen:更强力的语言模型能获得更逼真的画作效果。相较于视觉部分模型来讲,语言模型size越大带来的画作逼真性越大。示意图如论文[10]中图所示:

6.) DreamBooth: 对输入图像中的主体能进行相应输入文本语义下的内容生成。示意图如论文[11]中图所示:

人工智能内容生成元年—AI绘画原理解析(人工智能内容生成)

7.) Midjourney : https://midjourney.gitbook.io/docs。在美国科罗拉多州举办的艺术博览会,《太空歌剧院》的画作获得数字艺术类别冠军。

四、文献

[1]Gan:https://arxiv.org/abs/1406.2661

[2]StyleGan:https://arxiv.org/abs/1812.04948

[3]Transformer: https://arxiv.org/abs/1706.03762

[4]CLIP:https://arxiv.org/abs/2103.00020

[5]Diffusion:https://arxiv.org/abs/2006.11239

[6]DALL-E 1:https://arxiv.org/abs/2102.12092

[7]DALL-E 2:https://arxiv.org/abs/2204.06125

[8]Stable Diffusion: https://arxiv.org/abs/2112.10752

[9]Imagic:https://arxiv.org/abs/2210.09276

[10]Imagen:https://arxiv.org/abs/2205.11487

[11]DreamBooth:https://arxiv.org/abs/2208.12242

五、应用

        接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

本文链接地址:https://www.jiuchutong.com/zhishi/298662.html 转载请保留说明!

上一篇:【Vue 路由(vue—router)二】路由传参(params的类型 、Query参数的类型、路由name)(vue里面的路由)

下一篇:SpringBoot集成ChatGPT实现AI聊天(springboot集成clickhouse)

  • 华为p40可以用来控制空调吗(华为p40可以用来刷机吗)

    华为p40可以用来控制空调吗(华为p40可以用来刷机吗)

  • 如何在word里插入脚注(如何在word里插一页)

    如何在word里插入脚注(如何在word里插一页)

  • 苹果怎么把b站缓存的视频转为本地视频(苹果怎么把B站视频存到手机)

    苹果怎么把b站缓存的视频转为本地视频(苹果怎么把B站视频存到手机)

  • ipadpro长宽(ipadpro长宽多少厘米)

    ipadpro长宽(ipadpro长宽多少厘米)

  • iphone怎么滚动截长图微信聊天记录(iphone怎么滚动截聊天长图)

    iphone怎么滚动截长图微信聊天记录(iphone怎么滚动截聊天长图)

  • 小米无线充电宝和青春版区别(小米无线充电宝10000mAh)

    小米无线充电宝和青春版区别(小米无线充电宝10000mAh)

  • 华为nova6变成黑白色怎么调回来(华为nova6变成黑白)

    华为nova6变成黑白色怎么调回来(华为nova6变成黑白)

  • 钉钉手机共享屏幕视频没有声音(钉钉手机共享屏幕ppt)

    钉钉手机共享屏幕视频没有声音(钉钉手机共享屏幕ppt)

  • 语音网络异常,聊天结束(语音显示网络异常)

    语音网络异常,聊天结束(语音显示网络异常)

  • 计算机时代划分依据(计算机时代划分的依据)

    计算机时代划分依据(计算机时代划分的依据)

  • 荣耀9x如何隐藏应用图标(荣耀9x如何隐藏手机应用)

    荣耀9x如何隐藏应用图标(荣耀9x如何隐藏手机应用)

  • 苹果11有时候会出现卡顿是怎么情况(苹果11有时候会黑屏怎么回事)

    苹果11有时候会出现卡顿是怎么情况(苹果11有时候会黑屏怎么回事)

  • 华为nova2是双卡双待吗(华为nova2双卡联通卡用不了)

    华为nova2是双卡双待吗(华为nova2双卡联通卡用不了)

  • qq手机2g在线什么意思(qq手机2g在线可以收到消息吗)

    qq手机2g在线什么意思(qq手机2g在线可以收到消息吗)

  • vivo手机悬浮球怎么关闭(vivo手机悬浮球怎么添加应用)

    vivo手机悬浮球怎么关闭(vivo手机悬浮球怎么添加应用)

  • vivos5的闪存是什么规格(vivos7的闪存)

    vivos5的闪存是什么规格(vivos7的闪存)

  • 如何拿抖音视频做锁屏(如何拿抖音视频赚钱)

    如何拿抖音视频做锁屏(如何拿抖音视频赚钱)

  • 苹果xsmax支持双卡吗(苹果xsmax支持双电信吗)

    苹果xsmax支持双卡吗(苹果xsmax支持双电信吗)

  • 快手同乡服怎么关了(快手如何申请同城解封)

    快手同乡服怎么关了(快手如何申请同城解封)

  • 一式两份怎么打印(一式两份怎么打印样本)

    一式两份怎么打印(一式两份怎么打印样本)

  • anglar和vue的区别(vue和angular的区别)

    anglar和vue的区别(vue和angular的区别)

  • ps4画质相当于pc什么档(ps4画质相当于电脑什么水平)

    ps4画质相当于pc什么档(ps4画质相当于电脑什么水平)

  • 表格里的斜线怎么弄(表格里的斜线怎么添加文字)

    表格里的斜线怎么弄(表格里的斜线怎么添加文字)

  • xr怎么关后台

    xr怎么关后台

  • sgmain.exe - sgmain是什么进程  有何作用

    sgmain.exe - sgmain是什么进程 有何作用

  • 情感计算——多模态情感识别(情感计算的应用)

    情感计算——多模态情感识别(情感计算的应用)

  • 计提印花税会计分录最新
  • 购车增值税可以抵扣多少
  • 个人所得税减免 租房没有合同编号
  • 红字发票可以只开金额没有数量吗
  • 收入比开票多如何处理好
  • 期间费用的界定
  • 开具红字发票的当月就要进项税额转出吗
  • 企业购买电话充值卡的分录
  • 已上传的红字发票怎么打印
  • 存货非正常损失的纳税筹划
  • 存货跌价准备转销会影响当期损益吗
  • 去年税收滞纳金计入什么科目
  • 借款可以转注资款吗
  • 承包租赁成本明细表的预算项目
  • 一张发票多个单位报销,怎么分辨
  • 申报退税金额是0是怎么回事
  • 年终奖扣税和工资扣税
  • 采购均价怎么计算
  • 国家征收苗木专业合作社成员土地,应该怎样出示证件
  • 光纤熔接发票属什么类别
  • 公司汽车一年可以用多少油费
  • 负债判断
  • 办公费差旅费属于
  • 发出商品发生损失
  • 餐饮行业必须要对公账户吗
  • 固定资产原值减少说明什么
  • 增值税进项发票不够抵扣怎么办
  • 成品油企业自用油需要开具发票吗
  • 工程结算转收入
  • 企业清算剩余财产分配是否交个人所得税
  • dotnetfx35.exe
  • 增值税税率类型
  • php中常量与变量的区别
  • 工资属于收益类科目吗
  • 建筑业预缴增值税
  • 公司车辆缴纳车船税需要什么资料
  • Notojima岛附近的牡蛎养殖场,日本石川县 (© divedog/Shutterstock)
  • auto learn
  • yii框架入门
  • 微信支付开发需要什么条件
  • 装系统如何不安装自带软件
  • 微信转账怎么处理退回去
  • 智能商亭超级大骗局
  • 所得税弥补亏损年限10
  • 固定资产折旧完报废账务处理
  • 其它应付款核算项目
  • 26个字母!
  • 个税算错怎么办理退税
  • mysql proxy问题的解决方法
  • 关于固定资产的说法
  • 企业的纳税申报数据来源于
  • 分支机构注销后往来账如何处理?
  • 税控服务费减免月底怎样结转
  • 在建工程前期投标流程
  • 研发支出是什么意思
  • 分支机构与总机构怎么纳税?
  • 债务类科目和债权类科目
  • 一年以上的借款是长期借款吗
  • 军工科研事业单位会计制度
  • 应付款多付了怎么入账
  • 实际成本大于预计总成本
  • 食品生产企业成本怎么核算
  • 企业办增项怎样办理
  • sql server创建架构
  • 微软windows8.1
  • win10怎么变回系统默认字体
  • win7安装office2016报错
  • jquery技巧
  • Unity3D游戏开发培训课程大纲
  • Bullet(Cocos2dx)之交叉编译Android,集成到cocos2dx3.x
  • jquery对动态生成的进行操作
  • linux shell脚本攻略(第3版)
  • 你应该知道的2000个地理常识
  • bootstrap要学到什么程度
  • 宁波地铁支付宝可以刷吗
  • 重庆市国税12366
  • 中国税务徽标
  • 保税工厂和非保税工厂的区别
  • 国家电子税务局江西省电子税务局
  • 什么是重点群体
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设