b1gc8v 发表于 2024-7-3 17:46:16

一文详解AI作画算法原理+性能评测


    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">前言</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">“AI作画依赖于多模态预训练,<span style="color: black;">实质</span>上各类作画AI模型早已存在,之<span style="color: black;">因此</span>近期作品质量<span style="color: black;">提高</span><span style="color: black;">非常多</span>,可能是<span style="color: black;">由于</span>以前预训练<span style="color: black;">无</span>受到<span style="color: black;">注意</span>,还达不到媲美人类的程度,但随着数据量、训练量的<span style="color: black;">增加</span>,<span style="color: black;">最后</span>达到了<span style="color: black;">此刻</span>呈现的效果。”远在AI作画还<span style="color: black;">无</span>爆火之前,深度学习就<span style="color: black;">已然</span><span style="color: black;">能够</span><span style="color: black;">按照</span><span style="color: black;">照片</span>库训练学习生成<span style="color: black;">有些</span>真假难辨的<span style="color: black;">照片</span>了,那时候仅仅依赖的是GAN神经对抗网络算法实现,<span style="color: black;">此刻</span>随着模型的迭代优化,<span style="color: black;">已然</span>有了越来越多的模型能够实现<span style="color: black;">有些</span>较为<span style="color: black;">繁杂</span>的<span style="color: black;">照片</span>生成。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">AI作画用以学习的“教材”<span style="color: black;">常常</span>都是现成的人类绘画作品,而随着数量庞大的训练数据的<span style="color: black;">增多</span>,AI对人类作品意境的“临摹”技巧<span style="color: black;">亦</span>越来越高明。<span style="color: black;">针对</span>大<span style="color: black;">都数</span>普通人<span style="color: black;">来讲</span>,进行AI绘图创作<span style="color: black;">没</span>疑是新奇的体验,只需输入prompt<span style="color: black;">重要</span>词,就能生成自己想要的<span style="color: black;">照片</span>,尤其在AICG等<span style="color: black;">行业</span>,利用AI绘图<span style="color: black;">工具</span>创作二次元风格的插图,<span style="color: black;">乃至</span>漫画都已<span style="color: black;">作为</span>不少人的常态。<span style="color: black;">那样</span><span style="color: black;">咱们</span>就<span style="color: black;">按照</span>模型原理+过程+效果对已有程序 昆仑万维AIG进行<span style="color: black;">科研</span>评测。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">模型model</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1.基于 VQ-VAE</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">DeepMind(和PixelCNN同一作)于2017年提出的一种基于离散隐变量(Discrete Latent variables)的生成模型:VQ-VAE。VQ-VAE相比VAE有两个<span style="color: black;">要紧</span>的区别:<span style="color: black;">首要</span>VQ-VAE采用离散隐变量,而不是像VAE那样采用连续的隐变量;<span style="color: black;">而后</span>VQ-VAE<span style="color: black;">必须</span>单独训练一个基于自回归的模型如PixelCNN来学习先验(prior),而不是像VAE那样采用一个固定的先验(标准正态分布)。<span style="color: black;">另外</span>,VQ-VAE还是一个强大的<span style="color: black;">没</span>监督表征学习模型,它学习的离散编码<span style="color: black;">拥有</span>很强的表征能力,<span style="color: black;">近期</span>比较火的文本转图像模型DALL-E<span style="color: black;">亦</span>是基于VQ-VAE的,<span style="color: black;">况且</span><span style="color: black;">近期</span>的<span style="color: black;">有些</span>基于masked image modeling的<span style="color: black;">没</span>监督学习方法如BEiT<span style="color: black;">亦</span>用VQ-VAE得到的离散编码<span style="color: black;">做为</span>训练<span style="color: black;">目的</span>。</p>
    <div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://pic4.zhimg.com/80/v2-0593016ffc8737253b69c66893ede337_720w.webp" style="width: 50%; margin-bottom: 20px;"></div>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2.基于 Diffusion Model</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">区别</span>于 VQ-VAE,VQ-GAN,扩散模型是当今文本生成图像<span style="color: black;">行业</span>的核心<span style="color: black;">办法</span>,当前最知名<span style="color: black;">亦</span>最受欢迎的文本生成图像模型 Stable Diffusion,Disco-Diffusion,Mid-Journey,DALL-E2 等等,</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">上文<span style="color: black;">说到</span>的 VQ-VAE 以及 VQ-GAN,都是先<span style="color: black;">经过</span>编码器将图像映射到中间潜变量,<span style="color: black;">而后</span>解码器在<span style="color: black;">经过</span>中间潜变量进行还原。<span style="color: black;">实质</span>上,扩散模型做的事情本质上是<span style="color: black;">同样</span>的,<span style="color: black;">区别</span>的是,扩散模型完全<span style="color: black;">运用</span>了全新的思路来实现这个<span style="color: black;">目的</span>123。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在扩散模型中,<span style="color: black;">重点</span>有两个过程<span style="color: black;">构成</span>,前向扩散过程,反向去噪过程,前向扩散过程<span style="color: black;">重点</span>是将一张<span style="color: black;">照片</span>变成随机噪音,而逆向去噪过程则是将一张随机噪音的<span style="color: black;">照片</span>还原为一张完整的<span style="color: black;">照片</span>。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">3.<span style="color: black;">第1</span>个开源中文 Disco Diffusion 模型</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2022 年 7 月,IDEA CCNL开源了<span style="color: black;">第1</span>个中文 CLIP 模型,<span style="color: black;">日前</span><span style="color: black;">已然</span>有 4 个版本。</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Taiyi-CLIP-Roberta-102M-Chinese:<a style="color: black;">IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese · Hugging Face</a></p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Taiyi-CLIP-Roberta-large-326M-Chinese:<a style="color: black;">IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-C</a>hinese · Hugging Face</p>
    <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:<a style="color: black;">IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese ·</a></p>




大哥 发表于 2024-9-10 03:29:18

软文发布论坛开幕式圆满成功。 http://www.fok120.com

情迷布拉格 发表于 2024-9-25 05:43:04

交流如星光璀璨,点亮思想夜空。

1fy07h 发表于 2024-10-2 00:31:03

你的努力一定会被看见,相信自己,加油。

4zhvml8 发表于 2024-10-3 07:30:35

论坛是一个舞台,让我们在这里尽情的释放自己。

j8typz 发表于 2024-10-4 13:56:24

顶楼主,说得太好了!

nqkk58 发表于 2024-10-8 09:33:16

回顾过去一年,是艰难的一年;展望未来,是辉煌的一年。

4lqedz 发表于 2024-10-25 06:01:47

你的见解独到,让我受益匪浅,非常感谢。
页: [1]
查看完整版本: 一文详解AI作画算法原理+性能评测