盘点怎么样用AI做动画，还有各样工具等你取用-天涯论坛

fny5jt9 发表于 2024-10-3 13:13:08

盘点怎么样用AI做动画，还有各样工具等你取用

设备之心报告
编辑：Panda W
图像生成、视频生成、整合语音合成的人脸动画、生成三维的名人运动以及 LLM 驱动的工具…… 一切都在这篇文案中。
生成式 AI 已然作为互联网的一个重要内容源自，此刻你能看到 AI 生成的文本、代码、音频、图像以及视频和动画。今天咱们要介绍的文案来自立陶宛博主和动画师 aulerius，其中按层级介绍和归类了动画行业运用的生成式 AI 技术，包含简要介绍、示例、优缺点以及关联工具。
他写道：「做为一位动画制作者，我期盼一年前就有这般一份资源，那时候我只能在混乱的互联网上自动寻找可能性和持续显现的发展。」
本文的目的读者是任何对这一行业感兴趣的人，尤其是不知怎样应对 AI 行业新技术发展的动画师和创意人士。另需说明，视频风格化虽然亦是关联技术，但本文基本不会触及这方面。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-axegupay5k/23d54ac1beb0493ca2938771a790fb0f~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=XVyxHLcKNIcwefYMPNHFNkq5g24%3D" style="width: 50%; margin-bottom: 20px;"></div>
本文的文案结构。
图像生成
图像生成技术指的是运用 AI 模型生成图像的技术，这些 AI 模型的训练运用了静态图像。
将生成的图像用作素材
将任意 AI 应用生成的静态图像用作 2D 剪贴画、数字处理、拼贴等传统工作流程中的素材，或用作其它 AI 工具的资源，例如供给给图像转视频（image2video）工具来生成视频。除了做为图像和素材源自，这类技术还需依赖剪切和图像编辑等有些常用技能。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/7f7cb62397b24e99929cd2198faede57~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=9jKMl9PEyrXQfrUVJihSA%2BL0%2BXk%3D" style="width: 50%; margin-bottom: 20px;"></div>
短片《Planets and Robots》中运用了数字剪贴画来将生成的 AI 图像动画化，其中的配音亦是运用 LLM 基于脚本生成的。
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650907887&idx=4&sn=ca30f3fbde94ec74b32d75b638013594&chksm=84e46091b393e987d442c8c414bdb9b76741d60116bee3419f36a3cb5961906e5d33b4ab312b&token=1179435113&lang=zh_CN#rd
优点：现有动画师就很容易上手运用可用于生成背景图
缺点：生成结果无多少「新意」需要动画师协调处理素材和动画
免费工具（任何生成图像模型或应用）：Stable Diffusion（SD，运行在本地计算机上）或这些在线应用：CraiyonInvokeai （运用了 SD）Enfugue （运用了 SD）SkyBox AI—— 能生成适用于 VR 的 360 度场景图
插件和附加组件：在 Blender 中运用的 ComfyUI 节点Krita 上的 Stable DiffusionKrita 上的 ComfyUI—— 界面简单易用，对艺术家友好
另外，Hugging face space 上还有有些免费的演示：https://huggingface.co/spaces
付费工具（任何生成图像模型或应用）：MidJourneyRunwayDALL・E 2Adobe 的 FireFly
注：动画制作运用的工具包含 After Effects、Moho、Blender……
逐帧生成图像
这类技术是以一种相当程度上安身动画根源的精神来运用生成式扩散图像模型，其是以逐帧方式生成动作序列，就像是传统动画制作的绘制再拍摄过程。其中的一大关键是这些模型在生成每张图像时无时间或运动的概念，而是经过某种机制或各样应用或扩展来帮忙得到某种程度上的动画，从而实现所说的「时间一致性（temporal consistency）」。
这些技术得到的动画常常会显现闪烁现象。尽管许多运用这些工具的用户会奋斗清理这些闪烁，但动画师却会把这视为一种艺术形式，叫作为 boiling。
这方面最常用的是 Stable Diffusion 等开源模型以及基于它们构建的工具。用户能够运用公开的参数来配置它们，还能够将它们运行在本地计算机上。相较之下，MidJourney 工具的模型无公开，况且重点是为图像生成设计的，因此呢没法用来生成逐帧动画。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/b9a4640a0faf4c6195c814fda55a19c0~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=Oqw8czUco6P%2Be4gfNhhIr4mj5GM%3D" style="width: 50%; margin-bottom: 20px;"></div>
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650907887&idx=4&sn=ca30f3fbde94ec74b32d75b638013594&chksm=84e46091b393e987d442c8c414bdb9b76741d60116bee3419f36a3cb5961906e5d33b4ab312b&token=1179435113&lang=zh_CN#rd
动画亦可能运用 Stable WarpFusion 来制作，这其中触及到图像转图像的工作流程，经过有些扭变（置换）将底层的视频输入变成动画。视频作者：Sagans。
用逐帧图像来制作动画一般需要混合运用以下工具：
一步到位的工具（文本转图像）
有有些新技术支持直接经过文本 prompt 和参数调配来生成动画：参数插值（变形）
在每张生成的图像帧上逐步进行参数插值，以得到过渡动画。这儿的参数可能包含任何与模型关联的设定，例如文本 prompt 本身或底层的种子（隐空间游走）。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/2364362cdbe9440b9535529a76843a13~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=S7dTlkJLomFK3guWf01lk15ewI4%3D" style="width: 50%; margin-bottom: 20px;"></div>
prompt 编辑法，即经过逐步改变权重来创建动画过渡。这儿运用了 Depth ControlNet 来保持手部整体形状的一致性。图像到图像（I2I）反馈循环
经过图像到图像技术，将每张生成的图像帧做为输入来生成动画的下一帧。这般在其它参数和种子变化时亦能够生成看起来类似的帧序列。这个过程一般由 Deforum 中的「去噪强度」或「强度调度」来掌控。初始帧能够是已有的照片。
这是大都数运用 Stable Diffusion 的动画实现的一个核心组件，而 Stable Diffusion 是下列许多应用依赖的技术。这种技术很难平衡，并且很大程度上取决于运用的采样器（噪声调度器）。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p26-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/c85ec372129e41d1a25903a4321d4495~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=MvQ2YHeqrcPT5TEIO5u8rR0yW8g%3D" style="width: 50%; margin-bottom: 20px;"></div>
运用一张初始图像，而后使用一个稍有区别的 prompt，使其逐帧变化成其它形态。2D 或 3D 变换（基于 I2I 循环）
逐步变换每一帧生成图像，之后再将其做为 I2I 循环的输入。2D 变换对应于简单的平移、旋转和缩放。3D 技术则会想象一个在 3D 空间中移动的虚拟相机，这一般需要估计每帧生成图像的 3D 深度，而后根据想象中的相机运动来进行变形处理。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/7d7ea29a94624ad6bd1ea052436dcdba~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=yMJ8dcRKobmHmASPUwFQoN%2BhNDU%3D" style="width: 50%; margin-bottom: 20px;"></div>
想必你已然看过这种无限放大的动画。它的视觉效果如此之棒，是由于其运用了 SD 来连续构建新细节。实验性、运动合成、混合等技术
运动合成的目的是「想象」后续生成帧之间的运动流，而后运用这个运动流来逐帧执行变形处理，从而基于 I2I 循环注入有机的运动。这一般需要依赖在视频的运动估计（光流）上训练的 AI 模型，只不外其关注的不是后续视频帧，而是后续生成帧（经过 I2I 循环），或是运用某种混合办法。
其它技术还包含图像修复和变形技术搭配运用、采用多个处理过程或乃至捕捉模型训练过程的快照等先进技术。举个例子，Deforum 有非常多可供用户调控的地区。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/fbffc024eeb34238bcf088416e1bbd51~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=v3P684uBkslDV6GKhZoRBsWfSDk%3D" style="width: 50%; margin-bottom: 20px;"></div>
运用 SD-CN Animation 制作，其运用了一种在生成帧之间产生幻觉运动的独特办法。初始图像只是做为起点，无其它用途。
变换型技术（图像到图像）：
另外还能够运用某个源自的输入来助力生成的帧和所得的动画结果：混合（风格化）—— 混合视频源或 / 和按要求处理（ControlNets）
这类办法范围很广，做法是运用输入视频来混合和影响生成的序列。这些输入视频一般分为多个帧，功效一般是风格化现实视频。在现如今的风格化跳舞视频和表演热潮中，这类技术常被用于实现动漫造型和性感体格。但你能够运用任何东西做为输入，例如你自己动画的粗略一帧或任何杂乱抽象的录像。在模仿 pixilation 这种定格动画技术和替换动画技术方面，这类技术有广泛的可能性。
在每一帧，输入帧要么能够直接与生成图像混合，而后再输入回每一个 I2I 循环，要么能够采用更高级的设定附加要求的做法，例如 ControlNet。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/41d9baaabfb7479ca651dd420bd56b51~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=uHPx2zh4l08KnPf7yAY2gAOftQg%3D" style="width: 50%; margin-bottom: 20px;"></div>
Deforum 搭配 ControlNet 要求化处理的混合模式，左图是原视频。遮掩和背景模糊是掰开执行的，与这项技术无关。光流变形（运用视频输入在 I2I 循环上执行）
「光流」指的是视频中估计的运动，可经过每一帧上的运动向量暗示，其指示了屏幕空间中每一个像素的运动状况。当估计出变形工作流程中的源视频的光流后，就能够按照它对生成的帧执行变形，使得生成的纹理在对象或相机移动时亦能「粘黏」在对象上。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/12596f2ba10245a5a7fc2697cbf9537e~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=dsKN%2FO17EtVTmAaksRuqkGBcvuY%3D" style="width: 50%; margin-bottom: 20px;"></div>
Deforum 的混合模式支持这种技术搭配各样设置运用。为了得到闪动更少的结果，亦会增多 cadence，使得变形的效果更好。遮掩和背景模糊是掰开执行的，与这项技术无关。3D 衍变
经过变形工作流程完成的要求处理亦可能直接相关 3D 数据，这能够跳过一个可能导致模糊的环节，直接在视频帧上完成处理。
举个例子，能够直接经过虚拟 3D 场景供给 openpose 或深度数据，而不是经过视频（或经过 CG 渲染的视频）估计这些数据。这准许采用最模块化和最可控的 3D 原生办法；尤其是组合了有助于时间一致性的办法时，效果更佳。
这可能是现有技术与用于 VFX 的 AI 技术之间最有潜能的交叉行业，如下视频所示：https://youtu.be/lFE8yI4i0Yw?si=-a-GvsaIVPrdaQKm
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/be1bc6e6132e455796547c199f3a39c6~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=QsLttZBwM97XjfC1dOgjG1USXfw%3D" style="width: 50%; margin-bottom: 20px;"></div>
有一个广泛应用的工具亦运用了该技术，其可简化并自动化用 Blender 生成直接适用于 ControlNet 的角色图像的过程。在这个示例中，ControlNet 运用手部骨架来生成 openpose、深度和法线贴图图像，最后得到最右侧的 SD 结果。（openpose 最后被舍弃了，由于事实证明它不适用于仅有手部的状况。）
将所有这些技术结合起来，似乎有没有尽的参数能够调节动画的生成结果（就像模块化的音频制作）。它要么能够经过关键帧进行「调度」并运用 Parseq 这般的工具绘制图形，要么能够与音频和音乐相关，得到许多随音频变化的动画。只需如此，你就能运用 Stable Diffusion 帮你跳舞了。
优点：全新且持续演变的美学风格，这是这种媒介形式特有的。在概念上与传统的动画技术有一起点。最容易定制化、最实用且易于指点。模块化、分层的办法。
缺点：常常会有闪动问题，有时候会显出很混乱。技术方面要思虑的东西非常多，难以平衡思虑，想要作为能手必须经历陡峭的学习曲线。倘若无性能卓越的本地硬件（英伟达 GPU），就会很不方便。
免费工具：
可在 A1111 webui 中运用的工具：用于参数插值动画（travel）的小脚本：过程（https://github.com/vladmandic/sd-extension-steps-animation）、prompt（https://github.com/Kahsolt/stable-diffusion-webui-prompt-travel ）、种子（https://github.com/yownas/seed_travel）。Deforum—— 能够满足各样动画 SD 需要的最佳工房，整合了上面大都数技术。Parseq—— 用于 Deforum 的常用视觉参数排序工具。Deforum timeline helper—— 另一款参数可视化和调度工具。Deforumation—— 用于实时掌控 Deforum 参数的 GUI，支持反应性调节和掌控。TemporalKit—— 采用了 EBsynth 的有些原则，可与 SD 搭配运用实现一致的视频风格化。SD-CN Animation—— 这多少还是个实验性工具，支持有些混合风格化工作流程，亦支持有趣的光流运动合成（这会引起运动抖动）。TemporalNet——ControlNet 模型能够用在 Deforum 等其它工作流程中，目的是提高时间一致性。Python 笔记本（需要在 Google Colab 或 Jupyter 上运行）。Stable WarpFusion —— 实验性的代码工具包，目的是执行高级的视频风格化和动画。与 Deforum 有非常多同样的功能。
插件和附加组件：用于 Blender 的 Dream TexturesStabiliy AI 的 Blender 插件看起来像用于 Blender 的 Openpose 的角色骨架 —— 可在 Blender 之外运用 ControlNet用于虚幻引擎 5 的 Unreal Diffusion用于 After Effects 的 After-Diffusion（日前还在研发中）用于 TouchDesigner 的 A1111 或 ComfyUI API—— 倘若你晓得怎样操作，那样这可用于执行动画等各样任务
付费工具：
（一般亦依赖于 SD，但运行在「云」上，用起来亦更简单）：Stability AI 的动画 APIKaiber 的 Flipbook 模式 —— 根据描述，基于 Deforum 代码
插件和附加组件：用于 After Effects 的 Diffusae
市面上还有许多应用和工具，但倘若是付费工具，多半是基于开源的 Deforum 代码。
注：最好的状况是你有足够的优良硬件（即 GPU）在本地运行这些工具。倘若无，你亦能够尝试运行在远程计算机上的、功能有限的免费服务，例如 Google Colab。不外，Google Colab 上的笔记本亦能够运行在本地硬件上。
视频生成技术
这类技术运用在运动视频上训练的视频生成 AI 模型，另一能够在神经网络层面上运用时间压缩来加强。
日前，这些模型有一个一起特征是它们仅能处理时间很短的视频片段（几秒），并受到 GPU 上可用视频内存的限制。然则，这方面的发展速度火速，并且能够用有些办法将多个生成结果拼接成更长的视频。
视频生成模型
这指的是运用从头构建和训练的模型来处理视频。
现今的这类模型得到的结果常常晃动很大、有显著的 AI 痕迹、显出古怪。就像是很久之前生成图像的 AI 模型同样。这个行业的发展落后有些，但发展火速，我个人认为在静态图像生成上取得的发展并不会同等比例地在视频生成方面重现，由于视频生成的难度要大得多。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/2dd503815ad4491a9cffb1670bcfa92e~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=ZMSaZvc4ou4J4GCMN%2Fc7fXXp8w4%3D" style="width: 50%; margin-bottom: 20px;"></div>
Paul Trillo 运用 Runway 的 Gen-2，仅经过图像和文本 prompt 让 AI 生成的视频。
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650907887&idx=4&sn=ca30f3fbde94ec74b32d75b638013594&chksm=84e46091b393e987d442c8c414bdb9b76741d60116bee3419f36a3cb5961906e5d33b4ab312b&token=1179435113&lang=zh_CN#rd
我认为在这方面，动画和传统电影之间的界限很模糊。只要其结果还与现实有差异，那样咱们就能够在必定程度上把它们看作是动画和视频艺术的一种怪异新流派。就日前而言，我认为大众还是别想着用这类技术做真实风格的电影了，只把它视为一种新形式的实验媒介就可。玩得开心哦！
一步到位的工具（文本转视频）：运用文本 prompt 生成全新的视频片段
理论上讲，这类技术有没有限可能性 —— 只要你能将其描述出来（就像静态图像生成那样），就可能将其用于直播表演或生成任何超现实和风格化的内容。但从实践方向看，为了训练视频模型，收集多样化和足够大的数据集要难得多，因此呢仅靠文本来设定生成要求，很难用这些模型实现利基（niche）的美学风格。
运用这种办法，只能很宽松地掌控创意工作。当与图像或视频要求化处理（即变形工作流程）组合运用时，这种技术就会强大得多。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p26-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/898e84ced7c04a72aab5b417bea12f03~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=r%2BcMePfjh88UuNGpS4HHTLRGHWM%3D" style="width: 50%; margin-bottom: 20px;"></div>
Kyle Wiggers 做的动画生成测试，运用了 Runway 的 Gen-2
变形：运用文本 prompt，再按照已有的图像或视频进行进一步的要求化处理图像到视频生成
非常多视频生成工具都能让你以图像为要求生成视频。其做法能够是完全从你指定的图像起始生成，亦能够将指定图像用作语义信息、构图和颜色的粗略参考。
人们经常会运用传统的静态图像模型生成初始图像，而后再将其输入视频模型。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/fd8f61cecd4a4451adf492ae59f08c36~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=0tlxkM6tFpkvaHWmkzqFRcanVoI%3D" style="width: 50%; margin-bottom: 20px;"></div>
这儿生成的每一段视频都是运用一张唱片封面做为初始图像，作者：Stable Reel
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650907887&idx=4&sn=ca30f3fbde94ec74b32d75b638013594&chksm=84e46091b393e987d442c8c414bdb9b76741d60116bee3419f36a3cb5961906e5d33b4ab312b&token=1179435113&lang=zh_CN#rd视频到视频生成
类似于图像生成模型中的图像到图像过程，亦有可能将输入视频的信息嵌入到视频模型中，再加上文本 prompt，让其生成（去噪）输出。
我并不睬解这其中的详细过程，但似乎这个过程不仅能在逐帧层面上匹配输入视频片段（如同运用 Stable Diffusion 进行风格化处理），况且能在整体和运动层面上匹配。和图像到图像生成过程同样，这个过程受去噪强度掌控。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/f635b5dd6b4149248b21fab8c49e9a37~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=ZYFZ4hnNyIQ66HEUUpxCPXVaG9U%3D" style="width: 50%; margin-bottom: 20px;"></div>
如果运气好并且有合适的 prompt，你亦能够输入视频来「启发」模型重新想象源视频中的运动，并以完全区别的形式将其呈现出来。运用 webui txt2vid 中的 Zeroscope 完成，运用了 vid2vid 模式。
优点：这类技术拥有最大的可能性，并且会随时间持续改进。在专业动画知识方面无进入门槛。相比于逐帧的技术，这类技术的结果常常更加平滑，一般亦更为一致。针对「变形」工作流程而言，这可能是比逐帧办法更简单直接的办法。
缺点：得到的结果一般显出离奇怪异，一看便是 AI 生成的，况且这种状况比静态图像严重多了。在触及人的仿真实影像方面尤其显著。计算成本高。相比于图像 AI，更难以在本地硬件上运行。存在视频时长短和上下文短等限制（日前而言）。
免费工具：Stable Video (SVD)—— 来自 StabilityAI 的开源视频扩散模型。日前非常多托管式应用和工具都在快速安排实现该模型。SVD ComfyUI 实现SVD 时间 ControlNetMotionCtrl—— 经过加强，允许在各样视频模型中掌控目的运动和摄像机轨迹。Emu Video——Meta 的视频生成模型的预览演示。A1111 webui 的文本转视频插件，可搭配以下模型运用（倘若你的硬件足够）：VideoCrafterZeroscope
插件和附加组件：用于 Blender 的 Pallaidium—— 一个多功能工具包，包括跨图像、视频乃至音频行业的生成功能。另外，你还能在 Hugging face space 上找到有些免费演示。
付费工具（有试用版）：Runway 的 Gen2Kaiber 的 Motion 模式Pika labs（受限 beta 版）
注：最好的状况是你有足够的优良硬件（即 GPU）在本地运行这些工具。倘若无，你亦能够尝试运行在远程计算机上的、功能有限的免费服务，例如 Google Colab，不外大都数免费或试用服务的功能都有限。
运用运动压缩加强的图像模型
随着 AnimateDiff 的日益流行，显现了一个运用视频或「运动」压缩来加强已有图像扩散模型的新兴行业。相比于运用逐帧技术生成的结果，其生成的结果更相近于原生视频模型（如上面介绍的）。这种技术的优良是你还能够运用为 Stable Diffusion 等图像模型构建的工具，如社区创建的任何检测点模型、LoRA、ControlNet 以及其它要求化处理工具。
你乃至有可能经过 ControlNet 供给视频要求化处理，就像是运用逐帧技术同样。社区仍在积极实验这一技术。可用的技术有的来自静态图像模型（例如 prompt 遍历），亦有的来自视频原生模型。
如下视频为运用 ComfyUI 中 AnimateDiff 完成的动画，过程运用了多个区别的 prompt 主题。
视频链接：https://www.instagram.com/p/Cx-iecPusza/?utm_source=ig_embed&utm_campaign=embed_video_watch_again
这种技术中的运动本身一般非常原始，只是在视频片段中松散地插进对象和流，这常常会将事物变形成其它模样。不外，这种技术有更好的时间一致性，况且仍处在起步阶段。就地景很抽象，无详细物体时，这种办法能得到最好的结果。
优点：能够受益于现有图像扩散模型的发展。能够经过去噪或运用 ControlNet 用视频来进行要求化处理。处理抽象、流运动效果很好。
缺点：难以为名人或不平常的物体产生繁杂、连贯一致的运动，反而常显现变形问题。和视频原生模型同样，计算成本高。相比于图像 AI，更难以在本地硬件上运行。受限于较短的上下文窗口（日前而言），但亦有有些人正在实验处理方法。
免费工具：
日前，AnimateDiff (SD v1.5) 的实现一马当先：用于 AnimateDiff 的 A1111 webui 插件ComfyUI 中 AnimateDiff 实现VisionCrafter—— 一个用于 AnimateDiff 实现等项目的 GUI 工具用于 SD XL：Hotshot-XL多功能实现：Enfugue
付费工具：日前好似无
整合语音合成的人脸动画
大众都晓得，这是一个流行迷因背面的技术。你可能看过一个相对静止的名人（相机可能在移动）仅有脸动着说话，这多半是用到了 AI 人脸动画化和语音合成工具的组合办法。
这其中组合了多个技术过程和组件。其源图像多半是运用图像生成 AI 制作的，但亦能够运用任何带有人脸的图像。语音是按照文本生成的，并按照所选任务的音色进行了要求化处理。而后再运用另一个工具（或工具包中的某个模型）合成与音频唇形同步的人脸动画 —— 一般只生成图像中脸部和头部区域的运动。运用预训练的数字化身亦能让身体动起来。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/2d3bc48ffff146c297f6be7d801df134~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=wyEURueygFHodC0Wy6mGT3hcoNY%3D" style="width: 50%; margin-bottom: 20px;"></div>
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650907887&idx=4&sn=ca30f3fbde94ec74b32d75b638013594&chksm=84e46091b393e987d442c8c414bdb9b76741d60116bee3419f36a3cb5961906e5d33b4ab312b&token=1179435113&lang=zh_CN#rd
在发布热门的 Belenciaga 视频之前，作者 demonflyingfox 就已然发布了一篇分步教程：https://youtu.be/rDp_8lPUbWY?si=BWNKe7-KTJpCrNjF
优点：可用于容易制作迷因动图。…… 呃，有喜剧效果？
缺点：一般看起来不自然。我还想不出这能有什么实质用途。过于依赖付费应用供给的闭源人脸动画工具。即使你运用自己的录像来训练数字化身，得到的结果亦过于呆滞，动态效果很差。
免费工具：ElevenLabs—— 有运用次数限制，但次数似乎每一个月都会刷新。A1111 WebUI 的 Wav2Lip 插件 —— 用于生成唇形同步动画的工具。看起来仅限于嘴部区域。
你亦能够在网上直接搜索文本转语音服务，不可胜计，但效果多半赶不上 ElevenLabs。
至于全脸动画化，就我所知，日前仅有有些付费应用供给了试用版，况且运用很受限。
付费工具（有试用版）：
人脸动画制作（一般会搭配语音合成）：D-IDHeygenSynesthesia
搜索「D-ID 替代品」就能找到非常多。
生成三维的名人运动
这指的是为 3D 名人合成运动的技术。这类技术能够应用于 3D 动画电影、视频游戏或其它 3D 交互应用。正如图像和视频行业同样，新兴的 AI 工具让人可经过文本来描述名人的运动。另外，有些工具还能按照很少的关键姿势来构建运动或在交互环境中实时动态地生成动画。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/92186a6e99b143cea93d2f64a90c2158~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1728100717&x-signature=BnIJSD9RI6JymPkQIxlRN1gQ3ZQ%3D" style="width: 50%; margin-bottom: 20px;"></div>
视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650907887&idx=4&sn=ca30f3fbde94ec74b32d75b638013594&chksm=84e46091b393e987d442c8c414bdb9b76741d60116bee3419f36a3cb5961906e5d33b4ab312b&token=1179435113&lang=zh_CN#rd
Nikita 的充满天才巧思的元人工智能电影预告片，其中将 AI 的运动学习过程展现成为了一部滑稽幽默的有趣短片。
因为本文的关注重点是生成工具，因此呢无包括自动化某些非创意任务的 AI 应用，例如 AI 驱动的运动跟踪、合成、打码等，例子包括 Move.ai 和 Wonder Dynamics。
优点：能整合进现有的 3D 动画制作流程中，可减少重复性任务，有望作为动画老手的好助手。能很好地处理理学效果和重量。在将来的视频游戏中实现动态的名人动画？
缺点：似乎受限于人类形态的双足式名人。还需要其它工具辅助。只是 3D 动画制作流程的一个组件。你需要晓得接下来该做什么。训练过程一般基于人类运动数据，这寓意着到日前为止这些工具只能实现基于真实理学效果的运动，没法实现风格化或卡通中的运动机制。
免费工具（或可免费运用部分功能的服务）：MootionOmni AnimationCascadeur—— 动画制作助理，能够按照最小化的输入创建平滑的、基于理学机制的动画和姿势。可控性高，可能会作为将来一个主力工具。ComfyUI 中的 MDM、MotionDiffuse 和 ReMoDiffuse 实现。
付费工具：免费工具的付费套餐会供给更加多功能，运用限制亦更少。
LLM 驱动的工具
从理论上讲，因为大型语言模型（LLM）在编程任务上表现出色，尤其是经过微调之后，那样咱们就能够在制作动画的软件中让其编程和编写脚本。这就寓意着根据常规工作流程制作动画时，能让 AI 从头到尾始终辅助。极端状况下，AI 能帮你完成一切工作，同期还能为后端流程分配适当的任务。
在实践中，你亦能尝试这么做了！举个例子，Blender 配备了非常广泛的 Python API，准许经过代码操作该工具，因此呢此刻已然有几个类似 ChatGPT 的辅助工具可用了。这个趋势不可避免。只要有代码，LLM 多半就会有用武之地。
优点：潜能 —— 最后突破创意工作者面临的任何技术阻碍。可用作创意软件的助理，消除繁琐重复的任务，帮你深度挖掘文档内容。
缺点：倘若 AI 能帮你创造一切，那样作为创意工作者还有什么道理？日前，LLM 只能运行在强大的远程计算机上，一般是按 token 数收费或采用订阅制。
免费工具：Blender Chat Companion——（类似于 Blender Copilot）Blender 中的一个 ChatGPT 实现，专用于处理适当的任务。运用了 ChatGPT API，这需要付费。
付费工具：Genmo—— 承诺会实现「创意通用智能」，采用了多步过程并且全都能够经过聊天界面掌控。Blender Copilot——（类似于 Blender Chat Companion）Blender 中的一个 ChatGPT 实现，专用于处理适当的任务。运用了 ChatGPT API，这需要付费。
注：还有一个即将推出的 ChatUSD—— 这是一个能够操作和管理 USD 的聊天设备人，这是由于皮克斯最初创建的标准，用以统一和简化动画电影制作中的 3D 数据交换和并行化。日前无更加多关联信息了，但英伟达似乎很欢迎这项标准并在推动其作为各样 3D 内容的标准，而不只是电影。
最终完结了！内容非常多，但我多半还是遗漏了有些东西。你觉得还有什么内容有待弥补或还有什么关联工具值得提及，请在评论区与咱们分享。
原文链接：https://diffusionpilot.blogspot.com/2023/09/overview-ai-animation.html#id_generative_video_models

qzmjef 发表于 2024-10-15 03:51:47

你的努力一定会被看见，相信自己，加油。

nqkk58 发表于 2024-11-9 00:45:34

哈哈、笑死我了、太搞笑了吧等。

页: [1]

天涯论坛's Archiver

盘点怎么样用AI做动画，还有各样工具等你取用