此刻的AI作曲，写出来的歌能够当短视频的BGM了-天涯论坛

u1jodi1q 发表于 2024-9-28 15:33:41

此刻的AI作曲，写出来的歌能够当短视频的BGM了

<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/0637649595b4481a9e30d93a0a59e5ac~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=PLTUXtWKTxDw8ARdS04iEPFsils%3D" style="width: 50%; margin-bottom: 20px;"></div>
毫无疑问， AI 的显现，让不少行业面临着技术革新，音乐圈子亦不例外。
不仅人声模拟，在音乐创作这块儿， AI 亦是卯足了劲，各样文本生成音乐模型是一个接着一个：
像是 OpenAI 的 MuseNet 、谷歌的 MusicLM 、 Meta 的 MusicGen ，还有前不久 Stability AI 家刚出来的 Stable Audio 等等等等。
这还只是有些比较出圈的 AI 音乐模型，其他的不知名的更加是海了去了。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p26-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/33571acd3e2d46a785084e3d6de44de2~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=ZP6R22BWqAdzOY32%2FGPoGYJqCnc%3D" style="width: 50%; margin-bottom: 20px;"></div>
这么多生成音乐的 AI 模型，它们主打的，都是一个让音乐门外汉亦能作曲，只要动动手会打字、会描述就 OK 了。
这么一说，让没什么乐理知识的世超着实很心动，作曲咱不会，但文字描述可是咱善于的行业。
于是，咱们决定亲自试试日前市面上比较出圈的几款 AI 作曲模型，瞧瞧它们到底能不可实现从零作曲，以及写出来的曲子到底好欠好听、符不符合需求。
首要出场的是 Stability AI 的新作曲 AI ：Stable Audio 。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/4d6946389dbe4720b882fff93516003c~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=NdnL0%2BC7DXAAPz1GNoqftiTCUJE%3D" style="width: 50%; margin-bottom: 20px;"></div>
官方说是用了超过 80 万个音频文件去训练模型，里面像音乐、音效、单一乐器演奏等都有包括，全部数据集的时长加起来有 19500 多个小时。
并且光靠语言描述， AI 就能生成最长 90 秒的音乐。
风格跨度亦是贼大，世超去它们官网听了下示例，有钢琴、架子鼓这种单纯器乐的。
还有区别流派区别风格的，例如民族打击乐、嘻哈、重金属之类的。
乃至还能生成白噪音，像是一个餐馆里嘈杂的吵闹声， u1s1 听起来还蛮逼真的。
people-talk-in-a-busy-restaurant,差评,45秒
当然，官方颁布的肯定都是挑比较好的演示展示出来，到底用起来怎么样还是得亲自上手试试。
于是咱们亦注册了号，瞧瞧我这个音乐门外汉经过这个模型能创作出什么样的音乐来。
因为是刚发布，世超还花了好一会儿时间才进到 Stable Audio 的运用网页。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/4224db8de3574d66940d9a7edfd74b39~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=VqN0oaA6cgmOjVGIKrsLu8zVeVU%3D" style="width: 50%; margin-bottom: 20px;"></div>
进去之后，咱们先让它生成一段 30 秒的贝斯 solo ， 112 个节拍，要 funk ，有律动一点。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/91bfc5386fd04e1eb9629e239599cd08~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=WqpVXeAYsee7U1QM92SqIo78boU%3D" style="width: 50%; margin-bottom: 20px;"></div>
生成过程大概用了一两分钟，世超听了下结果，倒是有点出乎意料，是在弹贝斯没错，音乐风格亦挺准确，但独一的瑕疵便是这贝斯的音色不太清晰，像指的是弹和 slap 的中间态。
接下来上点难度，乐器繁杂点，让它生成一段朗朗上口的流行舞曲，中间带着热带打击乐，要有欢快的节奏，适合在沙滩上听。
这次 Stable Audio 有点小失误，虽然节奏挺欢快的，亦挺适合在沙滩蹦跶的，但提示词里的热带打击乐，我愣是没在这 30s 听出来。
再让它生成一段摇滚曲风的音乐，亦是不出几分钟就搞定了，虽然听起来依旧不怎么清晰，但摇滚曲风以及电吉他、架子鼓的声音还是能听出来的。
整体体验下来，在音乐生成这块， Stable Audio 的表现确实无什么大错，偶尔还会有有些出乎意料的表现。
起码针对有些想给短视频插背景音乐的创作者来讲，这个完全够用了。
并且这次， Stable Audio 还专门在时长上下了一点功夫，普通版能够生成 45 秒以内的音频，想要更长的话，就升级个 PRO 版，能够连续生成 90 秒。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/3ab59bfc1bff424d9b55d54ef6389c28~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=PZ7YAlsaLn%2B5v8o68grYTWBae7U%3D" style="width: 50%; margin-bottom: 20px;"></div>
接下来上第二位选手：Meta AI 的MusicGen ，它基于 Transformer 架构，靠上一段音频预测生成之后的音频片段。
此刻 MusicGen 只颁布了 Demo ，能在 huggingface 上浅浅体验一波。
例如说生成一段嘻哈曲风的音乐，听起来很抓耳，节奏倒是蛮干净利落的。
和 Stable Audio 不太同样的是， MusiacGen 在生成音乐时，提示词会更自由一点，不仅有文字的选项，还能够弥补有些声音文件。
操作起来很简单，输入提示词，再把想参考的音乐片段直接拖到文件框内，或现场录音，当然音频提示亦能够不填。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/faac5332df5d4b80a433301aa13a9fd6~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=OXrRWP7YGmSUgcfN%2BSEwFPYBTbw%3D" style="width: 50%; margin-bottom: 20px;"></div>
虽然 MusiacGen 一次最长只能生成 30s 的音频，但有音频提示的加成，生成一段长音频亦不是不可能，便是会有点麻烦。
只要每次生成 30s 的音频后，前后截取 10s 做为之后的提示，最后拼接起来便是一段长音频了。
不外在全部体验过程中，有一点着实会劝退一大波人，那便是它生成的速度实在是太慢了，三四分钟还算好的，离谱的是有时等了好几分钟，结果忽然弹出个崩溃了的弹窗。。。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/3bbf4cc8fef844d3b72459390cd53fb5~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=OCBK1dD9y74ZmgsAT5vZhHJRpfk%3D" style="width: 50%; margin-bottom: 20px;"></div>
今年年初，谷歌亦发布了音乐大模型 MusicLM ，在现有的作曲 AI 中，谷歌的这个功能最多。
除了最基本的文字生成音乐之外， MusicLM 还搞了有些其他花招。
例如说故事模式，能够让它生成一段 1 分钟长的音乐： 0~15s 冥想、 16~30s 醒来、 31~45s 跑步、 46~60s 结束。
生成的音频听起来确实还挺符合需求的，但就还是老毛病，乐器的声音不足清晰，各个段落之间的转换亦有点生硬。
还有看图配乐的功能，给出一个经典的拿破仑骑马穿越阿尔卑斯山的图，再对照片进行有些描述， MusicLM 就能给生成 30s 的配乐。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/e6198343f2484c1fb809672afca96668~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=PN5iwXqVsmewPCxbfKLxWscFmtU%3D" style="width: 50%; margin-bottom: 20px;"></div>
这次听起还真有点戏剧的感觉。
MusicLM 一样无对外颁布，想要体验只能在 AI Test Kitchen 上排队获取内测资格。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/0e5daa7def504d609c095c29aca067b4~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=0OkTrCeYww2WoY3QTN36R5AQhCE%3D" style="width: 50%; margin-bottom: 20px;"></div>
OpenAI 的 MuseNet ，在三年前就已然在官网颁布了。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/b4327b2b4e954433880e4622b01eba43~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=wEvLrZp6BMtznfDSbAIqdECOHuA%3D" style="width: 50%; margin-bottom: 20px;"></div>
不外近期这几年倒是没怎么更新，还是基于和 GPT-2 同样的技术。并且 3 年过去了，这个 AI 还无对外开放运用。
但瞧瞧它官网对 MuseNet 的介绍以及给出的示例，估摸着出来便是吊打上面模型的存在。
先不说生成音乐的质量，就光是时长就已然很顶了，最多能够生成 4 分钟的音乐。
对比上面说到的几个模型，生成音乐的质感亦是分分钟秒杀，世超从官网下载了个示例，大众能够一块听听。
不说是 AI 创作的，我还真会以为是那个音乐大师编的新曲子，有引入、有高潮，乐器的声音亦很清晰，再简单调节下便是个完整的音乐作品了。
当然，有这般的效果除了有神经网络的功劳外，训练用的数据集亦是起到关键功效的。
OpenAI 统共用了数十万个 MIDI 文件训练 MuseNet ，下面这张图便是用到的部分数据集，从肖邦、巴赫、莫扎特到迈克 · 杰克逊、披头士、麦当娜，从古典到摇滚到流行，几乎各样风格的音乐都能在里面找到。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/784fe9cf672f4a3ab40a69313eb50157~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=Qrr5XrRJbaD42n0dNsmYNW%2Bnys4%3D" style="width: 50%; margin-bottom: 20px;"></div>
不止国外，国内这几年 AI 音乐亦是发展得火热，去年华为研发者大会上，就颁布了一款音乐 AI ：Singer 模型，网易云面向音乐人推出了网易天音，作词、作曲、编曲直接都能靠 AI 处理。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/cf5ef4e2b32040278013a0d610b37c3e~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=4MOVq%2FxE0R329LhrgBjRCz%2BbX6U%3D" style="width: 50%; margin-bottom: 20px;"></div>
在前不久的 2023 世界人工智能大会上，腾讯多媒介实验室亦展示了自研的 AI 通用作曲框架 XMusic 。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/84f5ee3a07534bfab88e6d4590432668~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=gaHO3PMesoVVMsC7p9oXrgBDQ8Y%3D" style="width: 50%; margin-bottom: 20px;"></div>
总的来讲，这几个 AI 作曲模型亦算是各有千秋，想要的音乐风格基本都能生成，乃至有时生成的音乐不仔细琢磨还真听不出来是 AI 生成的，用在有些短视频中亦是能妥妥地 “ 蒙混 ” 过去。
但若要以一个专业人士来看的话，上面这些 AI 恐怕都或多或少有些缺点，最显著的便是上面说到的那几个 AI ，它们生成的音乐在乐器演奏上几乎都不太清晰。
并且，和 AI 作画同样， AI 音乐亦是版权问题的一大重灾区，因为关联法律还跟不上 AI 发展的速度，时不时就有 AI 侵权的官司。
例如今年 1 月份，美国唱片业协会向政府提交了一份侵权报告，提醒她们要注重 AI 音乐侵权的问题。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/a5ed513dda7e4484a9aa789997a3b6f6~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=%2FWsWjkkUAoROdf6TyggRFLnmQB0%3D" style="width: 50%; margin-bottom: 20px;"></div>
就连 MusicLM 的科研人员亦亲口承认了侵权问题，在论文中写到会有盗用创意内容的潜在危害。
原由是在实验这个模型的过程中，发掘它在生成的音乐里，大概有 1% 是直接从训练的数据集中照搬过来的。
亦难怪此刻大多音乐 AI 模型要么干脆不对外试用，要么仅有 demo 或排队内测，就连对外开放的 Stable Audio 亦是反复强调自己的数据集是经过 AudioSparx 授权的。
抛开版权问题不说，日前 AI 在音乐这块的发展确实是令人咋舌，拥抱 AI 音乐亦已然是行业内的大势所趋。
像专门供给轻音乐的 AI 音乐机构 Endel ，已然先后得到了华纳、索尼等音乐巨头的投资， AI 音乐创作平台 Soundful 亦拿到了环球音乐、迪士尼、微软的投资。
<div style="color: black; text-align: left; margin-bottom: 10px;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-6w9my0ksvp/f6772a7165f6455db1b9be1f0366ef31~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1727615761&x-signature=tOuRClpcSFA5y6O9oTEnb9P2upE%3D" style="width: 50%; margin-bottom: 20px;"></div>
当然，入局 AI 音乐是出于商场以及科技趋势的考量，在音乐性与艺术性上，日前的 AI 还是远不及人类创作者的，而这亦是将来 AI 最应该优先思虑的。

nykek5i 发表于 2024-10-25 05:55:18

你的见解真是独到，让我受益匪浅。

页: [1]

天涯论坛's Archiver

此刻的AI作曲，写出来的歌能够当短视频的BGM了