“AI孙燕姿”爆火出圈，虚拟人能否掀翻华语乐坛？

图片来源@视觉中国

文 | 洛克资本史松坡

最近，在B站、抖音等视频平台，“AI孙燕姿”成为了新晋网红，在华语乐坛刮起了一场“新奇另类”的复古风。众多华语乐坛的经典音乐在AI的加持下，用孙燕姿的音色重新进行了演绎，孙燕姿婉转清透的嗓音和众多歌曲产生了奇妙的化学反应，甚至毫无违和感，再次将人们对AI的认知推上了一个新高度。

不只是孙燕姿，包括周杰伦、陈奕迅等歌手都有了AI翻唱版本，甚至有博主“整活”，让孙燕姿唱周杰伦的《晴天》，让周杰伦场孙燕姿的《阴天》……此外还有AI双人对唱、真人AI对唱等多种系列，将AI翻唱系列玩出了新高度。

图：B站“AI孙燕姿”主题的搜索界面

AI翻唱在很早之前就曾在互联网上出现过，但由于先前AI模拟的质量水准不高，并没有掀起较大的波澜。此外，一些专业的音乐公司对虚拟人声也做出了不错的成绩，如雅马哈等音乐公司推出的虚拟歌姬，如日文圈的初音未来、中文圈的洛天依等，对虚拟人声做出了一定的探索。但此次AI翻唱的爆火是由民间发起的，证明在AI的加持下，虚拟翻唱的门槛已经降低很多了，而且翻唱作品的质量相比之前也有了质的提升。

通过仔细对比，我们发现，AI在音色模拟方面已经很出色了，几乎可以做到以假乱真。对于旋律方面，不仅节奏较为准确，而且还附加有一定的强弱变换。在唱腔技巧方面，气声往往更加明显些，在转音等方面也有不错的表现，但声音的闭合度通常并不是很足。

此外，利用不同的训练模型模拟的翻唱结果是有差异的，有些模拟地比较成功的模型制作的成品非常生动，如B站视频中AI孙燕姿翻唱的《我记得》中甚至可以听出换气声。

不过对于不同的作品，训练的模型的表现通常是不一致的，存在同一个模型在某首歌曲的模拟效果非常好，但在另一首歌曲可能并不十分生动的情况，特别是对于一些存在高音的歌，如果训练集中并没有相应的情况，AI模拟的生成品就有可能失真，本文也会在下文对AI音视频的具体原理和方法进行详细介绍。

AI翻唱音频制作原理方法

AI翻唱的核心原理就是利用开源的音乐大模型软件，将收集到的目标歌手的音频素材通过内容编码器提取其语言特征，并使用模型对其它歌曲进行推理即可。

具体步骤包括下列几个环节：首先，在训练前首先需要对音频素材进行预处理，比如一首目标歌手的歌曲素材，需要把素材分为人的音频和伴奏的音频，只使用人声音频进行训练。此外，由于单独一首歌曲较长，而用于训练的音频最好比较小，每个文件10s左右比较好，因此需要把较长的音频文件切割为若干个10s左右的小片段。

最后，音频效果可能质量参差不齐，需要对音频进行挑选，比如去掉歌手唱歌换气以及停歇的空白以及和声音频部分，这样的音频训练质量效果不一样，最终挑选出纯净音频资料进行训练。

之后进入训练的核心环节，训练的软件目前市面上已经有许多了，在一些软件中还保留着之前作者已经训练比较成功的现有模型。比如在B站视频中比较流行的so-vis4.0推理训练软件，github地址为https://github.com/svc-develop-team/so-vits-svc。

（表2：2019-2022中国CCUS部分政策节选）图：github网站

训练的核心步骤主要包括：识别数据集（选择训练分支）、数据预处理（转换音频数据为张量数据）、设置超参数（确认每次训练的步数、保留一次模型的训练步数以及最多保存的模型数量）、正式训练、结果筛选（依据loss值）等，这其中的每一步的设置都会影响最终生成的AI音频训练质量，这也是为什么不同的博主生成的AI音视频质量也会参差不齐，从听感上也会有一定的差别。

图：AI模拟翻唱制作简要流程

AI翻唱的影响和前景

AI翻唱的爆火是AI大爆发背景下在网络音视频领域的重要体现之一，随着生成式AI的进一步发展，将会进一步点亮音乐领域的更多可能性和更强大的创造力，但与此同时，也可能会对现有的法律、伦理和审美产生一定的“不适配”，其中，首先引发的是关于音乐版权的争议，而在这之后甚至隐藏着人们对音乐本质的重新认识和定义的可能性。

在现有的法律框架下，声音被认为是一个人身份的标志，是肖像权的一种表现形式，也是知识产权的一种，应当受到法律保护。如果没有原歌手的授权或同意，就利用AI技术模仿其声音，可能构成侵权行为。

当下流行的AI翻唱的短视频很大程度上由于社会对新奇事物的猎奇反应、大众网友的喜闻乐见以及制作博主没有明显用于商业目的等原因，目前在华语音乐圈并没有歌手公开表达维权的诉求或采取相关维权的行动，但随着AI的进一步发展，将会给现有生态带来更深层次的冲击，如果有一天AI翻唱和真人翻唱的界限彻底模糊，切切实实威胁到了歌手的商业价值；亦或者出现了利用AI翻唱进行盈利的商业手段。

如果出现这类情况，很难保证当今这样的“默许”下的微妙平衡不会被打破。

总体来看，AIGC的飓风已经吹入到了互联网音乐的平台并造成了不小的冲击，或许当下的AI翻唱还不足以支持AI像真人专业歌手一样完成各种复杂的歌唱技巧以及情感带入，但其对于声色特征的出色模仿已经让人们看到了不同歌手“跨界”演唱等新奇的感官冲击，无论是让“AI孙燕姿”唱《好汉歌》，还是让“AI周杰伦”唱《只因你太美》，都让看客们有一种次元壁破碎的猎奇体验。

除了这种花式搞怪的翻唱玩法，还有些认真探索歌手声音边界的作品，比如和孙燕姿声音适配度极高的《我记得》，这个视频的爆火也是此次AI翻唱浪潮的标志性事件，或许孙燕姿本人也并不清楚她可以和民谣产生奇妙的化学反应。

由此来看，或许AI翻唱软件带给歌手的，不止有被侵权的风险，也会有一定的机遇。目前人们对AI利用本质上仍是对于新工具的使用，此次AI翻唱在互联网的爆火主要是民间行为，用于训练模型的音频也都是博主自己剪辑，而如果相关的音乐公司或经纪公司利用专业的设备将歌手的声线信息完全录入模型进行训练，训练出的模型结果会十分贴合歌手本身，或许可以借此更便捷地帮助歌手探索自我风格的边界。

随着未来AI绘画、AI视频、AI翻唱等应用场景的进一步发展，将会和我们的生活产生更深入的链接，特别是真人翻唱和AI翻唱的界限或许会越来越模糊，甚至可能出现真人AI对唱、AI创作演唱一体化、AI虚拟歌姬完全体等一系列新现象或新事物，或将对音乐圈乃至整个社会带来更深层的冲击和改变。

人们目前对AI的应用所抱有的心态仍旧是当成一个新工具看待，但如果AI迎来新的一波质的飞跃，如出现了AI虚拟歌姬完全体，或许我们真的会将其视为一个意义上偶像idol而不是某个虚拟形象，届时，我们的音乐生态甚至社会生活或许都会随之产生深远的变化。

云福利，一个有态度的互联网科技网站，永久网址：www.hwycc.com