发布日期:2026-05-03 07:19 点击次数:51

开云体育(中国)官方网站
这项由韩国首尔栋国大学MARTE实验室与Intrect机构合股完成的参议,以预印本神气发布,参议效果已提交至音乐信息检索限度顶级会议,感敬爱的读者可通过arXiv等学术平台搜索"ArtifactNet"或作家"Heewon Oh"查找完整论文。
每天,各人各大音乐流媒体平台上暗暗涌入逾越五万首完全由AI生成的歌曲。它们听起来像真东谈主演奏,有旋律、有节拍、多情态,但背后莫得任何一对确凿的东谈主类双手触碰过琴键。关于听众来说,这可能仅仅一个品尝问题;但关于那些靠音乐营生的创作家、关于版权保护机制、关于通盘这个词音乐产业的生态来说,这是一个正在演变为危急的打扰。而咫尺,咱们简直莫得可靠的器具来分歧它们。
栋国大学的参议者Heewon Oh决定换一种念念路来责罚这个问题。与其教筹算机"听"AI音乐听起来像什么,不如去跟踪AI音乐在物理层面上留住了什么无法抹去的思路。这个念念路催生了一个叫作念ArtifactNet的系统,以及一套被参议者称为"法证物理学"(forensic physics)的检测框架。这篇著作将带你完整走进这项参议,从问题的根源运行,一直到那些令东谈主服气的实验数据。
一、AI音乐师厂的微妙活水线:每首歌都必须经过的"压缩关卡"
要统一ArtifactNet为什么有用,咱们最初要显着AI是怎样生成音乐的,以及这个过程中覆盖着什么样的不可幸免的舛错。
无论是Suno、Udio、MusicGen照旧Stable Audio,这些AI音乐生成器具在背后都依赖一种叫作念"神经音频编解码器"(neural audio codec)的本事组件。你可以把它统一成一个极其精密的压缩机器。原始音频信号相配弘远,就像一张超高清原始相片,在被AI处理之前,必须先"压缩"成一串数字代码;AI在这些代码上阐发魔法,完成创作;然后再把代码"解压"收复成咱们听到的音频。
这个压缩过程的中枢本事叫作念"残差向量量化"(Residual Vector Quantization,简称RVQ)。具体来说,这套机制的责任相貌雷同于一册有限页数的"声息字典"。音频中汇注流动的声波,被强行翻译成这本字典里最接近的几个词条的组合。典型的系统里,这本字典可能有1024个词条,分8到32层叠加使用。
要道问题出现了:声息是汇注的、无尽阴事的,而字典的词条是有限的、摧毁的。每次查字典,总会有少量点声消息息丢失在"最近的词条"和"确凿声息"之间的破绽里。更症结的是,这个破绽是长期性的——一朝信息被量化压缩,那部分细节就永远脱色了,无法收复。
Heewon Oh的中枢发现正在于此:这个量化破绽会在AI生成的音频中留住一种尽头的、结构化的思路。每一首AI歌曲,无论它由什么作风的模子生成,都必须经过这谈压缩关卡,因此都带有这种思路。参议者把这一气候称为"法证残差放大"(forensic residual amplification)。
二、昔时的阅览是怎样责任的,为什么他们会认错东谈主
在ArtifactNet出现之前,学术界有两种主要的AI音乐检测念念路,各有其问题。
第一种念念路叫作念"表征学习",代表作是一个叫CLAM的系统。它的作念法是考验一个巨大的神经蚁集去"学习"AI音乐的声息特征,参数目高达1.94亿个——约莫相配于ArtifactNet的49倍体量。CLAM在它见过的AI生成器上进展可以,但问题在于:当一个全新的AI生成器出面前,它的"声息作风"可能和考验数据完全不同,CLAM就会认不出来。更厄运的是,在自后的实验里,CLAM在确凿东谈主类音乐上的误报率高达69.3%——也等于说,它把七成真实凿音乐都误判成了AI生成。
第二种念念路叫作念"自编码器指纹",代表作是SpecTTTra。它通过学习自动编码器的重建舛讹来判断,在特定的数据集上能达到97%的F1分数。但相通,一朝遇到考验时没见过的生成器,性能会垮塌到50%到68%之间——简直和立时测度莫得区别。
这两种要领共同的根蒂问题,就像是一个阅览通过"嫌疑东谈主的穿戴作风"来认东谈主:今天他穿西装,翌日他换了稳定装,阅览就认不出来了。而ArtifactNet的翻新在于:它不看作风,它寻找的是嫌疑东谈主皮肤上永远无法洗掉的胎记。
三、ArtifactNet的阅览手册:三步找出不可脱色的思路
ArtifactNet的通盘这个词检测历程由三个相互衔接的程序组成,总参数目只好400万个,运行起来极为轻量。
第一步叫作念"索求法证残差",由一个叫ArtifactUNet的神经蚁集完成。这个蚁集的瞎想有一个相配巧妙的控制条目。时常情况下,如果你让一个蚁集去索求音频中的"残差信号",它可能会偷懒,平直把通盘这个词音频信号原样输出——这在本事上粗鲁了条目,但什么有用信息都莫得。为了贯注这种情况,参议者给这个蚁集加了一个"有界掩膜"适度:蚁集预测的是一个乘在原始信号上的"掩膜",而这个掩膜的边界被强制驱散在0到0.5之间。换句话说,蚁集最多只可索求原始信号能量的一半,它必须精采去寻找那些确凿的隐微特地,而不行耍把戏。
这个ArtifactUNet的考验也很有道理,分为两个阶段。第一阶段叫"常识蒸馏":参议者先用一个叫Demucs v4的大型音源分离模子(有4200万个参数)来处理音频,索求出它在分离东谈主声、饱读、贝斯、其他乐器时产生的"剩余信号"——这个剩余信号等于Demucs无法归类到任何乐器的声息遗残。然后用这个大模子的输出手脚"诚笃",教ArtifactUNet学习索求雷同的残差结构,这样推理时就不需要运行阿谁沉重的大模子了。第二阶段叫"冻结分类器勾通":把后续的分类器蚁集参数固定住,只延续调度ArtifactUNet,让它索求的残差不仅仅结构上正确,并且对最终的"AI照旧确凿"判断最有匡助。参议者发现,如果同期考验索求器和分类器,考验过程会往复荡漾不牢固,分阶段则责罚了这个问题。
第二步叫作念"七通谈法证特征筹算",用到了一种叫HPSS(谐波-打击乐源分离)的本事。浅易来说,HPSS能把一段音频信号拆分红两部分:一部分是有音高的旋律性身分(谐波重量),另一部分是一刹爆发的打击性身分(打击乐重量)。参议者把这个本事用在了第一步索求出的残差信号上,而不是原始音频上——这是通盘这个词限度的初次尝试。
这样作念的逻辑是:如果一首歌是确凿东谈主类演奏的,Demucs应该能把各式乐器分离得比拟干净,剩余的残差应该是紊乱、立时的小杂音。但如果是AI生成的,由于RVQ压缩变成的谐波细节亏空,Demucs会在残差里留住大都结构化的谐波裸露和打击乐裸露。把这两种裸露分别索求出来,加上它们的期间变化率(一阶导数)、加快度(二阶导数)、谐波与打击乐的比值对数,以及逐帧的频谱变化量,共同组成了七个信息通谈,组成了这套系统的中枢"指纹"。
第三步则是分类和投票。一个轻量级的卷积神经蚁集(参数目只好40万个)处理4秒长的音频片断,输出一个0到1之间的"AI概率"。关于一首完整的歌曲,系统会把通盘片断的概率取中位数,逾越0.5就判定为AI生成。
四、编码神气这个大坑:为什么MP3差点废弃一切
在ArtifactNet的拓荒过程中,参议者遇到了一个简直致命的问题,而责罚这个问题的决策相通值得详备先容。
蚁集昌哄传的音乐大都以MP3、AAC、Opus等有损压缩神气存在。这些神气自己也会对音频信号进行某种神气的"压缩失真"处理,会在频谱上留住我方的思路。早期版块的ArtifactUNet(考验时只用WAV神气无损音频)完全莫得分歧这两种起原的失真才能。
实验驱散惊魂动魄:对确凿东谈主类音乐使用MP3编码后,系统的误报朴平直飙升到98.7%——简直把通盘确凿MP3音乐都误判成了AI生成;而对AI生成的音乐使用AAC编码后,系统又会把它们漏判为确凿音乐。原始系统在不同编码神气下的预测概率跨度高达0.95,意味着换一种神气,论断就可能完全翻转。
责罚决策叫作念"编码感知考验":考验时,对每首歌同期生成WAV、MP3 128kbps、AAC 128kbps和Opus 128kbps四个版块,让归并批次的考验数据涵盖通盘四种神气。这样,蚁集就被动学会忽略有损压缩带来的神气特征,专注于寻找那些跨神气牢固存在的RVQ量化思路。
效果立竿见影。经过编码感知考验后,确凿音乐在不同编码神气下的预测概率跨度从0.95降到了0.16,减少了83%;AI音乐的跨度从0.72降到了0.14,减少了81%。这意味着无论音乐以什么神气传播,检测论断都会保握牢固。
五、测一测:带宽数字里的物理学笔据
参议者还作念了一个安适的物理考证明验,用数字证明了"RVQ留住思路"这件事不是表面推断,而是可以测量的执行。
他们测量了94首曲目(50首AI生成,44首确凿东谈主类音乐)的源分离残差的"有用带宽"——等于在残差信号中,能量主要汇注在哪个频率边界内。驱散相配戏剧性:AI生成音乐的残差平均有用带宽只好291赫兹,而确凿东谈主类音乐的残差有用带宽高达1996赫兹,差距快要7倍。
更令东谈主印象真切的是,把22种不同的AI生成器分开来看,Suno v3.5是170赫兹,Riffusion是219赫兹,Stable Audio是237赫兹,Udio是245赫兹,MusicGen是255赫兹。这些系统使用了完全不同的生成架构——有自归来的、有扩散模子的、有潜在扩散的——但它们的残差带宽皆备密集地集中在200赫兹附近,而确凿音乐的残差永恒逾越1900赫兹。这种跨架构的一致性,有劲地证明了检测到的思路如实来自阿谁通盘系统分享的RVQ压缩瓶颈,而不是某种特定生成器的作风特征。
六、一个更自制的科场:ArtifactBench基准测试的建设
为了考验ArtifactNet(以偏执竞争系统)真实凿才能,参议者从零构建了一个叫作念ArtifactBench的评测基准。构建它的原因很骨子:现存的评测平台覆盖的AI生成器太少,SONICS只好5种,MoM只好6种,高分收成很可能仅仅因为模子记着了考验时见过的那几个生成器的特色,并不代表确凿的泛化才能。
ArtifactBench v1包含6183首曲目。AI生成部分涵盖22种不同的生成器,包括Suno v3/v3.5/v4、Udio v1/v1.5、MusicGen、Stable Audio、Riffusion、DiffRhythm、Yue、JEN-1等,算计4383首。确凿东谈主类音乐部分来自6个各类化起原,包括SONICS确凿音乐分区、MoM确凿音乐子集、目田音乐档案FMA中专诚挑选的高误报率MP3样本、手工筛选的YouTube专科制作音乐,算计1800首。
每首曲目都被标注了bench_origin字段,表明它是用于考验(train)照旧测试(test)。三个模子的对比实验一谈驱散在bench_origin=test的部分(共2263首:1388首AI,875首确凿),确保通盘模子在测试时都是零考验重迭的自制比拟。
这个基准依然以Parquet分片神气公拓荒布在HuggingFace平台上(huggingface.co/datasets/intrect/artifactbench-v1),包含完整的音频字节数据,任何参议者都可以用来复现驱散。
七、数字会言语:三个系统的收成单对比
在这个统一的自制测试平台上,三个系统的进展差距相配悬殊。
ArtifactNet的抽象F1分数达到了0.9829,精准率0.9905,调回率0.9755,误报率仅1.49%,AUC值0.9974。翻译成直白的语言:在1000首确凿音乐里,它只会把约莫15首误判为AI生成;在1000首AI音乐里,它只会漏掉约莫24首。
CLAM的F1分数是0.7576,精准率0.6674,调回率0.8761,但误报率高达69.3%。它天然能收拢87.6%的AI音乐,但代价是把七成真实凿音乐都误以为AI,对MoM数据集确凿音乐子集(也等于CLAM我方考验数据的起原之一)的误报率相通高达67%——一个系统连我方练习的数据上都进展这样差,说明它在某些维度上依然产生了严重的系统性偏差。
SpecTTTra的情况则恰恰相背:精准率0.8519还算可以,但调回率只好0.7046,F1为0.7713,误报率19.4%。它对考验漫衍除外的生成器大都漏判,在MoM的4个生成器上只好74.5%的检出率,在AIME的9个生成器上只好57.7%,在最新的CDN生成器上更是跌到50.4%。
参议者还用一套"28个子集的通过/欠亨过"的骨子可用性测试来量化这种差距。圭臬是:对AI子集要达到90%以上的检出率(Stable Audio这两个较难的子集放宽到60%),对确凿音乐子集要把误报率控制在5%以内。ArtifactNet只在4个子集上不达标(主如果重度压缩确凿音乐),通过率85.7%。CLAM欠亨过15个子集,通过率46.4%。SpecTTTra则欠亨过23个子集,通过率仅17.9%。
ROC弧线分析也印证了这个差距的谨慎性:在误报率不逾越5%的操作点上,ArtifactNet的检出率达到99.1%,而F1分数在0.05到0.9的重大阈值边界内都保握在0.98以上,说明系统对阈值礼聘不解锐,部署时无需良好调参。
八、能洗掉这个思路吗:抵挡性袭击实验
参议者也测试了一种直观上很天然的"反侦察"技能:把AI生成的音乐先用Demucs作念一次源分离处理,望望能不行通过这种相貌把RVQ留住的思路"洗掉",骗过ArtifactNet。
实验驱散是:单次Demucs处理后,F1分数从0.9950着落到了0.9592,检出率从99%降到了94%。思路被缩小了,但莫得被完全放手——在103维的特征空间里,袭击后的AI音乐和确凿音乐之间的AUC仍然是0.9651,依然有显赫的可分性。参议团队依然把Demucs处理过的AI音乐样本加入到ArtifactNet的考验数据中,以进步对这种袭击的抵触力。
这个驱散揭示了一个更深层的敬爱:RVQ的量化信息亏空发生在一个比单次分离处理更基本的信号层面,单次处理可以转换思路的漫衍,但无法收复那些依然长期丢失的高频细节信息。
九、这套要领的局限性和将来的场所
任何系统都不是完满的,参议者对ArtifactNet的局限性作念了坦诚的分析。
最初是采样率要求。ArtifactNet需要44.1kHz的高质料音频输入,因为RVQ的思路主要体当今高频细节上,如果输入的是16kHz等低采样率音频,这些高频信息根蒂就不存在,法证信号会大幅衰减。这对那些分发低采样率音频的数据集来说是一个骨子适度。
其次是对重度压缩确凿音乐的误报。经过编码感知考验后,FMA档案(以低比特率可变码率MP3为主)上的误报率从98.7%降到了8%,但还莫得降到空想水平。参议者预测推行编码增强的考验数据后可以进一步改善。
再者是对最新一代Udio的检出率。当前版块对最新Udio生成音乐的检出率只好87%,低于其他生成器。分析发现,在舒畅段落和过渡段落,Udio生成的谐波-打击乐比率趋近于确凿音乐的现象,导致单段置信度着落。将来可能需要在CNN输入层加入更多的统计特征(比如谐波-打击乐比率的漫衍统计量)来改善对这类音乐的检测。
关于屡次Demucs处理等更复杂的抵挡袭击,参议者也承认需要进一步参议。与此同期,参议者指出主动水印本事(比如在生成时就镶嵌不可感知的水印)可以手脚互补的把稳技能,但这需要生成平台主动合营,对依然发布的海量音乐窝囊为力。
归根结底,ArtifactNet这套参议的道理超出了一个检测系统自己。它提议了一个更有劲的问题框架:在AI生成本事不断迭代、生成作风鬼出神入的期间,确凿可靠的检测要领不应该去跟踪"这首歌听起来像AI生成",而应该去跟踪"这首歌在物理上势必佩戴AI生成的钤记"。汇注到摧毁的量化是不可逆转的信息亏空,而这种不可逆性,恰正是最难被遁入的法证依据。
用参议者在论文临了一滑写下的话来收尾这个故事再恰当不外:Afchar等东谈主曾问,AI生成音乐能否在与内容无关的情况下被识别。这项参议的回复是:可以——通过倾听那些音乐无法包含的东西,而不是它所包含的东西。
Q&A
Q1:ArtifactNet检测AI音乐的道理是什么?
A:ArtifactNet的中枢道理是跟踪AI音乐在生成过程中势必留住的物理思路。通盘买卖AI音乐生成器都要用一种叫"残差向量量化"的本事来压缩和收复音频,这个过程会不可逆地亏空高频细节信息。ArtifactNet用一个经过专门考验的轻量级神经蚁集索求这些思路,再分析其中的谐波和打击乐身分,从而判断音频是否来自AI生成。
Q2:ArtifactNet能识别MP3神气的AI音乐吗?
A:可以。早期版块也曾把MP3神气真实凿音乐误判为AI生成,误报率高达98.7%,因为MP3自身的压缩噪声会被误以为AI思路。参议团队通过"编码感知考验"责罚了这个问题,让系统同期学习WAV、MP3、AAC和Opus四种神气,考验后跨神气的预测概率波动裁减了83%,不同神气下的检测论断基本保握牢固。
Q3:ArtifactNet能被AI生成器"绕过"吗?
A:咫尺很难被完全绕过。有参议者尝试用音源分离软件对AI音乐进行处理后再检测,驱散检出率从99%着落到94%开云体育(中国)官方网站,但莫得降到不可检测的水平。更根蒂的原因是,残差向量量化变成的信息亏空发生在极其底层的信号层面,只须AI音乐生成器还在使用神经音频编解码器,这种思路就无法被完全放手。
Powered by 开云(中国)Kaiyun·官方网站 - 登录入口 @2013-2022 RSS地图 HTML地图