arXiv：物质音乐学——选择性不完美的生成科学

导语

本篇研究提出物质音乐学框架，将分子振动、材料结构与音乐创作建立可逆映射关系，使物质结构能够被"听见"，音乐也可反向用于设计分子与材料。论文进一步提出"选择性不完美"作为生成机制的核心原则，解释为何适度的结构缺陷能在物理系统、音乐组织乃至人工智能中共同催生复杂性与创造力，从而构建出一种跨越科学与艺术的统一生成范式。

关键词：物质音乐学（materiomusic）、选择性不完美、可逆映射、振动语法、生成性科学、跨尺度建模、结构同构、深时（Deep Time）、认知倒转、人工智能创造力

绿河马丨作者

赵思怡丨审校

论文题目：Selective Imperfection as a Generative Framework for Analysis, Creativity and Discovery

论文链接：https://arxiv.org/abs/2601.00863

发表时间：2025年12月30日

论文来源：arXiv

一、引入：拍西瓜的人，与听见分子的科学家

在菜市场挑西瓜时，有经验的人会用手指轻弹瓜皮，侧耳倾听。声音沉闷，说明瓜肉已经熟透、纤维松散；声音清脆，则意味着内部结构紧实。这个朴素的动作里，藏着一个深刻的认识论事实：我们正在用耳朵"看见"一个肉眼无法穿透的物理世界。声音，在这里充当的是探测工具——它将不可见的内部结构，翻译成可感知的信号。

麻省理工学院材料学家 Markus J. Buehler 在 2025 年底发表的论文《选择性不完美作为分析、创造与发现的生成性框架》（Selective Imperfection as a Generative Framework for Analysis, Creativity and Discovery）[1]，将这个日常直觉推进到了科学的前沿。论文提出了一个名为物质音乐学（Materiomusic）的生成性框架，其核心命题是：通过数学上可逆的映射，将蛋白质的分子振动、蜘蛛网的三维结构、乃至材料断裂时的应力场，转化为可以演奏的音乐。在这个框架里，"倾听"由此从主观的审美行为，转变为一种科学观测手段——论文将其命名为"认知倒转"（Epistemic Inversion）：

"sound functions as a scientific probe, an epistemic inversion where listening becomes a mode of seeing and musical composition becomes a blueprint for matter.""声音作为一种科学探针发挥作用，这是一种认识论上的反转：在这里，聆听成为一种观看的方式，而音乐创作则成为物质的蓝图。"

这句话，是整篇论文的灵魂所在，也是它最令人心动的地方。一篇科学论文，能够让人在读到摘要时就感到某种久违的震动，这本身已经是一种成就。那么，这篇论文究竟是如何将这一直觉转化为严格的科学框架的？它做了什么工作，又意味着什么？

二、构建"物质音乐学"框架

方法论的核心：可逆映射与物理基础

理解这篇论文，首先需要厘清它与以往"声化"（Sonification）研究的本质差异。传统声化的做法，是将数据"配上声音"——例如将温度映射为音高、将股价涨跌映射为音调高低。这类方法在实践中多依赖研究者预设的映射规则，其结构约束通常来自认知可解释性或可视化需求，而非数据生成机制本身。因此，这类映射一般不保证物理层面的可逆性，也较少涉及从声学表示回到原始系统结构的严格重建问题。从方法论上看，它更接近一种表征性映射（representational mapping），而非结构保持意义上的生成性翻译（generative translation）。

物质音乐学的方法论立场与此截然不同，其核心是两个相互依存的要求：物理基础（Physical Grounding）与可逆性（Reversibility）。

所谓物理基础，是指映射关系不完全由外部设计者任意指定，而是受到振动介质本身动力学规律的约束。例如，在蜘蛛网系统中，单根丝线的振动频率由其张力、长度与线密度共同决定，这一关系可由经典弦振动方程描述；在蛋白质体系中，不同氨基酸残基的振动特征则受到化学键与分子结构的约束，体现为量子化学层面的能谱差异。

在这一意义上，物质系统在映射过程中不仅提供"数据来源"，也参与限定可映射空间的边界条件。

论文写道：

"In each case, the medium acts not merely as a passive canvas but as a co-author, enforcing conservation laws and boundary conditions that regulate the generative process.""在每一种情况下，媒介都不仅仅是一个被动的承载画布，而更像是共同作者：它通过施加守恒定律与边界条件，来约束并调节这一生成过程。"

介质在这里扮演的是共同作者的角色——它通过守恒定律和边界条件，约束着映射空间中哪些输出是物理上可实现的。这一约束，恰恰是可逆性的来源。

所谓可逆性，是指同一套映射规则可以双向运行：既能将物质结构翻译为音乐（正向），也能将音乐翻译回可行的物质结构候选（逆向）。这在技术上依赖一个关键机制——转置等价（Transpositional Equivalence）：蛋白质的分子振动频率远超人类听觉范围（处于太赫兹量级），但只要在频率平移时保持各频率之间的比值关系不变，音程结构就得以保留，分子振动就可以被整体移入人耳可感知的频段，而不丢失其内部的结构信息。因此，这里的映射并不是简单的数值替换，而是一种关系结构的转译：音高、频率或尺度可以被平移和重标定，但元素之间的相对关系、层级组织与变换规则需要保持可追踪。严格来说，这更接近结构保持映射；只有当这种关系保持具有明确的双向性与可逆性时，才可进一步讨论其同构意义。

正是这种可逆性，使得"作曲即设计"（Composition-as-Design）成为可能：作曲家在音乐层面施加的操作（动机复现、主题回忆、长程收束），通过逆向映射，转化为对分子序列的约束条件，成为可以在实验室中检验的结构假说。音乐，在这里成为科学的工具。

三大实验案例

论文通过三类具体案例，验证了这一框架在不同物质系统中的适用性。

图1 ：振动作为物质与音乐的生成基础

蜘蛛网声化：研究者对真实三维蜘蛛网进行数字化重建，将每根丝线依据张力、长度和直径映射为对应音高，整张网的层级结构（节点、丝线、模块、全网）对应为音乐的不同层次（节奏、和声、音乐形式）。丝线被拉伸时音高升高、断裂时音高骤降，力学过程因此变得可听见。这一双向映射已通过与艺术家 Tomás Saraceno 的合作，在展览和现场表演中公开呈现。

图2：蜘蛛网中捕食行为的振动生态学

蛋白质音乐：基于20种氨基酸各自的特征振动模式，研究者建立了序列空间与音乐空间之间的自洽映射，并实现了双向运行。代表性案例"Deep Aria"以巴赫《哥德堡变奏曲》咏叹调为起点，经映射和深度学习精化，生成了既保留巴赫对位长程结构、又具备蛋白质折叠稳定性的全新序列；这些序列随后被反向翻译为DNA，在大肠杆菌中表达并纯化，完成了从乐谱到物质的完整实验闭环。

图3：哥德堡变奏第一版本封面（来源：维基百科）

跨介质映射：将蛋白质振动频谱转化为声学驱动，激发水膜产生驻波图案，卷积神经网络可仅凭水面图案识别蛋白质折叠状态；火焰闪烁动态与声学频谱之间的双向映射，则实现了用声音"雕塑"火焰形态。此外，论文还探索了裂缝声化——将断裂瞬间的应力张量场转化为音乐，论文称之为"an audible trace of deep time written in an instant of failure"（在失败发生的刹那，被写入其中的一道来自深层时间的声音遗痕）。

三类案例的共同特征，在于它们都具有实验验证的双向闭环：物质→音乐的正向路径用于分析和感知，音乐→物质的逆向路径用于设计和合成。

三、4096种音阶的穷举与"中等熵走廊"

论文最具说服力的定量证据，来自一项对音阶结构的穷举性计算实验。

问题的提出来自一个古老的谜题：为什么人类几千年来，无论中西，都偏爱大调、小调或五声音阶？十二平均律理论上可以构成 212 = 4096 种不同的音阶组合，但全球各文化实际使用的音阶只是其中极小的一部分，且高度集中于某些特定类型。这是文化偶然，还是有更深的数学规律？

图4: 文化音阶在中等熵—中等缺陷走廊中的聚集

实验设计采用了两个定量指标。第一个是香农熵（Shannon Entropy），衡量音阶音程分布的复杂性——熵越高，音程种类越丰富、越不可预测；熵越低，音程越均匀、越单调。第二个是功能性缺陷数（Functional Defect Count），采用 Zeitler 的定义，即音阶中缺失纯五度支撑的悬空节点数量，这是从调性和声角度衡量音阶"残缺程度"的指标。研究者用 Python 对所有4096种音阶进行了穷举枚举，计算每种音阶的这两个指标，并将全球主要文化音阶（西方大小调、五声音阶、印度拉格、阿拉伯马卡姆等）叠加在散点图上。

实验结论清晰而有力：全球各文化的音阶在散点图中高度集中在一条"中等熵、中等缺陷（2–4个）"的走廊里，而非随机分布于4096种可能中。绝对对称的音阶（如全音阶，缺陷数为零）因缺乏力学张力而显得停滞；高度不规则的音阶（缺陷数极高）则难以组织为连贯的音乐叙事。只有在"中等程度的残缺"区间，音阶才能同时具备内部连贯性与表达张力——这正是人类音乐文化几千年来不约而同选择的区域。

这一发现将"音阶偏好"从文化习俗的领域，移入了数学必然性的领域。它表明，人类音乐的普遍结构，是在约束空间中自然涌现的最优解，背后有数学的必然性。

四、从音乐到材料学，再到人工智能

跨域同构：霍尔-佩奇效应的数学回响

上述关于音阶分布的分析进一步引出了一个值得注意的跨领域对照关系，即其与材料科学中晶粒结构优化现象之间的结构性相似性。

霍尔-佩奇效应（Hall-Petch Effect）描述的是多晶金属中晶粒尺寸与强度的关系：随着晶粒尺寸减小（即晶界密度增大），金属强度先升后降，在某个"中等晶界密度"处达到峰值。晶界是晶格的"缺陷"，适度的缺陷能阻挡裂纹蔓延、耗散能量，赋予材料韧性；但过多的缺陷则导致软化。

论文指出，音乐中的"中等缺陷走廊"与材料学中的""霍尔-佩奇最优点"遵循同一套数学逻辑：晶粒尺寸 d 的倒数（d-1，即晶界密度）与音阶中的音符数量 k（即音程机会的密度）扮演着等价的角色。两个领域都在"适度残缺"处达到最大的功能表达——金属的韧性，与音乐的表达力。正如论文所言：

"The richest behaviors arise in the middle where we see neither crystalline perfection nor chaotic fragmentation, yielding toughness in matter and expressivity in music.""最丰富的行为出现在中间区域：在那里，我们既看不到晶体般的完美，也看不到混沌式的碎裂，从而在物质中产生韧性，并在音乐中生成表现力。"

这并非单纯的修辞性比喻，而是一种基于共同描述框架的跨域对应：材料结构、音乐组织与认知过程都可以被理解为在约束、扰动与重组之间展开的生成系统。它指向一个更深层的原理：选择性不完美（Selective Imperfection）可能是复杂系统维持活力、适应性与韧性的一种普遍机制。

对人工智能创造力的重新定义

论文的野心并不止于材料学与音乐学的交叉。它将"选择性不完美"原理进一步延伸至人工智能的创造力问题，提出了一个颇具挑战性的论断：当前大多数AI系统本质上是插值机器（Interpolators）——它们在训练数据的统计包络内生成输出，擅长复现已知模式，却难以真正发明。

论文援引哥德尔不完备定理作为类比：任何足够复杂的形式系统，都存在在其公理体系内无法证明的真命题。同理，在有限数据集上训练的AI模型，是不完备的形式系统——它们可以重组已见过的内容，却无法超越训练分布所定义的空间。

突破这一限制的路径，论文认为在于群体智能（Collective Intelligence）。基于蜂群动力学的AI模型（MusicSwarm）通过分布式协作和间接协调（Stigmergy——类似蚂蚁通过信息素留下痕迹），让多个智能体在共享的"信息素场"中相互强化、变异和延伸彼此的动机，从而涌现出具有"小世界网络"特征的音乐结构——既有局部变化，又有全局连贯性，其结构签名与人类作曲高度相似。这代表了一条超越插值、走向真正发明的可能路径。

核心论点的提炼

综合以上工作，论文的最终论点可以提炼为：科学与艺术都是"在约束下构建世界"的生成性行为（Generative Acts of World-Building Under Constraint）。振动是连接物质、音乐与智能的共同语法；选择性不完美是宇宙自我编排的算法；而物质音乐学框架，是将这一算法转化为科学发现工具的具体实践。

论文将这五条原理总结为"物质音乐学的生成性原则"：振动作为普遍生成介质、选择性不完美作为生成算法、跨物种与跨尺度的振动认知、生成性科学即作曲、以及不完备性与创造力的关系。这是一个具有数学一致性的科学语言，落脚点在精确，而非比喻。

五、带领我们听见地球的深时

如果说上述内容是对论文工作的忠实呈现，那么这篇论文真正令人难以忘怀的，是它在科学论证之外所展开的那种时间感。这篇论文更像是一次邀请——邀请读者以一种全新的方式感知时间的深度。

图5：一种从宇宙到分子层面和谐关系的视角，分别呈现了不同尺度下振动特征所体现的细微差异。

（A）约翰内斯·开普勒（Johannes Kepler）《宇宙的和谐》（Harmonices Mundi, 1619）的扉页，该著作试图通过以音乐比例表达行星轨道，从而在宇宙中寻找秩序。

（B）吉他弦的振动，将和谐作为共振与频率比的一种物理实现形式加以体现。

（C）将和声泛音列（类似于B图）的旋律频谱与氨基酸序列表示进行对比：在此，蛋白质的化学结构被转译为一种概念性的"音阶"。不同于传统的和声音阶（基于整数比例或协和关系），这种映射并不依赖于整数比或协和性，而是基于结构编码，使每一个分子构件在声音中呈现出独特的模式。

论文引入了一个令人着迷的概念——深时（Deep Time）。这个词本属于地质学，指地球数十亿年的演化历史。Buehler 将它重新定义，使其同时跨越两个极端：一端是飞秒（femtosecond，10-15 秒）尺度的分子振动，另一端是数十亿年的进化历史与人类数千年的文化记忆。论文写道：

"These mappings excavate deep time: patterns originating in femtosecond molecular vibrations or billion-year evolutionary histories become audible." "这些映射挖掘出深时结构：源自飞秒尺度分子振动或跨越十亿年演化史的模式，在此被转化为可被聆听的声音。"

这句话的震撼，需要细细品味。当一个蛋白质被声化为音乐，你听见的，不仅仅是某个分子的振动频率——你听见的是进化的记忆。蛋白质的氨基酸序列和折叠规则，是数十亿年自然选择的物理残留，是生命对物质约束的长期应答。当这些振动特征被翻译成音调，那些古老的约束就以声音的形式，穿越时间，抵达人类的耳廓。

论文中关于蜘蛛的描写，是另一处令人屏息的段落。粗肥腹蛛（Steatoda grossa）的感知世界，以振动为主轴，视觉退居其次：

"Spiders such as Steatoda grossa inhabit a world defined not primarily by vision, but by vibration. Their irregular cobwebs form a resonant network in which every prey movement, courtship signal, or environmental disturbance propagates as mechanical waves.""诸如粗肥腹蛛（Steatoda grossa）这样的蜘蛛所栖居的世界，并非主要由视觉所定义，而是由振动所构成。它们不规则的蛛网形成了一个共振网络，其中任何猎物的移动、求偶信号或环境扰动，都会以机械波的形式传播开来。"

蜘蛛的丝网，既是捕猎的陷阱，也是感知的延伸——它将蜘蛛的神经系统扩展到整个网的几何空间中。当研究者将这张网声化，并在音乐厅中演奏，某种意义上，他们是在将一种非人类的感知宇宙，翻译成人类可以理解的语言。这是一种跨物种的认识论对话，振动是唯一共同的语法。

而裂缝声化的描写，则将这种时间感推向了极致。在材料断裂的瞬间，应力场在原子尺度上接近奇点。论文将这个瞬间描述为：

"an audible trace of deep time written in an instant of failure, linking atomistic vibration to macroscopic rupture.""在失败的瞬间所写就的一道可听见的深时痕迹，将原子尺度的振动与宏观层面的断裂连接起来。"

断裂，是物质的终点，也是信息的释放。在那一刻，数十亿年积累的材料约束，以声音的形式，在一个瞬间倾泻而出。那是从断裂中生长出来的音乐——物质在终结的瞬间，将自身的历史转化为声音。

论文在结尾处写道：

"Seen through this lens, composition becomes a method of remembering: an unconscious act that makes the past conscious by surfacing structural residues that persist across molecular, biological, and cultural epochs. Materiomusic thus operates as a deep-time instrument that allows us listening to matter to reveal ancient memory, and composing with that memory to construct new forms."从这个视角来看，作曲成为一种"记忆的方法"：一种无意识的行为，通过显化跨越分子、生命与文化时代的结构性残留物，使过去变得可被意识所感知。因此，"物质音乐"（materiomusic）充当了一种深时尺度上的乐器，它让我们在聆听物质时揭示古老的记忆，并在与这种记忆共同创作的过程中，构建出新的形式。

作曲，成为一种记忆的方式。倾听，成为一种考古。这是这篇论文最深邃的哲学提案：在振动的共同语法之下，物质与音乐、科学与艺术、过去与未来，都是同一个生成过程的不同面貌。

六、延伸思考："残缺"作为范式转换的结构性前提

在充分理解论文工作的基础上，我们可以将"选择性不完美"这一原理，放置在更宽广的知识背景中审视。

读过库恩《科学革命的结构》的人，不难发现，论文的核心论断与库恩的范式论之间，存在一种深刻的内在张力。库恩指出，常规科学在成熟范式的内部运作：它的工具、问题意识和评价标准都由范式所规定。而当异常不断累积、现有范式已无法容纳时，科学革命就会发生——一个新的范式应运而生，重新定义问题、方法和标准。库恩将这种过渡称为"范式转换"（Paradigm Shift）。

物质音乐学的野心，正在于此。当前科学的工具算法——无论是分子动力学模拟、基因组分析还是深度学习——都共享一个隐含的范式预设：物质是物质，音乐是音乐，分析的工具与分析的对象属于不同领域。这一范式在应对很多问题时是高效的，但它也封闭了一类问题：当物质与音乐共享同一套数学结构时，它们能否互为设计工具？当分子振动与音调共享同构映射时，能否用作曲的方式设计分子？这些问题，在现有范式内部根本无法提出，因为它们本身就是对范式边界的逾越。

图6：蛋白质抗体评分。摘自《Protein Antibody – Piano and Strings（E小调）》[44]，该作品基于免疫球蛋白序列生成。在该映射中，氨基酸基序被转化为管弦乐织体，不同声部对应蛋白质结构的不同层级特征。该示例展示了材料音乐学（materiomusic）如何将生物分子结构转译为可听的音乐形式，使序列层级约束通过对位、配器与和声发展得以体现。作品以蛋白质结构映射作为创作框架与约束，并结合艺术性音乐表达完成。

库恩还指出，新范式的兴起，往往伴随着认知工具的扩展——望远镜的发明开启了天文学的新范式，就像电子显微镜开启了分子生物学的新范式。物质音乐学提供的，正是这样一种新工具：可逆的振动映射，使得科学家得以用一种全新的方式提出问题——从"这个分子的结构是什么？"转向"如果我用音乐的方式作曲，能否生成一个物理上可实现的新分子？"。这种问题方式本身的转变，已经超出了对旧范式的修补。

库恩的理论还带给我们另一个视角：选择性不完美，正是范式转换的结构性前提。常规科学的范式如同全音阶一样，过于均匀、过于封闭，就会失去张力与活力；而一个具有适度缺陷的范式，才能容纳异常、产生张力，最终指向更大的科学革命。正如论文所言，振动是宇宙自我编排的语言，而适度的不完美，是这门语言中最富创造力的语法。

这篇论文最终给我们留下的，是一种重新理解世界的方式——跨学科的框架只是入口，更深处是一个根本性的认知转变：宇宙一直在作曲，而我们，终于开始学会聆听。

复杂科学×艺术系列研讨会

20世纪下半叶以来，受到复杂性研究启发的"思维方式"已迅速传播到认知活动的多个领域。混沌、自组织、临界、自创生、涌现 ……其概念层次的丰富性为我们提供了研究世界的灵活工具。从这个意义上说，我们有理由将复杂性理论视为一个扩充艺术与科学之间交叉领域的重要课题。艺术对复杂性做出反应的一种基本方式是创造出显示"涌现行为"的系统。就本体论而言，我们不再将艺术品视为静态之物，而是将其看作不断发展的创造性过程的一个实例。同时，新兴的复杂科学（Complexity Science）也向当代艺术实践者提供了一个敞开的工具箱，这些工具包括混沌、分形、元胞自动机、遗传算法、蚁群算法、人工神经网络、L-System、人工生命等，它们进一步推动了数字美学、生物艺术与人工智能艺术等领域的发展。复杂科学不仅帮助我们深入了解意识和生命系统的生成机制，而且有利于激发各学科的研究者和实践者协同发掘后人类创造力和新美学的潜力，以期打开更趋向于综合性的创意空间。

由集智俱乐部主办，心识宇宙研究院院长、科普作家十三维，艺术评论人汪嫣然和策展人龙星如联合发起的"复杂科学与艺术"研讨会，旨在汇聚各领域内的行动者与思想者——包括科学家、艺术家、学者及相关从业者——展开超越单一学科的跨界知识讨论，探索复杂性研究与人文艺术潜在的交叉地带。现研讨会已完结，欢迎加入研讨会获取回放查看权限。

研讨会详情与框架：

Chaos & Muses：复杂科学×艺术系列研讨会

推荐阅读

1. 音乐复杂性：从音符中如何涌现出整个星辰？

2. 诺奖得主眼里，科学和艺术没什么不同

3. 音符和原子的统一：统计力学框架下的音乐理论

4. 诚招系统科学/AI/物理背景的内容创作者

5. 集智学园精品课程免费开放，解锁系统科学与 AI 新世界

6. 高考分数只是张入场券，你的科研冒险在这里启航！

7. 加入集智字幕组：成为复杂科学知识社区的"织网人"

点击"阅读原文"，即可加入

宙世代

一起剪

相关标签