量子位 03-23
告别AI「鬼画符」!一行指令「复活」王羲之、苏轼,带连笔、懂排版,项目已开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

苦于 AI 单字拼凑没行气,或是排版秒变 " 鬼画符 "?

这个痛点,终于被终结了。

现在,只需输入一段文字,就能让 AI 立刻化身王羲之、颜真卿或是米芾,全自动挥毫泼墨。

UniCalli,这个由香港科技大学(广州)等团队推出的全新统一扩散框架,不仅能完美拿捏书法的整列排版(Column-level),甚至连相邻字符之间大小错落的缩放、自然流畅的游丝连笔(Ligatures)都能精准生成。

更重磅的是,它首次将 " 书法生成 " 和 " 古籍识别 " 两大任务统一在了同一个模型里。目前,该工作已被ICLR2026正式接收。

代码、超大规模数据集全部开源,还同步上线了可一键在线试玩的 Demo!

huggingface 模型蒸馏后效果,十秒能同步生成数张列级书法作品:

  从左到右是:文征明 / 行,乾隆 / 楷,米芾 / 行,王羲之 / 草,王羲之 / 行,怀素 / 草,宋徽宗 / 楷瘦金体

  从左到右是:宋克 / 草,苏轼 / 行,文天祥 / 草,颜真卿 / 楷,赵孟頫 / 楷,黄庭坚 / 行降维打击:连笔、排版都能搞定

在书法生成界,一直存在两个极端:一派专攻单字生成,写出的单字质量极高,但完全忽略了整幅作品的留白、节奏和字间连绵;另一派试图直接生成整页画面,结果往往是结构崩塌、错字连篇。

UniCalli 的出现,可谓是降维打击。

在它的笔下,李白的《将进酒》可以无缝切换成各类名家真迹。尤其是在草书生成中,模型能够根据上下文自动判断,并生成极其得体、连贯的牵丝连笔。

  论文中的对比图

那么,底层的技术逻辑究竟是怎么跑通的?

技术方案:生成与识别的 " 双向奔赴 "

UniCalli 的核心思路在于 " 统一 "(Unified)。研究团队提出,书法生成和识别本质上是互为镜像的任务。与其分别训练,不如在同一框架内联合优化:

识别任务约束生成器保持汉字的骨架结构,避免模型因过度拟合艺术风格而导致字形崩坏。

生成任务则为模型提供风格先验和空间布局信息。

在具体架构上,团队摒弃了传统的自回归线性生成,采用了强大的多模态扩散 Transformer(MMDiT)作为底座。它在每一步去噪时都能通过双向注意力机制统览全局画布,这就如同真实的书法家在落笔前会先进行 " 全局谋篇 " 一样。

针对空间排版,团队引入了三个核心设计:

1. 非对称加噪(AsymmetricNoising)与任务切换

在这个统一框架里,怎么区分现在是画图还是认字?团队巧妙地设计了两组独立的加噪时间步。当对书法图像加噪,而保持标准文本干净时,模型就在做 " 生成 ";反之,如果对标准文本加噪,保持书法图像干净,模型就瞬间切换成了 " 识别 " 模式。

2. 引入边界框图(BoxMap)做空间 " 脚手架 "

排版怎么才能错落有致?团队强行给模型加入了一个编码了每个字符位置和大小的边界框图。通过在生成过程中同时预测这个布局框,逼着模型内化字符间距、大小变化的排版原则。

3. 重复旋转位置编码(DuplicateRoPE)

为了让文本、图像和布局框三种不同模态的信息能够完美对齐,团队首先计算出书法图像的 2D 旋转位置编码(RoPE),然后直接把它 " 复制 " 并附加到文本和布局框的特征上,通过添加可学习的调制嵌入,让所有模态在同一个绝对空间坐标系里对话。

此外,为了防止模型在长尾的稀有书法家数据上 " 过拟合 " 导致字形崩溃,团队还引入了条件随机失活(ConditionalDropout)策略。在训练时以一定概率把文本条件替换成纯噪声,硬生生地把 " 风格 " 与 " 字形结构 " 解耦开来。

为了喂饱这个架构,团队更是下足了血本,构建了一个高清古籍数字化书法作品的大规模数据集。

除了主流的楷、行、草,UniCalli 的泛化能力极其惊艳。给它一段现代汉语,它甚至能直接 " 逆向 " 生成结构神似的甲骨文。不仅如此,这套框架还能跨界处理古埃及象形文字

在书法协会专家、大学书法社团的盲测评估中,UniCalli 在风格还原度、字形准确性和自然度上,全面超越了 ChatGPT-4o、Doubao 等主流大模型及先前的 SOTA 生成器。

目前,UniCalli 相关的代码、模型以及数据集已经全面开源

不论你是想让 AI 帮你写一副对联,还是想利用开源数据做进一步的古文识别和排版研究,都可以直接跑起来了。

团队简介:

本论文由许添硕担任第一作者,他目前在香港科技大学(广州)攻读博士学位。通讯作者为陈颖聪(Ying ‑ Cong Chen),为香港科技大学(广州)人工智能学域助理教授。除此之外,中国地质大学的王凯也作为主要成员参与了本项核心研究工作。

开源数据集:

https://huggingface.co/datasets/TSXu/UniCalli_dataset

项目主页:

https://envision-research.github.io/UniCalli/

在线试玩 Demo:

https://huggingface.co/spaces/TSXu/UniCalli_Dev

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论