【太平洋科技快讯】近日,相关消息透露,OpenAI 的 o3 和 o4-mini 模型生成的文本中,含有特殊的 Unicode 字符,如窄不换行空格 ( NNBSP, U+202F ) 。这些字符在普通情况下难以察觉,但在专业工具下却无所遁形。消息源表示,这可能是 OpenAI 设置的隐形水印,用于追踪 AI 生成内容。
消息源在分析 OpenAI 的 o3 和 o4-mini 模型时,注意到生成的文本中夹杂着一些特殊的 Unicode 字符。这些字符,如窄不换行空格 ( NNBSP, U+202F ) ,在普通文本视图中与标准空格并无二致,但在 SoSciSurvey 或 Sublime Text 等专业工具中,可以检测到其独特的代码。
关于这些特殊字符的用途,存在两种可能的解释。一种解释是,OpenAI 有意将这些字符作为隐形水印嵌入到文本中。OpenAI 此前曾探索过多种水印方案,例如在 2024 年初为 DALL · E 3 图像添加 C2PA 元数据,以及 2025 年 4 月在 GPT-4o 模型上测试可见的 "ImageGen" 标签。
另一种解释是,这些特殊字符并非用于水印,而是模型从训练数据中习得的一种排版习惯。窄不换行空格通常用于防止文本在特定位置换行,例如货币符号与金额之间,以提高文本排版的美观性和可读性。
消息源指出,通过特殊字符检测 AI 生成内容的方法,虽然误报率极低,但存在易被绕过的缺陷。用户可以通过简单的查找替换操作移除这些特殊字符。此外,这种方法的准确性也可能受到质疑,因为特殊字符的出现并非完全由 AI 模型控制,也可能是模型从训练数据中习得的结果。
尽管存在技术局限性,但 AI 生成内容的溯源与版权保护仍然是行业内的重要议题。谷歌的 SynthID、微软的元数据嵌入和 Meta 的强制标签等,都反映出各大公司对内容溯源的重视。然而,研究显示许多水印技术易受攻击,如何在技术实现与伦理规范之间找到平衡,仍是行业面临的一大挑战。
登录后才可以发布评论哦
打开小程序可以发布评论哦