
智东西
作者 | 王涵
编辑 | 漠影
最近,图像模型打得可谓是如火如荼。
OpenAI 释出新一代图像模型 GPT Image 1.5,剑指谷歌 Nano Banana Pro。国产大模型厂商也纷纷推出自己的新一代图像模型,生成效果一个比一个惊艳。
就拿谷歌的 Nano Banana Pro 来举例,你能分辨出以下图片哪张是 AI 生成的,哪张是现实的图片吗?

左为 Nano Banana Pro 生成,右为实景图
除了生成图画,作为打工人的我们也开始尝试在工作中使用 AI 工具生成 PPT、海报等,试图减轻工作负担,但 AI 生成的 PPT 或海报很难进行二次编辑。一是 AI 生图模型通常都有付费额度限制,二则是受制于 AI 生图技术本身。
但有这样一个应用,可以直接将 AI 生成的图片转换成 PPT 的形式,将文字、图标、背景等元素,分离成一个个可挪动的图层和可编辑的文本框。而这个应用我们经常会用到却时常忽视,那就是 WPS。
智东西上手体验了 WPS AIPPT 的图片转 PPT 功能,整体上,图片转换为 PPT 的过程较为流畅,文本框可以随意拖动,图标元素也可以移动和放大缩小。文本和图标识别较为准确,会有偶尔漏掉一些图标和文字的情况,但整体上已经十分可用。
一、为什么 AI 生成的图片不能改?WPS:这个难题,我们早就破解了
在体验 WPS 功能之前,我们要先理清两个问题:为什么文生图模型所生成的图片无法编辑?为什么 WPS 却可以做到?
1、AI 其实是在 " 画字 "
文生图模型本质上是一个" 图像分布建模器 "。它通过学习海量 " 图像 - 文本 " 配对数据,建立从文本语义到图像像素的映射。其目标是生成视觉上逼真或合理的像素阵列,而非理解并生成结构化的、可编辑的符号信息。
简单来说,目前的文生图模型生成的文字往往是" 像素 " 而非 " 矢量字符 "。文生图模型生成文字不是在写字,而是在 " 画字 ",而这就导致图像中的文字无法二次编辑,但在办公领域,最重要的就是 " 可编辑 "。
2、WPS 结合 OCR 和 AI,打破不可编辑 " 魔咒 "
在 AI 普及之前,有一种格式的文件也是不可编辑的—— PDF。跨格式转换对于现在来说并不是新鲜功能,但早期的办公软件对 PDF 文件几乎只能 " 打印 " 或 " 只读 "。
WPS 投入大量资源研发了自主的PDF 渲染引擎,要知道,实现 "Word 转 PDF"(保真打印)很容易,但实现 "PDF 转 Word/PPT"(反向解析)非常难。通过多年在版面分析、字体还原、表格识别等方面的算法优化,WPS 让 PDF 的可编辑不再是难题。
如今,WPS 的 " 图片转 PPT"、" 扫描件转可编辑文档 " 等功能,已经不仅仅是跨格式转换,而是结合了 OCR(光学字符识别)和 AI 智能排版的高级能力。
11 月,金山办公与华中科技大学合作自研的统一视觉 - 语言文档解析框架算法MonkeyOCR v1.5,在全能多模态文档解析基准 OmniDocBench v1.5 中拿下93.01 分的成绩,获得综合性能全球第一。特别是在表格解析方面,该算法的表格结构还原的准确率高达95%。

正是基于在OCR 技术、文档解析和智能排版领域沉淀的多年技术壁垒,WPS 将这套成熟的能力迁移至 AI 生成图片的编辑场景中,顺理成章地破解了"AI 生图不可编辑 "的行业痛点。
二、把文字图片分离,还能编辑和换字体,WPS 直击文生图模型痛点
话不多说,我们直接来看看 WPS 的效果。
首先我们让 Nano Banana Pro 生成一张中国剪纸模板的北京今日天气预报页面,生成图片如下:

而后,我们打开 WPS AIPPT 官网,找到图片转 PPT 功能专区,将刚刚生成的图片上传。


仅几秒钟的时间,WPS 就完成了对图片的识别和对图层的拆解,我们点击在线编辑,即可跳转到 WPS 里的 PPT 编辑页面,对刚刚转换成功的图片进行编辑。
可以看到,转换为 PPT 后,页面中的大部分文字和图标元素都可以自由拖动和修改,并且页面的风格元素与原图保持一致,不用担心会出现风格 " 魔改 " 等问题。

再来试试英文页面,我们用 Nano Banana Pro 生成了一张制作豆蔻奶茶的流程图,看看 WPS 的转换效果如何:

原图中的图表和文字都比较多且比较密集,从生成效果来看,WPS AIPPT 可以很清晰地将文字和底层图片分离开,并且每一小段文字都形成了独立的编辑框可以单独拖动。
但仔细看,有一些原图中较为模糊的文字并没有被识别出来,依旧停留在了底图上。

那如果不是非常规字体呢,WPS 还可以识别出来吗?我们用 Nano Banana Pro 生成了一张手绘漫画分镜:

从生成结果可以看出,WPS 能够十分清晰地识别出手绘字体的文字,四个分镜画面也可以分别拖动,生成效果较为稳定,可以大大缩短工作流程,提高工作效率。
同样的,用手机拍下来的 PPT 也可以轻松获取。就比如这张世界人工智能大会上对 "AI 教父 " 辛顿教授的介绍页面,我们可以用 WPS 将其转为可编辑的 PPT,不用再到处找类似的模版了。


三、不止做 AI 搭子,WPS 其实是 " 原生 Office AI"
WPS AI 的技术理念并非简单地将 AI 功能嵌入办公软件,而是致力于打造一种全新的" 原生 Office AI"体验,其核心在于Agentic Software(智能体软件)的概念。
WPS AI 不满足于传统的 " 问一句答一句 " 的被动响应模式,它的核心能力在于自主规划。当用户提出一个模糊需求时,AI 会像人一样主动思考,自动进行" 任务拆解 - 执行规划 - 反思修正 "全流程。
如果说自主规划是智能体的" 大脑 ",那么深度工具调用能力就是 WPS AI 的" 双手 "。凭借其37 年的技术积累,金山办公将办公软件中最核心、最高频的操作,比如字号调整、表格对齐、文本框插入、样式应用等,抽象为 AI 可精准理解的工具集,实现了办公软件核心功能的无损调用。
这让 AI 不仅能 " 想 ",还能 " 做 "。它能直接在文档内部进行精确操作,确保格式完美保留,没有乱码或隐藏标签,实现双向无损互通,这正是通用大模型所不具备的" 动手能力 "。
WPS AI 打破了 AI 操作的 " 黑箱 ",将执行过程全面透明化、可视化。用户在下达指令后,能实时看到 AI 的思考路径,用户可以在 AI 思考的任意环节介入纠正,掌控权始终在用户手中。
作为一个办公软件,它将AI 能力原生嵌入 Office 全流程,用户无需在多个工具间切换搬运内容,可在熟悉的办公环境中完成人与 AI 的协作。通过接管 "Dirty work",WPS AI 让用户能专注于内容本身、逻辑思考、审美判断和最终决策。
可以说,WPS AI 的终极目标不是炫技或生成内容,而是成为一个能真正 " 交付结果 " 的智能体。
结语:WPS 给 AI 办公领域提供范例
AI 落地发展到现在,仅仅是 "AI+" 已经不能满足市场的呼唤。如何才能做到 "AI 原生 " 是当下各类应用都在思考的问题。
当前 AI 办公赛道已形成千亿元规模的市场空间,国内外厂商如谷歌微软等纷纷布局,从单点工具突破到全场景套件构建,竞争焦点正转向技术架构与业务流程的融合。
WPS 通过数十年的技术积累和 Office 办公软件的技术基础,将 AI 原生融合到工作流中,简化了用户使用 AI 的流程、削弱了割裂感,真正做到了原生 Office AI。


登录后才可以发布评论哦
打开小程序可以发布评论哦