在 AI 浪潮下,智能手机正迎来新一轮物种进化。硅星人首届 AI 创造者大会(ACC 2024)邀请到了 vivo 副总裁、vivo AI 研究院院长周围,以及面壁智能联合创始人、CEO 李大海,一起探讨端侧 AI 如何重新定义手机,创造真正的 AI Phone。vivo 是中国乃至全球最早布局 AI 手机的终端厂商,面壁智能是中国乃至全球率先专注于端侧 " 小语言模型 " 的 AI 创业公司。从端侧模型的技术突破,到手机作为最佳 AI 载体的独特价值;从交互体验的重构,到智能体生态的构建,这场对话为我们展现了 AI 如何重塑智能手机的图景。特别是在智能体协同和产业标准方面的讨论,亦反映出产业在标准统一和生态共建方面的新共识。
以下为对话实录:
主持人 | 硅星人创始人 &CEO 骆轶航
嘉宾 | vivo 副总裁、OS 产品副总裁、vivo AI 全球研究院院长 周围
嘉宾 | 面壁智能联合创始人 &CEO 李大海
为什么 AI 模型需要被塞进手机里?
骆轶航:这个环节我蓄谋已久,在座的两位都有其独特之处。就我所知,虽然不敢说是全球范围内,但 vivo 确实是中国最早探索 AI 如何深度重塑智能手机的公司,尤其是在大模型层面。我说得对吗?
周围:感谢!
骆轶航:2022 年 11 月 30 日,ChatGPT 的推出,对大模型来说是一个重要的分水岭。但在手机领域,这个时间点要往前推。我们不能认为 2022 年 11 月 30 日探索 AI 手机的就是先行者。我们应该追溯到 Transformer 架构出现的时候,那时就开始研究和探索的才是真正的先行者,而 vivo 探索把手机放到 AI 里,差不多就在 Transformer 问世之后不久。再说到面壁智能,它在中国确实是最早探索如何将模型小型化并部署到终端设备的公司之一。从 2023 年 3 月到 9 月,全球和中国的大模型公司都在快速扩展模型规模,从百亿参数扩展到万亿参数。而将模型再从万亿参数缩减到 120 亿甚至 80 亿参数的,全球只有两家公司:法国的 Mistral 和中国的面壁智能。我很想请教周总,你们(vivo)为什么会这么早就开始布局系统层面的 AI 战略?在 ChatGPT 出现后,又是如何加速这一进程的?
周围:感谢骆总的关注。确实,我们是较早将 AI 与手机结合的企业。谈到为什么投入 AI 研究,这要追溯到 2018 年 3 月 vivo 全球研究院成立之时。到 2019 年,我们已有超过 1000 名人工智能工程师,是当时行业内较早重投 AI 的公司。我们的创始人沈炜认为,人工智能技术、芯片技术以及 5G、6G 将是未来几十年科技创新的基础技术。虽然当时对此认知并不十分清晰,但我们坚定地选择了重点投入这个领域。我恰好是在 Transformer 出现不久的 2018 年加入公司的,当时我第一次看到了通过知识赋能大模型的机会。到 2020 年,我们见证了大模型 1.0 的诞生。早在 2019 年 11 月,我们就在北京发布了第一款将机器学习与手机结合的智慧手机。不过事实证明,传统人工智能与手机的结合远不如大模型来得有想象力。到了 2023 年 GPT-3.5 问世后,我们更加清晰地看到了大模型与手机结合的广阔前景。
骆轶航:是的,因为之前已经在机器学习领域做了大量探索。
周围:我们团队一直在持续关注这个领域。在 2023 年 11 月 1 日,我们发布了 " 蓝心 " 大模型矩阵,包括 10 亿、70 亿、130 亿、500 亿和 700 亿参数的五个大模型,它们都在综合评分中名列前茅。最初我们投入人工智能研发,是因为认识到这是一个重要的技术创新赛道。在大模型与手机结合的第二个节点,我们深入思考究竟能为用户带来什么价值。我们认为,手机作为连接数字世界的桥梁,完全有机会打造成为用户的个人专属智能管家。基于这个认知,我们开展了一系列工作。智能管家应具备五个特点:首先,要能感知识别用户意图;其次,要能形成共同记忆;第三,是具备决策能力;第四,要能像人一样操作手机里的众多应用;第五,要能像助理一样管理日常事务。vivo 正是基于这些特点在推进相关工作。
骆轶航:这五点完全符合我们对 AI Agent 的理解维度。
周围:从用户层面来看,我们有三个认知要点:首先,人工智能大模型的加入是为了让设备更自然、更符合人的直觉。其次,我们要用大模型重构整个系统,包括手机中的各种数字能力以及系统本身。第三,重构数字世界不是最终目的,而是要更好地服务用户,让手机在现实生活中发挥更高效、简单、主动、智能的作用。
骆轶航:这三点分别对应了符合形态需求、数据处理优化和操作便捷性,非常重要。你很好地回顾了整个发展历程:从最初将 AI 确定为发展方向,到机器学习的应用,再到 ChatGPT 之后的加速发展,以及对这一领域理解的不断深化,最终发展成现在的 OriginOS 5 等系统级 AI。
周围:去年我们实现了自研大模型的目标,这背后有充分的逻辑和理由。接下来,我们将大模型与手机结合,构建了个人助理的五个框架。在未来一到三年内,我们将基于用户需求和应用场景,提供更多实际价值,同时解决隐私保护和端侧部署等问题。这些都是我们到 2027 年要持续推进的工作。
骆轶航:这个发展路径非常清晰。接下来我想请教大海关于面壁智能创业初心的问题。面壁智能给我留下深刻印象,特别是在今年春节前首次发布小模型 MiniCPM" 小钢炮 " 的时候。当时那场活动也是我主持的。有两点让我感到震惊:第一,你们与 Mistral 在同一时期推出产品,显然不是跟风之作;第二,你们一步到位实现了多模态,这在当时是很少见的。那时大多数公司都在追求更大的模型,而你们选择做小模型并在端侧部署,而且还是多模态。今年年初的时候还很少有人讨论 AI 与手机的结合。外界对此有两种猜测:一是延续清华大学自然语言实验室(NLP Lab)的研究路径,二是受限于资金和算力。我很想知道,你们最初选择端侧路线的真正原因是什么?
李大海:选择端侧是基于我们的技术洞察。这建立在一个重要前提上:模型规模扩大时,必须保持知识密度的一致性才能持续提升能力。我们认为知识密度可能是大模型发展的第一性原理,而不是简单的模型参数。这就像早期搜索引擎发展时,人们逐渐从关注网页数量转向关注实际能力一样。能力与所需参数量的关系是最核心的竞争力,因为它代表了 ROI 和效率,这是第一性的原理。就像当年美国造出第一台计算机时占据了三个房间,但当时没有人说要造一个占半个城的计算机,今年大模型刚出来的时候,就是这个逻辑。
骆轶航:就像摩尔定律,描述的也是一个半导体处理单元不断微型化的过程。
李大海:是的。在密度提升的前提下,我们有机会做出更好的模型。今年 2 月我们就实现了超越 Mistral 7B 性能的模型,这证明了技术的可行性。这代表着大模型厂商和芯片厂商的双向奔赴。我们在 2 月份就将 GPT-3 级别的能力实现了端侧部署,9 月份又将 GPT-3.5 水平带到了端侧。我们的下一个目标是在 2026 年底前将当前 GPT-4 的能力带到端侧。
骆轶航:那 OpenAI o1 的能力什么时候能实现端侧部署?这个挑战很大啊。
李大海:实际上,o1 这样的模型可能并不适合端侧部署。因为它代表的是 " 慢思考 " 能力,而终端设备最需要的是快速感知能力。这就涉及到端云协同的问题。端侧需要快速感知用户并利用隐私信息,这正是手机上的个人助理特别有价值的地方。但对于复杂的思考任务,我们可以交给云端更大参数量的模型来处理。
骆轶航:这可能确实不是端侧用户当前最迫切需要的体验。
李大海:既然是慢思考,用一秒钟时间访问云端也是可以接受的。我们的发展方向不是追求在端侧复制 o1,而是在 GPT 系列的发展路线上,将更强的泛化能力装入更小的参数模型中。端侧要解决的是 " 具身化 " 问题,需要敏捷的感知和个性化决策能力。比如利用用户在手机各个应用中的上下文信息。
骆轶航:就是将上下文作为本地数据库的语料。
李大海:是的。在达到 GPT-3.5 水平时,我们重点支持三个能力:端侧无限长文本处理、更好的 RAG(增强检索)利用本地资源,以及更好的函数调用来操作本地设备功能,这适用于手机、机器人等各类设备。
骆轶航:这是一种降本增效的能力。
李大海:这是具身化的方向,与 o1 的方向完全不同。
骆轶航:周总,您怎么看待面壁智能这种双向奔赴的想法?就是端侧模型不断变小,而模型性能不断提升,它们最终会在 vivo 手机上相遇,这件事可能实现吗?
周围:我特别认可大海总对模型端侧化的路径。这是我们必须攻克的难关,无论是具身智能还是手机智能终端。未来手机的智能不会局限于某个功能的提升,而是深度融合的个人智能呈现。如果靠云端感知会太慢,而且出于隐私和价值观考虑,数据不能离开终端,必须有端侧解决方案。另外,手机每天要进行数千次本地决策,如果都在云端处理,成本和性能都无法接受。比如输入法选词,人眼需要每秒 26 个字的速度才感觉流畅,这没有端侧智能是无法实现的。
我们在 10 月 10 日发布的 3B 端侧智能,性能是去年 7B 的两倍。去年 7B 主要用于转录、摘要和文生文,但无法处理复杂的逻辑拆解,所以我们开发了 13B,结果 13B 需要 7 点几 G 的内存,3B 需要 3 点几 G 的内存,考虑到手机通常是 8G 内存,我们最终选择了 3B 作为端侧标准尺寸。3B 仅需 1G 内存,400 毫安电流,每秒 80 字,能很好地支持感知、推理、决策、记忆和执行功能。
除了基础端侧化,我们还要为智能端侧化做储备。今年 vivo 不仅实现了 3B 的端侧化,还完成了审核能力的端侧化。虽然审核用的是百亿级模型,但只需要几十兆内存。我们还实现了语音大模型的端侧化。我们的策略是将现有云端能力尽可能端侧化,只保留慢推理在云端。
为什么实现端侧智能,非得靠手机?
骆轶航:慢推理很多时候是深度推理,基于思维链的深度推理的放在云侧,其他能放到端侧的极限化放到端侧。周围老师刚才讲这个 13B 的模型占 7G 内存放到手机,某种程度上来说,端侧模型是手机形态物理极限,推着大家要实现它,大家拼命为它想办法的结果。可是为什么非得是手机?为什么手机是 AI 模型实现最好的形态?而不是其他的设备?当然周总可能会说,我是做手机的,它肯定是最好的形态,我们怎么看待这个问题?
周围:我们的创始人沈炜沈总认为,AI 是不能创造一个全新品类的。它只能把原来已有的品类做到体验更好,这是我们的长期主义,或者是平常心的坚持。所以我们认为因为手机现在是一个比较大的行业,所以我们先在手机上落地。实际上我们可以看到,像 AR、VR、AI Pin 这些品类都存在,是因为这些品类,商业化的规模不是太大。所以 AI 进入影响力小,规模小,但是我相信 AR 眼镜现在已经很好的在进入,很快看到繁荣了。
骆轶航:vivo 也不仅仅是家手机公司。大海老师怎么看?为什么手机是最合适的 AI 场景?
李大海:从抽象角度看,手机拥有最丰富的数据,因此 AI 在手机上能发挥最大价值。在与做 AI 硬件创业的朋友交流时,他们必须回答一个问题:为什么这个 AI 硬件功能不能在手机上实现?这说明手机天然具有很强的竞争力。
周围:手机是开放的生态,我们无意取代任何行业,只是在做连接和平衡。我们认为,未来具备大模型支持的手机,在能力分发和行业分发方面,与传统智能手机的商业模式并无本质差异。
骆轶航:会有进一步的演进吧?
周围:无非是从原来的应用程序、应用商店,转向智能体分发。
骆轶航:这个话题很值得深入讨论。
李大海:我想澄清一下刚才的观点。从新硬件角度看,关键是要判断新智能硬件是否有存在必要,还是其提供的价值手机都能实现。如果手机能实现,这个智能硬件就难以在商业上立足。手机确实有大量场景和数据,AI 必然能在其上发挥更大的杠杆作用。当然,我们也看到 AR 眼镜和 AI Pin 这类产品在弥补手机的不足,因为手机通常需要用户主动交互才能获取信息。比如我们聊天时,手机并不能、也不应该监听内容。这些新设备可以作为手机之外的重要数据来源。当这些强输入设备的数据与手机数据结合,手机仍然能发挥强大的枢纽作用。所以我认为手机地位非常重要。
骆轶航:它在连接场景、连接数据、归集数据方面是很好的枢纽。
李大海:对!
骆轶航:手机是个很特别的设备,这个尺寸拿在手里很方便,可以进行多种操作,重量适中,有足够的内存和算力,能实现很多存储场景和其他功能。
李大海:我们开玩笑说,手机已经成为现代人的 " 器官 "。你刚才提到的接入成本是个很好的说法,手机与人的结合成本很低。相比之下,脑机接口、AR 眼镜等新方案的使用门槛都很高。这种低接入成本是 AI 难以取代的价值。
骆轶航:我玩过各种 AR 眼镜,那些设备接入体验很酷,场景也很有趣。我现在用的手机是 Pixel 9 Pro,它能一键唤醒 Gemini,Gemini 可以全局操作数据,能帮我查找特定内容,操作深度很强。我发现如果模型和手机都足够好用,结合起来效果特别棒,这给了我很大启发。
李大海:因为 Gemini 和 Pixel 是 Google 的官方手机,它利用系统能力实现了 Gemini 和 Pixel 的双向集成。
为什么手机上的 APP 会演化成个人智能体?
骆轶航:这样看,vivo 也是双向集成。一个模型,通过类似 OriginOS 这样的系统,与设备融合也是可行的。说到手机体验的改变,我们来具体分析一下周围总之前提到的观点。过去手机系统主要做应用分发,一个手机装几十个 APP,系统要能调用更多功能。而现在像 vivo 的 " 蓝心小 V",以及 Google 的 Gemini,它们在手机上调取 APP 的能力很强。未来这种调取,会从调取 APP 转向调取个人智能体。我看到有人持不同观点,认为未来手机上不会有那么多 APP,刚才和王丛总私下交流时也谈到这点。随着 AI 的深入发展,您觉得人们对手机的使用体验会有哪些变化?我们还是很重视图形交互界面(GUI),但这种形态可能会如何演变?
周围:手机是人与数字世界的连接桥梁,我们通过手机使用各种服务和功能,包括听、说、看、触、拍、扫、感知等。随着大模型的引入,必然会出现极致的体验提升。比如今年 vivo 发布的手机已能理解苗语、粤语等少数民族语言和方言,还能识别情绪并做出回应。就像从电阻式到电容式触摸屏的变革带来了更自然直观的交互体验一样,大模型也带来了革命性变化。现在手机不只是点击滑动,还能实现流畅的查按拖拽和圈选等操作,这背后都有大模型的支持。
在意图识别方面,比如当用户圈选一个地址时,系统会立即判断用户是想保存、导航还是分享。我们 vivo 手机的智能岛会相应推出地图、便签、好友等功能。我们并没有取代生态,而是更好地整合了微信、地图、便签等应用。简言之,过去是人找服务,现在是服务主动呈现。更进一步的是主动决策,比如系统发现你喜欢川菜,会主动询问是否需要订餐。这是我们 2024 年的基础建设工作,到 2025、2026 年,我们会不断完善这些场景和应用,提升用户体验。
骆轶航:也就是说,多模态能力和模型能力会推动更多手势和操作的识别,不只是触屏交互,而是识别动作意图并推荐相应服务,实现自主规划。
周围:对。智能体的出现,比如百度高德、腾讯音乐推出的智能体,我们作为手机连接中心,推出智能体广场,让各种智能体在这里与用户高效匹配。
骆轶航:同时也是管理中心。
李大海:也是连接中心和分发中心。
周围:作为手机厂商,我们要做基础建设工作,要为百度地图、高德地图等数据的接入制定行业公共标准。
骆轶航:那么 " 智能体广场 " 是什么?是不是就是智能体的应用商店?它有什么接口标准?什么是智能体?什么是符合标准的智能体?我们是否在推动与国家相关研究机构和官方建立这样的标准?友商在做什么?
周围:我来解释一下,我们今年发布了 vivo 关于智能体的白皮书。但我们不是要独自构建生态,而是要共建。下个月,我们会讨论各家方案,确定手机行业标准,然后与互联网厂商对接,最后上升到工信部、信通院等行业标准。
李大海:我们也可以参与这个项目。去年面壁智能就获得了行业认可,被认为是最懂 Agent 的大模型公司。
骆轶航:年初发布会时,以为你们在 Agent 方面有动作,结果出来的是小模型。
李大海:我们今年发表的一篇论文在硅谷引起很大反响,主要讨论未来 Agent 之间如何通信和协同。从技术角度看,未来每个 APP 厂商都会很快提供自己的智能体(Agent)。关键是靠近用户的 Agent 如何利用这些 Agent 组合,创造全新的个性化服务。这种 Agent 间的协同将非常重要。最近我们看到有厂商在做 GUI Agent,模拟用户点击,但从长远来看,原生 Agent 与其他 Agent 协同服务用户是更好的形态。这必然会带来手机厂商和应用提供商商业模式的变化,这是个很有趣的问题。
骆轶航:我们看到硅谷很多公司都在做不同领域的 Agent,都强调 Agent 间协同。但 Agent 协同之上的框架应该遵循什么标准,在什么场景实现?比如法律和财会两个 Agent 理论上都服务于一个公司,应该协同,但可能需要一个平台或智能体广场来实现。
李大海:需要有发现机制和统一协议。
骆轶航:就像过去的通信协议标准一样,该遵循的标准还是要遵循。
周围:vivo 提出了解决方案,只是抛砖引玉。我们希望芯片厂商、大模型厂商、手机厂商、互联网应用和服务供应商能携手合作,共同完善这个解决方案。
骆轶航:共同建设这样的生态。
李大海:书同文,车同轨才能建立统一大市场,市场才能繁荣。
骆轶航:统一大市场最重要的就是书同文,车同轨。全球这么多通信协议标准的建立都是有意义的,这方面还可以做更多事情。今天最重要的是讨论了端侧模型与智能手机的结合能创造哪些场景、应用,以及新的通信协议和标准,如何推动我们进入个人智能体连接的新阶段。现在你们理解我为什么蓄谋已久这个环节了,一个从手机层面,一个从模型层面,都在智能体方面做有趣的探索,这是很好的组合。这个环节就到这里,希望产业间能保持互动和协作,AI for Real。谢谢周总,谢谢大海!
登录后才可以发布评论哦
打开小程序可以发布评论哦