硅星人 昨天
对话高德飞行街景产品经理:全球第一个“飞行探店”是怎么做出来的?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

扫街榜上线 100 天,高德决定再往前迈一步。

去年 9 月,高德扫街榜上线时,做了一个在本地生活行业看起来有些冒险的决定:跳出评分、不卖排名、不计算商家投了多少流——而是看导航数据,用户真正开着车、迈开腿去了哪家店,哪家店就排在前面。

这套 " 用脚投票 " 的评价体系,来自于高德二十年积累的时空数据和 10 亿用户的真实行为轨迹。100 天后,逻辑被验证了:6.6 亿用户、86 万新商家入驻、商家订单量增长超过 330%,营业额环比增长超 270%,这些数字,宣告着高德扫街榜的胜利,也印证了真实自有万钧之力。

但高德显然不打算停在这里。

1 月 7 日,高德扫街榜全新上线" 飞行街景 " 功能,主打让用户在出发前就能 " 飞 " 进店里看一眼。

这不是全景视频,也不是拼接图片,而是高德把自研的世界模型——在国际评测 WorldScore 中位列第一的前沿 AI 技术——第一次用到了本地生活场景。用户可以从街道上空俯瞰,一路穿过巷弄,最终穿门入室,看到一家店真实的内部环境。

高德飞行街景产品经理孙冲告诉硅星人,商家只需用手机拍几十秒视频、传几张门头照,就能生成专属飞行街景,并且这项能力将完全免费。

如果说,此前高德扫街榜 " 用脚投票 ",解决的是信任问题——用户相信这份榜单是真的。那么信任之后还有一层不确定性:我信这家店好,但它到底适不适合我?包厢是什么氛围?门口好不好停车?这些藏在评分和评价缝隙里的答案,文字 " 说不清 ",图片会 " 骗人 ",现在飞行街景负责回答你。

对高德来说,飞行街景不是一次简单的功能迭代,它指向的是高德对地图这件事的新理解:从用数据让榜单可信,到用世界模型让真实可感——地图不再是一张静态的平面,而是一个活的、可供探索的数字孪生世界。

以下是我们与高德飞行街景产品经理孙冲的对话:

为什么做:从 " 信不信 " 到 " 真不真 "

硅星人:扫街榜在 2025 年用户数量激增,为什么在 2026 年的升级中,你们选择把 " 飞行街景 " 作为一个核心发力点?是看到了用户在决策环节的什么新痛点?

孙冲这也是我们此次升级的核心思考。之前扫街榜达到 7000 万日活,验证了一件事:当榜单回归真实,用 " 身体力行 " 的数据说话时,用户是愿意相信的。

但我们发现,用户的决策链条上,还存在 " 最后一公里 " 的鸿沟。当榜单告诉他这家店 " 值得去 " 之后,他还会有更具体、更感性的问题:" 门头好找吗?"、" 周边环境怎么样?"、" 网上的图片是真的吗?" ……这些是图文评价无法完全填补的真实感的缺失。

所以,扫街榜 2026 的发力点,从解决 " 信不信 " 的问题,升级到了解决 " 真不真 " 的问题。" 飞行街景 " 不是一个炫技的功能,而是我们为用户搭建的一座桥梁,跨越从线上信息到线下体验之间的巨大鸿沟。

当用户能像一只鸟一样,从城市的街道,平滑地飞到一条巷子,再 " 穿墙 " 进入一家店的内部,亲眼 " 看 " 到它的环境和氛围时,那种决策的笃定感,是任何文字或图片都无法给予的。我们不是在给榜单增加一个功能,而是在重构用户与物理世界之间的 " 连接介质 "。

硅星人:为什么要强调 " 沉浸式俯瞰 "?这种视角的改变,对于用户判断一家店 " 好不好吃 "、" 值不值得去 " 有什么帮助?

孙冲" 沉浸式俯瞰 " 这个视角,是我们有意为之的设计,它改变了用户感知一个 " 地点 "(POI)的方式。

过去,地图上的一个点,是孤立的,它与周边的世界是割裂的。但现实中,一家餐厅的价值,并不仅仅在于它本身,还在于它所处的 " 场域 " ——它是在一个安静的胡同里,还是在喧闹的商业街?旁边有没有停车场?晚上的街区氛围是否安全?

" 俯瞰 " 视角,给用户提供了这种宝贵的宏观上下文。它让用户能够更直观的看到店铺与周围环境的真实关系,这是做 " 去不去 " 这个决策时非常重要的依据。而 " 沉浸式 ",则解决了微观的真实感。当你从俯瞰无缝切换到街景,再进入室内,你看到的不再是经过商家精心挑选和美化的 " 卖家秀 ",而是一个连续、无死角的 " 事实场 "。

所以,这个视角改变,不是直接告诉用户 " 好不好吃 ",扫街榜 1.0 已经用数据回答了这个问题。它是用一种超越图文的方式,帮助用户判断 " 值不值得我为它跑一趟 "。它把决策从 " 阅读信息 ",变成了 " 预演体验 "。

硅星人" 飞行街景 " 这个名字听起来很有未来感。在产品定义阶段,你们是如何构想这种体验的?从决定做,到具体做的过程中,产品是如何梳理出来的?

孙冲" 飞行街景 " 并不是空中的飞行地图,这个名字背后,是我们对未来地图形态的构想。我们认为,未来的地图,不应该再是一张平面的、被动的,而应该是一个活的、可供探索的动态数字孪生世界。

构想的起点很简单:我们如何能让用户在出发前,就拥有 " 亲临其境 " 的感受?我们梳理了用户的决策路径,发现痛点非常清晰:从宏观的城市区域,到中观的街道环境,再到微观的店铺内部,用户的视线是不断聚焦的。所以我们的产品逻辑,也必须遵循这种由远及近、由外及内的自然探索逻辑。

" 飞行 " 这个词,精准地描述了这种体验——它不是生硬的场景切换,而是一种连续、流畅、视角自由的探索。你可以像导演运镜一样,从高空视角,丝滑地降落到一条你感兴趣的街道,然后像一个熟客一样,推门而入。

这个过程,我们内部称之为 " 从描绘世界到理解世界 "。高德过去花了二十年,用数据把物理世界 " 画 " 了下来;现在,我们要用 AI,让每个人都能在这个数字世界里 " 飞翔 " 和 " 行走 "。

硅星人:在项目推进时,技术是不是最大挑战?

孙冲:很多人会认为技术是最大的挑战,毕竟构建一个如此规模的数字孪生世界,听起来像是科幻电影里的情节。但说实话,对高德而言,技术反而不是最难的部分。我们二十年来沉淀的,关于物理世界如何运转的动态认知,以及我们基于此构建的 " 空间智能 " 能力,是我们的护城河,也是我们敢于闯入这片 " 无人区 " 的底气。

我们遇到的最大挑战,其实来自于生态和认知。如何让数以百万计的商家,尤其是那些不擅长互联网运营的 " 烟火小店 ",理解并拥抱这种全新的展示方式?

项目初期,我们接触一些商家,提出要为他们免费打造 " 飞行街景 " 时,很多人第一反应是拒绝和怀疑:" 这么高科技的东西,怎么可能不收费?"" 你们是不是想骗我们拍视频?"。这种不信任,就是我们需要攻克的最大难点。

直到我们真正为他们免费生成了可以身临其境的 " 实景店铺 ",让他们亲眼看到自己的小店如何被真实、立体地呈在用户面前,他们才真正接受。这个过程让我们下定决心,必须用 " 免费 " 和 " 普惠 " 的方式,把这项技术能力开放给所有商家。最大的挑战不是技术本身,而是如何用技术去赋能、去改变一个生态的认知,让大家相信,科技的进步最终是为了让好的商家,无论大小,都能被公平地 " 看见 "。

怎么做:如何用世界模型还原真实?

硅星人: 高德世界模型在 WorldScore 评测中拿了第一。具体到 " 飞行街景 ",这个模型是如何工作的?

孙冲:可以把 " 高德世界模型 " 想象成一个 AI,它学习的不是互联网上的文本和图片,而是物理世界的运转法则。它拿了第一,说明它在 " 理解和还原物理世界 " 这件事上,做到了业界领先。

在 " 飞行街景 " 里,它的工作方式可以概括为两步:" 跨模态统一理解 " 和 " 几何一致性生成 "。

第一步是理解。它能同时 " 看懂 " 各种不同来源的数据——街景车拍的图像、遥感影像图、视频、甚至用户上传的照片等。它不是简单地把这些素材拼起来,而是像人脑一样,把这些碎片化的信息,融合成一个对世界统一的、内在的认知。

第二步是还原。基于这个统一的认知,它开始 " 生成 " 世界。最关键的是 " 几何一致性 ",这意味着它生成的视频和空间结构,天然共享同一套几何基础,构建一个结构上与现实世界完全一致的数字孪生体。

准确性如何保证?就来自于这种 " 忠于现实 " 的生成机制。它不是凭空想象,它的每一步生成,都有来自真实世界的多维度数据作为 " 事实基座 "。所以我们称之为 " 事实的 AI",它的使命就是绝对忠于现实。

硅星人:传统的 3D 建模成本极高,很难规模化。高德是如何利用 AI 技术解决 " 规模化 " 与 " 精细度 " 这对矛盾的?我们在飞行街景看到的图像,有多少比例是 AI 生成的?

孙冲:您点出了行业里一个存在已久的 " 三角难题 "。传统的 3D 建模像 " 手工作坊 ",精美但昂贵,无法规模化。而高德的解法,是把这个过程变成了 "AI 驱动的智能工业化生产 "。

我们解决这对矛盾的核心,就是极大地降低了数据采集的门槛,同时极大地提升了自动化生成的能力。过去,要建一个店的模,可能需要专业的设备和团队工作数天。现在,一个商家,只需要用手机拍一段几十秒的视频,再上传几张补充照片,我们的世界模型就能在后台自动完成从几何提取、纹理贴合到还原的全过程,最快几小时内就能生成一个可供 " 飞行 " 的实景店铺。

至于 AI 生成的比例,可以说,我们看到的整个连续、动态的场景,几乎 100% 都是由 AI 引擎实时渲染和生成的。但需要强调的是,这个生成过程,是严格受到商家提供的真实视频和照片这些 " 事实 " 约束的。AI 在这里扮演的角色,不是一个自由创作的 " 画家 ",而是一个技艺高超的 " 修复师 " 和 " 建筑师 "," 事实 AI" 它是把真实世界的碎片,在数字空间里完美地还原起来。

硅星人:但世界是在实时变化的。你们怎么处理 " 静态建筑 " 与 " 动态信息 " 呢?比如一家店换了招牌,或者门口排起了长队,飞行街景能多快地映射出这种变化?

孙冲:我们的解法,是构建一个 " 动静结合 " 的 " 活地图 "。

" 静态 " 的部分,是城市的骨架,比如建筑、道路。这是我们通过街景车等重投入,构建起来的稳定底座。 " 动态 " 的部分,则是城市鲜活的血肉,比如一家店新换的招牌、门口排队的人流、季节性的装饰。

处理这种融合,我们依赖一个强大的 " 变化感知与反馈飞轮 "。这个飞轮由几部分驱动:首先是我们的高频数据,比如用户导航到某地后的大量 " 位置偏了 "、" 此路不通 " 的纠错反馈,这能帮我们发现大的变化。其次是海量的用户 UGC 内容,一个用户上传了带新招牌的照片,或者在评论里提到 " 排队 2 小时 ",这些都会成为我们系统捕捉变化的信号。

一旦系统捕捉到 " 变化 " 的信号,就会触发更新机制。一家店换招牌,商家可以自己上传新视频快速更新;门口排队的情况,未来甚至可以结合实时交通热力、用户实时上传的笔记等信息,进行准实时的映射。

我们的目标不是实现绝对意义上的 " 零延迟 " 同步,而是建立一个与现实世界变化频率相匹配的、高效的迭代机制,确保用户看到的,是无限接近于 " 当下 " 的真实。

硅星人:在飞行街景中,AI 除了负责渲染画面,后续是否还能配合对场景的理解?比如,AI 能不能自动识别出这是一家 " 适合露营风 " 的咖啡馆?

孙冲:当然能,而且这正是空间智能从 " 看见世界 " 迈向 " 理解世界 " 的关键一步。渲染画面,只是我们空间智能的第一层能力,即 " 感知与还原 "。

第二层能力,就是您提到的 " 认知与推理 "。这也是我们为什么要自研世界模型的原因,如果缺少了世界模型这一 " 大脑 ",空间智能也将变得不完整。

当我们的 AI 已经把物理世界高保真地还原出来之后,它就可以像人一样,去 " 看 " 和 " 理解 " 这个场景。它完全可以识别出场景里的元素——原木桌、帐篷、露营椅、绿植,然后给这家咖啡馆打上 " 露营风 " 的标签。

这会带来什么?它将彻底改变搜索和推荐的范式。未来,你的搜索将不再是 " 咖啡馆 ",而是 " 找一个下午能晒到太阳的、安静的、适合带宠物一起去的露营风咖啡馆 "。我们的 AI 会基于对空间场景的深度理解,为你精准地找到这样的地方。AI 在这里,从一个 " 建筑师 ",进化成了一个懂生活、懂你的 " 场景规划师 "。

让 " 会做菜的 " 赢过 " 会拍照的 "

硅星人:除了让用户看着爽,飞行街景是否带来了一种全新的 " 预消费 " 行为方式,比如出发前先云逛街?给商家带来了哪些提升?

孙冲" 预消费 " 这个词非常准确。飞行街景带来的,正是一种全新的 " 所见即所得 " 的决策模式。用户不再是 " 读攻略 ",而是 " 云勘景 "。这种行为变化,对商家的价值是实实在在的:

第一,提升决策效率和到店转化率。当用户能身临其境地看到店铺环境、找到停车位、甚至提前看好心仪的包厢时,他的不确定性被降到了最低。这种确定性,会极大地促进他从 " 有兴趣 " 到 " 马上出发 " 的转化。

第二,降低期望错配和差评率。很多差评,并非源于服务不好,而是 " 图文不符 " 导致的期望落差。飞行街景用最真实的方式展示了自己,吸引来的,就是真正认同其环境和风格的顾客,这从源头上就过滤掉了期望错配的可能。

第三,让特色商家有了全新的表达。一家店的价值,可能是窗外的一片湖景,可能是别有洞天的庭院。这些 " 氛围价值 " 在传统图文中很难表达。飞行街景让这些独特真实的优势,第一次直观、完整地传递给用户。

硅星人:现在的用户很怕 " 照骗 ",很多网红店照片精美但实地很糟。高德的 " 飞行街景 " 不会遇到 " 美化 " 的诱惑吗?

孙冲:这个问题问到了我们的生命线。扫街榜的根基就是 " 可信 ",而飞行街景的使命就是 " 真实 "。 我们对抗 " 美化 " 诱惑的方式,不是靠人的意志,而是靠技术的机制。

我们的世界模型,本质是一个 " 事实 " 引擎,而非一个 " 美颜 " 引擎。它生成和还原场景的依据,是商家上传的连续视频和多角度照片,必须使用高德提供的商家工具(有商家认证校准、位置校准、以及实时无滤镜川叔)。这种多维度的、动态的数据源,本身就极大地限制了 "P 图 " 和 " 美化 " 的空间。

更重要的是,我们的算法在设计上,会优先保证 " 几何一致性 " 和 " 结构真实性 ",而不是 " 光影完美性 "。我们追求的不是一张完美的宣传照,而是一个可信的、可供探索的空间。

可以说,我们的产品基因决定了,我们永远会站在 " 真实 " 这一边。因为一旦我们允许 " 美化 " 和 " 滤镜 ",飞行街景就失去了它存在的根本价值,又变回了用户不信任的 " 照骗 "。守护真实,就是守护我们自己。

硅星人:但是一些土菜馆门面并不好看。实景展示会不会反而暴露它们的 " 土 "?

孙冲:这恰恰是飞行街景的魅力所在。我们相信," 真实 " 本身就拥有最强大的力量。

在传统的图文平台," 豪华 " 和 " 精美 " 往往更容易获得流量,这对于那些味道极好但环境朴实的 " 宝藏小店 " 是非常不公平的。而飞行街景,恰恰给了这些小店一个 " 说真话 " 的机会。

当用户通过飞行街景,看到 " 径乡缘 " 朴素的门头、简单的桌椅,但同时也能看到后厨忙碌的热气、食客们满足的表情,他感受到的不是 " 土 ",而是扑面而来的 " 锅气 " 和 " 烟火气 "。这种真实的氛围,本身就是一种极具吸引力的 " 卖点 "。

我们的产品设计,不会去刻意美化或丑化,而是致力于 " 还原场景的叙事感 "。让用户自己去感受,是相信一张过度修饰的网红照片,还是相信一个充满真实生活气息的场景。我们坚信,用户会做出聪明的选择。飞行街景,就是要把话语权,从 " 会拍照的 " 手里,还给 " 会做菜的 "。

硅星人:某种程度来说,这是在帮不擅长互联网运营的老店,更公平获得流量。

孙冲:对。这绝对是一种 " 技术减负 ",甚至可以说是一种 " 技术平权 "。

过去,商家在本地生活平台的竞争,在某种程度上变成了营销内卷——谁更会拍图、修图、写文案,谁就更容易出头。这对于大量不擅长互联网营销的实体商家来说,门槛很高,成本也很高。

高德的做法,是把复杂的技术问题留给自己,把最简单的操作留给商家。我们不要求商家成为摄影师或设计师,他只需要做他最熟悉的事——用手机,像给朋友拍视频一样,把自己的店真实地拍下来。剩下的,从空间还原到线上展示的所有复杂工作,都由我们的云端自动完成。

我们用技术,抹平了商家在 " 线上表达能力 " 上的差距。让竞争回归本质——你的店好不好,你的环境真不真。这不仅是减负,更是让商家能把更多精力,放回到经营本身。

硅星人:用户在飞行街景中的浏览、点击和互动,会产生新的数据维度吗?会带来哪些新的影响?

孙冲:会的,这会形成一个价值巨大的 " 正向飞轮 "。用户的每一次 " 停留 "、每一次对某个包厢的 " 放大查看 ",都是一种新的 " 身体力行 " 的数据。这是一种比 " 点击 " 和 " 收藏 " 维度更高、意图更明确的行为数据。

这些数据会从两个方面反哺我们的系统:

第一是,反哺扫街榜。我们可以知道哪些店铺的 " 真实环境 " 吸引了更多的用户 " 云探店 ",哪些区域是用户在 " 云逛街 " 时的热门路线。这些都可以成为榜单排名和推荐的新因子,让榜单不光知道哪里 " 人气高 ",还知道哪里 " 环境好 ",推荐的维度会更丰富、更立体。

第二是,反哺世界模型。用户的互动行为,是我们验证和优化世界模型的最佳标尺。比如,大量用户在某个位置反复 " 迷路 ",或者 " 穿模 ",系统就能知道这个区域的还原可能存在问题,从而触发模型的迭代和优化。用户的每一次使用,都在帮助我们把这个数字孪生世界 " 打磨 " 得更真实。

硅星人:2023 年,高德推出了基于 3DGPT 的奇境 MAX,飞行街景的产品更新得益于高德的哪些数据、技术、产品经验的积累?

孙冲飞行街景不是一个从 0 到 1 的突发奇想,它是高德在空间智能领域长期主义投入的必然结果。您提到的奇境 MAX,就是我们在这个方向上重要的探索和积累。

我们的积累主要在三个层面:

一方面是数据基座。过去二十年,我们沉淀了全世界最稀缺、最庞大的时空数据。这些关于人、车、路、店在物理世界中如何运转的动态认知,是任何大模型都渴望,但无法速成的 " 事实土壤 "。这是我们一切空间智能创新的起点。

其次是技术演进。从奇境 MAX 到今天的世界模型,我们在持续进化。我们在 " 跨模态理解 "、" 几何一致性生成 " 等核心技术上不断取得突破,使得还原世界的规模、细节和效率都实现了数量级的提升。

最后是产品认知。我们通过一次次的产品迭代,深刻地理解了用户在真实空间探索中的核心需求和痛点是什么。我们知道用户要的不是一个技术 Demo,而是一个能解决实际问题的、流畅自然的体验。这些产品经验,指导我们把复杂的技术,封装成 " 飞行街景 " 这样简单、好用的产品。

可以说,飞行街景,是高德二十年数据积累、持续技术攻坚和深刻产品洞察三者融合的产物。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 高德 产品经理 数字孪生
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论