沈向洋，发了一个可以识别万物的大模型

作者 | 邓咏仪

编辑 | 苏建勋

" 讲卡伤感情，没卡没感情。"

2024 年的 IDEA 大会上，IDEA 创院理事长、美国国家工程院外籍院士沈向洋，抛出了一句格外现实又幽默的话。

另一方面，这也展现了他对未来 AI 时代一种鲜明的乐观情绪。

大模型的发展已经不如 ChatGPT 发布后那样，经历陡峭增长。进入到人类探索 AGI（通用人工智能）的第二年，大语言模型的迭代已经放缓。相应地，AI 应用、落地，占据了全球话题的中心。

但沈向洋觉得，虽然 GPT-5 尚未见身影，但算力的增长还是呈乐观趋势——根据 EPOCH AI 数据统计，大模型对于算力的需求，每年都是呈现四倍多的增长。

按这样的增长速度，以往按 18 个月算力涨一倍的摩尔定律也不再奏效。沈向洋重点解释了黄仁勋的 " 黄氏定律 "，以模型训练来衡量算力的增长。若恒定按照一年涨四倍的算力速度增长，十年或许会预见 100 万倍的算力需求增长。不过这一定律，仍需要时间来检验。

" 大模型要往前走，不单是参数扩大、模型规模大了之后，对训练的要求变高了，数据量也要增长。某种意义上来讲，对算力的需求呈跟参数的平方关系，这就是不得了的算力需求。" 他说。

沈向洋来源：作者拍摄

" 过去这几年大家都讲‘人工智能三件套’，实际上都绕不开‘算力、算法、数据’这三件事情。" 在这次大会上，沈向洋穿针引线，花了 3 个小时围绕 " 算法、算力、数据 " 这三个方向，来介绍 IDEA 的全新进展。

视觉模型仍是 IDEA 的研究重点—— IDEA 正式发布的最新通用视觉大模型 DINO-X，可以拥有真正的物体级别理解能力。

这意味着，不像普通的视觉模型有训练数据的限制，DINO-X 可以实现开放世界（Open-world）实现目标检测——无需用户提示，直接就可以检测所有物体，包括罕见的长尾物体（出现频率低但种类繁多的物体）。

这也会大大拓展模型的落地场景。

比如，" 具身智能 " 是 2024 年火了一整年的 AI 行业话题。对于视障人士服务、服务类机器人等高难度场景，以往非常依赖大量的高质量数据标注，耗费巨量人力。但在 DINO-X 的帮助下，视觉模型可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果，从而降低手工标注的工作量。

来源：IDEA

对传统的视觉模型应用广泛的场景，DINO-X 也在自动驾驶、智能安防、工业检测等领域，会成为一个有力的补充，系统能够应对各种复杂场景，识别出传统模型难以检测的物体。

IDEA 团队还推出行业平台架构，通过一个大模型基座，结合通用识别技术结合，让模型不需重新训练，就可边用边学，支撑多种多样的 B 端应用需求。

" 用一个模型解决一百万个问题 "，是这次模型发布的关键理念。

有别于主流的 " 全图理解 " 的方法，IDEA 通过在物体级别的理解上加入语言模块，来优化大模型的幻觉问题。结合自研的 " 视觉提示优化 " 方法后，无需更改模型结构，不用重新训练模型，也可以实现小样本下的场景化定制。

来源：IDEA 研究院

不过，随着模型体量不断变大，高质量数据已经成为桎梏。" 现在人工智能的发展，已经耗尽了人类社会的所有高质量数据。" 沈向洋表示。

合成数据随之而生。IDEA 团队此次也发布了自研的语境图谱技术，解决过往文本数据合成方案的多样性匮乏等问题。该技术相当于是合成数据引入 " 指导手册 "，以图谱为纲，指导用于合成的语境采样。

从实验结果显示，IDEA 团队的方案能持续为大模型带来能力提升，表现超过目前的最佳实践（SOTA）；从 token 消耗来看，平均节约成本 85.7%。目前，该技术内测平台已开放，通过 API 提供服务。

在 2024 年，IDEA 在 AI 应用落地层面明显提速。相较去年的科研论文阅读平台，今年 IDEA 公布了更多垂直领域的应用探索。

在预测方面，IDEA 研发了多个化学领域专家大模型，在分子属性预测和化学反应预测能力上，都可以达到业界领先水平。

AI 模型也可以应用在科研数据上，加快科研数据的处理速度。IDEA 新发布的化学文献多模态大模型，就联合晶泰科技发布专利数据挖掘平台 PatSight。这一模型将药物领域的专利化合物数据挖掘时间，从数周缩短至 1 小时。

而今年的一大热门方向—— AI 编程，正是因为模型智力水平不断提升，而成为下一个热门的应用方向。IDEA 研究院的 MoonBit 团队，就展示了其开发平台的编程模块 MoonBit。这个云原生 AI 编程工具，已具备完备的多后端支持和跨平台能力，可在硬件上直接运行，支持 RISC-V 架构，并将于 12 月正式开放。

模型也从软件层面走到硬件层面，更多在现实世界产生效用。

坐落在大湾区 IDEA，有着得天独厚的硬件产业基础和优势。这次会议上，IDEA 也一连宣布三个合作：与腾讯合作，在深圳福田区、河套深港科技创新合作区落地建设福田实验室，聚焦人居环境具身智能技术；与美团合作，探索无人机视觉智能技术；与比亚迪合作，拓展工业化机器人智能应用。

" 低空经济 " 则是另一个 IDEA 强调的领域。IDEA 不仅发布了《低空经济发展白皮书 3.0》，还发起共建 OpenSILAS 创新联合体，与 17 家首批发起单位携手，预期打造一个开放共享、技术领先、不断迭代的系统和平台。

2024 年，已经是 IDEA 大会的第四届大会。在这四年中，AI 不仅从以 CV（视觉识别）为主的 1.0 时代，跨越到以生成式 AI 为主的 2.0 时代，更是带来了 AI 治理等下一个时代的重要命题。如今的人类社会也许需要更多思考：我们与 AI 该如何更好地共存？

"AI 的发展，能不能从经济最大的增长，转化到人类的最大福祉？这是在座的，在 IDEA 研究院从事技术研发的同事，以及产业落地的同事，在人工智能发展的道路上必须要去思考的问题。" 沈向洋说。

宙世代

逗玩.AI

相关标签