人工智能向前发展要造数据、合成数据,有可能带来大模型创业下新的百亿美金的问题。
本文为 IPO 早知道原创
作者|苏打
微信公众号|ipozaozhidao
" 如果说今天有什么事是我们一定要做的,那就是 AI For Science。难以想象今天还有什么事情比它更重要,今年诺贝尔奖的颁布便是最好证明。"
11 月 22 日召开的 2024 年 IDEA 大会上,IDEA 研究院创院理事长、美国国家工程院外籍院士沈向洋在题为《从技术突破到产业融合》的主题演讲中指出,在技术大爆发时期开展创新,对技术的深度理解尤为重要。
沈向洋表示,从长远的人类社会发展角度来看,巨大跃迁都是由技术创新带来的。工业时代的全球 GDP 年均增速约为 1%-2%,信息时代在 3%-4%,人工智能时代,这个数字会是多少?与此同时,他强调,随着 AI 的各项能力逼近、甚至超越人类,AI 治理已成亟待全球共同面对的议题。
站在商业的视角,新技术快速冲入市场,则意味着技术需要理解需求。技术要在持续不断的反馈和创新中,与市场完成匹配(Technology-market fit,TMF)。IDEA 研究院的实践,正是这样一个缩影。本次大会,IDEA 公布一系列前沿研究与产业落地成果,带来从技术突破到产业融合的 AI 盛宴。
以 " 得语言者得天下 " 等理念为核心,沈向洋透露,目前已拥有 7 个研究中心、450 名员工的 IDEA 研究院在与员工双向选择的过程中,尤为强调科学家头脑、企业家素质和创业者精神三大特质。
深圳或将成全球算力中心之一
" 过去这几年人工智能的蓬勃发展,令大家对整个行业充满着期待。其中,算力、算法、数据是绕不开的‘三件套’。" 现场,沈向洋分享了对上述三要素的新理解。
首先,算力是关键生产力。过去四五十年间,计算行业的发展中,最重要的一件事情是算力的不断提升。在摩尔定律的基础上,人工智能的发展尤其是深度学习令算力需求迅速提升。过去几年,每年的新模型所需算力大约四倍多的增长。
一个值得注意的趋势是,未来深圳的算力可能会成为全世界唯二的其中一个。
" 一年涨四倍,十年会涨多少倍?不同于摩尔定律,最近大家开始提到黄氏定律,以训练模型对算力的需求为主。" 沈向洋坦言,例如,过去十年大模型训练对算力的实际需求上涨了 100 万倍。这也解释了为什么过去十年英伟达的市值涨了 300 倍。
" 今天你如果能拿得到英伟达的卡,就成功了一半。不管从哪个角度看,英伟达就是 Apple,硬生生把自己从一个硬件芯片乙方公司做成了甲方,这些年的出货量增长巨大,眼下仍旧炙手可热。"
沈向洋解释道,进入 2024 年,英伟达 H100 芯片的客户中,微软、谷歌、亚马逊的采购量都非常大,过去这段时间芯片可以说是最重要的事," 因为大模型本身参数量非常多,对训练对要求会逐步增高,同时数据量也要增加,这对算力的需求几乎是指数级的。"
目前,IDEA 大约有一千多张卡," 在深圳也是一个小土豪了 "。沈向洋笑道。但是即便如此," 一些新进员工见面还是会问我,能给多少张卡?我开玩笑讲,有些人叫千卡人才,有些人叫百卡人才。如果你真了不起,应该是万卡人才 "。
" 但未来十年(算力)是否仍旧成百万倍增长,我看得也不是很清楚。" 沈向洋坦言,好在自己马上有机会可以当面请教黄仁勋博士。
合成数据将是一个百亿美金机会
其算法层面,从 2017 年开始 Transformer 的架构出来,人工智能、深度学习、大模型基本上是沿着 Transformer 这条线堆数据、堆算力。
"OpenAI 非常了不起,推出一些新技术突破的东西。过去几个月国内也有一些公司,包括初创企业在 o1 这条道路上有很好的进步。"
突破思路在哪里?沈向洋解释道,GPT 系列所有的东西都是预训练,做的事情就是预测 " 下一个 token",里面很重要的技术背景是把所有的数据做非常聪明的压缩。范式变革就是增强学习,自己可以改善的 Learning,像人在思考一样,不完全是训练,给出答案还有一个后训练、后推理的过程。
他表示,增强学习不是一件新的东西,今天的新内容在于,其打法是比较通用的,像 o1 不仅可以做数据,还可以做编程、物理、化学等等。我觉得接下来这几年,算法沿着 SRL 这条道路会有非常令人惊艳的动作。
数据方面,合成数据将带来一些新机遇。
" 我们先看一些关于数据的数据。1 万亿 Token 大约等于 500 万本书 /20 万张高清照片 /500 万篇论文。人类历史的书到现在全部加起来只也有 21 万亿。一个人念完大学真正学到的东西也就 0.00018T"。
沈向洋表示,GPT3 大约使用了 2 万亿 Token;GPT4 大概用了 20 万亿。今天互联网上能得到的洗干净的数据大概也是 20 万亿。个人认为,GPT5 需要的数据大约是 200 万亿的规模。" 但互联网上已经找不到那么多数据怎么办?合成数据将作为新特点出现 "。
这引申出来另一件很重要的事——互联网上英文数据的重要性。无论训练哪个语言的人工智能,底层高质量的数据都是英文的,人工智能时代英文的重要性可能还会更加增强,就像互联网时代以后,英语是更加变成了主导的语言。
所以,当网上已经没有数据,人工智能向前发展要造数据、合成数据,有可能带来大模型创业下新的百亿美金的问题。
合成数据怎么办?" 在 IDEA 研究院郭健院长带领下,我们做了高质量训练数据的项目,可以给这些大模型不断的提供养分做这样的事情。" 沈向洋透露,IDEA 使用的方法是先为原始数据建一个语境图谱,厘清其中逻辑,然后合成。同时兼顾私域数据安全孤岛问题,比如通过合成数据加密的方式将私域数据用起来。
基于上述两个维度,IDEA Data Maker 诞生。目前,IDEA Data Maker 已经有 API,并能够服务有需求的客户。实验结果显示,IDEA 团队的方案能持续为大模型带来能力提升,表现超过目前的最佳实践(SOTA);从 token 消耗来看,平均节约成本 85.7%。
AI For Science 是一定要做的事
" 互联网时代的产品,喜欢被赋予 PMF(产品和市场结合)的思路。但 ChatGPT 一步跳过了 PMF,实现了 TMF(技术与市场结合)。沿着这个思路,最近我们有个做得非常好的方向,新的编程语言。"
截至目前,全世界包括小语言、大语言、中语言在内的所有编程语言,几乎没有一个是是中国人发明的创造。" 这种现象我们是有机会可以改变的。" 沈向洋表示,今天大模型时代会不会出现现象级的语言?事实上已经有一个叫做 MoonBit 的语言,已经非常像 AI 时代的编程语言 "。
据 IDEA 研究院洪波介绍,有 IDEA 推动提交的 MoonBit 开源 1 个月后,便收到非常多高质量代码,7 月份又开源了 Build 系统,12 月将开放编译器资源,希望社区做大,让更多人参与到 MoonBit 的开发。
这大模型的探索方面,沈向洋透露, IDEA 研究院亦做了自己的大模型,但由于算力方面的限制,没有深入到万亿参数程度。" 但我们一直专注这个领域。截至目前,我们已经有包括化学大模型、学术大模型、营销大模型、经济大模型、运筹大模型、投资大模型、视觉大模型等在内的一系列垂直大模型。"
" 今天我们一定要干的一件事情,就是 AI For Science,难以想象今天还有什么事情比它更重要。" 沈向洋强调,拼命推动大模型的技术落地是最重要的。
截至大会前夕,IDEA 研究院旗下产品 ReadPaper 注册用户已达 99 万,很快将突破 100 万。该学术大模型中采用更多多模态技术,可以解析论文中的问题。随着 AI 技术的发展,学术大模型将从 L1、L2,发展到 " 让天下没有难做的科研 "。营销大模型也渐入佳境,能够以一个角色设计为核心进行细粒度的内容生成。
本次大会,IDEA 发布了该系列最新的 DINO-X 通用视觉大模型,拥有真正的物体级别理解能力,实现开放世界(Open-world)目标检测。无需用户提示,直接检测万物。团队还推出行业平台架构,通过一个大模型基座,结合通用识别技术结合,让模型不需重新训练,就可边用边学,支撑多种多样的 B 端应用需求。
谈及这些技术与的模型最后的目的,沈向洋强调,IDEA 研究院最重要的不光是创造最新技术,落地同样重要," 我们研究院里有很多项目、很多团队都是在积极的推动技术团队走向孵化市场。其中我非常喜欢的一个例子,也是在工业 AI 方面的应用,叫做大规模磁驱动柔性运动控制系统平台,非常好地展示了如何在庞大的场景下使用磁驱动技术。"
「大湾区接下来机会非常大」
" 多模态里的技术核心,其中一个核心是计算机视觉,以 GPT-4v 和 GPT-4o 为代表。但他们实际上它并没有真正理解世界,最后要走向世界模型的,一定是机器人。其中一个很重要的方向是自动驾驶。"
同时,在挖掘具身智能前景的过程中,他表示,IDEA 研究院的成果充满希望,而大湾区将具身智能是非常好的机会。因为 " 要做这件事情,科研机构单打独斗不行,最重要的是要跟企业,特别是龙头企业一起合作 "。
现场,IDEA 研究院一连宣布三个合作:与腾讯合作,在深圳福田区、河套深港科技创新合作区落地建设福田实验室,聚焦人居环境具身智能技术;与美团合作,探索无人机视觉智能技术;与比亚迪合作,拓展工业化机器人智能应用。
" 深圳是一座用迭代软件的速度迭代硬件的城市,只有在大湾区、深圳才有这样的机会。" 沈向洋总结道。
大会最后,沈向洋针对低空经济表示,IDEA 研究院与深圳市政府共同研究后,提出必须要打造低空智能融合基础设施,具体来讲要建四张网——设施网、航路网、空联网、服务网。
今年 8 月,IDEA 在深圳市低空经济高质量发展大会上发布了 SILAS 系统先锋版。
本文由公众号 IPO 早知道(ID:ipozaozhidao)原创撰写,如需转载请联系 C 叔↓↓↓
|||
|
|||
登录后才可以发布评论哦
打开小程序可以发布评论哦