语料筑基、算力赋能、开源激荡
作者/ IT 时报记者 贾天荣
编辑/ 郝俊慧 孙妍
上海开年首个科技盛会—— 2025 全球开发者先锋大会(GDC)将于 2 月 21 日至 23 日在上海徐汇举办,大会聚焦大模型、算力、语料、工具、软件平台等核心技术,参与的开发者群体包括硬件开发、云计算、大数据、物联网、人工智能、机器人、区块链和元宇宙。
恰逢 DeepSeek" 飓风 " 席卷全球,如何乘 " 风 " 而上,不可避免地成为大会最为关注的焦点。
" 这次 DeepSeek 横空出世,让 AI 从业者既兴奋又‘焦虑’,(我们)整个团队从大年初四开始就没休息,对 DeepSeek 的创新做进一步研究。"2 月 19 日,GDC 开幕前夕,《IT 时报》记者走进徐汇多家人工智能企业探营,上海库帕思科技有限公司 CEO 黄海清谈到,DeepSeek 的技术创新,为中国的大模型公司和整个产业的发展提供了一个宝贵的换道超车机会。
语料筑基
" 语料数据集决定大模型能力上限 "
人工智能大模型的快速发展,离不开算力、算法和语料三大关键要素。在大模型的预训练过程中,语料数据的采购、处理和加工的成本大约要占到总成本的十分之一,而高质量、有效的数据和语料,却可以大幅降低大模型公司的训练成本。
" 高质量的语料数据集将成为大模型能力的上限。" 黄海清表示,语料数据的质量决定大模型技术的成败,如果数据质量不高,可能需要 1 万张卡进行训练,但高质量的语料只需要 100 张卡,这也是 DeepSeek 能够取得卓越效果的核心因素之一,而它的创新将帮助整个行业降低成本,并推动数据服务的普及。
据黄海清介绍,上海库帕思科技有限公司已经全面启动具身智能、金融、制造、教育、医疗、文娱、城市治理等领域的行业语料库建设,按照储备一批、转化一批、应用一批,稳步推进数据语料化工作,并对外提供市场化服务。
目前,库帕思语料运营 1.0 平台已投入实战运营,正加快布局从真实世界到模拟仿真到数据合成平台 2.0 研制,开展基于世界模型的模拟仿真技术创新。公司已经链接超 50 家的语料生态合作伙伴,大模型语料数据联盟实现了实质性的 " 提质扩容 "。
算力赋能
" 上海将共建智算调度平台 "
有了高质量语料,智能算力便可以为大模型创新和人工智能应用提供强劲的动力引擎。
作为 " 模塑申城 " 五大公共服务平台之一的上海智能算力公共服务平台建设运营单位,上海仪电投产了多个国内领先的 " 大规模、高等级 " 万卡智算集群,为上海重要大模型企业以及研究机构提供了低成本算力服务,并建设国产化 AI 算力适配测试中心、人工智能产业研究等一系列公共服务功能。目前,已完成十余款国产芯片的适配测试,并开展国产软硬件平台的适配和新技术验证,有力支撑我国 AI 自主创新生态的建立。
上海仪电方面告诉《IT 时报》记者,为降低人工智能中小企业创新成本,在上海市经济与信息化委员会的指导下,上海仪电将邀请相关企业共建上海市智能算力资源统筹调度服务平台,旨在通过精准匹配多方供需,融合调度各方资源,支撑和繁荣上海大模型创新生态。
平台包含算力超市、算力纳管、算力融合等主要功能板块,其中算力超市核心定位为 " 构建算力交易生态,促成供需多边交易 ",包括算力产品商城、算力招标市场等两部分;算力纳管核心定位为 " 汇总监控、计费、资源统计等数据,实现算力的统筹监控 ",包括交易直连、监控计费数据上报、可视化数据分析等三部分;算力融合核心定位为异构异域算力资源管理和调度,包括算力调度、任务调度、算力补贴闭环管理三部分。
开源激荡
" 为开源世界贡献中国多模态力量 "
2025 年开春,DeepSeek 的崛起成为推动开源生态繁荣的重要力量,越来越多的大模型企业纷纷拥抱开源,推动生态的蓬勃发展。
就在本周,大模型六小龙之一、AI 创业公司阶跃星辰也开源了两款阶跃 Step 系列多模态大模型—— Step-Video-T2V 视频生成模型和 Step-Audio 语音模型。
根据企业官方技术报告中的评测结果,阶跃 Step-Video-T2V 的参数量达到 300 亿,可以直接生成 204 帧、540P 分辨率的高质量视频,是目前全球范围内参数量最大的开源视频生成大模型;而阶跃 Step-Audio 则是业内首款产品级的开源语音交互模型。
阶跃星辰副总裁李璟告诉《IT 时报》记者,拥抱开源的决定在公司内部酝酿许久,尤其春节期间,团队深切感受到开源社区的蓬勃生机与无限潜力," 作为一家同样需求 API 的公司,我们关注到,在多模态领域,开源社区的模型能力还需要显著提升。因此,我们希望将阶跃星辰在这方面的优势能力开源,贡献一份中国的开源力量 "。
李璟进一步指出,去年的 GDC 大会可以视为阶跃星辰的首次亮相。不到一年的时间,阶跃星辰无论是在模型研发还是生态建设方面都取得显著进展,今年参与 GDC 的深度和广度也有了显著变化。
据介绍,阶跃星辰此次将正式成为 GDC 的一部分,举行专属的生态大会。其次,阶跃还将举办两个生态分论坛,聚焦金融领域和开发者社区。这些内容不仅是公司在过去一年里的积累成果,也将为与业界同行的深入交流与探讨提供平台。
排版/ 季嘉颖
图片/ IT 时报 阶跃星辰 豆包 AI
来源/《IT 时报》公众号 vittimes
E N D
登录后才可以发布评论哦
打开小程序可以发布评论哦