36氪 04-15
「整数智能」,AI大模型重构数据标注生产效率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

整数智能发展于浙江大学计算机创新技术研究院,致力于为人工智能企业及科研院所提供一站式数据管理服务。其提供的智能数据工程平台(ABAVA Platform)与数据集构建服务(ACE Service),能够满足自动驾驶、AIGC、智慧医疗等数十个应用场景的数据需求。

目前,公司已合作国内外顶级科技公司与科研机构数百家,拥有知识产权数十项,多次参与人工智能领域的标准与白皮书撰写。

整数智能创始人林群书为浙江大学计算机博士生,联合创始人赵子健为浙江大学法学硕士生,目前均处于休学创业中。

林群书认为,正如人工智能公司 OpenAI 的联合创始人 Ilya Sutskever 所说,"Training data is technology",OpenAI 训练的 GPT-3 大模型,有 1750 亿参数。作为 AI 领域的基础设施,数据工程是人工智能时代绝对值得 All in 的机会。

他告诉 36 氪,数据标注正在从人力密集型向自动化标注过渡。以 Tesla 为例,在 2018 年,一段 clip 数据需要花费 500 小时的人工标注。随着 Tesla 通过对数据引擎及自动化标注能力的重点建设,到 2021 年,一段 clip 数据的标注只需要花费 0.5 小时的算力标注 +0.1 小时的人工标注即可。

针对人工智能行业发展的大趋势,整数智能推出了智能数据工程平台(ABAVA Platfom),对人工智能所需的数据标注工具套件进行了全域覆盖,包含图像、点云、文本、音频等多模态标注工具。

林群书表示,行业当前的自动化标注,更多依赖算法工程师打磨特定场景的自动化标注算法,通用性有限。跨行业或跨场景时,如果算法自动化标注的精度下降,会需要工程师花费额外的时间精力,对自动化标注算法进行手动升级。

而 ABAVA 平台,其内置的 AI Power 系统通过结合 AI 大模型与小模型各自的优点,能够快速在新行业或新场景进行自动化标注,并且不断提升自动化标注的精度,使得获取高质量数据的时间成本与人力成本不断降低。

简单来说就是,能够跨越不同行业、不同场景实现自动化标注;同时还能利用标注好的数据来迭代算法模型。" 使用时间越长,沉淀数据越多,自动化标注水平也就越高。" 林群书说道。

4D 标注工作界面   图源整数智能

此外,整数智能针对自动驾驶场景,推出了 4D 标注工具,即在三维空间数据的基础上叠加时间维度的序列信息进行场景重建,目前已能支持视觉重建与点云重建。据林群书介绍,其 4D 标注工具可以把原本需要数十帧的标注工作,极限压缩到一帧来进行,将数据标注的效率提升数十倍。

4D 标注工具的研发难点在于,其一需要使用算法融合多帧数据进行场景重建,重建的质量尤为重要,直接影响后续的投影精度;其二在于重建后的点云密度非常高,给 Web 端点云工具的性能优化带来巨大挑战;其三在于完成标注后的结果如何精确的投影回 2D 空间,需要做大量的算法优化。

总的来看,林群书告诉 36 氪,人工智能时代获取「数据能源」将经历人工标注、自动标注、合成数据三个发展阶段。整数智能能够通过自动标注大幅降低获取数据的成本。

随着 AI 大模型时代到来,整数智能也在探索合成数据的模式。比如通过 AI 合成数据,可以解决自动驾驶缺乏 Corner   case 场景数据的问题。

整数智能认为,AI 大模型时代,数据消耗的速度将远远大于数据自然产生的速度,通过合成数据的技术路径,可以带来「数据能源」获取方式的一次革命。"AIGC(即 AI 生成内容,如 AI 生成图片)的技术爆炸,技术效果和效率会远远超过自动化标注。"

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

人工智能 浙江大学 自动化 数据标注 创始人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论