中国科学院香港创新研究院发布全面开源“术影”手术视频大模型标准化手术场景下，病灶部位识别准确率95%以上

" ‘术影’手术视频大模型是目前业内规模最大、最完整的手术视频通用智能底座。该数据集涵盖约 1500 万帧、超 3658 小时的真实手术视频。"3 月 24 日，中国科学院香港创新研究院（以下简称香港创新研究院）人工智能与机器人创新中心（CAIR）在香港科学园深圳分园举行了 " 术影 " 手术视频大模型发布会。

在发布会上，香港创新研究院易东研究员介绍称，基于上述海量数据，" 术影 " 手术视频大模型突破传统像素重建的局限，引入运动引导的隐空间预测机制，显著提升了模型对手术器械、解剖结构、交互动作等关键语义结构的理解能力，为多中心、多科室、多术式的通用手术智能奠定了基础。

定位是医生的高级决策助手

作为聚焦手术场景的专属 AI（人工智能）大模型，" 术影 " 手术视频大模型的核心定位是医生的高级决策助手，并非替代医生，而是为临床手术增添 " 第三只眼睛 " 和 " 第二个大脑 "。

中山大学附属第一医院呼吸与危重症医学科副主任廖槐结合临床工作实际情况指出，手术的难点往往不在操作技巧，而在决策能力。医生碰到术中情况需要随时调整策略，这种决策能力培养周期很长。" 术影 " 手术视频大模型集成了海量数据，可提供更好的决策依据。另外，高风险手术步骤不能出错，AI 可像 " 高级助手 " 一样提醒流程，帮助团队协同，减少沟通误差。它不替代医生，而是辅助决策。

据易东介绍，" 术影 " 手术视频大模型支持 13 种人类主要器官，并能处理 6 大类手术理解任务，包括工作流理解、动作理解、深度估计、息肉分割、三元组识别和技能评估。在手术流程识别、器械交互理解、精细动作建模等核心任务上，该模型大幅超越现有方法，展现出极强的泛化能力与精度。

中国科学院香港创新研究院人工智能与机器人创新中心主任刘宏斌介绍称，在临床能力上，该模型已实现标准化手术场景下病灶部位识别准确率 95% 以上、病变性质判断准确率 90% 以上，可自动提炼 4 级手术关键步骤、生成结构化手术报告，单一专业任务能力达到高年级医学生水平，能在术中提供视觉辅助、步骤提示与决策依据，还可充当手术团队 " 指挥家 "，协调操作流程、减少信息传递误差，有效提升手术安全与效率。

香港大学深圳医院神经医学中心名誉顾问医师潘伟生表示，香港大学深圳医院作为神经外科专科培训基地，一直致力于解决复杂手术教学中传统 " 师带徒 " 模式的标准化难题。凭借精准的动作解析与客观的评估能力，该系统未来将成为可靠的教学辅助工具，帮助年轻医生进行规范化的手术复盘，极大推动专科培训的数字化与标准化发展。

全面开源，加快技术迭代和数据共享

《每日经济新闻》记者注意到，在发布推介环节，易东还宣布 10 亿参数量的 " 术影 " 手术视频大模型全面开源。

他表示，" 术影 " 手术视频大模型基本遵循主流开源协议，既可商用也可用于科研，但使用者需标注出处。

据透露，该模型训练数据中约 75% 为私有数据，公开数据部分将公布列表，私有数据的开放仍在流程推进中。

" 我们希望通过开源把社区建起来，企业可以用，医院可以用，大学也可以用。只有更多人参与进来，技术迭代和数据共享才会更快。" 易东说。

就未来商业化与落地方面，刘宏斌回应称，" 术影 " 手术视频大模型现阶段将优先联合产业伙伴推进临床落地，由合作企业结合自身实际探索多元化商业模式。其核心商业化路径将围绕开源生态构建展开，通过吸引全行业参与，加速技术迭代与数据共享，先在三甲医院开展临床试点，再逐步向地市、县级基层医院下沉，通过 " 数字分身 " 将顶级专家的手术经验普及到基层，最终实现技术规模化普惠。

在应用场景上，刘宏斌指出，" 术影 " 手术视频大模型现阶段将重点落地外科教学、手术质控与术中指导、基层医疗赋能三大领域，以标准化手术操作提升临床教学效率，以实时监控操作规范并辅助疑难病例决策，缓解优质医疗资源分布不均问题。未来还将向具身智能手术机器人领域延伸，实现更深度的人机协作。

每日经济新闻

宙世代

一起剪

相关标签