HuggingFace 热门榜单几乎被中国模型 " 承包 " 了!
在最新的 HuggingFace 热门模型榜单中,中国模型的含量超过了 50%。包括刚刚上新的 QwQ-32B 不同型号的推理模型,HunyuanVideo-12V 的全新版本、长期霸榜的 DeepSeekR1,以及 Qwen 和 R1 的衍生模型。
DeepSeek 开源 R1 给整个大模型行业扔下一颗炸弹,引发了模型社区和企业的激烈讨论后,几乎已经确定了开源为主流技术路线,此前一直坚持闭源路线的如 OpenAI、百度、月之暗面也相继表示将尝试开源路线。
与以往不同的是,R1 之后的冲榜不只体现在数量多上,更体现在质量上。" 早期一些大厂的开源模型只是挂上去,后续不会再运营和维护,现在在模型性能、实用性和稳定性上都有突破,而且绕开了 CUDA 的限制以后,对部署算力的要求更低,算是逐渐走出了独立曲线。" 一位开发者讲道。
更值得注意的是,越来越多国际开发者选择中国基础模型作为微调起点,相比于 Llama 和 Phi,以 DeepSeek 和 Qwen 系列模型为基点的衍生模型越来越多。
我们与多位开发者和企业聊了聊,为什么中国开源模型如此受欢迎?
第一部分:要做就做真开源
在选择微调模型前,首先要关注的就是开放协议。
中国开源模型基本上采用的都是最为宽松 Apache 2.0 开放协议或 MIT 协议,这意味着开发者可以自由进行二次开发、商用,且基于这些模型开发的专利归开发者本人所有,有效规避了法律风险,为企业提供了确定性。
一位活跃于 HuggingFace 社区的资深开发者分享道:" 我们团队最初只是试用 Qwen 系列,但很快发现其 API 设计和开源资源之完善超出预期。更重要的是,我们不必担心未来突然改变协议或限制使用,这种确定性对商业项目至关重要。"
不少海外初创公司也提到中国模型非常有利的许可模式让他们能够直接使用,无需繁琐的法律审查。即便是离商业化最近的视频模型,Wan 和 HunyuanVideo 除了需要遵守相应的法规和限制条款,也是可以免费商用的。相比之下,Meta 的 Llama 采用自主制定协议限制商用,且专利归原公司所有,这无疑增加了开发者的法律顾虑。
当我们随手打开 HuggingFace 中 Llama 模型的评论区就会发现,在开发者测试中,多次出现访问模型的请求被拒绝的情况。这种不稳定的访问体验,加上模棱两可的使用条款,让许多开发者望而却步。一位企业 AI 技术负责人直言:" 我们不能基于一个随时可能被限制使用的模型来构建产品。"
其次,中国模型在开源深度上更进一步。不仅开放了从小到大等全系列不同参数规格的模型权重,还提供了各种量化版本和完整的训练数据集,甚至包括微调所需的数据模板。这种全面性让开发者能够根据实际需求和硬件条件选择最适合的版本。
" 比如说适用于 Qwen 的编码数据集 CodeAlpaca-20K,可在 Hugging Face 上可以直接找到。该数据集包含20000 条与编码相关的指令、输入和输出,可以满足基本的微调需求。"
这种完全的开放风格也影响了最新的中国模型开源,当 HunyuanVideo-12v 版本开源时,相较于 2 个月前的版本,开放权重更高。模型总参数量保持 130 亿,适用于多种类型的角色和场景,包括写实视频制作、动漫角色甚至 CGI 角色制作的生成。开源内容包含权重、推理代码和 LoRA 训练代码,支持开发者基于混元训练专属 LoRA 等衍生模型。
另一方面,从模型本身出发,Llama3 目前仅提供 8B、70B 和 405B 三种规格,却缺少被业内公认为算力与性能最佳平衡点的 32B 参数规模。对大多数开发者而言,7B 模型性能已不足以支撑复杂应用,而 70B 以上则需要强大的服务器支持,成本高昂。Qwen 系列在这方面迭代更快,规格覆盖更全面,从超轻量到重量级都有解决方案。
一位海外开发者评价:"LLama3 的迭代速度明显慢于 Qwen 系列,尤其是模型参数量规格的覆盖程度更是存在巨大的短板,至今仍然没有补齐。"
当然,在性能方面,中国模型已与顶级闭源模型相当甚至在某些领域超越。DeepSeek-R1 自上线以来,已经成为开源社区最受欢迎的推理模型,最新评测数据显示,Qwen-72B 模型已经超过 GPT4 水平,而在处理中文等特定任务时表现更佳。DeepSeek 系列在代码生成能力上也获得了超过顶级模型的评分。
有开发者对比发现,完全微调 Qwen 1.5 0.5B 模型比使用 QLoRA 对 Phi 1.5 进行微调的效果要好得多,且 Phi 的微调时间要接近 Qwen 的 5 倍。
与其他打着 " 开源 " 旗号却设置诸多限制的模型不同,中国模型在开放程度和性能表现上找到了平衡,这正吸引全球开发者加入这一生态。
第二部分:让咖啡店老板都能跑大模型
由于美国对高端 GPU 的出口管制,迫使中国开发者从依赖硬件堆砌的传统路径转向 " 算法优先 " 的创新模式。这种 " 算力短缺倒逼算法升级 " 的逻辑,推动中国开源模型形成独特的竞争力:通过架构创新与算法优化,在有限算力下实现可用性最大化,降低部署门槛,让咖啡店老板都能跑大模型。
比如最新的 QwQ-32B 推理模型,几乎完全超越了 OpenAI-o1-mini,远胜于 o1-mini 及相同尺寸的 R1 蒸馏模型,在保持性能的前提下把模型做小到 32B 的最佳部署参数区间,是呈现出来的一个趋势。
" 本质上是用算法复杂度置换高算力需求,当模型参数量降低两个数量级时,训练所需的显存从千兆字节级压缩至消费级显卡可承载的 96GB 以内,大模型的部署不再依赖专业计算集群。"
参数变小后再通过特定的算法降低内存和对显存的需求,QwQ-32B 在消费级显卡 4090 或一台装备 M4 芯片的 MacBook 上就能完成部署。
再比如视频生成类模型 HunyuanVideo-12V 和 Wan2.1 版本,也可在 T2V-1.3B 型号仅需 8.19 GB VRAM,可兼容几乎所有消费级 GPU。可在约 4 分钟内(未使用量化等优化技术)在 RTX 4090 上生成 5 秒的 480P 视频。
另外一方面,是中国大模型已经完全建立起了开放生态,开源方法得到了第三方项目和工具的广泛支持。
在训练和微调方面,多个开源框架为中国大模型提供了强大支持。例如,DeepSpeed Chat 提供了一键式 RLHF(基于人类反馈的强化学习)训练框架,支持从数据预处理到模型评估的完整训练流程,显著降低了复杂任务的开发门槛。
此外,LLaMA Efficient Tuning 提供了基于 PEFT(参数高效微调技术)的微调框架,支持 LoRA、Adapter 等多种微调模式,使开发者能够以更低的计算成本实现模型性能的优化。这些开源工具不仅覆盖了从预训练到微调的全流程,还通过模块化设计提高了灵活性和易用性,为开发者提供了丰富的选择。
在模型推理方面,同样有多种高效框架支持中国大模型的部署。例如,vLLM 针对大批量 Prompt 输入场景进行了优化,通过动态内存管理和高效调度算法,显著提升了推理速度和吞吐量。而 Xinference 则是一个功能全面的分布式推理框架,支持多节点并行计算,简化了大语言模型的部署流程,尤其适合高并发、低延迟的应用场景。
这些框架与中国大模型(如 Qwen、DeepSeek 等)完全适配,不仅提升了推理效率,还降低了硬件资源需求,使得模型的部署更加便捷和经济。
模型最开放、型号最全,与开放生态工具完全耦合,同时兼具着最低的部署门槛,使更多开发者能够参与试用,来自中国厂商的这样的开源模型还会越来越多,一个全新的生态结构正在慢慢建立起来。
登录后才可以发布评论哦
打开小程序可以发布评论哦