微软发布Phi-3 Mini：3.8B参数小到能塞进手机，性能媲美GPT-3.5

智东西（公众号：zhidxcom）

编译 | 长颈鹿

编辑 | 香草

智东西 4 月 24 日报道，4 月 23 日，微软在官网开源了小语言模型（SLM）—— Phi-3-mini。这是微软 Phi-3 系列模型推出的首个模型。

Phi-3-mini 作为微软 Phi 系列的第四代产品，以其 38 亿参数和 3.3T tokens 的庞大训练数据量，在语言、推理、编码和数学基准测试中超越了众多数百亿参数规模的模型。

此外，Phi-3-mini 有 4k 和 128k tokens 两个上下文长度变体，经过预训练和指令调整，可以更好地理解人类的语言、表达、逻辑并执行不同类型的指令。

与大语言模型相比，Phi-3-mini 模型操作更为简便。该模型的体积很小，这一特性使其可以在端侧部署和运行。据称，该模型可以作为聊天机器人离线访问，且具有不亚于 GPT-3.5 的性能。

Phi-3-mini 的成本大幅降低。微软生成式 AI 研究副总裁塞巴斯蒂安 · 布贝克（S é bastien Bubeck）称，相比于其他相似功能的模型，Phi-3-mini 成本可能只有十分之一。

据微软研究团队称，Phi-3-mini 小体积、高性能的创新归功于由合成数据组成的数据集。该数据集由大量已过滤的网络数据和其他 AI 制作的儿童读物中的合成数据组成。

微软计划在未来几周内推出 Phi-3 系列的另外两个模型，分别是 Phi-3-small（7B）和 Phi-3-medium（14B）。

目前有三个平台可以获取 Phi-3-mini：

Microsoft Azure AI Studio：https://ai.azure.com/explore/models/Phi-3-mini-128k-instruct/version/2/registry/azureml

Hugging Face：https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Ollama：https://ollama.com/library/phi3

一、" 小而美 " 的模型，Phi-3-mini 优于两倍其尺寸模型

据微软官网称，Phi-3 模型是目前能力最强、性价比最高的小型语言模型（SLM），其在多种语言、推理、编码和数学基准测试中均展现出超越同等规模甚至更大型模型的能力。

Phi-3-mini 包含两种上下文长度的规模，分别是 4k 和 128k tokens，其中 128k tokens 的上下文窗口支持在同类模型是首次实现，且对模型质量的影响微乎其微。此外，该模型经过指令微调，能够以自然语言方式响应和执行多种指令，确保了其即时可用性。

Phi-3 模型在小尺寸上具有突破性的性能。根据微软研发团队的测试，Phi-3 模型在基准测试中优于相同尺寸和更大尺寸的语言模型。其中，Phi-3-mini 的性能优于其尺寸两倍的模型，而 Phi-3-small 和 Phi-3-medium 的性能优于更大的模型，包括 GPT-3.5 Turbo。

根据性能对照表，Phi-3-mini 的两个变体于基准测试的 19 个对比项中，有 17 项胜过 Gemma-7b 模型，18 项胜过 Mistral-7b 模型，11 项胜过 Llama-3-8B 模型。但也有 11 项次于 GPT3.5-Turbo 模型，17 项次于 Claude-3 Sonnet 模型。

▲ Phi-3 系列基准测试对照表（图源：微软）

此外，微软还在学术报告中称 Phi-3 模型的整体性能可以与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美。

Phi 系列模型的起源于微软研究部门，已经被广泛使用，其中 Phi-2 下载量超过 200 万次。从用于 Python 编码的 Phi-1 开始，到增强推理和理解的 Phi-1.5，再到 27 亿参数的 Phi-2，Phi 系列在语言理解方面超越了其 25 倍参数大小的模型。

微软计划在未来几周内推出 Phi-3 系列的另外两个模型，分别是 Phi-3-small（7B）和 Phi-3-medium（14B），旨在为 Azure AI 和其他模型库提供更灵活的选择。

二、Phi-3 遵循安全和高质，Phi-3-mini 为多个平台专门优化

Phi-3 模型的设计遵循了微软的 " 负责任 AI 标准 "，包括问责制、透明度、公平性、可靠性与安全性、隐私与安全和包容性。Phi-3 模型经历了严格的安全度量和评估、红队测试、敏感用途审查，并遵循安全指南，以确保这些模型在开发、测试和部署过程中都符合微软的标准和最佳实践。

Phi-3 模型在训练过程中采用了高质量的数据，这是基于先前的 Phi 模型工作的延续。它们还通过了广泛的安全后训练，包括从人类反馈中进行的强化学习（RLHF）、在数十个伤害类别上进行的自动测试和手动红队测试。

此外，Phi-3-mini 在 Azure AI 上配备了一套完整的部署、评估和微调工具链，并通过 Ollama 平台使开发者能够在本地笔记本电脑上运行。模型还针对 ONNX Runtime 进行了优化，支持 Windows DirectML，并且实现了跨平台支持，包括 GPU、CPU 和移动硬件。

同时，Phi-3-mini 也作为英伟达推理微服务（NVIDIA NIM）提供，具备可广泛部署的标准 API 接口，并对英伟达 GPU 进行了专门优化。

三、Phi-3 提供离线推理场景，AI 解决方案已落地印度

微软公司通过提供 Copilots 帮助客户用生成式 AI 进行业务转型。他们认为，不同任务对质量成本曲线上不同规模模型的需求正日益增长。

小语言模型，如 Phi-3，特别适用于以下情况：资源受限的环境，包括设备上和离线推理场景；延迟约束的场景，快速响应时间至关重要；以及成本受限的用例，特别是那些具有较简单任务的用例。

由于尺寸较小，Phi-3 模型可以在计算受限的推理环境中使用，特别是 Phi-3-mini 可以在端侧使用。Phi-3 模型的较小尺寸还使得微调或定制变得更加容易和更具成本效益。此外，较低的计算需求使其成本更低，延迟更好。较长的上下文窗口使其能够处理和推理大量的文本内容，如文档、网页、代码等。

微软的一些客户已经开始使用 Phi-3 构建解决方案。比如农业领域，Phi-3 模型为农民提供了更便捷、更经济的解决方案，并帮助他们在没有稳定互联网连接的情况下使用 AI 技术。

印度一家领先的商业集团 ITC 正在将 Phi-3 模型用于 Krishi Mitra（一款面向农民的应用程序）内，帮助印度农民通过技术手段获得更好的农业解决方案。据悉，该应用已经覆盖了超过一百万名农民。

结语：大小模型相辅相成，离线 AI 聊天已成现实

微软的 Phi-3 模型设计的初衷旨在兼容多种设备。Phi-3 与 Stability AI 的 Zephyr、谷歌的 Gemini Nano 和 Anthropic 的 Claude 3 Haiku 等小型模型一样，能够在端侧运行，而无需依赖互联网连接。

尽管云端大模型在性能上全面超越小模型，但它们也存在一些局限性，包括较高的成本、运行速度以及对互联网连接的依赖。相比之下，Phi-3 允许用户在没有网络的情况下与虚拟助手进行互动，能够在不上传数据的前提下实现内容总结，解决了 AI 领域的一部分弊端。

未来这类模型有望与智能手机集成，甚至可能内置于常用家电中，为用户的生活提供个性化建议。我们期待 AI 变得越来越生活化，也期待小语言模型在未来的进步。

宙世代

智慧云

相关标签