AI模型领域又杀出一匹黑马。Fireworks AI今日正式发布ZAYA1-8B,这是一款仅有80亿参数的小型混合专家(MoE)模型,却在数学推理能力测试中与DeepSeek-R1不相上下,刷新了业界对「小模型」能力边界的认知。
长期以来,AI行业存在一种共识:更大的模型意味着更强的能力。GPT-4据报道拥有超过1万亿参数,Claude和Gemini也都在数千亿参数级别。这种「参数为王」的观念推动着各大公司不断砸钱堆叠算力,形成了一场没有终点的军备竞赛。

ZAYA1-8B的出现对这一共识提出了挑战。尽管只激活约7600万参数,ZAYA1-8B在MATH基准测试中的得分与DeepSeek-R1基本持平。MATH是业界公认的权威数学推理测试,涵盖从初级代数到高等微积分的数千道题目,被认为是检验模型真正理解能力的重要标尺。
实现这一突破的关键在于三个方面。首先是稀疏激活技术:在MoE架构下,模型被划分为多个「专家」网络,每次推理时只激活与当前任务相关的少数专家,而非全模型参与。
技术突破与应用前景

其次是知识蒸馏技术的创新。研发团队从DeepSeek-R1、GPT-4等大模型中提取「思维模式」和推理策略,通过特殊的蒸馏过程浓缩到小模型中。第三是对训练数据的精心优化,团队专门构建了一个高质量数学数据集,包含数十万道经过人工验证的解题过程。
实际应用层面,ZAYA1-8B的优势更加明显。由于只需要激活7600万参数,它的推理速度比DeepSeek-R1快了近10倍,内存占用仅为后者的五分之一。这意味着它可以在普通消费级GPU甚至高端手机上运行,让边缘AI部署成为现实。

OpenClaw—AI研究