科大讯飞星火大模型:国产算力下的深度推理突破

2025-02-16 9:10:19 外汇分析师 author

科大讯飞近日发布投资者关系活动记录表,重点介绍了其星火大模型(DeepSeek)的研发进展。其自主研发的星火X1深度推理模型,预计在3月完成纯国产算力训练,目标是达到甚至超越OpenAI的o1模型在数学答题和思维链方面的能力。

科大讯飞的突破在于其R1-Zero强化学习方案,可以直接在预训练模型上进行大规模强化学习,无需大量人工标注数据,从而显著降低训练成本并提升效率。这一方案在数学和代码推理任务上取得了接近o1模型的效果,是国内外首个公开发布并在大型任务上取得成功的案例。

相比于使用英伟达H800等国外芯片的DeepSeek,科大讯飞选择更具挑战性的全国产算力路线,基于华为昇腾910B芯片进行模型训练。通过攻克万卡高速互联组网、计算通信隐藏等一系列难题,将训练效率提升至85%-95%,与使用A100芯片的效率相当,单次训练成本与DeepSeek V3处于同一水平。

科大讯飞还通过MLA、MTP、DualPipe和FP8混合精度训练等技术优化,显著降低了训练和推理成本。目前,星火大模型已在国产算力平台上实现了训练和推理的全面覆盖,这是当前所有全民下载的通用大模型App中唯一实现的,体现了科大讯飞在国产算力领域的领先技术实力和战略眼光。未来,随着国产算力进一步提升,星火大模型的训练成本还有望进一步降低。

此外,科大讯飞还计划将X1模型与教育专家的合作成果相结合,生成符合教育教学需求的“教学思维链”,并率先应用于教师助手、批改、辅学等教育产品,预计在2025世界数字教育大会期间发布教育专属大模型和创新应用。

发表评论:

最近发表