科大讯飞星火大模型：国产算力下的深度推理突破

2025-02-16 9:10:19 外汇分析师 author

23|0条评论

科大讯飞近日发布投资者关系活动记录表，重点介绍了其星火大模型（DeepSeek）的研发进展。其自主研发的星火X1深度推理模型，预计在3月完成纯国产算力训练，目标是达到甚至超越OpenAI的o1模型在数学答题和思维链方面的能力。

科大讯飞的突破在于其R1-Zero强化学习方案，可以直接在预训练模型上进行大规模强化学习，无需大量人工标注数据，从而显著降低训练成本并提升效率。这一方案在数学和代码推理任务上取得了接近o1模型的效果，是国内外首个公开发布并在大型任务上取得成功的案例。

相比于使用英伟达H800等国外芯片的DeepSeek，科大讯飞选择更具挑战性的全国产算力路线，基于华为昇腾910B芯片进行模型训练。通过攻克万卡高速互联组网、计算通信隐藏等一系列难题，将训练效率提升至85%-95%，与使用A100芯片的效率相当，单次训练成本与DeepSeek V3处于同一水平。

科大讯飞还通过MLA、MTP、DualPipe和FP8混合精度训练等技术优化，显著降低了训练和推理成本。目前，星火大模型已在国产算力平台上实现了训练和推理的全面覆盖，这是当前所有全民下载的通用大模型App中唯一实现的，体现了科大讯飞在国产算力领域的领先技术实力和战略眼光。未来，随着国产算力进一步提升，星火大模型的训练成本还有望进一步降低。

此外，科大讯飞还计划将X1模型与教育专家的合作成果相结合，生成符合教育教学需求的“教学思维链”，并率先应用于教师助手、批改、辅学等教育产品，预计在2025世界数字教育大会期间发布教育专属大模型和创新应用。

氧化铝期货午盘反弹深度解析：后市研判及交易策略步长制药：三十年坚守，产业报国，高质量发展之路