垂直领域大模型建设经验总结

通过预训练和微调构建国资国企知识领域大模型，我公司AI团队，从2024年到2025上半年，进行了两轮的垂直领域训练，评测指标已实现对基座模型的超越，能够满足用户需求，总体情况如下：

在国资国企领域数据集上的评测指标已实现对基座模型的超越，领域问答能力优于DeepSeek、豆包大模型。不过，写作任务能力需强化；且模型当前关键短板集中在：内容生成时回答偏短，长文本及上下文理解也未达理想状态，这些将是后续优化的核心方向。

根据存在的问题以及涉及到的专业语料的数量研判，下一步预训练及微调方向

1、语料需求

• 核心语料：10GB+内部资料 • 辅助语料：5GB+领域相关语料 • 微调语料：基础问答5万对问答对

深度分析15万对问答对

写作任务25万对问答对