AI大模型重塑垂域搜推商品理解：从通用到特化的工程实践

2026-05-06

AI大模型重塑垂域搜推商品理解：从通用到特化的工程实践

导语

随着大模型技术从通用对话向垂域任务特化演进，电商与外卖零售场景的搜索推荐系统正经历深刻变革。在阿里巴巴淘宝闪购业务中，商品理解是连接用户意图与商品供给的核心枢纽。然而，直接将通用大模型应用于类目预测、CPV预测和卖点生成等垂域任务时，往往面临“水土不服”。本文将拆解淘宝闪购团队如何通过构建垂域数据集、两阶段后训练框架及多模态渐进式训练策略，实现7B小模型超越14B大模型的收益，并建立数据飞轮闭环，为垂域搜推的商品理解提供可落地的工程路径。

核心问题与挑战

在外卖与零售场景下，通用大模型（包括开源视觉语言模型）在落地搜推商品理解时，暴露出四大核心局限：

知识遗忘与灾难性遗忘：垂域微调极易破坏模型的通用基础推理能力，导致“学了新的，忘了旧的”。
高度数据依赖：高质量垂域标注数据稀缺，且数据噪声大时模型效果急剧下降，传统监督学习路径受阻。
多任务孤岛：类目预测、属性提取、卖点生成等任务独立微调，不仅造成算力资源浪费，任务间知识也无法共享。
多模态细粒度理解Gap：开源VLM缺乏对餐饮、零售商品的细粒度理解与任务导向能力，通用Caption/VQA数据缺乏业务所需的关键决策信息。

方案与实践

针对上述痛点，团队从NLP统一训练范式、多模态数据与训练、数据飞轮三个维度进行破局。

垂域统一训练范式：FoodGPT两阶段框架

为打破多任务孤岛并降低数据依赖，团队构建了FoodInstruct垂域数据集，涵盖12个OFD（在线外卖与零售配送）领域NLP任务，包含160万+指令样本。基于此，提出FoodGPT两阶段后训练框架：

阶段1：领域多任务后训练（SFT+DPO+PPO）。在SFT基础上，引入强化学习对齐垂域偏好，统一学习12个任务，实现知识共享。
阶段2：垂域任务微调。在通用领域能力巩固后，针对具体下游任务进行特化微调，提升任务表现。

该框架有效降低了模型对海量高质量标注数据的依赖，消融实验证明其在多任务上的收益显著。

垂域多模态数据与训练：渐进式全参SFT

针对开源VLM在餐饮零售场景的理解偏差，核心在于弥补垂域多模态数据的不足。

1. 多样化数据生成方案

基础对齐：采用2stage-Caption与Self-KG-Caption，结合商品知识图谱生成高质量的图文描述数据，建立视觉-语言对齐能力。
复杂指令与推理：设计KG-Self-Instruct、MM-Evol及Star-Cot方案，逐步提升指令的复杂度与多样性，弥补通用VQA与垂域任务的Gap。

2. 渐进式训练策略
摒弃直接微调的做法，采用三阶段渐进式训练：从通用对齐到领域对齐，再到任务特化。在此过程中，坚持全参SFT结合任务微调，确保垂域知识被深度吸收。

大模型标注与质检飞轮

为解决标注成本高昂的问题，团队构建了基于多模型投票的数据飞轮：

调用多个SOTA大参数量模型，根据具体任务要求生成预填充结果并进行投票。
高置信度数据直接自动筛选入库，低置信度数据交由人工复核并回流训练。
这一闭环实现了标注降本与模型的持续迭代，用大模型数据飞轮替代传统人工标注。

原则/方法论沉淀

在垂域大模型的工程落地中，团队沉淀了以下关键经验：

DPO与PPO的分工逻辑：DPO适用于有监督语料，用于学习负样本纠正错误倾向；PPO用于无监督数据探索，但需用DPO模型初始化并采用低学习率，以防训练崩溃。
全参SFT优于LoRA：在垂域基座训练中，全参SFT是吸收领域知识的保障。LoRA在小数据量下效果不佳，且增大秩并无显著收益。
跨模态能力迁移效应：多模态训练中，视觉-语言对齐能力可迁移至纯文本任务，这是7B VLM在垂域表现超越14B LLM的关键原因。
数据配比优于数据堆砌：在Caption、VQA与任务数据的配比中，50%:15%:35%的黄金配比可用50%的数据达到全量数据的表现，极大节省训练成本。
渐进式训练防遗忘：从通用到特化的渐进式训练，是避免灾难性遗忘、维持通用能力与垂域表现平衡的必由之路。

总结与行动建议

大模型正在重新定义搜推软件的架构。从淘宝闪购的实践来看，垂域大模型落地的核心不在于一味追求参数规模，而在于“高质量垂域数据合成 + SFT/RL两阶段后训练 + 渐进式全参微调 + 数据飞轮闭环”的体系化工程能力。

对于工程团队的行动建议：

停止单任务孤岛式微调：尽快向多任务统一后训练范式迁移，打破任务壁垒，提升模型基座泛化性。
重投入多模态合成数据：不要依赖现成的通用VQA/Caption，基于业务KG构建Self-Instruct与复杂演进数据才是护城河。
尽早建立数据飞轮：利用多模型投票机制替代重度人工标注，将人工精力聚焦于低置信度复核，实现数据闭环的自动化与降本增效。

开放问题与延伸方向

在「7B VLM超越14B LLM」的结论中，具体的评测任务集和指标是什么，是否排除了视觉模态本身带来的信息增量干扰？
点评：关乎跨模态迁移结论的严谨性，需警惕视觉信息对纯文本任务的越权贡献。
全参SFT在吸收垂域知识时极易引发通用能力的灾难性遗忘，仅靠「渐进式训练」是否足以规避，有无量化指标衡量通用能力的损耗？
点评：全参SFT的遗忘风险是工程痛点，需明确通用能力的监控红线。
数据配比（50:15:35）能用一半数据达到全量表现，这一发现若泛化到其他垂域，能带来多大的算力与标注成本缩减空间？
点评：数据配比的红利具有极高的业务价值，值得在其他场景复验并量化收益。
两阶段RLHF（DPO+PPO）在垂域落地中工程链路极长且极难调参，这种复杂度是否已经超出了实际业务迭代速度的承受阈值？
点评：技术理想与工程效率的博弈，需评估RLHF的投入产出比是否可接受。
既然常规LoRA在小数据量下效果不佳，是否考虑过MoE架构或更高阶的参数高效微调（如DoRA）来兼顾全参的知识吸收与参数隔离？
点评：探索全参SFT的替代方案，寻找防遗忘与低算力消耗的平衡点。
基于多SOTA模型投票的标注飞轮，本质上是用模型A的输出训练模型B，长期闭环是否会导致「模型坍塌」或同质化，丧失长尾泛化能力？
点评：数据飞轮的长期隐患，需关注合成数据回流的误差累积效应。
FoodInstruct涵盖12个NLP任务，这12个任务在统一训练时的损失函数权重是如何分配的，是否存在任务间的梯度冲突导致互相拉扯？
点评：多任务统一训练的底层细节，梯度冲突是影响最终收益的暗礁。
视觉-语言对齐能力向纯文本任务的迁移效应非常显著，能否将此机制迁移至音频或视频模态，构建更泛在的跨模态对齐基座？
点评：跨模态迁移的延展性思考，为未来多模态融合提供方向。
在「数据生成-模型训练-标注质检」的完整闭环中，当前最大的工程瓶颈是在数据清洗、RLHF调参还是推理延迟，下一步的优化重心应放在哪？
点评：聚焦工程全链路的卡点，决定团队下一步资源投入方向。
DPO用于有监督负样本纠偏、PPO用于无监督数据探索，这种分工在逻辑上非常自洽，它是否是目前解决垂域幻觉和价值观对齐的最优解？
点评：对齐策略的理论自洽性探讨，验证当前RL组合拳的不可替代性。