AI大模型重塑垂域搜推商品理解:从通用到特化的工程实践
导语
随着大模型技术从通用对话向垂域任务特化演进,电商与外卖零售场景的搜索推荐系统正经历深刻变革。在阿里巴巴淘宝闪购业务中,商品理解是连接用户意图与商品供给的核心枢纽。然而,直接将通用大模型应用于类目预测、CPV预测和卖点生成等垂域任务时,往往面临“水土不服”。本文将拆解淘宝闪购团队如何通过构建垂域数据集、两阶段后训练框架及多模态渐进式训练策略,实现7B小模型超越14B大模型的收益,并建立数据飞轮闭环,为垂域搜推的商品理解提供可落地的工程路径。
核心问题与挑战
在外卖与零售场景下,通用大模型(包括开源视觉语言模型)在落地搜推商品理解时,暴露出四大核心局限:
- 知识遗忘与灾难性遗忘:垂域微调极易破坏模型的通用基础推理能力,导致“学了新的,忘了旧的”。
- 高度数据依赖:高质量垂域标注数据稀缺,且数据噪声大时模型效果急剧下降,传统监督学习路径受阻。
- 多任务孤岛:类目预测、属性提取、卖点生成等任务独立微调,不仅造成算力资源浪费,任务间知识也无法共享。
- 多模态细粒度理解Gap:开源VLM缺乏对餐饮、零售商品的细粒度理解与任务导向能力,通用Caption/VQA数据缺乏业务所需的关键决策信息。
方案与实践
针对上述痛点,团队从NLP统一训练范式、多模态数据与训练、数据飞轮三个维度进行破局。
垂域统一训练范式:FoodGPT两阶段框架
为打破多任务孤岛并降低数据依赖,团队构建了FoodInstruct垂域数据集,涵盖12个OFD(在线外卖与零售配送)领域NLP任务,包含160万+指令样本。基于此,提出FoodGPT两阶段后训练框架:
- 阶段1:领域多任务后训练(SFT+DPO+PPO)。在SFT基础上,引入强化学习对齐垂域偏好,统一学习12个任务,实现知识共享。
- 阶段2:垂域任务微调。在通用领域能力巩固后,针对具体下游任务进行特化微调,提升任务表现。
该框架有效降低了模型对海量高质量标注数据的依赖,消融实验证明其在多任务上的收益显著。
垂域多模态数据与训练:渐进式全参SFT
针对开源VLM在餐饮零售场景的理解偏差,核心在于弥补垂域多模态数据的不足。
1. 多样化数据生成方案
- 基础对齐:采用2stage-Caption与Self-KG-Caption,结合商品知识图谱生成高质量的图文描述数据,建立视觉-语言对齐能力。
- 复杂指令与推理:设计KG-Self-Instruct、MM-Evol及Star-Cot方案,逐步提升指令的复杂度与多样性,弥补通用VQA与垂域任务的Gap。
2. 渐进式训练策略
摒弃直接微调的做法,采用三阶段渐进式训练:从通用对齐到领域对齐,再到任务特化。在此过程中,坚持全参SFT结合任务微调,确保垂域知识被深度吸收。
大模型标注与质检飞轮
为解决标注成本高昂的问题,团队构建了基于多模型投票的数据飞轮:
- 调用多个SOTA大参数量模型,根据具体任务要求生成预填充结果并进行投票。
- 高置信度数据直接自动筛选入库,低置信度数据交由人工复核并回流训练。
- 这一闭环实现了标注降本与模型的持续迭代,用大模型数据飞轮替代传统人工标注。
原则/方法论沉淀
在垂域大模型的工程落地中,团队沉淀了以下关键经验:
- DPO与PPO的分工逻辑:DPO适用于有监督语料,用于学习负样本纠正错误倾向;PPO用于无监督数据探索,但需用DPO模型初始化并采用低学习率,以防训练崩溃。
- 全参SFT优于LoRA:在垂域基座训练中,全参SFT是吸收领域知识的保障。LoRA在小数据量下效果不佳,且增大秩并无显著收益。
- 跨模态能力迁移效应:多模态训练中,视觉-语言对齐能力可迁移至纯文本任务,这是7B VLM在垂域表现超越14B LLM的关键原因。
- 数据配比优于数据堆砌:在Caption、VQA与任务数据的配比中,50%:15%:35%的黄金配比可用50%的数据达到全量数据的表现,极大节省训练成本。
- 渐进式训练防遗忘:从通用到特化的渐进式训练,是避免灾难性遗忘、维持通用能力与垂域表现平衡的必由之路。
总结与行动建议
大模型正在重新定义搜推软件的架构。从淘宝闪购的实践来看,垂域大模型落地的核心不在于一味追求参数规模,而在于“高质量垂域数据合成 + SFT/RL两阶段后训练 + 渐进式全参微调 + 数据飞轮闭环”的体系化工程能力。
对于工程团队的行动建议:
- 停止单任务孤岛式微调:尽快向多任务统一后训练范式迁移,打破任务壁垒,提升模型基座泛化性。
- 重投入多模态合成数据:不要依赖现成的通用VQA/Caption,基于业务KG构建Self-Instruct与复杂演进数据才是护城河。
- 尽早建立数据飞轮:利用多模型投票机制替代重度人工标注,将人工精力聚焦于低置信度复核,实现数据闭环的自动化与降本增效。
开放问题与延伸方向
- 在「7B VLM超越14B LLM」的结论中,具体的评测任务集和指标是什么,是否排除了视觉模态本身带来的信息增量干扰?
点评:关乎跨模态迁移结论的严谨性,需警惕视觉信息对纯文本任务的越权贡献。 - 全参SFT在吸收垂域知识时极易引发通用能力的灾难性遗忘,仅靠「渐进式训练」是否足以规避,有无量化指标衡量通用能力的损耗?
点评:全参SFT的遗忘风险是工程痛点,需明确通用能力的监控红线。 - 数据配比(50:15:35)能用一半数据达到全量表现,这一发现若泛化到其他垂域,能带来多大的算力与标注成本缩减空间?
点评:数据配比的红利具有极高的业务价值,值得在其他场景复验并量化收益。 - 两阶段RLHF(DPO+PPO)在垂域落地中工程链路极长且极难调参,这种复杂度是否已经超出了实际业务迭代速度的承受阈值?
点评:技术理想与工程效率的博弈,需评估RLHF的投入产出比是否可接受。 - 既然常规LoRA在小数据量下效果不佳,是否考虑过MoE架构或更高阶的参数高效微调(如DoRA)来兼顾全参的知识吸收与参数隔离?
点评:探索全参SFT的替代方案,寻找防遗忘与低算力消耗的平衡点。 - 基于多SOTA模型投票的标注飞轮,本质上是用模型A的输出训练模型B,长期闭环是否会导致「模型坍塌」或同质化,丧失长尾泛化能力?
点评:数据飞轮的长期隐患,需关注合成数据回流的误差累积效应。 - FoodInstruct涵盖12个NLP任务,这12个任务在统一训练时的损失函数权重是如何分配的,是否存在任务间的梯度冲突导致互相拉扯?
点评:多任务统一训练的底层细节,梯度冲突是影响最终收益的暗礁。 - 视觉-语言对齐能力向纯文本任务的迁移效应非常显著,能否将此机制迁移至音频或视频模态,构建更泛在的跨模态对齐基座?
点评:跨模态迁移的延展性思考,为未来多模态融合提供方向。 - 在「数据生成-模型训练-标注质检」的完整闭环中,当前最大的工程瓶颈是在数据清洗、RLHF调参还是推理延迟,下一步的优化重心应放在哪?
点评:聚焦工程全链路的卡点,决定团队下一步资源投入方向。 - DPO用于有监督负样本纠偏、PPO用于无监督数据探索,这种分工在逻辑上非常自洽,它是否是目前解决垂域幻觉和价值观对齐的最优解?
点评:对齐策略的理论自洽性探讨,验证当前RL组合拳的不可替代性。