本周工作思考
GE uShow的拟合度优化
最近uShow项目,包括GE 和 凯西宝丽亚项目,客户运营目标要求比过往的要求提高了很多,需要通过验证集和验证集的分数拟合才能继续推动项目进行,我们在保证现有项目的正常运营线,要对uShow里面涉及到的大部分算法做升级迭代。目前的主要问题是客户期望完全拟合测试集,但是难点在于:1 产品知识点拟合时间较长,一般的uShow有20张ppt,每张ppt抽取一个知识点,通过分数拟合策略,压缩到10-12个知识点之间,这个过程比较耗时,2 FAB基于微调的模型,目前很多FAB不能很好的识别;3是ASR质量较差,这个主要原因是uShow的内容都是非常专业的医疗医药知识,不同的销售代表口音比较严重,真多以上的问题,我们已经开始计划一系列优化改进上述问题
ASR数据预处理
第一次接触此类任务,耗时耗力但又非常重要的任务,找到ASR错误的句子和纠正后的句子,有点类似人工标注,但是需要高质量的标注,目前依赖大模型做初步的数据初筛,然后人工过一遍,去掉用户自己的发言错误的句子,留下纯属ASR自己的错误,ASR一般包括,插入错误,连贯性错误,口音和发音错误,同音异义词,背景噪音错误等等,这些错误有些是用户自己本身发言的问题,所以在人工筛选过程中需要识别出那些是人为错误。我们也希望在这个过程中能够积攒经验,总结经验,为数据与预处理做一些工程技术上准备。