工作周报2024年 7 月 1 日 - 2024年 7 月 7 日

2024-07-07

本周工作思考

GE uShow的拟合度优化
最近uShow项目，包括GE 和凯西宝丽亚项目，客户运营目标要求比过往的要求提高了很多，需要通过验证集和验证集的分数拟合才能继续推动项目进行，我们在保证现有项目的正常运营线，要对uShow里面涉及到的大部分算法做升级迭代。目前的主要问题是客户期望完全拟合测试集，但是难点在于：1 产品知识点拟合时间较长，一般的uShow有20张ppt，每张ppt抽取一个知识点，通过分数拟合策略，压缩到10-12个知识点之间，这个过程比较耗时，2 FAB基于微调的模型，目前很多FAB不能很好的识别；3是ASR质量较差，这个主要原因是uShow的内容都是非常专业的医疗医药知识，不同的销售代表口音比较严重，真多以上的问题，我们已经开始计划一系列优化改进上述问题
ASR数据预处理
第一次接触此类任务，耗时耗力但又非常重要的任务，找到ASR错误的句子和纠正后的句子，有点类似人工标注，但是需要高质量的标注，目前依赖大模型做初步的数据初筛，然后人工过一遍，去掉用户自己的发言错误的句子，留下纯属ASR自己的错误，ASR一般包括，插入错误，连贯性错误，口音和发音错误，同音异义词，背景噪音错误等等，这些错误有些是用户自己本身发言的问题，所以在人工筛选过程中需要识别出那些是人为错误。我们也希望在这个过程中能够积攒经验，总结经验，为数据与预处理做一些工程技术上准备。

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true