低延迟高吞吐 - 同步,异步,流式
软件生态适配 - 插件化解耦兼容
- client
- inference protocol
- rest /grpc
ray.io多云调度(sky-computing) - 面向失败的对等设计
胡克弹性计算平台的实践
- rest /grpc
介绍
- 算法背后的力量
- 低成本,高性能,异部署
模块构成
- 模型管理,存储,复用,拉取,加载,版本,验证
- 镜像管理,环境问题,各种兼容和组合,直接复用
- 数据源管理,开源,闭源
- 服务管理,离线,在线,推荐服务
- 成本管理,监控,可视化,成本开源,模型市场
关键技术
- 虚拟化技术
- qGPU
- 离线在线混布
- 全技术栈容器化
- 异构计算
- cpu与gpu分离
- work flow能力
- 多优先级调度
- 跨地域多集群部署
- 推理加速
- 外部开源
- 内部自研
- 推理框架c++
移动端神经网络框架的工程化落地的实践
K歌背景及问题
- 算法模型的开发
- 模型管理,下载, 加载,参数
- 业务调用,推理引擎的引入,跨平台处理
- 推理过程
- 端侧加速
- 效率分析
- 优化
AI模型遇到的问题
- 不同业务使用不同的模型,如何统一
- 如何验证调优后的模型效果
- 如何简化模型接入
- 如何检测不同模型的效率
- 如何在不同平台的硬件加速
- 开箱即用AI模型的能力
自研的Tnet
- 一套平台,模型管理,性能管理,推理引擎管理,效率评估
- 面向业务,model hub
- 面向工程
Tnet的框架介绍
- 模型生成
- 模型管理
- 模型评测
- 模型调优
- 模型开发
- 模型使用
- 推理引擎使用
- 统一不同推理引擎的调用接口
- 端侧模型加速
- 效率分析和监控
- perfdog
- TME
- benchmark
- 音频处理SDK统一
落地情况
- 多维度打分
- 录唱AEC的不断优化
分层
模型训练
标签数据
模型管理平台
推理SDK
业务后台
业务层
- AI评分
能力层 - AI歌声评价
基础库