语音处理技术广泛应用在手机、视频会议系统、金融安全、刑侦等多种领域,本赛题要求采用紫光同创FPGA实现多种功能的音频信号处理,并对处理后的音频效果进行实时展示、对处理前后的音频频谱进行实时展示,基础的语音处理包含音频去噪、实时人声调整(男中音类型音频调整为女低音类型等)、音频回声消除、音乐消除;提高要求包括:将采集后的音频信号通过紫光同创PCIE或者以太网输入到上位机进行更丰富的实时效果展示,如音频人物画像(性别、年龄、情绪等)、采用卷积神经网络对从FPGA采集后的音频进行分类(爆炸、尖叫、唤醒等功能),并进行声纹识别,并给出系统处理延迟数据(声纹识别、音频分类功能不限于FPGA或者通过FPGA采集传输到上位机实现,但将FPGA处理音频识别、音频分类作为加分项,将处理延迟作为加分项)。
第八届集创赛紫光同创杯测试音频包下载:点击下载
1. 基础要求
(1) 通过FPGA完成给定音频源的音频信号采集并实现音频去噪功能,并通过自备喇叭或者耳机展示音频去噪效果;
(2) 通过FPGA实时采集给定音频源,并完成给定音频源的实时人声调整(男中音类型音频调整为女低音类型等);
(3) 通过FPGA完成音频回声消除功能;
(4) 通过FPGA完成给定音频源的音乐和人声分离。
2. 提高要求
(1) 通过FPGA实现PCIE或者以太网,并将采集到的音频信号通过PCIE或者以太网上传到上位机;
(2) 请自备音频源,完成音频的实时人物画像,包括但不限于性别、年龄、情绪等,其中FPGA完成信号的采集传输或者实现人物音频实时画像;
(3) 采用卷积神经网络对音频进行分类或者实时分类,包括但不限于爆炸、尖叫、唤醒等功能)等,其中FPGA完成信号的采集传输或者卷积网络分类。
(4) 利用给定的音频源对音频源进行实时声纹识别和人声分类、进行变声检测(变声音频源采用基础要求中变声后的音频,并充分展示效果,并详细描述原理),声纹识别功能须由FPGA实现;
(5) 其他音频处理效果,如声源定位等(但不限于声源定位等其他音频处理效果)。
3. 注意事项(重要):
(1) 由于音频处理效果受现场环境影响较大(环境嘈杂等因素),参赛者请充分考虑系统展示效果;
(2) 请参赛队伍清晰的描述音频处理前后的差别、识别准确率、处理延迟的说明;
(3) 请充分考虑FPGA实现更多的音频处理效果,上位机辅助处理;
(4) 为保证比赛评审的公平公正,推荐使用紫光同创的盘古50 开发板,开发平台可以自制或者采用其他第三方平台,但必须采用紫光同创Logos PGL50H-6IFBG484作为核心芯片;
(5) 所有竞赛配套培训均以盘古50作为硬件平台。
本次大赛赞助板卡
内容 | 分值 | 要求 |
基础要求 | 25分 | 1、完成音频信号的采集(5分) |
2、完成音频信号的去噪(5分) | ||
3、完成音频的实时人声调整(5分) | ||
4、完成音频回声消除(5分) | ||
5、完成音乐或者人声分离(5分) | ||
提高要求 | 55分 | 1、通过PCIE或者以太网进行音频信号的传输,以太网传输满分5分,PCIE传输满分10分。(10分) 2、进行音频人物画像。(10分) 3、采用卷积神经网络对音频进行分类,评分按准确率及处理延迟(10分) 4、对音频进行实时声纹识别,人声分类,评分按识别准确率及处理延迟(10分) 5、进行变声检测,评分按检测准确率(10分) 6、其他音频处理效果展示(5分) |
设计完整性 | 10分 | 1、完整设计方案(3分) |
2、完整仿真报告(3分) | ||
3、完整功耗、时序、面积、性能测试与展示报告(4分) | ||
文档报告 | 10分 | 1、PPT条例清晰(4分) |
2、文档逻辑通顺,图示美观(4分) | ||
3、源码规范,注释清晰(2分) |
初赛阶段
1. 汇报PPT:
(1) 项目介绍及完成情况描述
(2) 项目解决思路
(3) 项目实现原理及预期达到的性能及参数
分赛区决赛阶段
1. 汇报PPT、作品展示:
(1) 项目完成情况描述
(2) 项目原理及性能参数展示
(3) 项目功能演示及性能展示
总决赛阶段
1. 汇报PPT、作品展示
(1)项目完成情况描述
(2)项目原理及性能参数展示
(3)项目功能演示及性能展示
1. 参加企业命题杯赛的作品,杯赛出题企业有权在同等条件下优先购买参加本企业杯赛及单项奖获奖团队作品的知识产权。
2. 大赛组委会和杯赛企业对参赛作品提交的材料,在大赛相关环节中有使用权和展示权。
3. 参赛项目可以参考现有公开发表的文献和论文内容,但应当在技术论文和答辩PPT中注明来源,且不能将参考的内容作为自己作品的创新部分。