2021声学热点全知道——实时通信中的音频技术_专业音频新闻

2021声学热点全知道——实时通信中的音频技术

更新时间：2022-2-15 9:08:20　编辑：温情　21dB声学人　调整文字大小:【大中小】

2021声学行业大总结系列文章第二期，21dB声学人来和大家聊一聊实时通信中的音频技术~

作者：马文瑶

2021年实时通讯：声场景分类

音视频实时通讯产品发展至今，其产品功能趋于智能化、多样化、人性化。以广泛使用的线上会议产品为例，声学场景分类作为近年大热的技术，极大地提升了线上沟通质量。

声学场景分类

声学场景分类（ASC，Acoustic Sence Classifier）技术落地到线上会议，被用于自动判断用户所处的环境，进而自主地做出相应的调整，提高线上沟通质量。具体来说，入会者所处环境场景千变万化，而不同场景需要对音频流进行不同处理：如检测到街道环境，需要对风噪和交通噪声进行处理；检测到嘈杂声学场景，自动禁止嘈杂端麦克风；检测到音乐场景，不启动降噪算法以使音乐无失真传输到对端；检测到泄漏回声场景，开启残余回声消除算法[1]。

图1 声学场景分类算法流程（图片来源：网络）

ASC的作用是对描述场景位置的预定义标签中的音频数据进行识别和分类。传统的分类特征有梅尔频率倒谱系数MFCC（Mel-frequency Cepstrum Coefficient）、声学事件直方图或者基于时频学习的梯度直方图。传统的分类模型有隐马尔可夫模型HMM（Hidden Markov Model）、高斯混合模型GMM（Gaussian Mixture Model）、支持向量机SVM（Support Vector Machine）[2]。

当前主流是基于深度学习的ASC，其处理流程通常包含一下几个步骤：传感器采集环境信息、数据准备（声学表征、预处理、数据增强）、数据建模（网络架构、学习方法）以及最终的评价部署。本文主要聚焦于数据建模部分，对以往的工作进行了介绍，并考察了2021年度学者进行的改进与探索。

数据建模之——网格架构

绝大多数性能优异的ASC算法使用的是卷积神经网络CNN（Convolutional Neural Network）架构。近年来有层出不穷基于CNN的改进算法：Ren等人使用具有全局注意力池化的空洞卷积神经网络作为分类模型，使用大感受野取代局部池化来固定特征地图（Feature Map）的大小[3]；Koutini等人通过对感受野进行正则化改进了ASC性能[4]；Basbug等人则是从改进聚合局部特征的方式的角度修改了CNN的级联架构，该架构使用的是空间金字塔池化策略[5]；Suh等人通过对输入特征进行网格搜索寻找合适的感受野[6]。

数据建模之——学习方法

现有常用的学习方法有：闭集分类——适用于声学场景类别固定的数据[7]；开集分类——适用于实时场景，数据分布未知[8]；多输入网络法——前文所提及的都是基于CNN的ASC算法，其特征输入都是多维的，而CNN起初是由图像处理领域引入近音频处理的，音频信号的时频谱图作为特征与图像有着完全不同的意义，因此有学者从训练神经网络能检测不同维度的角度出发，将频谱图划分子带，称为多输入网络；注意力机制[9]；迁移学习——即充分利用机器视觉领域使用过的的网络结构；集成学习——对多个模型进行集成，在学术领域的活跃程度较高，在工程领域由于时间和资源的限制无法落地。

2021年度难点与探索

难点一：由于同一类声场景的不同音频样本所包含的声事件并不总是相同的，而不同类场景的音频样本却极有可能包含相同的声事件，导致类内间差较大，而类间间差较小。针对此技术难点，Chon等人引入两个不同结构的CNN进行双尺度深度嵌入的学习，以期能够有效地学习表征出不同声场景的特征差异[12]。

难点二：不同声场景的时频尺度不一致。对此，Xie等人从时频结构出发提出了一种融合结构，利用短时傅里叶变换、常数Q变换、小波变换推导出一种融合时频表征[13]。

难点三：CNN模型作为ASC系统实现的主流选择，通常包含大量参数，计算复杂度高，在较低的参数存储容量水平下难以保证ASC性能。对此Shi等人提出了一种低复杂度的基于原始环境生成数据的ASC[14]，其核心为主环境提取PAE（Primary Ambient Extraction）。

主环境提取

以往的工作主要集中在模型层面的优化，Shi等人另辟蹊径，从数据层出发进行优化，提出主环境提取PAE，让人耳目一新。为了降低计算复杂度，还提出了PAE的快速实现Fast PAE。

PAE算法最初提出的目的是将立体声音频剪辑混合到任意数量的信道中，以便由多信道再现系统播放。它假设在立体声音频的每个通道中都有一个主分量和一个环境分量，Shi等人恰是从该应用的逆向进行思考。但是考虑到主成分和环境成分与原始立体声音频的数据分布不同，则将主成分和环境分量按照随机权重进行混合，得到与原始立体声音频样本相关的增强样本，从而在不改变原始数据分布的情况下有效地提高了数据的泛化程度。通过优化搜索策略，作者还进而得到了一种快速算法称为Fast PAE。实验结果证明该Fast PAE计算复杂度和其他算法相比有明显优势。

图2 使用PAE算法生成数据

图3 处理多样本的时间成本比较

回顾前述所有的ASC算法，现有的改进角度包括但不限于：分类器设计、数据增强方案、特征提取方案、子模型数量、外部数据引用情况、嵌入层设计，模型压缩方案。展望2022，在上述角度依然有改进的空间，但是基于机器学习的ASC算法从机器视觉领域受启发颇多，未来可以更多考虑充分利用音频信号的谱特征。此外，挑战低复杂度依然是解决工程领域与学术领域无法同步的必然方向。

参考文献：

（图片来源：网络）

[1]Cloud.tencent.com

[2]Mesaros A, Heittola T, Benetos E, et al. Detection and classification of acoustic scenes and events: outcome of the DCASE 2016 challenge[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing, 2018, 26(2): 379–393.)

[3]Ren, Z.; Kong, Q.; Han, J.; Plumbley, M.D.; Schuller, B.W. Attention based Atrous Convolutional Neural Networks: Visualisation and Understanding Perspectives of Acoustic Scenes. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 56–60.

[4]Koutini, K.; Eghbal-zadeh, H.; Widmer, G. Receptive-Field-Regularized CNN Variants for Acoustic Scene Classification. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 124–128.

[5]Basbug, A.M.; Sert, M. Acoustic Scene Classification Using Spatial Pyramid Pooling with Convolutional Neural Networks. In Proceedings of the 13th IEEE International Conference on Semantic Computing (ICSC), Newport, CA, USA, 30 January–1 February 2019; pp. 128–131.

[6]Suh, Sangwon, Sooyoung Park, Youngho Jeong and Taejin Lee. Designing Acoustic Scene Classification Models with CNN Variants Technical Report.2020.

[7]Saki, F.; Guo, Y.; Hung, C.Y. Open-Set Evolving Acoustic Scene Classification System. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 219–223.

[8]Wilkinghoff, K.; Frank Kurth. Open-Set Acoustic Scene Classification with Deep Convolutional Autoencoders. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019; pp. 258–262.

[9]Mcdonnell, M.D.; Gao, W. Acoustic Scene Classification Using Deep Residual Networks With Late Fusion of Separated High and Low Frequency Paths. In Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop (DCASE), New York, NY, USA, 25–26 October 2019.

[10]Phaye, S.S.R.; Benetos, E.; Wang, Y. Subspectralnet—Using Sub-Spectrogram based Convolutional Neural Networks for Acoustic Scene Classification. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 825–829.

[11]Wang, C.Y.; Santoso, A.; Wang, J.C. Acoustic Scene Classification using Self-Determination Convolutional Neural Network. In Proceedings of the 9th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), Honolulu, HI, USA, 2–15 November 2018; pp. 19–22.

[12]H. K. Chon et al., Acoustic Scene Classification Using Aggregation of Two-Scale Deep Embeddings, 2021 IEEE 21st International Conference on Communication Technology (ICCT), 2021, pp. 1341-1345.

[13]W. Xie, Q. He, H. Yan and Y. Li, "Acoustic Scene Classification Using Deep CNNs With Time-Frequency Representations," 2021 IEEE 21st International Conference on Communication Technology (ICCT), 2021, pp. 1325-1329.

[14]C. Shi, H. Yang, Y. Liu and J. Liang, Low-Complexity Acoustic Scene Classification Using Data Generation Based On Primary Ambient Extraction,2021 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB), 2021, pp. 1-5.

更多相关： 21dB声学人 2021声学热点实时通信音频技术

<< 去音响网首页

免责声明：本图文素材来源于21dB声学人,本文仅代表作者个人观点，与音响网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如涉及到侵权，请联系我们及时删除。

　网友评论