跟大家分享一个好消息
钉钉音视频旗下蜂鸣鸟音频实验室的多篇论文登上了国际语音顶会 ICASSP2023 和 INTERSPEECH2023,并在降噪、去混响、回声消除、远场拾音等多个子项均达到了行业领先水平!
· 来自国际顶会的认可 ·
在语音学界,被定义为“顶级”的大会一年有两个,一个是每年上半年举办的 ICASSP,另一个就是每年下半年举办的 INTERSPEECH。
INTERSPEECH 是由国际语音通讯协会 ISCA 创办的专注于综合性语音领域的学术盛会,在国际上享有极高盛誉并具有广泛的学术影响力,历届 INTERSPEECH 会议都倍受全球各地语音研究领域人士的关注。
而 ICASSP 是电气与电子工程师协会 IEEE 主办的全球信号处理及其应用方面的学术盛会,自 1976 年第一次办会以来,也是各路语音大拿的必争之地。今年是第 48 届 ICASSP 大会,也是疫情后第一届线下会议,论文投递的数量相较往年上升了 50%,达到了惊人的 6,000+。
此次被录用的三篇论文,我们分别来总结一下:
《实时全带语音通信中深度窄带网络用于回声,噪音和混响的联合消除》:一个 AI 模型,同时干掉回声、噪音和混响
《线性麦克风阵列几何结构和空间滤波器的神经网络优化》:自研麦克风阵列,10 米远场拾音,线下开会更好地被听见
《基于分段式生成网络通过单通道混响语音盲估计空间冲击响应》:智能估计会议室声学环境,更佳的听感体验
目前,这些研究成果都已经或正在应用于钉钉会议客户端、Rooms、会议一体机 F1&F2 中,后续也将以技术模组的形式开放给行业生态伙伴。
· 专治开会“听不清” ·
开会,要的就是专注和效率。如果总是出现“不好意思,我没听清,你再说一遍”,那会议节奏就会被打乱。
"no video, we talk; no audio, we walk" 是音视频行业常说的一句话,意思是说,音频在音视频会议中的重要性要高于视频。远程会议,都需要解决回声、噪音和混响的问题。下面,让我们一起来认识一下全新的钉钉蜂鸣鸟音频解决方案吧!
| AI 降噪,300 种噪音一网打尽
开个会,环境太吵,汽车喇叭声、键盘敲击声......听不清?
蜂鸣鸟音频实验室独创了行业领先的 AI 单通道语音增强算法,使用深度学习模型,可实现全带 48kHz 的高清语音。经过几千个小时的定制化噪音样本训练,这一算法可消除近 300 种常见噪声,比如鼠标键盘声、水杯摩擦声、交通工具喧杂声、会议室脚步声、开门声等,让参会者可以不受这些噪声的干扰,随时听得见、听得清。
| AI 消除回声,每句话都清晰入耳
说话带“尾巴”,和对端同时讲话更加混乱、听不清?
蜂鸣鸟音频实验室自研的深度学习回声消除算法,基于传统信号处理框架统一支持不同的音频采样率(窄带、宽带、超宽带到全带),通过自适应滤波器,将残留回声引入 AI 模型进行处理,有效解决了“双讲透明”这一回声消除业内难题,保证线上参会者与线下参会者都可以顺畅地交流。
|原创麦克风阵列,10 米远距离拾音
坐得太远,听不清会议设备播放的声音,说个话对方也听不到,怎么办?
远场拾音一直是工业界的痛点,如何让身处会议室的各个方位的参会者都能听到与被听到一直也是学术界研究的热点。钉钉蜂鸣鸟音频实验室不仅提出了一种原创的指向性差分麦克风阵列算法,还创新性地将深度学习和差分阵列进行结合,利用深度神经网路优化麦克风阵列设计,有效解决会议硬件设备单机 10 米远场拾音的问题。
不仅是 10 米拾音,麦克风阵列技术还能够进行精准的声源定位,融合视频信息实现音视频设备的智能导播,可以实时追踪发言人的位置,让发言人始终处于画面 C 位。
目前,这一麦克风阵列解决方案中的最新成果已发表于 ICASSP 2023,同时也做了模块化拆分,方便开放给音视频行业生态伙伴,来提升他们硬件设备如会控设备、Video bar 一体机的拾音能力。
———— END ————
作为钉钉音视频事业部下设的音频实验室,团队始终聚焦实时语音领域技术,既追求学术上的领先性,又要将新技术的研发落地在钉钉会议产品中。未来,蜂鸣鸟音频实验室将持续打磨技术、产品,为更多用户提供优质的音频体验,也欢迎更多合作伙伴与我们共创新数字时代的美好未来。