这个时候国内又有新消息,音视频事业部正式成立,钉钉下面也有一个嗡嗡鸟音频实验室,由技术大师冯金伟直接负责。
鱼、羊、肖骁凹寺报道|微信官方账号QbitAI前脚脸书改名Meta,后脚微软也在会议软件上出XR新招。
这波宇宙热烧得太旺了,真的很难分辨真假。
而就在这个时候,中国也传来了一个新消息:
钉钉已经正式成立了音视频事业部,还成立了钉钉蜂鸣鸟音频实验室,由技术大师冯金伟直接负责。
在这个时间节点,针对国际厂商纷纷给自己贴上“超宇宙”标签的线上发布会现场,立刻引出了这样一个说法:
钉钉这个新实验室的研发目标指向了超宇宙。
啊?这意味着我在未来的超宇宙中不会迟到。
有必要进一步澄清真相。
我们二话没说,立即着手联系新闻中提到的新实验室冯金伟博士。
来吧,让我们问出真相。
为什么实验室是钉钉?首先,冯金伟博士向我们证实,已经成立了音视频事业部,成立了音频实验室,面向社会各界招聘博士研究员。
增加音频和视频服务的意图是明确的。但是,设立一个更接近业务方面的研究实验室,有些出乎意料。
核心问题是:设立这个“实验室”的具体目的是什么?你关注前沿科技的哪个方向?
围绕这一点,冯金伟博士向我们透露了他和他的团队的几个“小目标”:
一是针对在线会议场景最大的痛点和难点,将相应的前沿音频技术论文算法钉在地上,提升音视频产品的体验和竞争力。
比如在高铁或地铁上使用常用会议软件紧急开会时,信号极不稳定,扬声器卡顿、断线。
现在,嗡嗡鸟音频实验室针对这种情况正在设计“高铁模式”的音频方案,从声学原理、信号处理到软硬件产品全流程进行技术研发,力图真正解决在线会议网络不稳定的问题,包括使用电脑自带的麦克风等通用的收音机硬件。
第二,通过钉钉,将经过验证的成熟技术开放给行业合作伙伴。
比如开发独立的音视频模块,将钉钉音视频会议的产品技术和AI能力打包成一个硬件SDK,硬件可以接入模块,实现设备的智能升级;
第三,开展“下一代音视频形态学研究”,如XR。
从这个角度来看,这个“嗡嗡鸟实验室”的研究路径其实很清晰:已有研究成果——转化为产品成果——向行业开放——深化研究。
这也是冯金伟会被邀请坐在新实验室的原因:
负责人毕业于南京大学无线电物理和声学研究所,分别获得学士和硕士学位,同时也是南洋理工大学电子信号处理硕士和弗吉尼亚理工大学声学博士。
加入阿里巴巴之前,冯金伟在全球公认的视频会议设备“黄埔军校”Polycom担任总工程师。以他为核心贡献者,团队成功研发出音视频会议行业全球首款智能摄像机。
可以说,他的声学和信号处理双重背景在世界音频研究领域备受瞩目。
2017年加入达摩院后,冯金伟博士也继续从事声学和信号处理方面的研究。而且不仅仅是学术研究。事实上,从2017年开始,冯金伟就开始负责阿里内部音频和声学相关算法的联合应用。
最经典的落地案例是支持钉钉F1音视频一体机的构建,将语音3A算法(主要负责音频降噪和增益)应用到智能硬件上。
除此之外,达摩院团队的技术方案背后还有钉钉闪会的会议、“闪录”项目、远程教育的“专送课堂”项目、钉钉影音一体机的“F2”项目。
结合两方面的信息,钉钉成立“实验室”这个看似不自然的行为有了更清晰的解释:
相比于侧重于基础理论研究,嗡嗡鸟音频实验室侧重于应用研究——研究方向与钉钉音视频场景结合更紧密。
冯金伟博士表示,这其实是云钉整合带来的更深层次的价值——从横向支持到专项业务。
“由于这种独特的商业环境,每一项技术都可以被用户直接感知,所以嗡嗡鸟音频实验室的风格会介于技术理想主义和现实主义之间。我们的定位是研究‘领先半步到一步’的技术,既领先又落地。”冯金伟这样解释。
而且具体到团队本身,研究基础已经具备,实验室的建立也可以加速技术的聚集和落地。
说到这里,最关键的问题也可以回答了:
在这个时间节点上,明确提出要瞄准“下一代音视频形态学的研究”,而且和产品结合的如此紧密。真的会在微软Meta之后加速进入元宇宙吗?
冯金伟博士的回答很明确:不会。
他指出,XR是嗡嗡鸟音频实验室的一个研究方向,但实验室的核心目标是构建和创新音频的基础能力,最优先的是提升钉钉影音的软硬件体验。
即使总结起来,钉钉嗡嗡鸟音频实验室成立的真正原因也比想象中的简单——
音频是一个技术上的“短板”,必须从自身业务或者整个行业的角度去补。
在冯金伟看来,从行业的角度来看,音频技术在会议场景中其实有很大的发展空间。甚至“音频技术研发的优先级应该大于视频技术。”
他引用了音像界的一句名言:
没有视频,人们议论纷纷;没有音频,人走。(即使没有视频,人们也可以在会议中聊天;但是没有音频,人们将不得不结束会议。)
音频技术,包括弱网络场景、3D音频、个性化降噪,其实是下一代交互技术(比如与元宇宙紧密结合的XR)的核心体验点。
但目前的情况是,像微软、Meta这样的大型互联网公司,在视频技术上的储备很多。相比之下,大部分会议软件在音频技术上的投入相对较少,整体上没有太大动作。
最常见的场景之一就是开会。当我们召开视频会议的时候,如果使用手机和电脑自带的麦克风,我们会发现稍微远一点就听不清楚。少数人争论AI速记软件很傻,不清楚,一堆看不懂的文字纪要就出来了;如果会议室里混响很大,别说AI速记软件了,人在回声的影响下听不清楚。
这是音频研究中最基本的拾音问题。无论是视频会议还是语音识别,除非对着麦克风说话,否则都会面临这个问题。
其实远场拾音一直是行业的难点和痛点。挑战来自于封闭空间里的混响、噪音、回声。其中,去混响已被美国工程院列为“当代十大未解决的工程问题之一”。学术界和工业界研究了几十年,仍然没有完美的解决方案。
所以,嗡嗡鸟音频实验室接下来最关键的事情就是在更基础的音频技术上有所突破,从这个角度改变钉钉、钉钉合作伙伴乃至行业的现状。
背后的具体技术路线也可以从团队的R&D储备中推断出来。
比如上面提到的远场拾音的麦克风阵列技术,这种技术主要负责声音信号的定位和提取。仅去年一年,冯金伟大团队就在INTER-SPEECH等国际音频峰会上牵头发表了6篇系列论文,都与自主研发的“定向差分麦克风阵列”技术有关。
该研究首次结合了麦克风声学特性和差分波束理论的优势,明显提高了语音低频拾音的鲁棒性,增加了差分波束在低频带的白噪声增益,将远场拾音的语音识别准确率提升至行业TOP 1,比第二名提高了7%~9%。
此外,以差分阵列为载体,冯金伟团队还与相关团队合作,提出了业内首个利用差分阵列进行角色分离计算空间方位信息的技术框架。还积极参与建设了业界首个基于定向麦克风阵列的大规模远场语音开源数据集。
和语音3A算法。
冯金伟的团队将迅速锁定达摩院的Fullband 3A。该算法深度优化了会议代答的三大核心能力:
优化扬声器增益(AGC)。3米外测得的10dBFS的声音可以增益到22dBFS,对方在距离主持人5米远的地方说话依然可以听得很清楚。
优化回声消除(AEC)。能有效消除扬声器发出的声音经过空间传播后产生的99%的回声,人声失真度控制在3%以内;实现房间自适应,能智能检测房间混响,实现双讲透明。
优化噪声抑制(ANS)。可以抑制某些噪音,比如音箱旁边的声音以及会议室常见的空调、鼠标、键盘、翻书等噪音,保证传递出来的声音更纯粹。
目前,该算法已经应用于钉钉F1视频会议一体机以及合作伙伴的产品中。借助该算法,相关产品在音频质量主观盲MOS测评中的得分远超同细分市场视频会议设备。可以说是同类产品中性价比较高的选择。
……
技术储备明显到位,思路清晰。从这个角度来看,钉钉影音科技的举动似乎值得重新评价。
毫无疑问,返璞归真才能返璞归真。元宇宙是目前最火的科技热词,钉钉的发布会现场恰恰是巨头们看好的元宇宙应用阵地。
技术和场景是匹配的,背靠阿里这样的大集团,利用概念优势提前抢占小众,听起来是业内的常规操作。
但或许,正是在概念满天飞的时候,我们才应该冷静的思考,现有的技术有哪些可以直观的改变用户体验,行业最急需的技术进步是什么。
单纯添加音频和视频看似逆势,但也侧重于选择音频这种不太容易被“看到”的曲目,但另一方面也不是对自身的明确定位,也是技术自信的表现。
说到这里,瓜完了:钉钉确实增加了音视频,但是进入了元宇宙——还不够。
说了这么多,虽然不是针对元宇宙,但如上所述,音频等技术也是保证元宇宙交互体验的基础。钉钉影音将重点放在开放和构建生态上,或许就能在未来的元宇宙风向中站稳自己的小众位置。
而且,冯金伟还强调,有了音频实验室这个中间环节,与达摩院语音、视频、视觉、XR等相关实验室的合作将进一步深化。毕竟都是科研人员,有共同话题(手动狗头)。
然而,钉钉的选择也引发了新的一层思考:
跟风,却缺乏对行业本质的洞察,怕在越来越拥挤的赛道上偏离自己的航向。
停止做清单,不是必须的。
你怎么想呢?
最后还有一点,冯金伟博士还向我们透露了一个信息:
嗡嗡鸟音频实验室初创阶段对人才需求旺盛。
感兴趣的朋友可以投票。
评论前必须登录!
注册