您当前的位置：首页 > 专项审批

风雨兼程17载，中国人工智能公司中的甲骨文—捷通华声！

2017-10-13 00:21:35

风雨兼程17载，中国人工智能公司中的甲骨文—捷通华声！今年两会，人工智能被正式写入政府工作报告中，一大批人工智能公司脱颖而出，其中有一家神秘的人工智能公司捷通华声，蛰伏17载、不显山不露水，痴迷于人工智能关键技术的难点攻克和云平台的开发应用。

人工智能在广阔的领域实现了技术突破，让AI的表现形式（载体）上，完成了交互体验升级换代，比如视觉领域里的避障技术、图象辨认领域里的人脸辨认，还有语音领域中的语音交互。而语音交互主要触及语音辨认、语义理解、机器翻译、语音合成和麦克风阵列。我们以麦克风阵列为例，看看它是如何被捷通华声攻克？

神秘的麦克风阵列，是什么样一种技术？
麦克风阵列(Smart Microphone Array)，从字面上，指的是麦克风的排列。也就是说由1定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。一般应用于语音处理的按一定规则排列的多个麦克风系统，也可以简单理解为2个以上麦克风组成的录音系统。
麦克风阵列一般来说有直线形、环线形和球状之分，严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量，也就是麦克风数量，可以从2个到上千个不等。

看捷通华声如何攻克麦克风阵列的四大难点！
如此复杂的麦克风阵列主要应用于工业和国防领域，消费领域（例如机器人领域）考虑到成本会简化很多，但也需要攻克四大技术难点：

01噪音抑制太嘈杂了，听不清！

语音辨认在有些场合需要完全去除噪声，通话系统中则需要的技术则是噪声去除。这里说的噪声一般指环境噪声，比如空调噪声，这类噪声通常不具有空间指向性，能量也不是特别大，不会掩盖正常的语音，只是影响了语音的清晰度和可懂度。一般情况下，不怎么做强噪声环境下的处理，只需满足日常场景的语音交互就够了。
02声源定位声音太多，在哪里？

现实中，声源的位置是不断变化的，这对麦克风收音来讲，是个障碍。麦克风阵列则可以进行声源定位，声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离，从而实现对目标说话人的跟踪和后续的语音定向拾取，是人机交互、音视频会议等领域非常重要的前处理技术。所以麦克风阵列技术不限制说话人的运动，不需要移动位置以改变其接收方向，具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点，因此成为智能语音处理系统中捕捉说话人语音的重要手段。请看下面的实验：

语音识别的距离/方向实验
03混响消除享受混响，却麻烦！

一般我们听音乐时，希望有混响的效果，这是听觉上的一种享受。适合的混响会使得声音圆润动听、富有感染力。
混响(Reverberation)现象指的是声波在室内传播时，要被墙壁、天花板、地板等障碍物构成反射声，并和直达声构成叠加；而当声源停止发声后，声波在房间内要经过屡次反射和吸收，仿佛若干个声波混合延续一段时间。
混响会严重影响语音信号处理，比如互相关函数或波束主瓣，下降测向精度。由于混响则会使得不同步的语音相互叠加，带来了音素的交叠掩蔽效应(Phoneme Overlap Effect)，从而严重影响语音识别效果。请看下面的视频：

语音交互的混响消除
长袖定做工作服混响去除的效果很大程度影响了语音辨认的效果，因此利用麦克风阵列去混响的主要方法有以下几种：
a.基于盲语音增强的方法(Blind signal enhancement approach)，即将混响信号作为普通的加性噪声信号，在这个上面运用语音增强算法。
b.基于波束构成的方法(Beamforming based approach)，通过将多麦克风对搜集的信号进行加权相加，在目标信号的方向构成一个拾音波束，同时衰减来自其他方向的反射声。
c.基于逆滤波的方法(An inverse filtering approach)，通过麦克风阵列估计房间的房间冲击响应(Room Impulse Response, RIR)，设计重构滤波器来补偿来消除混响。
良好的麦克风阵列的去混响技术能很好的对房间的混响情况进行自适应的估计，从而很好的进行纯净信号的还原，显着的提升了语音听感和辨认效果，在测试对比中，多种混响时间下辨认效果接近手机近讲水平。

严格来讲，这里说的回声消除不应当叫回声，应当叫自噪声。回声是混响的延伸概念，这二者的区分就是回声的时延更长。一般来说，超过100毫秒时延的混响，人类能够明显辨别出，仿佛一个声音同时出现了两次，我们就叫做回声，比如天坛着名的回声壁。实际上，这里所指的是语音交互装备自己发出的声音，比如Echo音箱，当播放歌曲的时候若叫Alexa，这时候麦克风阵列实际上收集了正在播放的音乐和用户所叫的Alexa声音，明显语音辨认无法辨认这两类声音。回声消除就是要去掉其中的音乐信息而只保存用户的人声，之所以叫回声消除，只是延续大家的习惯而已，其实是不恰当的。

04云端辨认声音很多，却好用！

麦克风阵列增益，主要是解决拾音距离的问题，若信号较小，语音辨认同样不能保证，通过阵列处理可以适当加大语音信号的能量。
而波束构成是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理（例如加权、时延、求和等）构成空间指向性的方法。波束形成主要是抑制主瓣之外的声音干扰，这里也包括人声，比如几个人围绕机器人谈话的时候，机器人只会识别其中一个人的声音；但对于机器人来讲，能同时辨认不同距离和不同方位的声源，变得尤其重要这也代表了人工智能的语音交互领域趋于成熟！

对语音交互中的模型匹配，主要是和语音识别以及语义理解进行匹配，使得语音交互成为一个完全的信号链，从麦克风阵列开始的语音流不可能割裂的存在，必定需要模型匹配在一起。实际上，效果较好的语音交互专用麦克风阵列，通常是两套算法，一套内嵌于硬件实时处理，另外一套服务于云端匹配语音处理；而本地+云端中，成立于世纪之交2000年的捷通华声是一家专注于智能语音、智能图象、生物特点识别、语义理解等人工智能技术的研究与运用，全面发展人工智能云服务的高新技术企业。
捷通华声的灵云平台在2014年面向人工智能产业全面开放，并以云 + 端方式，为产业界提供语音合成（TTS）、语音辨认（ASR）、声纹辨认（VPR）、手写识别（HWR）、光学字符辨认（OCR）、指纹识别（FPR）、机器翻译（MT）、自然语言理解（NLU）等全方位的人工智能云服务；服务于百度导航、搜狗导航、小米、乐视、京东商场、携程网、去哪儿网、奔驰、中国农业银行、导航犬、嘀嘀打车、快的打车、汉字英雄、天行听书、天行输入法、触宝输入法等知名公司。