无需再回顾智能音箱的发家史,由亚马逊Echo引起的这股战火从国外一直蔓延到国内:联网巨头们加入了,无数智能硬件厂家,包括家电厂家,连内容提供商也开始加入了,智能音箱俨然已成为物联网技术应用的一大风口。
各种类型智能音箱的火热反映出整个智能语音设备市场的持续升温。根据Global Market Insights数据则显示,未来七年全球语音市场的年增长为34.9%,预计到2024年市场规模达到110亿美元。
如此诱人的市场自然不容错过,但是,对于想分享市场蛋糕的玩家来说,开发带有智能语音功能的设备真有想象中的那么容易吗?
智能语音产品不是你想做就能做
曾经,语音识别功能只出现在手机、平板这些成熟的移动互联网设备,多半以SDK集成或API调用来实现。但近几年,在物联网设备上集成语音功能的趋势越来越明显,除了大火的智能音箱外,可用语音控制的智能家电、智能家居产品都已出现。
然而,对于想开发具备语音功能的智能硬件公司来说,打磨出使用体验较好的产品并非易事。语音功能涉及到器件选型与结构优化、远场拾音与信号处理、语音识别、语义理解、语音合成等多个环节,这是一个需要软硬件协同优化的全技术链条工作。单凭硬件或软件一方,根本支撑不了一个优异的产品和良好的交互体验。
语音识别、语义理解、语音合成还可以调用几家巨头公司的云端接口(如国外的Amazon、微软,国内的百度等),而且已经能够较好的满足语音识别场景需求,但在设备端的拾音环节却会难倒一大批中小企业:麦克风选型所涉及的各项参数指标、声学结构的设计、信号处理、音频信号的传输等技术难点导致拾音效果不佳,即使云端的识别算法再强大,识别率也不会高。
据深圳迪韵科技公司的CEO呼生刚指出,在物联网设备上整合语音功能是热点,也是难点:硬件上,为控制成本,主控芯片的功能承载和运算资源有限;软件上,没有如安卓生态那样成熟、易移植的算法;服务上,很多语音公司的技术支撑资源有限,项目并行服务能力无法保证,使得在物联网设备上整合语音功能成为了很多中小企业甚至一些大企业的梦魇:
明明是一个多功能定义的硬件产品,语音识别仅仅是其中一个功能特性而已,却使得公司将大部分ID与结构、产品、研发、项目管理、供应链资源全都投入其中了,实际效果还不一定保证。而一些语音识别公司不给力的服务又会带来产品开发进度拖沓,以及昂贵的NRE开发费,企业的痛楚可想而知。
产品型企业需要优质的语音方案支持
语音产品没有通用的解决方案,因为产品实际的使用场景、使用环境对语音功能的效果影响非常大。呼生刚介绍,以家庭应用为例,其实家庭都是一个很复杂的噪声环境,不同房间里语音信号的处理差异很大。
比如,浴室是一个相对封闭的环境,由于玻璃等介质的强反射性,会产生大量的多径反射和混响;客厅里木地板、瓷砖、墙纸等各种不同的反射介质形成了声音的多路径传播;而厨房里则主要是烟机的工作噪声和炒菜时的非稳态噪声。这些不同的噪声需要不同的算法来降噪,在声音的处理技术上对于整个业界来说都是痛点。
针对需要语音识别功能的智能产品开发,迪韵科技首先已经成熟对接了国内外主流的语音识别开放云,这些开放云从技术实力、场景化语音服务及收费情况来看,都是非常不错的选择。同时,迪韵科技提供了一整套软硬件结合的音频解决方案:包括单麦、双麦、3+1麦、6+1麦的麦克风阵列及相匹配的自有知识产权核心算法,这套算法在不同芯片平台上具有良好的可移植性。
▲迪韵科技公司专业声学实验室
迪韵科技还可以根据客户需求提供定制化的方案服务,在产品定义之初就为客户提出声学建议,包括声腔的设计、器件的选型、麦克风阵列的选择和安放位置、针对使用场景的算法优化、语音信号网络传输优化等,保证最优的产品使用体验。
迪韵自主开发的语音算法使得麦克风阵列通过I2S标准接口直接连到主控芯片就能完成语音的降噪功能,同时可以基于客户对结构、产品和成本控制的要求,选择数字信号或模拟麦克风,驻极体或MEMS麦克风。
对于硬件资源受限的开发项目,迪韵也可以非常完美的应用科胜讯等降噪芯片,将语音信号处理完全放在第三方DSP上,主控资源只需要处理客户的业务逻辑即可。两种方案大大降低了产品的开发成本和开发周期,使得厂家在选择主控芯片时具有更大的自由度,更便利的保证了产品成功。
▲迪韵科技智能语音Wi-Fi音箱方案
音视频结合的应用和IP内容分发将成为趋势
语音交互是智能产品交互形式的终极吗?从迪韵科技的对应用场景和商业逻辑的理解上来看,并不是,将音视频整合会成为继智能语音后的下一个趋势。还是以Echo为例,亚马逊在最近发布了搭载显示屏、具备视频通话功能的Echo Show,可看出亚马逊也将音视频的结合作为发力的方向。
如何为用户提供更为便捷的应用服务?视频能提供比语音更为丰富的信息:当用户询问天气时,语音还能对付;而当用户询问交通路线时,语音播报显然不如在屏幕上直接显示地图和路线更直观。
可以预见,随着亚马逊推出Echo Show之后,在物联网设备,尤其是智能家用设备上整合音视频功能将成为风潮。甚至在呼生刚看来,未来在家庭设备上,音视频功能会普及。用户走到各个房间各个角落,都可以跟设备发生音视频交互,形成一个分布式的人机交互系统。而不仅仅只有一个家庭中控中心,万物互联、实时互联不再是梦想。
在语音交互的基础之上,迪韵还提供特色化的云服务功能:云存储、云录播与直播、人形识别、人脸检测、物块识别、IP内容分发等等。迪韵自主开发的编解码和网络传输技术提供云端、通信、设备端的一系列完整方案,保证音视频体验的协调性。迪韵还计划将所有音视频功能整合成一个SDK,客户只需根据需求灵活选用其中的某些功能就可以快速开发出自己需要的产品方案。
而在内容授权与合作方面,迪韵科技已经从产业链的核心合作伙伴获取了数百万首音乐及儿童教育的内容资源,通过授权和联合分发,使得客户的最终产品具有丰富的应用内容。通过迪韵提供的硬件、软件、内容的整体解决方案,保证客户的产品能够快速落地,帮助客户取得商业成功。
▲迪韵科技音视频(IPC)模组
语音信号处理+音视频结合+内容分发,三位一体构成了迪韵科技完整的音视频解决方案,迪韵将自己定位于智能物联网设备的音视频整体方案商。呼生刚表示,“迪韵科技对商业价值链条具有深刻理解,为客户服务、保证客户商业成功是我们的核心宗旨。而且基于对自身技术的领先性和实用性的信心,迪韵正在积极推进亚马逊的认证工作,为开拓海外市场做好准备。迪韵的技术方案追求在有限的硬件资源和成本控制下,达到最优质的实际效果。科技不能永远追求极致,如果极致需要用高昂的价格来支撑,实际上用户也不会太接受。
在智能家用产品整体处于发展期的大环境下,如何在价格和使用体验上取得平衡,如何在服务上取胜,也是厂家需要思考的,否则高昂的价格只会成为智能产品普及的障碍。”呼生刚指出。