不久前,腾讯宣布微信对外上线智能开放平台,向微信服务号和第三方应用开放语音识别技术和图像识别技术,而早在去年,百度也面向开发者开放了包括语音识别、面部识别等技术的接口。两大巨头们的做法显然是为了各自的平台来争夺开发者,但同时,他们的这一策略也为图像识别、语音识别等技术提供商们提出了难题——作为往往只专注于一个领域的创业公司,如何与全面出击的百度、腾讯们展开竞争?答案是:抱团。
近日,语音识别方案提供商云知声,联合了图像识别技术公司亮风台、人脸识别技术公司Face++和语义理解技术公司哦啦成立了一个智能交互联盟,向硬件厂商和互联网服务开发者提供包括语音、图像、人脸识别技术在内的智能交互技术打包方案。我们一眼就可以看出,这四家创业公司覆盖了图像、语音等最重要的人机交互模式,能够在各自的智能交互技术领域形成互补。
而在这四家当中,2013年10月获得1亿元A轮融资的云知声已经开始了不少的商业化尝试:
他们在去年推出了一个名为“语音魔方”的解决方案,要解释它,我们首先得了解语音识别和语义理解这两个不同的概念:语音识别的能力是能够准确识别声音信号,并将其转换为对应的文字;而语义识别则是让机器能够“理解”声音和文字的意义,并按照其指令给出反馈。以往,大部分的语音技术提供商都只专注于其中语音识别这一项服务,而“语音魔方”则是提供了语音+语义的混合方案,包括语音识别、语义理解、构建知识图谱和语音合成等技术。而其目标客户也并非软件开发者,而是智能电视、机顶盒、车载和可穿戴设备等在内的智能设备,厂商们可以快速将这套技术方案集成到自己的设备中去。
另一个赢利点是对传统行业的技术支持,呼叫中心就是这样一个急需被技术改造且利润丰厚的领域——智能交互系统能够减轻人工客服的压力并降低运营成本,例如美国呼叫中心领域,依靠智能语音导航便能够节省50%的人力坐席成本。所以云知声如今已经开始提供四类呼叫中心服务:
电话语音导航:当用户呼入时,系统会将用户的语音内容识别出来,然后与企业的互动式语音应答系统对接,这样,就能够让用户利用语音的方式与之进行交互——以往人们往往是需要通过根据提示来点击号码的方式实现;
语音分析系统:将用户和坐席的连续通话录音转写成文字,这样一来,企业便可以对文本数据进行分析,一方面可以找到用户们普遍反映的问题,另一方面也可以对客服质量进行监控。
智能语音对话系统:实际上这就是一个类似Siri的服务,不同的是,呼叫中心往往又更垂直的语言库,通过关键字匹配,让用户可以通过电话直接与系统交流,来获得所需的服务或是实现问答。
定制化的语音系统:有的企业并不愿意将自己的数据或服务放在公有云上,或是他们的语音问答需要更多自己领域的专业术语,所以云知声还会为这类客户提供定制化的语音导航方案,企业可以将其使用在自己的手机App上。
云之声的这些商业化尝试给了整个智能交互联盟一个相对稳健的模式,不仅仅是技术上的互补,也能够让这四家创业公司找到收益来源,以应对与互联网巨头们的竞争,而除此之外,要他们还需要在产品和技术层面谋求自己的竞争力。
哦啦的运营经理赵子嵩说,这些全部智能交互的准确率都需要接近100%,否则在产品化时就会很容易出现问题——例如突然无法面部识别解锁,那就会给用户造成很大的麻烦。为了提升识别的精准性,他们需要将各类数据结构化存储,所以,作为创业公司,虽然缺乏像百度、腾讯、阿里巴巴那样的海量数据,但他们会从金融等细分领域入手,在每个垂直领域搭建起自己的结构化数据库,来逐步实现在不同领域识别的精准度。
除了识别率的问题外,服务商们还遇到另一个难题——语音、面度、图像识别的应用场景如今仍然很有限。亮风台的创始人兼CEO廖春元说,大部分人仍然需要掏出手机或打开电脑,才能与互联网这个虚拟世界产生联系,而在现实生活中,人们所接触到的物理表面远远多于这些电子表面,所以如何把更多的“表面”纳入可交互范畴非常重要,所幸的是,智能硬件和可穿戴设备正在提供这样的机会。