去年10月2日,西甲赛场,皇家马德里在主场被实力一般的埃瓦尔逼平,比赛结束后,主场球迷嘘声四起,夹杂谩骂,这惹恼了步入球员通道的当家球星C罗,他被媒体拍到小声嘟囔着什么,就当C罗默认只有他自己知道在抱怨什么的时候,《阿斯报》请来的唇语专家告诉大家,C罗在说:“Qué poca calma!”,大致可以解释为:“能不能安静点!”
这并非“读唇术”首次揭穿名人的唇语。另一个更著名的案例是,早在当年英国查尔斯王子迎娶卡米拉时,唇读者就成功破解了伊丽莎白二世与儿子的低语,也让女王糟糕的婆媳关系浮现在大众眼前。所以公众人物大概并不喜欢那些唇语专家(何况他们许多时候充斥着臆测成分)——但令C罗们遗憾的是,当人工智能在各领域渐次开放,在唇语识别上,机器也已经做的比人类好了。
从技术路径上,唇语识别是一项集机器视觉与自然语言处理于一体的复合型技术:系统通过机器视觉从图像中连续识别出人脸,提取口型的连续变化特征,随即将连续变化的特征输入到识别模型中,识别出讲话人口型对应的发音,从而计算出可能性最大的表达语句。
人类费尽心力开发AI,当然不是为了满足自身的窥私欲。事实上,让机器习得“读唇术”,在公共安全,军事情报,身份识别和社会公益等领域,都藏匿着颇为重要的应用场景。
在人工智能即将大范围落地的前夜,国内从业者扎堆涌入的,大多为语音识别,图像识别,人脸识别,机器翻译,无人驾驶,虚拟助手和个性化内容推荐等领域,相较这些聚光灯之下的落地场景,唇语识别相对冷僻。
但常识是:人工智能未来将会出现一个数万亿美元的巨大市场,在面对具体乃至细碎的应用场景时,人工智能的细分程度,势必如百年前的电力那般触角庞杂。而广袤的嫁接空间也意味着,从真实应用场景出发,人工智能领域会出现不少蓝海市场,被国内巨头忽视的唇语识别就是其中之一。
那么问题是:相较于大众更熟悉的其他生物特征识别,教会人工智能“读唇术”,究竟意味着什么?
机器“读唇术”
事实上,与人类天生拥有超强的面部识别能力不同(“脸盲”甚至被当做一种病),人类体内并无任何“唇读”基因,任何人都需要枯燥的后天训练,且很大程度上取决于对语境和语言本身的了若指掌。而如今,机器可以比唇语专家更精确地识别这个无声的世界。
如你所知,更便宜的计算,更好的算法,以及更大的数据量,让六十年来不断幻灭又重燃希望的人工智能时代近在咫尺。其中最关键的变量就是数据量的井喷(许多深度学习基本模型在上世纪八九十年代就已出现,但数据的稀缺令这种伟大的基础框架偃旗息鼓),海量数据是“喂养”多层神经网络的饲料,也得以让深度学习以一种非常精炼的算法模型解决了过去复杂的输出模式。
唇语“语料”也一样,为识别系统输入海量优质数据显得尤为重要。这里必须提及谷歌的人工智能公司DeepMind——要知道,去年在AlphaGo击败人类之后,DeepMind就把与人类的下一个竞赛场切换至读唇术上:他们与牛津大学的研究者使用总长超过5000小时(2010 年 1 月至 2015 年 12 月间的电视节目素材,如BBC 各类节目,总语句超过118000的新闻视频)完成了对人工智能的训练,然后使用 2016 年 3 月 至9 月间播出的节目进行测试——结果发现,给予相同的视频素材,专业唇语识别专家能达到12.4%的正确率,而AI系统识别正确率则是46.8%,高出了大概3倍。
再看国内这边,要知道,成熟的唇语识别系统需要建立在大量人脸特征样本的基础上,鉴于人种的生物特征以及语言特征区别,不太可能完全照搬国外系统。据悉目前同一技术在国内领跑的是深耕于公安,交通,航空和军工等领域的海云数据,截至目前他们训练新闻类节目时长是1万小时(为什么是新闻类节目?当然是因为播音员的唇语最标准……)。据媒体报道,目前他们在英文方面可以达到80%的准确度,中文方面是71%——当然,考虑到语音识别和人脸识别的准确率几乎都达到95%以上,唇语识别真正投入实战还尚需时日。
值得一提的是,中文自身的发音特性或许可以缩短唇语识别投入实战的时间。拿普通话来说,一共有1270个发音,不考虑声调差别,有近400个不同的发音,每个发音都有对应口型,中文发音较英文为少,一字一音,规律清晰,只要使用正确方法,中文唇语识别其实更易获得高准确率。
唇语识别可以用来干什么?
相比于唇语识别的技术路径,人们更关心,它将用于何处。
不妨先说回那位让女王糟糕的婆媳关系浮出水面的读唇人,她叫杰西卡·里斯,是英国知名的“读唇女王”,自幼失聪的她却对唇语颇为敏感,就像侦探电影经常上演的那样,杰西卡的“奇异功能”被官方所看重,英国皇家检察院曾雇佣她成为英国唯一的“官方读唇证人”,试图通过她去解读警方用监控摄像机拍下来的嫌犯录像,从而提供关键证据。只可惜,杰西卡却在后来遭遇了信誉危机,英国专家对其读唇能力测试之后,证明她的读唇其实经常出错。
而如前所述,在唇语识别上,机器已远超人类——并向95%以上的精准度狂奔而去,这意味着,杰西卡没能做到的事,人们完全可以更加放心地交给机器。要知道,公安系统中视频信息量颇为庞大,且在安全态势和案情分析中发挥巨大作用,但它们很多都以“默片”方式存在(毕竟人物活动地点离摄像头都有一定距离),只看得清嘴型,却不知说些什么。
除了公共安全,在“私人”安全上,唇语识别技术也大有可为。你知道,当万物互联时代即将来临,身份识别的下一篇章势必由指纹,人脸,虹膜等生物识别技术替代,从而将人们与机器的信任关系提升一个安全系数。最直接的例子当然是安防。
如今,在上述常见的生物认证之外,“唇语密码”也可作为重要方式:识别系统从嘴唇图像列序中提取形状,质地和动作等特征,通过训练建立模型并确定临界值,最终决定接受或拒绝密码。毕竟,唇语拥有非常高的不可复制性(两个人说同一句话,嘴唇动作特征完全不一样),且不同于指纹和人脸这些静态生物特征被盗取后无法重置,人们可以随意改变唇语密码。
除此之外,唇语识别在很多领域都可以带来巨大福祉,诚如牛津大学研究员Yannis Assael所言:“我们相信AI唇读是一种非常实用的辅助性技术,比如更智能的助听器,不便出声的公共场合,以及在嘈杂环境下精准的语音识别等。”举例而言:通过唇语识别,让无法开口说话的残障人士“开口说话”;让听力障碍者和不少老年人更清晰地听懂他人;而在军事情报领域,唇语识别让远距离获取情报成为可能。
可以预见,在未来,当古老的读唇术被人工智能发挥到极致,希望世界会变得更好。