3月13日消息,谷歌近日为Gboard带来了最新的AI语音识别功能,该功能使用RNN传感器(RNN-T)技术,大大提高了Gboard语音识别的速度和准确度。
之前的语音输入一直使用的是基于云的语言处理方式,也就是当我们点击麦克风图标时,我们录制的语音先会被发送至云端服务器,然后将语音转换为文本后发回至手机。而且该语言识别模型大小约2GB,非常占用手机内存。
据悉,谷歌团队花了五年时间来研究这一问题,寻找可以将流程缩小到可以在本地执行的方法,通过不断压缩语音识别模型大小,新版本仅占80M,并且还支持离线工作。改进的Gboard采用字符级语言模型,转录文本时将逐字逐句显示,而不是像之前一样逐个显示整个单词。
目前,Gboard的这次更新仅支持Pixel手机,而且只能识别美式英语。
此外,有谷歌研究员表示,Gboard的这项语音识别新技术未来可能会支持更多手机,并拓展更多语言。