近日,斯坦福大学和华盛顿大学完成了一项有关智能手机输入方式对比的实验,实验结果表明,相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。利用语音输入英文和中文的速度分别是传统输入方式的3倍和2.8倍。
过去十多年里,语音识别技术被寄予厚望,但表现却一直差强人意。近两年,由于大数据和深度学习技术的不断发展,识别准确率、方言兼容度、噪音抗干扰等诸多难题都已得到解决,语音识别技术已达到实用水平。例如,中国语音输入功能使用量最大的手机产品——搜狗输入法,其语音输入功能的识别速度已达400字/min,识别准确率高于97%。
据了解,搜狗输入法中的语音识别在2012年11月份上线,目前搜狗输入法日均语音输入的请求次数超过1.4亿次,每天使用语音输入功能的用户比例已经达到8%,用户在输入法上每天产生的语料规模是11.7万小时。这个数字比目前国内任何语音公司使用的语料规模都要大。优质的数据训练量给搜狗语音带来了领先行业的识别准确率。
而与其他强调识别率的语音输入法不同的是,搜狗输入法更强调智能输入。识别率再高,语音输入依然会有错字现象,手工更改成为痛点——用语音输入就是因为不想动手。搜狗输入法推出了独家的语音修改功能,用户可以使用纯粹的自然语言进行改错,例如,用户可以说:“把‘张’修改为立早‘章’,或者把‘张’修改为文章的‘章’。这样的交互能实现,关键不在于语音识别,而在于语义理解。准确的语义理解,需要应用深度学习为基础的人工智能技术,这正是像搜狗这样的互联网公司尤其是搜索公司擅长的地方。据了解,目前该功能可以支持的文法数目达到3万以上,修改成功率达到80%,这也相当于语音识别的错误率进一步降低了80%。
AlphaGo掀起人工智能热潮之后,语音市场又迎来新的发展契机,正如互联网女皇所说:语音正成为人机交互的新范式。而输入则是语音最典型的应用场景,当人们在户外、走路、开车等不便打字、懒得打字,抑或打字效率不高的时候,语音都是一种更优选择。搜狗输入法的语音输入功能,凭借其领先行业的识别速度和准确率,给用户带来了更加智能和人性化的输入体验,同时对推动智能语音技术的进步与革新也具有深刻意义。未来随着语音技术在智能家居、汽车、教育、医疗等领域的应用不断深入,像搜狗这样以智能语音或者文本交互为切入点布局人工智能领域的优秀企业将会获得更多机会。