百度、斯坦福研究表明 语音输入比打字快3倍
2016年08月25日来源:环球网
近日,百度、斯坦福大学和华盛顿大学共同完成了一项与智能手机输入方式对比相关的研究,该研究利用百度深度语音识别技术Deep Speech 2,与32名测试者进行“人机对战”。研究结果表明,智能手机利用语音输入的速度比键盘输入快3倍,且输入准确率更高。
研究人员发现,相比传统的键盘输入,语音输入方式在速度及准确率方面更具优势。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍。此外,在加入纠错功能后,语音输入英语及普通话的准确率进一步提高,达到96.43%和92.35%,其输入速度仍为传统方式的3倍和2.8倍。该研究将语音输入方式的评估细化到了字符级,充分展现了语音输入方式的优势, 且帮助了技术研发者进一步优化语音输入功能。除此之外,技术人员还对如何在详细数据分析和定向响应的基础上,进一步提高语音输入的效率和准确率进行了研究。
如今,用户输入的使用习惯正在经历由键盘到语音的转变,研究并发展有效的语音交互接口,迫在眉睫。斯坦福大学计算机科学专业教授James Landay表示:“过去十年,语音识别技术被寄予厚望,但其实际表现却不尽如人意。近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,其速度及准确性都有了长足进步。除了发邮件或发短信外,我们还在将语音用于更多方面,比如将语音启动和图形触控操作相结合的交互界面等。”
此次参与研究的Deep Speech 2发挥了出色的性能,是百度布局语音技术的最好体现。2014年底,百度首席科学家吴恩达及其团队便发布了第一代深度语音识别系统Deep Speech,该系统使用了端对端的深度学习技术,主要专注于提高嘈杂环境下的英语语音识别的准确率。通过使用批处理技术将DNNs部署在GPUs上,Deep Speech的语音识别表现出了极高的训练效率。目前,该系统语音识别准确率达到97%,且支持超过26万亿次的浮点运算,可在几天内完成深度语言的集中训练。2015年11月,Deep Speech2被美国权威杂志《麻省理工科技评论》列为2016年人类十大突破技术之一。
除了强大的技术研发能力,百度还积极推进语音技术的普及工作。无论是Carlife、还是度秘,乃至应用到搜索、地图等领域的语音技术,都极大优化了产品体验,并为人们的生活带来了便利。除此之外,百度还通过自身的语音技术开放平台,将技术免费开放,通过SDK、API等不同的接入方式供企业及开发者使用,从而进一步刺激语音识别技术的创新应用与开发。其中,行业用户包括小米、联想、特斯拉、陌陌、康佳、SONY、惠普、海尔等。未来,随着语音技术的不断发展,语音接口会变得更为实用和有效,人们也将更为便捷地与身边的设备进行自然的交流。