2016年8月18日,深圳国际智能家居&智能硬件博览会正式开幕,全国众多智能建筑、智能家居专家、学者、企业领袖等业内人士出席,共同就“开放-构建共赢的智能家居生态”这一主题进行了分享和交流。会上,搜狗语音交互技术中心负责人王砚峰针对语音交互在智能家居中的“为什么做”,“做什么”以及“怎么做”发表了自己的看法。
为什么要在智能家居使用语音交互?
互联网女皇玛丽·米克2016年的《互联网趋势报告》中指出,目前语音已经是最有效的输入计算方式,美国使用过语音助手的用户2015年已经达到了65%,而其中43%是在家中使用的,凸显了语音交互在智能家居中的重要意义。
王砚峰表示,新技术、新产品的推广使用一定存在刚需,而语音交互的刚需则存在于驾车、客厅、户外等不方便使用键盘打字的场景中。他认为需要在这三个场景上把语音做深体验做好,才能给用户带来价值。
语音交互应该做什么?
王砚峰认为,语音落地的产品,首先不应该是所谓的“中控”,因为“中控”不是具体的产品;也不是所谓“机器人”,因为目前的助手机器人不能帮人们解决任何实际需求和问题;他表示,“任何夸大人工智能在客厅产品中作用的行为都是耍流氓。”
王砚峰对客厅中的语音应用提出了两个标准:好产品和丰富的内容。他表示比如亚马逊Echo就是好产品,首先它本身是一个好的音箱,并且适应美国家庭用户的消费文化和习惯,那在美国就属于好的产品。
而语音要在好产品上产生价值,就需要丰富的消费内容资源。仅仅作为控制器的语音对设备带来的增值不大,而当涉及内容查询以及更多交互时,才是语音最有价值的使用场景,“语音识别做耳朵,语义理解是大脑,智能家居上要让语音有自然交互,需要更灵敏的耳朵以及更聪明的大脑。”王砚峰指出。
怎么让语音交互做的更好?
如何让语音交互做的更好?王砚峰认为要训练语音识别这一“更灵敏的耳朵”,需要大规模的优质语音训练数据和深度学习的技术能力积累,而搜狗在这一点上有着巨大的优势。据他介绍,搜狗拥有中国互联网上最大的语音语料:作为国内第一大语音输入应用,搜狗输入法每天语音输入频次达到1.4亿次,产生11.7万小时的语料规模,比当前国内任何语音技术团队使用的训练语料都要大。另一方面,深度学习的技术不断推动语音识别错误率的下降。从2013年开始,借助深度神经网络和海量用户数据,搜狗输入法的线上错误率在过去几年中累积下降了超过60%。
借助语料数据的“燃料”和深度学习的“发动机”,目前搜狗输入法语音识别准确率已超过97%。对于以当前技术水平无法实现的剩下的3%,王砚峰指出,“这叫语音识别最后一公里问题”。他随后介绍了搜狗输入法今年推出了语音修改功能,借助自身的词库、拆字库和用户语料,以及知识图谱的支持,如今用户错误率已经降低了80%,有效解决了语音识别“最后一公里”的问题。
而对于更聪明的“大脑”,王砚峰表示,传统的通用语音助手不如场景化的专用语音交互更具实用性。他指出,通用语音助手难以解决用户多种多样的问题,因而面临使用体验较差、屡遭用户诟病的窘境;而搜狗通过借助多轮对话、技术图谱等实现技术能力提升,并将使用场景明确化以降低问题难度,“对话能力、知识图谱跟具体的场景结合起来,语音交互的处理能力、智能性、实用性就可以好很多。”