摘要:未来,万物皆能对话。
“五个巧克力、两个香草拿铁,巧克力加奶油。”
“两个中杯焦糖拿铁,一个热的一个冷的。”
”算了巧克力不要了。”
“再要六个小杯少冰摩卡,三杯加焦糖三杯加香草。”
“再加一个大的冷的拿铁,去冰半糖加脱脂奶,打包。”
5月23日云栖大会武汉峰会上,阿里巴巴达摩院机器智能技术实验室语音交互首席科学家鄢志杰最快以每秒5个字的语速在一台机器前狂点了30多杯咖啡。
与这台机器一同接受挑战的,是一位资深咖啡师。当咖啡师因“语速太快、记不下来”在中途选择放弃时,这台机器却在每一轮对话中都做出了精准响应,并且在49秒时下单成功。
咖啡师在听了鄢志杰第二次复述后,用了2分37秒完成订单。
“今天,我们将机器对人类口语的理解能力带到了新的高度”,鄢志杰说,这种交互方式完全打破了“语音唤醒+语音指令”的传统命令式交互方式。
上述点单环节包含了修改、删除、加单等多轮对话,在整个交流过程中,鄢志杰没有说”hi,点单机“之类呆板的唤醒词,而是直接下单。
鄢志杰介绍,这是由于这台机器中嵌入了多模态语音交互方案,包括公共场所强噪声环境下的信号处理和语音识别、视频识别与面部识别、场景感知等多模态融合的感知智能,同时,融合了流式对话、多轮多意图口语理解、业务知识图谱自适应等认知智能。
“我们首创的流式多意图口语理解引擎,极大地提升了对人类随意、自然的口语表达的理解力,能够做到免唤醒的、自然的人机交流式的语音交互。”鄢志杰说。
据了解,阿里云这项解决方案除了可以做收银员之外,还能在地铁站卖票。目前,上海地铁某些站点已经部署了这一技术,乘客可以直接用语音购票。
比如,当乘客走到语音购票机前时,购票机的屏幕会自动切换至购票页面,并显示:请说出您想要前往的地铁站。当乘客说出目的地,售票机会推荐合适的站点和路线。
比如,当乘客说“我要去东方明珠”,购票机屏幕下方会显示:建议坐到陆家嘴站,距离东方明珠285米。同时,语音购票机会回答:“一张去陆家嘴站的票,一共4元,您可以扫码支付。”乘客还可以语音设定购票数量,比如说“换成两张”,购票机会自动回复“已换成两张”,乘客拿出手机对准屏幕二维码扫描完成支付后,机器就会出票。
测试数据显示,普通买票耗时往往超过30秒,而语音购票全程只需要10秒左右。对初到上海的乘客来说,语音购票无疑会给他们带来很多便利,因为面对十几条线路、三百多个站点,谁都会懵。
鄢志杰介绍,目前,该套解决方案已经落地的场景还包括车内语音助手、电话智能客服、可免遥控器操作的远场语音电视、可精准区分多人对话的智能麦克风等。
“未来,我们希望实现公众空间里的万物皆能对话。”鄢志杰说。
|
|
||||||
|
|
||||||
|
|