https://www.yunlianauto.com

“有事儿直说”体验科大讯飞3.5版助手

  在本次广州车展期间,科大讯飞展出了其最新的3.5版语音交互助手:科大讯飞智能语

  在本次广州车展期间,科大讯飞展出了其最新的3.5版语音交互助手:科大讯飞智能语音助理3.5,据悉该版本在系统降噪和交互体验方面有了显著的提升,简言之:它可以让你和车机之间的对话和交互体验更接地气,而不再像以前那样需要“互相适应”+“互相包容”,它的实际表现究竟怎么样?咱们上车聊!(文中称3.5版)

  识别/降噪

  谈到语音识别,识别(有人说),定位(谁在说)理解(说的啥),是我认为最核心也最关键的体验,这三步如果做不好,那更别提后面的扩展了。汽车行驶环境非常复杂,包含胎噪、风噪、发动机噪音、空调噪音以及人声干扰,这些噪音会随同说话人有效音频送入到语音识别系统,会严重影响识别效果,因此需要进行降噪处理。

  而本次在3.5版本中采用的窄波束技术,就是为了解决这个难题而诞生的,通过在麦克风模组中输入两路麦克风信号,且提前预设好它的有效区域,只在有效区域内进行拾音,同时进行噪声的抑制,而在非有效区域内则抑制说话人的声音和环境噪声,从而达到提升有效区域内的清晰度,降低有效区外的噪音和环境影响,怎么样,听起来是不是和主动降噪耳机有些异曲同工的意思了?

  除此之外,结合相应的降噪技术,3.5版本中还实现了更为精准的控制,它支持前排主副驾进行操作,谁唤醒的谁说了算,比如副驾唤醒的,那么之后的对话则仅限于车机和副驾之间,主驾打岔?不好使!且不同的唤醒位置对应的功能也有所不同,实现了各取所需。

  唤醒词

  对于唤醒词这件事儿,让你印象深刻的是什么场景?当着老妈的面对着屏幕喊XXX,结果换来一脸惊愕不已的表情?还是无论你想干什么,总得你好你好的喊个不停?对于唤醒词这件事儿,3.5版也有了自己的变化,一句话形容就是:有事儿你可以直接说!

  在3.5版本中,你只需要对系统进行一次唤醒,在一段时间内都可以持续对它吆五喝六,不用再你好XX,你好XX,这么絮叨了,值得一提的是,短时免唤醒支持全场景模式,并且无论处在云端还是本地离线环境都可以进行操作。这样设计的初衷很简单:让你感觉更像是和一个人在对话,而不是一个冷冰冰的机器。

  除此之外,在3.5版本中,你依旧可以对它设置称呼,且两个字以上的称谓就不用说你好XXX来唤醒了,直接招呼即可!“XXX帮我打开窗户”,“XXX车里太热了”,“XXX放一首……”是不是感觉省事儿多了?

  上下文理解

  在语音交互中,很多时候我们都会有潜在的需求,而不只是一次一句话的让系统为你服务,比如天气、行程或者餐饮等,3.5版本为我们提供了更加顺畅的“对话可能性”,在第一条语音交互完成后,你可以持续提出下一步的疑问或请求,人和人之间对话:前面已经提到或涉及的事物,在后续的对话中往往就会变成特定的用语来指代,甚至不出现在对话中而直接省略掉。

  “北京明天天气怎么样”?→“有没有去那里的火车票”?→“帮我订一张”。3.5版的语音系统会记录语音对话的历史,并依据后续出现的指代或缺失信息,对历史信息进行关联和补全,使得整个对话具有深度的历史逻辑性,这么做的目的?人都有记性对不对。

  多轮交互/所见所得

  即便在语音交互时代,也未必所有的操作都可以一步完成,这时候就需要你和车机进行多轮的交互和确认,在3.5版本中,多轮交互变得更加顺畅了,你可以像和好友对话问询那般一步一步的直接确认即可,且全程支持随时打断,你只要看到了你想要的结果或者需求随时返回、后退,直接说就行,无需额外的操作和废话。

  而所见即所得则同样是基于上述结构而来的服务,在交互中,往往你需要在很多类似结果中筛选,尤其电话号码或者道路,你不一定非要再说:第几个,你甚至可以说,“135尾号那个”,“丹棱街上那个”,“尾号7907的那个”。“选择路怒症”患者此时可以鼓掌了!

  One-Shot信息点交互

  最后我们再来看看本次3.5版本中的另一个“实用技能”:跨场景的信息点交互,听起来好像很费劲?你可以理解为:支持你基于POI位置信息来进行各种混合形式的交互,举个最初级的例子:我在哪?→现在这里是哪条街?→下一个路口怎么走?

  又或者是这样:泰丰大厦附近有没有韩式烧烤?出门要不要带伞?→最近污染严重吗?→最近的洗车房在哪?→这附近有什么吃的么?

  你还可以这样:北京最近天气怎么样?(天气)→我想去那边的欢乐谷,(目的地)→附近有什么住的地方吗?(POI)

  编辑小结:让它越来越像个人

  从当年的多媒体大屏至今天的车机互联,这块屏幕的角度和属性也随着硬件一起飞速的迭代和变化,而随着自然语义和云端技术的介入,我们越来越希望眼前的这块屏幕不仅仅是个只会用词条敷衍你的机器,如果它是个人该多好。

  显然,科大讯飞在3.5版本的体验中给出了我们想看到的答案,或者说是趋势和方向,从源头介入是3.5版助手的核心,识别能力和降噪能力的大幅改进直接改善了它对你的感知能力,借助云端技术,3.5版还实现了上下文的理解以及多轮对话和POI信息综合交互等,尽管在人机交互的路上,我们还有很长的路要走,但起码今天,你终于愿意和它多唠一会儿了。

免责声明:本站登载此文仅出于信息分享,并不意味着赞同其观点及其描述,不承担侵权行为的连带责任。如涉及版权等问题,请与我们联系(联系QQ:26887486),我们将及时删除处理。
本文链接:https://www.yunlianauto.com/article/10/9394.html