登录 / 注册
IT168数码频道
IT168首页 > 数码 > 数码评论 > 正文

微软AI探秘之旅:解读微软小冰背后的故事

2018-03-30 09:34    it168网站 原创  作者: 曹博 编辑: 曹博

  【IT168 评论】“我们距离真正的人工智能还有很远的路”,这是我此次微软之行下来的第一感受。目前,中国市场上几乎所有的人工智能(智能语音助手),都只是能够实现一些简单的基础功能,比如只要是智能音箱产品便会提到的查天气、定提醒、点外卖等功能,这些是人工智能,但并不“智能”...

  智能语音交互的两大底层基础框架:Turn-oriented与Session-oriented

  事实上,造成这些人工智能产品不“智能”原因是由其基础框架决定的,怪不得别人。目前实现智能语音交互的两大基础框架分别是Turn-oriented(面向单个任务)和Session-oriented(面向对话全程),其中Turn-oriented最大的优势便是能够迅速地帮助人们通过人工智能系统迅速获取他所需的信息,然而这巨大反馈优势的背后却隐藏着更大的“麻烦”。

微软AI探秘之旅:解读微软小冰背后的故事

  我们可以将Turn-oriented框架的每一个对话比作十字路口,其中心部位比作十字路口的交警。每当你输入一个命令,“交警”负责把你迅速引导到对应的事情上去,这便形成了我们前文提到的高效。然而这个“交警”有一定的引导原则,其所能实现或者扩展的命令十分有限,当其无法执行命令时,便会被指向其“Control”部分,而这一部分通常的方法便是搜索引擎,这也是为什么我们询问一些人工智能语音助手某些问题时,它们更多时候会为我们跳转至网页。

微软AI探秘之旅:解读微软小冰背后的故事

  阻碍Turn-oriented框架人工智能发展的最大BUG便是其不能进行长时间、符合人类语言习惯的自然交互,任务结束就是结束了,虽然如果我们非要和它继续聊下去也不是不可能的事情,然而其隐患便是或将触发下一任务而导致之前的任务结束,无法连贯下去。这是目前市面上大多数人工智能语音交互产品的通病,比如苹果的Siri、亚马逊Echo皆是如此。

微软AI探秘之旅:解读微软小冰背后的故事

  相比之下,Session-oriented框架便显得智能得多,其最大的优势便是能够像河流一样源源不断地流淌下去,简单来说就是它能从一个任务自然地往下一个任务走,但是每个任务之后可能会进一步交流,随着进一步的交流便有可能引发的任务,同时随着新任务再去了解一些新的知识,这样一直走下去...

  全双工语音交互感官:Session-oriented框架的最后一环

微软AI探秘之旅:解读微软小冰背后的故事

  为什么Session-oriented框架能够彻底改变人工智能语音交互的本质,能够改变Turn-oriented架构下人机交互“费劲”的现状,其很重要的一环便是全双工语音交互感官,这也是Session-oriented框架的最后一环。全双工语音交互感官之所以能够实现自然、不费劲的语音交互,其首先用到的技术核心便是边听边想。

微软AI探秘之旅:解读微软小冰背后的故事

  全双工语音交互感官是一个流式的思路,让人工智能能够像人类一样思考,这种能够思考、预测的交互方式被微软称之为预测模型,该模型对于语音的识别不再像Session-oriented框架一样对一条消息进行识别,而是对字进行识别,其每听到一个文字都会试图去识别出目前可能要说的话,并预测整句话将会是什么。

微软AI探秘之旅:解读微软小冰背后的故事

  其次,全双工语音交互感官的节奏十分重要,这也是实现自然人机交互的关键点,这便涉及到了机器语音的节奏控制,包括其自身的节奏协调、与我们人类的节奏协调,甚至与其他语音助手的节奏协调。这其中将会运用到很多关键的策略,比如微软小冰可以根据说话者说话的长短、语速、内容等判断自己作为说话者还是倾听者,如果人类说得多,那么小冰会将话术调少作为倾听者;如果人类话少,那么小冰便会找更多话题聊天,这同样是人与人之间语音交互的真谛。

微软AI探秘之旅:解读微软小冰背后的故事

  第三,全双工语音交互感官需要能够对声音场景进行更好的理解,传统意义上人工智能通过一段语音只要分辨出其语意即可,而全双工语音不单单是识别其语意,还能识别出更多的内容,比如性别、身份、情绪、歌声等,同时全双工语音也会更好地排除环境噪声,识别出真正与其对话的声音,而不是将电视、收音机背景音与人类语言混为一谈。

微软AI探秘之旅:解读微软小冰背后的故事

  最后,全双工语音交互感官能够实现自然语言的理解与生成,简单来说便是每一句话都是人工智能自创的。给大家举个例子,目前市场上大多数智能音箱产品在听到“唱首歌吧”这个语音指令之后第一反应便是调用播放器中的歌曲,而微软小冰却要和你交流你喜欢听什么,喜欢听谁的歌曲,而最后的成曲也是小冰自己唱的,非播放软件。

微软AI探秘之旅:解读微软小冰背后的故事

  这便是Session-oriented框架带给我们的“更智能”的人工智能,全双工语音交互感官能够带来更实实在在的自然交互,真正实现人机交互无障碍、不尬聊...

  写在最后:

  目前,微软正在积极开展Session-oriented框架在中国的推广,其已经为中国人工智能市场、厂商设计了三大适合中国的人工智能解决方案,包括单纯的提供人工智能解决方案、提供人工智能解决方案和整合的内容资源、以及人工智能创造的内容。如今,小冰姐姐讲故事也已经成为目前各大平台最火爆的内容之一。

  作为消费者的我们,并不是不喜欢人工智能,而是我们觉得目前的人工智能太“费劲”,这是阻碍人工智能语音交互产品在中国家庭普及的最重要因素,我们急需Session-oriented框架这样的人工智能进入我们的生活,当我们习惯了之后,我们的生活将被彻底改变...

行车视线文章推荐

首页 评论 返回顶部