登录 / 注册
IT168数码频道
IT168首页 > 数码 > 数码评论 > 正文

解密智能音箱行业 独家专访灵隆科技CEO魏强

2017-09-29 17:43    it168网站 原创  作者: 曹博 编辑: 曹博

  【IT168 评论】2014年11月,亚马逊低调发布全球首款智能音箱Amazon Echo。或许是Fire Phone的惨败带来的打击过于沉重,亦或是这款智能硬件新宠并未被看好,亚马逊集团董事会主席兼CEO 杰夫·贝佐斯甚至连一场单独的发布会都未曾为它举办。如今,贝佐斯无意间播下的这颗火种,却引来了百箱大战的熊熊大火,掀起了全球范围内新一轮的人工智能浪潮,智能音箱已经成为实现智慧家庭、万物互联的“火箭”助推器。

专访灵隆科技CEO

  而在中国智能音箱市场,入局最早的便是中国最大3C数码销售平台京东和中国公认最好的语音技术公司科大讯飞的“亲儿子”——灵隆科技(2015年3月成立),前不久旗下智能音箱产品叮咚音箱已经正式更新迭代到了叮咚2代,为中国家庭带来了更加成熟、能够个性化定制的智能音箱产品。如今,曾经孤军奋战中国智能音箱市场的灵隆科技也正在携手一众国产兄弟对标以Amazon Echo为首的海外市场。

专访灵隆科技CEO
▲灵隆科技CEO 魏强博士

  那么如今中国智能音箱市场究竟处于怎样的境况?以叮咚智能音箱为首的中国智能音箱能否与Amazon Echo放手一搏?我们普通用户究竟什么该不该买智能音箱?相信很多读者都会有这样或那样的问题,为此,小编受邀对灵隆科技CEO 魏强博士进行了独家媒体专访,就灵隆科技旗下叮咚2代智能音箱新品以及目前中国智能音箱市场等相关问题进行了深度讨论。静心读完,本文一定会令你受益匪浅。

专访灵隆科技CEO
▲叮咚2代智能音箱

  文章导读:

  本文通过从两大方向进行媒体专访:行业/市场方向、产品/技术方向,文中标红处是重点内容,请仔细阅读。

  在开启正式专访前,我们为大家整理了智能音箱的概念,非小白用户可自行跳过。

  智能音箱概念

  智能音箱,音箱升级产物,是家庭消费者用语音进行上网的一个工具,比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等(百度百科)。简单来说,智能音箱是利用人类最传统的语音交互的方式,来控制实现一些基本网络和生活场景,以解放双手。接下来我们便开启今天的独家访谈。

专访灵隆科技CEO

  关于行业/市场

  一、作为京东和科大讯飞的亲儿子,您觉得灵隆科技相比其他智能音箱厂商的优势在哪?

  魏强博士:灵隆科技在智能音箱领域的优势,我们归结为三方面

  1、作为最大3C数码平台,京东在营销渠道和To C品牌背书方面有非常强的实力,这是整个行业公认的。

  2、科大讯飞拥有全球最卓越的中文语音技术,因此在语音技术(包括合成识别)方面,拥有非常强的技术积累,科大讯飞会将这种强大的语音技术加持到叮咚音箱上。

  3、我们灵隆科技拥有强大的产品转化能力,即我们做硬件产品所需要的优秀产品设计和强大供应链。这主要包含两方面,一是我们的团队都来自都来自顶尖技术及高科技产业公司;二是京东利用在供应链方面的实力来给我们做品牌背书,包括目前已经非常成熟的音箱后台所连接的服务(比如购物)以及一些相关的其他资源(比如音乐资源),当然还有O2O的一些思路。这些都是目前国内大多数同行所没有或都在争取的资源。

  二、您在之前预测,智能音箱市场从探索期到成长期,100万台出货量是一个关键点,能再具体解释一下么?

  魏强博士入局智能音箱的企业都是想把智能音箱作为一个入口级的产品,智能音箱不仅仅是一个买回去只为听音乐的传统音箱,更重要的是作为语音交互的入口,为后台服务提供交互渠道。因此在这样的产品定位下,市场上如果没有足够的量级,是引起不了规模效应的,无论是前端的用户活跃度还是后台接入的服务数量。同时服务厂商也会进行审核,如果你的产品维护(前端用户活跃度)足够多,更多的服务才愿意接进来,才能够把服务针对语音交互形式调优做好,这样便能够促进产品迭代,促进更多用户的加入。所以前期的规模、用户量、或者说销售数据实际上是非常重要的。

  而100万台这个数字,我们是参考美国亚马逊的发展轨迹来衡量的,Amazon Echo是在2015年年中的时候,首次达到了100万台,随后整个市场的知晓度、用户活跃度、以及后台接入的服务开始逐渐变多了,也正是在这个时间节点,亚马逊把Alexa平台推了出来,更加促进产品功能的不断迭代,后台服务的不断增多。

  三、有市场调研公司曾爆出一个数据,预计2017年中国智能音箱的出货量约为200万台,而美国则为1400万台,差距非常大;同时据统计,Amazon Echo的销量已经超过3000万台,您觉得目前限制智能音箱在中国市场普及最重要的因素是什么?中美在智能音箱应用方面主要有哪些差异?您又是如何看待中美市场之间的差异的?

  魏强博士200万台的数据只是一个预估的规模,但实际情况也的确是中国的智能音箱市场容量(销售数量)还没有达到亚马逊在美国的数量,这是一个事实。导致这个问题的原因包含很多方面。首先,亚马逊在国外推出时间较早,而国内智能音箱的兴起和热度升高实际上从今年才正式开始的。过去两年中国智能音箱市场基本只有灵隆科技的叮咚音箱,而国内智能音箱市场肯定需要一定时间才能够达到足够的市场规模。

  关于中美市场之间差别。

  1、新奇产品敏感度。普通用户对新奇消费电子产品的敏感度还是有一定差距的,美国用户对这种新奇产品尝试的意愿还是比较强烈的,国内用户的意愿在提升中,但还没有达到一定高度;

  2、家庭习惯。美国的大多数家庭都有传统意义上的音箱来播放音乐,但是在国内市场,90年代时家庭影院曾经兴起过一段时间,但是普及率不是特别高,而且价格也比较贵,后来我们听音乐基本上都是基于MP3、手机、以及近几年流行单价比较低的蓝牙音箱,智能音箱在国内还是处于一个刚刚起步的阶段

  3、音乐内容。美国音乐市场已经形成了相当成熟的付费模式,但亚马逊当时推出Echo的时候,把付费和硬件产品绑到一起去,简单来说你交99美元亚马逊的会员费,你就可以再花99美元买到一个199美元的Echo音箱,这时还可以享受Amazon Prime Music上的音乐,这种打包服务对他们来说吸引力非常强。国内音乐版权正在发展过程中,正在逐渐改变大家以前免费听音乐的习惯,目前还没有形成完全付费的意识,这也限制了智能音箱在国内的发展。

  四、自Amazon Echo始,百箱大战便已打响,那么您认为目前最具竞争力的中国智能音箱企业有哪几家?在智慧家庭、万物互联这个风口,您觉得目前智能音箱企业最需要做的事情是什么?

  魏强博士:我不太愿意具体说,哪一家能够成功,或者哪几家比较有实力,接下来我们从性质上来分析。智能音箱研发包含以下三个环节:语音交互技术、后台内容、以及生产制造。未来,如果有智能音箱厂商能够做出爆品,肯定要围绕这三个基本点,只有这样企业才有可能成功。

  但是这不意味其他小企业就没有生存空间,他们可以在整个智能音箱产业链中,一个相对小的领域里做好做精比如TTS语音合成,这样也会令他们在整个链条里起到应有的作用。

  关于目前智能音箱企业最需要做得事情。

  首先,技术还需要打磨,基础技术的发展需要一定时间,短期之内可能不会有特别大的提升,因此更需要做的是在产品层面、交互层面。智能音箱是基于语音交互这种新型交互方式的,如何引导用户让用户去适应这种新型的交互方式,或者让用户更方便地使用这种新型交互方式,是目前短时间内大家投入资源便可以解决的,这需要同行一起去做。

  此外,在市场方面,让用户更多地去了解智能音箱产品是目前亟待做的事情。目前如果你把智能音箱给到一些没有接触过智能产品的小白用户,他们完全不知道怎么用,他们还是会把它当成一种传统音箱,但实际上智能音箱是完全可以语音交互的,因此产品概念、产品定位是要通过市场、宣传来传递给用户,让他们能够真正感受到智能音箱的服务。

  五、前不久,谷歌曝光了一款智能耳机,从定位上看也是主打语音交互助手、智慧家庭入口;而目前国内的一些家电企业也选择电视作为智慧家庭入口,那么您是如何看待目前实现智慧家庭的这些入口平台的?相比其他平台,智能音箱的有哪些优势?

  魏强博士未来,智慧家庭的入口肯定是多元、分散、去中心化的,不可能只是音箱、耳机、或者电视。在理想状态下,我们希望场景如下:对空调发出“温度调到25度”的指令,但是这个指令到底是谁来接收,我们不需要关心,可能是音箱、空调,也可能是其他设备,只要他能满足我的需求即可。因此,现在大家也在探索,除了音箱以外,我们是不是在电视、耳机、机顶盒、甚至插座上加一个麦克风来实现语音交互,目前整个行业还没有一个完全的定论,智慧家庭入口平台种类是随着行业的发展而变化的。

  但是现在我们看,在美国亚马逊Echo销量、市场普及率非常高,可以看到是在家庭中进行语音交互的一种比较成功的方式,所以说我们觉得智能音箱可能是最快成为家庭语音交互的一种形式。未来,或许随着智能音箱的普及,其他入口平台便会随之被带动起来。未来智慧家庭入口平台一定是网状的,而不是单点的。

  六、叮咚智能音箱在中国市场的销量和占有率目前是十分可观的,能简单描述一下未来叮咚在智能音箱和智慧家庭领域的布局么?能否透露一下未来几年的市场销量预期?

  魏强博士从布局的角度来说,灵隆科技从最开始做叮咚音箱的时候便是想把其作为智能家居的交互入口:灵隆科技初创时,京东便有一个京东微联的智能家居控制平台,目前已经集成了上千款智能家居设备,但是在交互方式上,我们希望除了手机App,还能通过语音交互这种最自然的交互方式来控制。从长期的角度来说,我们希望把它作为整个智能家居平台的核心产品,当然未来产品形态会进一步改进,比如加入视觉方面的交互。

  预期销量上,如果叮咚音箱真地要成为入口级产品,那肯定是要达到百万级别的,而且从整个的行业发展来看,中国市场容量(以户为单位)非常大,家庭支出也非常多,而且倘若换成耳机,那就属于一个随身产品,将会以个人为单位,因此市场容量可以说是非常可观的。垄断智能音箱市场并非我们公司的愿景,我们希望随着市场规模的发展,灵隆科技可以占有市场领先的地位。未来我们将配合其他合作伙伴、上下游厂商、或相似产品厂商,以打造好整个智慧家庭的良好生态环境。

  关于产品/技术

  一、叮咚智能音箱经过的两年的迭代,相比初代产品,叮咚2代智能音箱有哪些升级和改进的地方?

  魏强博士如果和1代产品去比较,我们增加了很多个性化、智能感更强的功能。我们在2015年8月推出第一款产品,在2代推出之前,我们1代软件版本便更新了30多个,基本上是一个月1到2次更新,不断地进行产品迭代,包括产品品质、软件交互等方面的提升。

  2代产品相比1代产品有以下四方面显著革新。

  1、打电话的功能:当你双手被占用或操作电话不方便时,你可以通过语音交互进行电话呼叫。

  2、自定义唤醒词,这是用户在使用我们1代产品时的反馈,他们觉得叮咚叮咚刚开始叫得还挺新鲜,但长时间还是会比较厌烦,因此用户还是想做一些个性化的声音定制,你可以叫他麻辣鸡丝,也可叫它小明同学,什么都可以。

  3、TTS发音人,除了标准声音,我们还加入了一些特色声音,比如儿童声音、方言(陕西话、东北话)等,对于一些有方言的人,听起来会十分亲切。

  4、声纹识别:这也是我们在该领域里的大胆尝试,通过声纹让叮咚2代更显个性化,让音箱能够聪明地知道谁在跟他交流,通过声纹识别它的主人谁。

  二、我们看到此次叮咚2代智能音箱主打自定义唤醒功能,这是一个十分有趣的功能,您觉得自定义唤醒对于智能音箱行业的未来发展有哪些意义?同时,可调节TTS发音人也是个有趣的功能,我特别喜欢蜡笔小新的声音,那么在大数据、云计算、人工智能等技术的支持下,能否实现如下场景:我想要谁的声音就可以就直接模拟调用?

  魏强博士自定义唤醒的意义还是蛮多的。

  1、我们推出的这个功能更多还是从用户的角度来考虑:想要产品做得好,首先要令用户喜欢,这是能卖出去产品的最根本条件。而用户也刚好有这个需求,他们觉得只叫叮咚叮咚难免会有些枯燥,因此我们便通过定制唤醒词进行改进。

  2、我们在和行业里其他合作伙伴在进行深度合作,比如传统的营销厂家,每一个厂家都有一些品牌方面的需求,他们希望通过定制唤醒词让双方合作的产品更具有他们自己品牌的特性。

  3、我们把自定义唤醒词功能推出后,也有利于更多合作品牌加入智能音箱的行业中,去推出更多的智能音箱产品,以满足不同层次不同的场景需求。

  可调节TTS发音人直接模拟调用完全是可行的,我们也在正在做这方面的研发。目前如果一个人能有20分钟的声音提交到我们后台,我们就能把它的音色、发音特点提取出来,研究这个人的发音。

  同时,用户也有这方面需求,我昨天还看到一篇文章:美国的一个专门做语音技术的人,他利用父亲生前留下来的两万多句话,把中间的音色提取出来,然后开发了一个的软件交互系统,这样他就能让没有见过爷爷的小孩,能够与这位“假爷爷”对话,了解爷爷生前的一些事情。

  之前,讯飞便已经可以模仿奥巴马的声音:奥巴马说的是英文,我们可以把它的音色提取出来,然后通过中文进行播放。这对用户来说,无论从情感方面、个性化定制,还是娱乐方面都非常有吸引力。

  三、新一代iPhone主推Face ID功能,换句话说就是3D人脸识别技术,目前遭到质疑的声音还是很大的,但整体却相对成熟;而叮咚2代则加入了声纹识别功能,但是整体的声纹识别市场还是处于初级阶段,那么作为继指纹之后未来的主流生物识别技术,您觉得未来声纹识别普及需要攻克的难点有哪些?您是如何看待声纹识别的前景的?

  苹果推出的人脸识别是传统2D人脸识别的升级版本——3D人脸识别技术,目前2D技术已经比较成熟,但是却会遇到一些问题,比如利用照片能骗过摄像头,而加入3D之后人脸识别技术安全性便大幅提高,目前人脸识别在一些场景(登陆、刷卡等)都可以使用。声纹是近几年才刚刚起步的技术,全球范围内的成熟度还是没有达到足够高度,特别是基于远场(距离比较远的状态),目前近场的识别率能达到90%。

  未来声纹识别行业需要在以下两方面进行深造。

  1、依赖声纹技术的不断发展,针对远场声音收集、并对算法不断提升,不断提高准确率。

  2、在现有技术条件下,重新定义使用场景。我们一直不建议单纯地拿声纹识别进行支付等对安全性要求比较高的行业操作,这样带来的风险特别大,如此做法是对用户不负责任的态度。因此我们会将声纹识别应用到个性化新闻定制、歌曲推荐等使用场景,特别是针对家庭环境下:家庭中的人音色差别相对较大,能做到相对比较高的识别率,在这种情况下可以进行一些个性化推荐。

  四、语音、语义、情感,是人工智能语音交互的三个阶段,实现的难度也是逐级递增,那么您觉得目前语音交互的处于哪个阶段?您如何看待目前阶段的语音交互技术的?想要实现万物互联,语音交互技术需要加强哪些方面?

  语音的发展可以说在技术上已经达到了可以使用、产品化的程度,当然还有提升空间,目前普遍的识别率为95%到98%之间。而语义则需要基于后台的大量数据,在一个领域里如果有足够的相关数据进行支持,我们可以达到一定高的准确率。但是如果把领域放开,不加限制,就需要特别庞大的数据来支撑,这在全世界范围内还没有解决,处于发展过程中。

  而情感还基本处于概念讨论阶段,大家还没有找到正确的路、正确的理论支撑,到底如何去做如今仍没有定论。比如通过声调、声强等特点来进行简单判断,但是这远没有达到人和人之间交互所需要的情感理解。同时,光凭语音交互并不能完全表达一个人的交互情感,我们还要结合其他的信息,比如表情、上下文,这和语义是缠绕在一起的。因此目前情感还是属于一个完全开放的阶段。

  在推动万物互联、智慧家庭普及的道路上,我们主要需要在语义方面进行提升。目前语音控制家电相对来说比较简单,指令都是比较简洁的;而语义方面,你需要应对不同的说法,以控制空调为例,有人会说“给我打开空调”,有人会说“把空调给我打开”,还有人甚至说“直接把冷风机打开”,各式各样的说法都需要满足,这便需要语义方面能做到各种各样的支持。

  其次便是需要在应用环境或者应用场景下进行分类,因为不同的智能家居设备,使用场景是不一样的,比如空调工作时会有进风出风的噪音,洗衣机冰箱又有不同的噪音,这都对语音(远场)识别有各方面的挑战,因此需要我们的语音技术在不同的应用场景下能够具有惯性,或者针对某一个具体的场景进行单独优化。我们之前也测试过不同厂家空调(变频或不变频)发出的噪声,它们都是不一样的,这对语音识别影响很大。

  五、目前科大讯飞的语音识别率能达到95%,但是这个识别率还是有局限性的,我们在实际使用科大讯飞的一些应用中,其实识别率远没有这么高;同时方言、环境等问题也是影响识别率的重要因素,您是如何看待目前语音识别“不太准”的这个现状的?

  1、目前讯飞语音识别在标准普通话环境下,达到95%甚至更高的准确率是完全没有问题的,但是实际上用户在使用过程时会遇到各种各样的场景,比如说话时吞字吐字、方言、噪声等,这些都给语音识别带来了挑战,这些方面会直接影响最终识别率,这是环境条件限制;

  2、用户的语言习惯都是不一样的,比如叮咚音箱是需要联网、唤醒之后才能进行对话,这种交互方式用户并不太熟悉,目前有两种明显的用户使用对比:第一种就是叮咚叮咚,我想干什么,很快速地连续一气说下去;另外一种用户则是叮咚叮咚,犹豫半天才说。设备到底要以什么样的节奏来交互,实际上并没有一个非常准确的认识。

  这也是我最初说的,智能音箱在推向市场的过程中,一方面产品本身要根据用户的使用习惯不停迭代,另一方面也需要我们去引导用户告诉他们这种产品基于目前技术水平阶段,如何使用才能达到最好的体验,这两方面都需要努力的。因此不能单凭一味地追求技术,而是需要产品和用户之间的不断磨合,包括算法层面和产品设计层面。

  写在最后:

专访灵隆科技CEO

  今天凌晨,亚马逊在美国召开了以Alexa为主题的新品发布会,推出了6款围绕Alexa的新品,其中包含5款Echo系列新品——Echo、Echo Plus、Echo Spot、Echo Connect、Echo Buttons,再次为智能音箱家族带来了具有跨时代意义的新品。未来,以灵隆科技为首的中国智能音箱厂商将同以亚马逊为首的海外厂商一道,推动全球智能音箱行业的高速发展,为全球家庭带来体验更好、拥有更加成熟解决方案的智能音箱产品。

行车视线文章推荐

首页 评论 返回顶部