数码影音 频道

多模感知持续突破!科大讯飞实现复杂场景语音技术与情感表达

  从语音导航到智能客服,从智能手机到智能家居,语音技术已融入我们生活。在元宇宙,虚拟歌手甚至通过语音合成技术发布歌曲专辑。从科幻电影走进现实,这一切都来源于人工智能技术的不断突破和生态创新的蓬勃发展。

  11月18日,在2022科大讯飞全球1024开发者节发布会,科大讯飞研究院副院长高建清发布了“多模态感知与SMART-TTS”,实现了复杂场景的语音输入,以及情感表达。科大讯飞通过源头技术创新,再次实现智能语音的技术边界向前跨越。

  创新十二年 从语音技术到生态平台

  2010年10月28日,科大讯飞发布了全球首个提供移动互联网智能语音交互能力平台——讯飞语音云,自此开放自己的语音合成技术。全球开发者云集讯飞语音云,用人工智能解决社会刚需命题,开启改变世界的伟大历程。

  12年时间,从技术创新到生态开放,“讯飞语音云”发展成为“讯飞开放平台”,并于2017年通过科技部认定,入选首批国家新一代人工智能开放平台。截至目前,讯飞开放平台已开放513项AI能力,聚集了370万开发者团队,应用覆盖终端设备数超36亿。

  从语音到图像,从感知智能到认知智能,讯飞开放平台用不断夯实的技术底蕴滋养着人工智能生态的繁花似锦。用技术照亮产业未来,让AI像水和电一样融入人们的生活。

  从单模态发展到多模态,在虚拟世界也能敏锐感知

  从语音的全球领先到多模感知的行业引领。在今天1024开发者节,科大讯飞的感知技术,早已从单模态发展到了多模态系统,并研发出多模态语音增强与识别框架,可以在同样高噪音情况下,把转写准确率从70%多提升到92.8%。

  结合视频信息的输入,可以利用多模态之间的信息互补,来进行主说话人语音信息的提取。同时多模态语音识别的内容能够反向指导麦克风阵列的波束形成,以及人脸信息的提存,从而显著提升开放场景下的语音识别效果。

  当你正在下班高峰期的地铁站,汽车鸣笛声、行人说话声、商品叫卖声,不绝于耳。突然要语音输入一段文字,多模态语音识别技术可以帮你“过滤掉”噪音,准确识别你的输入内容。

  多模感知能力,能让用户在虚拟世界中获得跟真实世界一样的敏锐感知。人类一般通过耳、眼、鼻、舌等多个器官同时感知世界,机器若想更自然的与人类交互,也需要通过多模态感知。

  以声传情 让语音有了喜怒哀乐

  如何让机器的声音媲美人类?

  科大讯飞自上世纪90年代,就开始在语音领域的探索,并始终坚持源头技术创新。2016年Blizzard Challenge比赛,讯飞在英文语音合成自然度达到4.2MOS,首次超过普通发音人平均水平(4.0MOS)。

  2019年Blizzard Challenge比赛中,讯飞在中文语音合成自然度达到4.5MOS,再次刷新历史纪录,实现了最好的中文语音合成技术掌握在中国人手中的目标。后来,更是在国内率先构建了60个语种的语音合成系统,有效为企业出海解决了技术封锁等问题。

  2022年,讯飞升级全新一代SMART-TTS系统,让机器语音表达方面实现了媲美真人的水平。21种以上的情感风格表达,每种情感具备40档的细腻情感强度调节,真正实现了合成系统媲美真人表达的能力。让语音合成从简单的信息播报,到具备喜怒哀乐情感的智能助手。

  当你按照交规驾驶时,TA可以用开心喜悦的声音鼓励你。当你疲惫时,TA可以用温柔甜美的声音安慰你。而当你阅读小说,或者进入元宇宙,需要上下文情景理解时,SMART-TTS的多风格语音合成能力则带来更多想象空间。

  作为语音合成方向的代表性APP,讯飞有声APP率先采用SMART-TTS系统!

  讯飞有声全新升级

  作为一款文字转语音朗读软件,讯飞有声APP让2000万用户实现用“耳朵”来阅读海量信息,更高效地利用碎片化时间学习。不论是文本,还是文章链接、本地文件、甚至是图片、PDF都可以朗读。几十位AI主播,支持多种风格的音色、多种语言。

  假如你对着讯飞有声APP朗读一段文章,它甚至可以根据你的音色定制朗读主播。这样便可以用自己的声音给孩子讲故事,给家人道晚安。

  整合最新SMART-TTS系统,打造情感丰富的朗读音,带来全新的产品使用体验。同时,五位聆系列新主播正式上线。邻家女孩聆小琪和聆小瑶,温暖甜美,声音稳定。聆飞瀚音色浑厚大气,聆飞哲音色年轻时尚,声音自然流畅。作为讯飞有声最受欢迎男主播聆天明,则声音自然,情感充沛。

  阅读是一场自己与自己的对话。除了声音效果升级,用户体验也完成全新优化。在APP首页,简洁明晰的功能区,把用户时间还给阅读。“复制朗读”、“图片朗读”、“文件朗读”,三大板块,阅读从这里轻松展开。

  源于初心的热爱,才能在创新的道路上长期坚守。科大讯飞坚持源头技术创新引领,开放先进技术共建生态。

  秉持“开放·合作·生态·共享”的理念,携手百万开发者并肩同行,一起奔赴万亿新生态,开启数智万物新时代。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章