【IT168 厂商动态】随着人工智能时代的来临,深度学习、计算机视觉和自然语言处理也走进流媒体的视野。从内容生产到消费各个阶段,AI技术与算法毫无疑问为直播性能的提升打开了一扇新大门。视频分析处理、网络故障诊断以及广告推等执行繁琐、重复耗时的场景,亦逐渐被深度学习技术所“攻占”。那么,人工智能究竟如何为流媒体应用提供支撑的?在直播和短视频领域,还有哪些应用将成为AI的下一座“城池”?
11月18日,UCan下午茶系列沙龙,来自UCloud、新浪微博和陌陌的4位技术专家现场通过AI在Meida当中的应用、微博视频重复检测方法实践、计算机视觉与深度学习的原理及应用、打造全景直播实时监控系统等主题内容的分享,与现场的一众参会者,探讨交流了深度学习在流媒体领域的应用之道。本文简单整理的部分精彩内容,感兴趣的读者可以下载讲师完整PPT。
张纯:AI在Media当中的应用
UCloud流媒体基础研发部经理张纯做了开场演讲,张纯负责UCloud流媒体相关产品的后台研发,同时也专注于音视频传输与处理优化与运营,对流媒体协议、传输优化、视频编解码等方面有丰富的理论和实践经验。现场,张纯主要分享了AI技术应用到涉黄爆恐识别、媒体内容审核、视频自动标签、同声传译、等平台的一些技术与经验。
据张纯介绍,机器学习现阶段在流媒体领域主要解决两类问题:
分类:通过对已知数据集进行学习,具备预测未知样本类别的能力,包括图片鉴黄、人脸识别、医学影像、语音识别等;回归:利用已有数据建模,通过位置输入变量预测输出变量的能力,回归的预测值通常是连续的,这种能力通常在股票预测、天气预测等通过以往数据总结,对未来事物进行一定预判的场景上;
其中,分类应用是开发者遇到的比较普遍,需要注意和处理的事项也更为繁琐的问题,下图为一个典型的图片分类模型,图片首先通过卷积层对图像进行局部感知,然后池化层收敛参数个数,进入多隐层网络对图片细节进行挖掘,全连接曾用于综合所有局部信息,最后到激活曾给出分类的概率。
内容审核、人脸识别、自动标签、字幕识别、同声传译等都属于图片的分类应用,这些应用均部署在公有云上。那么,对于信息保密度要求较高的业务或者应用,该如何利用人工智能技术进行识别分类呢?张纯介绍到,UCloud提供了一套专有的私有化部署方案UMAI,通过功能组件化和API对接,实现公有云训练、私有化部署,在保证数据安全性的同时完成与现有资源、系统完美兼容。
伏圣国:微博视频重复检测方法实践
新浪微博成立于09年,作为全球最大的中文社交媒体平台,微博拥有海量的用户群体和庞大的消息系统,16年网红经济、短视频、直播内容的兴起,使得微博的呈现形式逐渐从文字转为以图片和短视频为主的流媒体信息,深入分析微博平台上丰富的图片及视频势在必行,而以深度学习为智能手段的分析系统在图片识别与重读检测上着非常关键的作用。新浪微博资深算法专家伏圣国,就微博在视频方面的重复检测算法与应用实践做了详细分享。
新浪微博的视频重复检测系统,主要分为三个部分,一是Strom集群,主要进行视频的下载及解码。当视频流进入实时队列里,队列会有专门的集群进行视频的下载,然后在下载过程中进行节点处理与解码;第二部分是多媒体分析平台,主要进行图像与音频特征计算。这个平台有很多功能,如人脸识别、图像打标等,每一个功能都是一个图片。多媒体平台主要将解码后的信息进行图像特征计算与音频特征计算,然后进入到架构的第三部分,即视频重复检测的系统,这个系统主要有两个作用,1、做候选集的召回,2、基于候选集做精确比对。最后根据比对结果判断有没有重复的视频,以及哪些视频是重复的。新浪微博视频重复检测系统架构如下:
在整个视频重复检测的系统里面,候选召回是最关键的节点,微博选用的是候选视频快速检索库faiss,基于faiss检索系统,业界普遍的检测方法大概分为两种:
基础方法1:对样本库进行聚类,得到n个聚类中心,当出现新测试样本时,对测试样本和聚类中心进行比对得到k个最近邻中心。k个最近邻中心中所有样本都与测试样本测距得到近似样本集;基础方法2:对样本库进行切分,得到原始样本库的分段样本集;对每一个分段样本集采用VQ进行量化,得到测试样本的最近邻聚类中心,然后合并生成候选集,然后一一测距,生成近似集;
这两种方法在检测效率和召回量上各有优劣,新浪在综合两种方法的特色,在候选集生成时抛掉远离最近N个聚类中心的点,从而可以在同样的时间内,遍历更多的样本库样本点来提高召回。据了解,同样的9000个测试样本,优化后的检测系统在Top50里面比传统方法高了7个百分点。
杨锦:计算机视觉与深度学习的原理及应用
随着数据的爆炸性增长和数值计算硬件(GPU)技术的发展,深度学习越来越受到人们的关注,深度学习在计算机视觉领域也发挥非常关键的作用。AI基础研发部经理杨锦分享了主要计算机视觉与深度学习的原理和应用。包括计算机视觉日常解决的一些问题和难点、卷积神经网络在计算机视觉中的关键性影响以及人脸识别的技术原理及深度学习在人脸识别当中的应用。
计算机视觉,形象地说,就是给计算机安装上眼睛(摄像机)和大脑(算法),让计算机能够感知环境。因此,计算机视觉技术的决定性因素有两点:摄像机和算法。目前,摄像机在实际的拍摄过程中存在感知物遮挡、形态多变、摄像角度以及光照的问题,UCloud采用基于DeepFace的识别算法,提取面部特征,从而进行人脸识别,下图为一个完整的人脸识别过程。
右边的是训练模型,人脸大数据库,经过Gabort、LBP等经验描述子,提取特征模型,将这个模型部署在应用上面;左侧是图像获取部分,通过摄像头、视频获取到人脸信息以后做预处理,然后提取特征,与之前人脸数据库的特征模型进行比对,最后输出结果。杨锦现场表示,除了人脸识别,计算机视觉技术还可以用在表情分类、人脸搜索、医学分析等场景,其应用范围非常广泛。
鹏远聪:打造全景直播实时监控系统
陌陌视频高级研发工程师鹏远聪做了最后的分享,他从陌陌直播监控系统设计、直播质量调优实践以及直播CDN智能切换三个维度,分享了如何基于全链路日志打造实时的质量监控系统。鹏远聪表示,目前直播的常见故障包括播放失败、卡顿和黑屏等,细究导致这些故障的原因,大体可以从网络、内容、业务这几块着手,包括网络连接不上、加载缓慢、卡顿、跳帧,视音频不同步或者部分内容丢失,房间状态错误或url错误以及播放器故障等等。
陌陌采用全链路日志采集方案对直播过程进行全程监控。监控流程包括媒体质量日志设计、 采集、存储、实时分析、量化、再到故障报警。在整个监控过程中,会将卡顿率、人均卡顿次数、卡顿时比、开播故障率、播放故障率、平均接入延时这六项作为直播质量的重要指标。陌陌监控系统架构如下所示。
明确播放问题之后,接着就是直播的调优过程,陌陌采用的是第三方CDN系统,因此故障调优会联合CDN厂商共同推进解决,如当监控到直播卡顿时,陌陌通过监控系统,将检测到的卡顿节点、CDN区域以及主播反馈CDN厂商,由CDN提供商解决网速等问题。
写在最后
本次活动为UCloud和InfoQ联合举办的UCan下午茶技术沙龙系列第五期,2017年至今,UCan系列沙龙已经走过了北京、上海、深圳等一线城市。10月21日UCloud收官战,我们与你相约美丽的杭州·摆渡星空,帮你了解如何云的方式快速落地你的AI梦想,活动招募已经开启,感兴趣的读者可以点击https://jinshuju.net/f/ZMs82A,了解最新活动信息及报名。